오디오
오디오 API는 Gemini 네이티브 오디오 이해와 OpenAI 호환 음성 합성, 전사, 번역 엔드포인트를 포함합니다.
네이티브 Gemini 형식
구조화된 parts로 멀티모달 오디오 이해나 생성을 처리해야 할 때 Gemini 호환 generateContent 인터페이스를 사용합니다.
https://api.dgrid.ai
POST
/v1/models/{model}:generateContentPath 파라미터
| 파라미터 | 타입 | 필수 | 설명 |
|---|---|---|---|
model | string | 예 | 대상 모델 ID, 예: gemini-1.5-pro. |
요청 본문
| 필드 | 타입 | 필수 | 설명 |
|---|---|---|---|
contents | array | 예 | 입력 콘텐츠 배열입니다. |
contents[] | object | 예 | 현재 예시는 빈 객체를 하나 포함한 배열을 전송합니다. |
generationConfig | object | 예 | 음성 응답 생성을 위한 설정입니다. |
generationConfig. | array | 예 | 반환할 모달리티 목록입니다. |
generationConfig. | object | 예 | 음성 생성 설정입니다. |
generationConfig. | object | 예 | 음성 설정 래퍼입니다. |
generationConfig. | object | 예 | 사전 구성 음성 설정입니다. |
generationConfig. | string | 예 | 사용할 음성 이름입니다. |
응답 본문
| 필드 | 타입 | 설명 |
|---|---|---|
candidates | array | 모델이 반환한 후보 응답 목록입니다. |
candidates[].content | object | 생성된 콘텐츠 객체입니다. |
candidates[].content.role | string | 생성된 콘텐츠의 역할입니다. |
candidates[].content.parts | array | 반환된 콘텐츠 파트입니다. |
candidates[].finishReason | string | 예시 응답이 반환하는 종료 이유 문자열입니다. |
candidates[].safetyRatings | array | 안전 평가 결과입니다. |
usageMetadata | object | token 사용량 정보입니다. |
usageMetadata.promptTokenCount | integer | 입력 token 수입니다. |
usageMetadata.candidatesTokenCount | integer | 출력 token 수입니다. |
usageMetadata.totalTokenCount | integer | 총 token 수입니다. |
텍스트 음성 합성
OpenAI 호환 speech 인터페이스를 통해 텍스트를 자연스러운 음성으로 변환합니다.
https://api.dgrid.ai
POST
/v1/audio/speech오디오 전사
OpenAI 호환 Whisper 스타일 인터페이스로 업로드한 오디오를 텍스트로 전사합니다.
https://api.dgrid.ai
POST
/v1/audio/transcriptionsForm Data
| 필드 | 타입 | 필수 | 기본값 | 설명 |
|---|---|---|---|---|
file | file | 예 | - | 최대 25 MB 오디오 파일입니다. |
model | string | 예 | - | 모델 ID, 예: whisper-1. |
language | string | 아니오 | - | ISO-639-1 언어 코드, 예: ko, en, zh. |
prompt | string | 아니오 | - | 전사 결과를 보정하기 위한 프롬프트입니다. |
response_format | string | 아니오 | json | json, text, srt, verbose_json, vtt. |
temperature | number | 아니오 | 0 | 0 부터 1 까지의 샘플링 온도입니다. |
지원 형식
FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM.
응답 본문
| 필드 | 타입 | 설명 |
|---|---|---|
text | string | 전사된 텍스트입니다. |
response_format 을 verbose_json 으로 설정하면 task, language, duration, 세그먼트별 타이밍 정보도 포함됩니다.
오디오 번역
OpenAI 호환 번역 엔드포인트를 통해 업로드한 오디오를 영어로 번역합니다.
https://api.dgrid.ai
POST
/v1/audio/translations