Skip to content

오디오

오디오 API는 Gemini 네이티브 오디오 이해와 OpenAI 호환 음성 합성, 전사, 번역 엔드포인트를 포함합니다.

네이티브 Gemini 형식

구조화된 parts로 멀티모달 오디오 이해나 생성을 처리해야 할 때 Gemini 호환 generateContent 인터페이스를 사용합니다.

POST
https://api.dgrid.ai
POST/v1/models/{model}:generateContent
Authorization
Authorization: Bearer <DGRID_API_KEY>
Request
application/json
Response
200 · application/json

Path 파라미터

파라미터타입필수설명
modelstring대상 모델 ID, 예: gemini-1.5-pro.

요청 본문

필드타입필수설명
contentsarray입력 콘텐츠 배열입니다.
contents[]object현재 예시는 빈 객체를 하나 포함한 배열을 전송합니다.
generationConfigobject음성 응답 생성을 위한 설정입니다.
generationConfig.responseModalitiesarray반환할 모달리티 목록입니다.
generationConfig.speechConfigobject음성 생성 설정입니다.
generationConfig.speechConfig.voiceConfigobject음성 설정 래퍼입니다.
generationConfig.speechConfig.voiceConfig.prebuiltVoiceConfigobject사전 구성 음성 설정입니다.
generationConfig.speechConfig.voiceConfig.prebuiltVoiceConfig.voiceNamestring사용할 음성 이름입니다.

응답 본문

필드타입설명
candidatesarray모델이 반환한 후보 응답 목록입니다.
candidates[].contentobject생성된 콘텐츠 객체입니다.
candidates[].content.rolestring생성된 콘텐츠의 역할입니다.
candidates[].content.partsarray반환된 콘텐츠 파트입니다.
candidates[].finishReasonstring예시 응답이 반환하는 종료 이유 문자열입니다.
candidates[].safetyRatingsarray안전 평가 결과입니다.
usageMetadataobjecttoken 사용량 정보입니다.
usageMetadata.promptTokenCountinteger입력 token 수입니다.
usageMetadata.candidatesTokenCountinteger출력 token 수입니다.
usageMetadata.totalTokenCountinteger총 token 수입니다.

텍스트 음성 합성

OpenAI 호환 speech 인터페이스를 통해 텍스트를 자연스러운 음성으로 변환합니다.

POST
https://api.dgrid.ai
POST/v1/audio/speech
Authorization
Authorization: Bearer <DGRID_API_KEY>
Request
application/json
Response
200 · audio/mpeg

요청 본문

필드타입필수기본값설명
modelstring-음성 모델, 예: tts-1, tts-1-hd.
inputstring-합성할 텍스트, 최대 4096자.
voicestring-alloy, echo, fable, onyx, nova, shimmer 등 음성 프리셋.
response_formatstring아니오mp3출력 오디오 형식입니다.
speednumber아니오1.00.25 부터 4.0 까지의 속도입니다.

응답

이 엔드포인트는 바이너리 오디오 스트림을 반환합니다. 응답 본문을 파일이나 스토리지 대상으로 바로 저장하세요.

오디오 전사

OpenAI 호환 Whisper 스타일 인터페이스로 업로드한 오디오를 텍스트로 전사합니다.

POST
https://api.dgrid.ai
POST/v1/audio/transcriptions
Authorization
Authorization: Bearer <DGRID_API_KEY>
Request
multipart/form-data
Response
200 · application/json

Form Data

필드타입필수기본값설명
filefile-최대 25 MB 오디오 파일입니다.
modelstring-모델 ID, 예: whisper-1.
languagestring아니오-ISO-639-1 언어 코드, 예: ko, en, zh.
promptstring아니오-전사 결과를 보정하기 위한 프롬프트입니다.
response_formatstring아니오jsonjson, text, srt, verbose_json, vtt.
temperaturenumber아니오00 부터 1 까지의 샘플링 온도입니다.

지원 형식

FLAC, MP3, MP4, MPEG, MPGA, M4A, OGG, WAV, WebM.

응답 본문

필드타입설명
textstring전사된 텍스트입니다.

response_formatverbose_json 으로 설정하면 task, language, duration, 세그먼트별 타이밍 정보도 포함됩니다.

오디오 번역

OpenAI 호환 번역 엔드포인트를 통해 업로드한 오디오를 영어로 번역합니다.

POST
https://api.dgrid.ai
POST/v1/audio/translations
Authorization
Authorization: Bearer <DGRID_API_KEY>
Request
multipart/form-data
Response
200 · application/json

Form Data

필드타입필수기본값설명
filefile-원본 오디오 파일입니다.
modelstring-모델 ID, 예: whisper-1.
promptstring아니오-선택적 영어 프롬프트입니다.
response_formatstring아니오jsonjson, text, srt, verbose_json, vtt.
temperaturenumber아니오00 부터 1 까지의 샘플링 온도입니다.

응답 본문

필드타입설명
textstring오디오를 영어로 번역한 텍스트입니다.