Skip to content

音訊

音訊 API 涵蓋 Gemini 原生音訊理解,以及 OpenAI 相容的語音合成、音訊轉錄與音訊翻譯端點。

原生 Gemini 格式

當您需要以結構化 parts 處理多模態音訊理解或生成時,請使用 Gemini 相容的 generateContent 介面。

POST
https://api.dgrid.ai
POST/v1/models/{model}:generateContent
Authorization
Authorization: Bearer <DGRID_API_KEY>
Request
application/json
Response
200 · application/json

路徑參數

參數型別必填說明
modelstring目標模型 ID,例如 gemini-1.5-pro

請求體

欄位型別必填說明
contentsarray輸入內容陣列。
contents[]object目前範例會傳送一個只包含空物件的陣列項目。
generationConfigobject用於語音回應生成的設定。
generationConfig.responseModalitiesarray要返回的模態清單。
generationConfig.speechConfigobject語音生成設定。
generationConfig.speechConfig.voiceConfigobject語音設定包裝物件。
generationConfig.speechConfig.voiceConfig.prebuiltVoiceConfigobject預建語音設定。
generationConfig.speechConfig.voiceConfig.prebuiltVoiceConfig.voiceNamestring要使用的語音名稱。

回應體

欄位型別說明
candidatesarray模型返回的候選回應。
candidates[].contentobject生成內容物件。
candidates[].content.rolestring生成內容的角色。
candidates[].content.partsarray返回內容片段。
candidates[].finishReasonstring範例回應返回的結束原因字串。
candidates[].safetyRatingsarray安全評分結果。
usageMetadataobjectToken 使用統計。
usageMetadata.promptTokenCountinteger輸入 token 數。
usageMetadata.candidatesTokenCountinteger輸出 token 數。
usageMetadata.totalTokenCountinteger總 token 數。

文字轉語音

透過 OpenAI 相容 speech 介面,將文字轉換為自然語音。

POST
https://api.dgrid.ai
POST/v1/audio/speech
Authorization
Authorization: Bearer <DGRID_API_KEY>
Request
application/json
Response
200 · audio/mpeg

請求體

欄位型別必填預設值說明
modelstring-語音模型,例如 tts-1tts-1-hd
inputstring-要合成的文字,最長 4096 字元。
voicestring-語音預設,例如 alloyechofableonyxnovashimmer
response_formatstringmp3輸出音訊格式。
speednumber1.0語速,範圍 0.254.0

回應

此端點返回二進位音訊串流,請直接將回應內容保存為檔案或上傳到儲存目標。

音訊轉錄

透過 OpenAI 相容 Whisper 風格介面,將上傳音訊轉為文字。

POST
https://api.dgrid.ai
POST/v1/audio/transcriptions
Authorization
Authorization: Bearer <DGRID_API_KEY>
Request
multipart/form-data
Response
200 · application/json

表單欄位

欄位型別必填預設值說明
filefile-音訊檔,大小上限 25 MB。
modelstring-模型 ID,例如 whisper-1
languagestring-ISO-639-1 語言代碼,例如 zhenko
promptstring-用於偏置轉錄結果的提示文字。
response_formatstringjsonjsontextsrtverbose_jsonvtt
temperaturenumber0採樣溫度,範圍 01

支援格式

FLAC、MP3、MP4、MPEG、MPGA、M4A、OGG、WAV 與 WebM。

回應體

欄位型別說明
textstring轉錄後的文字內容。

response_format 設為 verbose_json,回應中還會包含 tasklanguageduration 與逐段時間軸資訊。

音訊翻譯

透過 OpenAI 相容翻譯端點,將上傳音訊翻譯為英文。

POST
https://api.dgrid.ai
POST/v1/audio/translations
Authorization
Authorization: Bearer <DGRID_API_KEY>
Request
multipart/form-data
Response
200 · application/json

表單欄位

欄位型別必填預設值說明
filefile-原始音訊檔。
modelstring-模型 ID,例如 whisper-1
promptstring-可選英文提示文字。
response_formatstringjsonjsontextsrtverbose_jsonvtt
temperaturenumber0採樣溫度,範圍 01

回應體

欄位型別說明
textstring翻譯後的英文文字。