音訊
音訊 API 涵蓋 Gemini 原生音訊理解,以及 OpenAI 相容的語音合成、音訊轉錄與音訊翻譯端點。
原生 Gemini 格式
當您需要以結構化 parts 處理多模態音訊理解或生成時,請使用 Gemini 相容的 generateContent 介面。
https://api.dgrid.ai
POST
/v1/models/{model}:generateContent路徑參數
| 參數 | 型別 | 必填 | 說明 |
|---|---|---|---|
model | string | 是 | 目標模型 ID,例如 gemini-1.5-pro。 |
請求體
| 欄位 | 型別 | 必填 | 說明 |
|---|---|---|---|
contents | array | 是 | 輸入內容陣列。 |
contents[] | object | 是 | 目前範例會傳送一個只包含空物件的陣列項目。 |
generationConfig | object | 是 | 用於語音回應生成的設定。 |
generationConfig. | array | 是 | 要返回的模態清單。 |
generationConfig. | object | 是 | 語音生成設定。 |
generationConfig. | object | 是 | 語音設定包裝物件。 |
generationConfig. | object | 是 | 預建語音設定。 |
generationConfig. | string | 是 | 要使用的語音名稱。 |
回應體
| 欄位 | 型別 | 說明 |
|---|---|---|
candidates | array | 模型返回的候選回應。 |
candidates[].content | object | 生成內容物件。 |
candidates[].content.role | string | 生成內容的角色。 |
candidates[].content.parts | array | 返回內容片段。 |
candidates[].finishReason | string | 範例回應返回的結束原因字串。 |
candidates[].safetyRatings | array | 安全評分結果。 |
usageMetadata | object | Token 使用統計。 |
usageMetadata.promptTokenCount | integer | 輸入 token 數。 |
usageMetadata.candidatesTokenCount | integer | 輸出 token 數。 |
usageMetadata.totalTokenCount | integer | 總 token 數。 |
文字轉語音
透過 OpenAI 相容 speech 介面,將文字轉換為自然語音。
https://api.dgrid.ai
POST
/v1/audio/speech音訊轉錄
透過 OpenAI 相容 Whisper 風格介面,將上傳音訊轉為文字。
https://api.dgrid.ai
POST
/v1/audio/transcriptions表單欄位
| 欄位 | 型別 | 必填 | 預設值 | 說明 |
|---|---|---|---|---|
file | file | 是 | - | 音訊檔,大小上限 25 MB。 |
model | string | 是 | - | 模型 ID,例如 whisper-1。 |
language | string | 否 | - | ISO-639-1 語言代碼,例如 zh、en、ko。 |
prompt | string | 否 | - | 用於偏置轉錄結果的提示文字。 |
response_format | string | 否 | json | json、text、srt、verbose_json 或 vtt。 |
temperature | number | 否 | 0 | 採樣溫度,範圍 0 到 1。 |
支援格式
FLAC、MP3、MP4、MPEG、MPGA、M4A、OGG、WAV 與 WebM。
回應體
| 欄位 | 型別 | 說明 |
|---|---|---|
text | string | 轉錄後的文字內容。 |
若 response_format 設為 verbose_json,回應中還會包含 task、language、duration 與逐段時間軸資訊。
音訊翻譯
透過 OpenAI 相容翻譯端點,將上傳音訊翻譯為英文。
https://api.dgrid.ai
POST
/v1/audio/translations