Generate content (Gemini)
對話
Gemini 媒體辨識
Gemini-native generateContent interface for text chat, multimodal media recognition (images, audio, video), speech synthesis, and image generation with structured parts. Use generationConfig to request specific response modalities such as speech (speechConfig) or images (imageConfig).
POST
Generate content (Gemini)
本頁使用與 生成內容(Gemini) 相同的
generateContent 操作,上方 playground 已預先填入純文字對話範例。以下說明可加入 contents[].parts 的 Gemini 原生多模態欄位,讓你在單一請求中分析圖片、音訊、影片或混合媒體。
每個 part 都可以同時攜帶內嵌資料(base64 編碼位元組加上 MIME 類型)與文字指令,讓模型能在一次呼叫中跨模態推理。
Gemini 原生請求欄位
playground 中顯示的通用contents 與 generationConfig 欄位,可接受以下多模態辨識的巢狀結構:
| 欄位 | 類型 | 必填 | 說明 |
|---|---|---|---|
contents[].role | string | 否 | 該輪對話的角色,例如 user。 |
contents[].parts | array | 是 | 有順序的內容 parts 清單(文字與/或內嵌媒體)。 |
contents[].parts[].text | string | 否 | 提供給模型的文字指令或問題。 |
contents[].parts[].inlineData | object | 否 | 用於圖片、音訊或影片理解的內嵌媒體負載。 |
contents[].parts[].inlineData.mimeType | string | 否 | 內嵌資料的 MIME 類型,例如 image/jpeg、audio/mp3、video/mp4。 |
contents[].parts[].inlineData.data | string | 否 | 以 base64 編碼的媒體位元組。 |
範例:分析圖片
回應欄位
回應遵循標準generateContent 結構。與媒體辨識最相關的欄位如下:
模型回傳的候選回應。
Token 計量中繼資料,包括
promptTokenCount、candidatesTokenCount 與 totalTokenCount。內嵌媒體(圖片、音訊、影片)除了文字 parts 外,也會消耗 prompt tokens。回應範例
200
授權
Your DGrid API key. All endpoints use Authorization: Bearer <DGRID_API_KEY>.
路徑參數
Target model ID, such as gemini-1.5-pro.
主體
application/json

