Generate content (Gemini)
Chat
Reconnaissance média Gemini
Gemini-native generateContent interface for text chat, multimodal media recognition (images, audio, video), speech synthesis, and image generation with structured parts. Use generationConfig to request specific response modalities such as speech (speechConfig) or images (imageConfig).
POST
Generate content (Gemini)
Cette page utilise la même opération
generateContent que Générer du contenu (Gemini), avec le playground ci-dessus prérempli pour un chat en texte brut. Les notes ci-dessous décrivent les champs multimodaux natifs Gemini que vous pouvez ajouter à contents[].parts pour analyser des images, de l’audio, de la vidéo ou des médias mixtes dans une seule requête.
Chaque part peut transporter des données inline (octets encodés en base64 plus un type MIME) en plus d’instructions textuelles, ce qui permet au modèle de raisonner sur plusieurs modalités en un seul appel.
Champs de requête natifs Gemini
Les champs génériquescontents et generationConfig affichés dans le playground acceptent la forme imbriquée suivante pour la reconnaissance multimodale :
| Champ | Type | Requis | Description |
|---|---|---|---|
contents[].role | string | Non | Rôle du tour, par exemple user. |
contents[].parts | array | Oui | Liste ordonnée des parts de contenu (texte et/ou média inline). |
contents[].parts[].text | string | Non | Instruction textuelle ou question pour le modèle. |
contents[].parts[].inlineData | object | Non | Charge utile média inline pour la compréhension d’image, d’audio ou de vidéo. |
contents[].parts[].inlineData.mimeType | string | Non | Type MIME des données inline, par exemple image/jpeg, audio/mp3, video/mp4. |
contents[].parts[].inlineData.data | string | Non | Octets média encodés en base64. |
Exemple : analyser une image
Champs de réponse
La réponse suit la forme standardgenerateContent. Les champs les plus pertinents pour la reconnaissance média sont :
Réponses candidates renvoyées par le modèle.
Métadonnées de comptabilité des tokens, notamment
promptTokenCount, candidatesTokenCount et totalTokenCount. Les médias inline (images, audio, vidéo) consomment des tokens de prompt en plus des éventuelles parts textuelles.Exemple de réponse
200
Autorisations
Your DGrid API key. All endpoints use Authorization: Bearer <DGRID_API_KEY>.
Paramètres de chemin
Target model ID, such as gemini-1.5-pro.
Corps
application/json

