Generate content (Gemini)
Chat
Reconocimiento multimedia de Gemini
Gemini-native generateContent interface for text chat, multimodal media recognition (images, audio, video), speech synthesis, and image generation with structured parts. Use generationConfig to request specific response modalities such as speech (speechConfig) or images (imageConfig).
POST
Generate content (Gemini)
Esta página usa la misma operación
generateContent que Generar contenido (Gemini), con el playground de arriba rellenado previamente para chat de texto plano. Las notas a continuación describen los campos multimodales nativos de Gemini que puede agregar a contents[].parts para analizar imágenes, audio, video o medios mixtos en una sola solicitud.
Cada part puede incluir datos inline (bytes codificados en base64 más un tipo MIME) junto con instrucciones de texto, lo que permite que el modelo razone entre modalidades en una sola llamada.
Campos de solicitud nativos de Gemini
Los campos genéricoscontents y generationConfig que se muestran en el playground aceptan la siguiente forma anidada para reconocimiento multimodal:
| Campo | Tipo | Obligatorio | Descripción |
|---|---|---|---|
contents[].role | string | No | Rol del turno, por ejemplo user. |
contents[].parts | array | Sí | Lista ordenada de parts de contenido (texto y/o medios inline). |
contents[].parts[].text | string | No | Instrucción de texto o pregunta para el modelo. |
contents[].parts[].inlineData | object | No | Carga multimedia inline para comprensión de imagen, audio o video. |
contents[].parts[].inlineData.mimeType | string | No | Tipo MIME de los datos inline, por ejemplo image/jpeg, audio/mp3, video/mp4. |
contents[].parts[].inlineData.data | string | No | Bytes multimedia codificados en base64. |
Ejemplo: analizar una imagen
Campos de respuesta
La respuesta sigue la forma estándar degenerateContent. Los campos más relevantes para el reconocimiento multimedia son:
Respuestas candidatas devueltas por el modelo.
Metadatos de contabilidad de tokens, incluido
promptTokenCount, candidatesTokenCount y totalTokenCount. Los medios inline (imágenes, audio, video) consumen tokens del prompt además de cualquier part de texto.Ejemplo de respuesta
200
Autorizaciones
Your DGrid API key. All endpoints use Authorization: Bearer <DGRID_API_KEY>.
Parámetros de ruta
Target model ID, such as gemini-1.5-pro.
Cuerpo
application/json

