Reconocimiento multimedia de Gemini

Generate content (Gemini)

curl --request POST \
  --url https://api.dgrid.ai/v1/models/{model}:generateContent \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hello from DGrid."
        }
      ]
    }
  ]
}
'

import requests

url = "https://api.dgrid.ai/v1/models/{model}:generateContent"

payload = { "contents": [
        {
            "role": "user",
            "parts": [{ "text": "Hello from DGrid." }]
        }
    ] }
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {Authorization: 'Bearer <token>', 'Content-Type': 'application/json'},
  body: JSON.stringify({contents: [{role: 'user', parts: [{text: 'Hello from DGrid.'}]}]})
};

fetch('https://api.dgrid.ai/v1/models/{model}:generateContent', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.dgrid.ai/v1/models/{model}:generateContent"

	payload := strings.NewReader("{\n  \"contents\": [\n    {\n      \"role\": \"user\",\n      \"parts\": [\n        {\n          \"text\": \"Hello from DGrid.\"\n        }\n      ]\n    }\n  ]\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "application/json")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.dgrid.ai/v1/models/{model}:generateContent")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "application/json")
  .body("{\n  \"contents\": [\n    {\n      \"role\": \"user\",\n      \"parts\": [\n        {\n          \"text\": \"Hello from DGrid.\"\n        }\n      ]\n    }\n  ]\n}")
  .asString();

{
  "candidates": [
    {
      "content": {
        "role": "<string>",
        "parts": [
          {}
        ]
      },
      "finishReason": "<string>",
      "safetyRatings": [
        {}
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 123,
    "candidatesTokenCount": 123,
    "totalTokenCount": 123
  }
}

{
  "error": {
    "message": "<string>",
    "type": "<string>",
    "param": "<string>",
    "code": "<string>"
  }
}

POST

models

{model}

:generateContent

Generate content (Gemini)

curl --request POST \
  --url https://api.dgrid.ai/v1/models/{model}:generateContent \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hello from DGrid."
        }
      ]
    }
  ]
}
'

import requests

url = "https://api.dgrid.ai/v1/models/{model}:generateContent"

payload = { "contents": [
        {
            "role": "user",
            "parts": [{ "text": "Hello from DGrid." }]
        }
    ] }
headers = {
    "Authorization": "Bearer <token>",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.text)

const options = {
  method: 'POST',
  headers: {Authorization: 'Bearer <token>', 'Content-Type': 'application/json'},
  body: JSON.stringify({contents: [{role: 'user', parts: [{text: 'Hello from DGrid.'}]}]})
};

fetch('https://api.dgrid.ai/v1/models/{model}:generateContent', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

package main

import (
	"fmt"
	"strings"
	"net/http"
	"io"
)

func main() {

	url := "https://api.dgrid.ai/v1/models/{model}:generateContent"

	payload := strings.NewReader("{\n  \"contents\": [\n    {\n      \"role\": \"user\",\n      \"parts\": [\n        {\n          \"text\": \"Hello from DGrid.\"\n        }\n      ]\n    }\n  ]\n}")

	req, _ := http.NewRequest("POST", url, payload)

	req.Header.Add("Authorization", "Bearer <token>")
	req.Header.Add("Content-Type", "application/json")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

HttpResponse<String> response = Unirest.post("https://api.dgrid.ai/v1/models/{model}:generateContent")
  .header("Authorization", "Bearer <token>")
  .header("Content-Type", "application/json")
  .body("{\n  \"contents\": [\n    {\n      \"role\": \"user\",\n      \"parts\": [\n        {\n          \"text\": \"Hello from DGrid.\"\n        }\n      ]\n    }\n  ]\n}")
  .asString();

{
  "candidates": [
    {
      "content": {
        "role": "<string>",
        "parts": [
          {}
        ]
      },
      "finishReason": "<string>",
      "safetyRatings": [
        {}
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 123,
    "candidatesTokenCount": 123,
    "totalTokenCount": 123
  }
}

{
  "error": {
    "message": "<string>",
    "type": "<string>",
    "param": "<string>",
    "code": "<string>"
  }
}

Esta página usa la misma operación generateContent que Generar contenido (Gemini), con el playground de arriba rellenado previamente para chat de texto plano. Las notas a continuación describen los campos multimodales nativos de Gemini que puede agregar a contents[].parts para analizar imágenes, audio, video o medios mixtos en una sola solicitud.

Cada part puede incluir datos inline (bytes codificados en base64 más un tipo MIME) junto con instrucciones de texto, lo que permite que el modelo razone entre modalidades en una sola llamada.

Campos de solicitud nativos de Gemini

Los campos genéricos contents y generationConfig que se muestran en el playground aceptan la siguiente forma anidada para reconocimiento multimodal:

Campo	Tipo	Obligatorio	Descripción
`contents[].role`	string	No	Rol del turno, por ejemplo `user`.
`contents[].parts`	array	Sí	Lista ordenada de parts de contenido (texto y/o medios inline).
`contents[].parts[].text`	string	No	Instrucción de texto o pregunta para el modelo.
`contents[].parts[].inlineData`	object	No	Carga multimedia inline para comprensión de imagen, audio o video.
`contents[].parts[].inlineData.mimeType`	string	No	Tipo MIME de los datos inline, por ejemplo `image/jpeg`, `audio/mp3`, `video/mp4`.
`contents[].parts[].inlineData.data`	string	No	Bytes multimedia codificados en base64.

Puede mezclar varias parts en un solo turno; por ejemplo, una part text con una instrucción seguida de una o más parts inlineData que contengan el medio a analizar.

Ejemplo: analizar una imagen

{
  "contents": [
    {
      "role": "user",
      "parts": [
        { "text": "Describe what is happening in this image." },
        {
          "inlineData": {
            "mimeType": "image/jpeg",
            "data": "<base64-encoded-image-bytes>"
          }
        }
      ]
    }
  ]
}

Campos de respuesta

La respuesta sigue la forma estándar de generateContent. Los campos más relevantes para el reconocimiento multimedia son:

array

Respuestas candidatas devueltas por el modelo.

Mostrar candidate properties

object

Objeto de contenido generado.

Mostrar content properties

string

Rol devuelto en el bloque de contenido generado, normalmente model.

array

Parts de contenido devueltas, normalmente texto que describe el medio analizado.

string

Cadena de motivo de finalización, por ejemplo STOP.

array

Resultados de evaluación de seguridad.

object

Metadatos de contabilidad de tokens, incluido promptTokenCount, candidatesTokenCount y totalTokenCount. Los medios inline (imágenes, audio, video) consumen tokens del prompt además de cualquier part de texto.

Ejemplo de respuesta

200

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          { "text": "The image shows a golden retriever sitting on a grassy lawn." }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": []
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 264,
    "candidatesTokenCount": 18,
    "totalTokenCount": 282
  }
}

Autorizaciones

Authorization

string

header

requerido

Your DGrid API key. All endpoints use Authorization: Bearer <DGRID_API_KEY>.

Parámetros de ruta

model

string

requerido

Target model ID, such as gemini-1.5-pro.

Cuerpo

application/json

contents

object[]

Input content array with role and parts.

Show child attributes

generationConfig

object

Generation configuration.

Show child attributes

Respuesta

Generated content candidates.

candidates

object[]

Candidate responses returned by the model.

Show child attributes

usageMetadata

object

Token accounting metadata.

Show child attributes

Generar contenido (Gemini)

Crear finalización

PRIMEROS PASOS

API DE MODELOS

CLAVES DE API DE GESTIÓN

API X402

Reconocimiento multimedia de Gemini

Campos de solicitud nativos de Gemini

Ejemplo: analizar una imagen

Campos de respuesta

Ejemplo de respuesta

Autorizaciones

Parámetros de ruta

Cuerpo

Respuesta

​Campos de solicitud nativos de Gemini

​Ejemplo: analizar una imagen

​Campos de respuesta

​Ejemplo de respuesta

Autorizaciones

Parámetros de ruta

Cuerpo

Respuesta

Campos de solicitud nativos de Gemini

Ejemplo: analizar una imagen

Campos de respuesta

Ejemplo de respuesta