Generate content (Gemini)
채팅
Gemini 미디어 인식
Gemini-native generateContent interface for text chat, multimodal media recognition (images, audio, video), speech synthesis, and image generation with structured parts. Use generationConfig to request specific response modalities such as speech (speechConfig) or images (imageConfig).
POST
Generate content (Gemini)
이 페이지는 콘텐츠 생성 (Gemini)과 동일한
generateContent 작업을 사용하며, 위의 플레이그라운드에는 일반 텍스트 채팅이 미리 입력되어 있습니다. 아래 내용은 단일 요청에서 이미지, 오디오, 비디오 또는 혼합 미디어를 분석하기 위해 contents[].parts에 추가할 수 있는 Gemini 네이티브 멀티모달 필드를 설명합니다.
각 파트는 텍스트 지시와 함께 인라인 데이터(base64로 인코딩된 바이트와 MIME 유형)를 포함할 수 있어, 모델이 한 번의 호출로 여러 모달리티에 걸쳐 추론할 수 있습니다.
Gemini 네이티브 요청 필드
플레이그라운드에 표시되는 일반적인contents 및 generationConfig 필드는 멀티모달 인식을 위해 다음과 같은 중첩 구조를 허용합니다.
| 필드 | 유형 | 필수 | 설명 |
|---|---|---|---|
contents[].role | string | 아니요 | 턴의 역할입니다 (예: user). |
contents[].parts | array | 예 | 콘텐츠 파트(텍스트 및/또는 인라인 미디어)의 순서가 있는 목록입니다. |
contents[].parts[].text | string | 아니요 | 모델에 대한 텍스트 지시 또는 질문입니다. |
contents[].parts[].inlineData | object | 아니요 | 이미지, 오디오 또는 비디오 이해를 위한 인라인 미디어 페이로드입니다. |
contents[].parts[].inlineData.mimeType | string | 아니요 | 인라인 데이터의 MIME 유형입니다 (예: image/jpeg, audio/mp3, video/mp4). |
contents[].parts[].inlineData.data | string | 아니요 | base64로 인코딩된 미디어 바이트입니다. |
예시: 이미지 분석
응답 필드
응답은 표준generateContent 형식을 따릅니다. 미디어 인식과 가장 관련 있는 필드는 다음과 같습니다.
모델이 반환한 후보 응답입니다.
promptTokenCount, candidatesTokenCount, totalTokenCount를 포함한 토큰 사용 메타데이터입니다. 인라인 미디어(이미지, 오디오, 비디오)는 텍스트 파트와 별도로 추가적인 프롬프트 토큰을 소비합니다.응답 예시
200
인증
Your DGrid API key. All endpoints use Authorization: Bearer <DGRID_API_KEY>.
경로 매개변수
Target model ID, such as gemini-1.5-pro.
본문
application/json

