即時語音
即時語音 API 提供 OpenAI 相容低延遲文字與音訊對話能力,包含 websocket 連線與短時效 session token 建立端點。
WebSocket 連線
若您的後端可以安全持有 DGrid API 金鑰,可直接建立 realtime websocket 連線。
https://api.dgrid.ai
WSS
wss://api.dgrid.ai/v1/realtime?model={model}查詢參數
| 參數 | 型別 | 必填 | 說明 |
|---|---|---|---|
model | string | 是 | 即時模型 ID,例如 gpt-4o-realtime-preview。 |
用戶端事件
| 事件類型 | 說明 |
|---|---|
session.update | 更新 session 層級設定。 |
input_audio_buffer.append | 傳送音訊區塊。 |
input_audio_buffer.commit | 提交目前音訊緩衝區。 |
response.create | 觸發新的助手回應。 |
conversation.item.create | 新增對話項目。 |
伺服器事件
| 事件類型 | 說明 |
|---|---|
session.created | session 已成功建立。 |
session.updated | session 設定已更新。 |
response.text.delta | 串流文字增量輸出。 |
response.audio.delta | 串流音訊增量輸出。 |
response.done | 本次回應完成。 |
error | 錯誤事件。 |
建立 Realtime Session Token
若您需要像下方範例那樣,對 realtime HTTP 入口發送帶認證的 GET 請求,可參考此段示例。
https://api.dgrid.ai
GET
/v1/realtimeWebSocket 事件
低延遲對話串流通常圍繞一小組核心 request 與 response 事件展開。
https://api.dgrid.ai
WSS
wss://api.dgrid.ai/v1/realtime?model={model}核心用戶端事件
| 事件類型 | 說明 |
|---|---|
session.update | 更新模態、語音或 session 偏好設定。 |
input_audio_buffer.append | 傳送編碼後的音訊片段。 |
input_audio_buffer.commit | 標記當前音訊緩衝區可開始處理。 |
response.create | 要求伺服器開始生成回應。 |
conversation.item.create | 新增對話輪次或工具結果。 |
核心伺服器事件
| 事件類型 | 說明 |
|---|---|
session.created | websocket session 已建立。 |
session.updated | session 設定已變更。 |
response.text.delta | 漸進式文字輸出。 |
response.audio.delta | 漸進式音訊輸出。 |
response.done | 一次回應完成。 |
error | 可恢復或致命錯誤。 |
整合建議
- 先在客戶端將音訊分塊緩衝,再用
input_audio_buffer.commit標記 turn 邊界。 - 若 session 支援多模態輸出,請同時監聽
response.text.delta與response.audio.delta。 - 瀏覽器端建議先向伺服器請求短時效 session token,避免長期 API 金鑰下發到客戶端。
