Skip to content

即時語音

即時語音 API 提供 OpenAI 相容低延遲文字與音訊對話能力,包含 websocket 連線與短時效 session token 建立端點。

WebSocket 連線

若您的後端可以安全持有 DGrid API 金鑰,可直接建立 realtime websocket 連線。

WSS
https://api.dgrid.ai
WSSwss://api.dgrid.ai/v1/realtime?model={model}
Authorization
Authorization: Bearer <DGRID_API_KEY>; OpenAI-Beta: realtime=v1
Request
websocket
Response
websocket events

查詢參數

參數型別必填說明
modelstring即時模型 ID,例如 gpt-4o-realtime-preview

用戶端事件

事件類型說明
session.update更新 session 層級設定。
input_audio_buffer.append傳送音訊區塊。
input_audio_buffer.commit提交目前音訊緩衝區。
response.create觸發新的助手回應。
conversation.item.create新增對話項目。

伺服器事件

事件類型說明
session.createdsession 已成功建立。
session.updatedsession 設定已更新。
response.text.delta串流文字增量輸出。
response.audio.delta串流音訊增量輸出。
response.done本次回應完成。
error錯誤事件。

建立 Realtime Session Token

若您需要像下方範例那樣,對 realtime HTTP 入口發送帶認證的 GET 請求,可參考此段示例。

GET
https://api.dgrid.ai
GET/v1/realtime
Authorization
Authorization: Bearer <DGRID_API_KEY>
Request
none
Response
101 · application/json

請求標頭

欄位型別必填說明
Authorizationstring用於 realtime 請求驗證的 Bearer 權杖。

回應體

欄位型別說明
101text成功升級後不返回 JSON 主體。
errorobject請求失敗時返回的錯誤載荷。

WebSocket 事件

低延遲對話串流通常圍繞一小組核心 request 與 response 事件展開。

WSS
https://api.dgrid.ai
WSSwss://api.dgrid.ai/v1/realtime?model={model}
Authorization
Authorization: Bearer <DGRID_API_KEY>; OpenAI-Beta: realtime=v1
Request
websocket
Response
event stream

核心用戶端事件

事件類型說明
session.update更新模態、語音或 session 偏好設定。
input_audio_buffer.append傳送編碼後的音訊片段。
input_audio_buffer.commit標記當前音訊緩衝區可開始處理。
response.create要求伺服器開始生成回應。
conversation.item.create新增對話輪次或工具結果。

核心伺服器事件

事件類型說明
session.createdwebsocket session 已建立。
session.updatedsession 設定已變更。
response.text.delta漸進式文字輸出。
response.audio.delta漸進式音訊輸出。
response.done一次回應完成。
error可恢復或致命錯誤。

整合建議

  1. 先在客戶端將音訊分塊緩衝,再用 input_audio_buffer.commit 標記 turn 邊界。
  2. 若 session 支援多模態輸出,請同時監聽 response.text.deltaresponse.audio.delta
  3. 瀏覽器端建議先向伺服器請求短時效 session token,避免長期 API 金鑰下發到客戶端。