OpenAI 推出 Realtime Agent API,语音 Agent 延迟降至 300ms

新 API 支持全双工语音交互,Agent 可以边听边说,对话体验接近真人。

OpenAI 官方·2026年4月18日

要点

  • Realtime Agent API 支持全双工语音交互
  • 端到端延迟 300ms,对话体验接近真人
  • 支持 Function Calling,语音对话中可调用工具
  • 提供 Python 和 Node.js SDK

技术细节

  • 基于 WebSocket 双向流
  • 音频编码:G.711 / Opus
  • 并发支持:单连接最多 5 个工具调用
  • 定价:$0.06/分钟

适合客服、语音助手、实时翻译等场景。对 Skill 生态的影响:语音驱动的 Skill 将成为新方向。

查看原文返回资讯列表
API2D🇨🇳 国内推荐

国内直连 OpenAI/Claude API,无需科学上网,按量计费

立即体验 →

推广链接