OpenAI 推出 Realtime Agent API,语音 Agent 延迟降至 300ms
新 API 支持全双工语音交互,Agent 可以边听边说,对话体验接近真人。
OpenAI 官方·2026年4月18日
要点
- Realtime Agent API 支持全双工语音交互
- 端到端延迟 300ms,对话体验接近真人
- 支持 Function Calling,语音对话中可调用工具
- 提供 Python 和 Node.js SDK
技术细节
- 基于 WebSocket 双向流
- 音频编码:G.711 / Opus
- 并发支持:单连接最多 5 个工具调用
- 定价:$0.06/分钟
适合客服、语音助手、实时翻译等场景。对 Skill 生态的影响:语音驱动的 Skill 将成为新方向。