OpenAI发布GPT-Realtime-2,实时语音交互迎来新突破

🎙️ 语音AI迎来重大突破

2026年6月1日,OpenAI宣布推出GPT-Realtime-2系列三款实时语音模型,进一步降低语音交互延迟、提升多语言理解能力,为AI智能体实时交互场景提供底层能力支撑。

GPT-Realtime-2模型

更低延迟,更自然的对话体验

GPT-Realtime-2系列模型在语音识别和合成延迟上实现了显著优化,使得AI语音交互更加流畅自然,接近真人对话体验。根据OpenAI官方数据,新模型的端到端延迟降低了40%,让用户几乎感受不到延迟。

语音交互延迟对比

多语言理解能力大幅提升

新模型支持更多语言和方言,理解能力更强,能够更好地处理口音、语速变化等复杂场景。目前支持的语言数量从原来的30+增加到50+,覆盖全球主要语种和地区方言。

赋能AI智能体实时交互

GPT-Realtime-2为AI智能体提供了强大的实时语音交互底层能力,将推动智能客服、虚拟助手、智能硬件等场景的快速发展。开发者现在可以通过OpenAI API调用这些新模型,构建更强大的语音交互应用。

随着AI技术的不断进步,语音交互将成为人机交互的重要方式。GPT-Realtime-2的发布标志着实时语音AI进入了新的发展阶段。

上一篇:
下一篇:
0.097823s