🎙️ 语音AI迎来重大突破
2026年6月1日,OpenAI宣布推出GPT-Realtime-2系列三款实时语音模型,进一步降低语音交互延迟、提升多语言理解能力,为AI智能体实时交互场景提供底层能力支撑。
更低延迟,更自然的对话体验
GPT-Realtime-2系列模型在语音识别和合成延迟上实现了显著优化,使得AI语音交互更加流畅自然,接近真人对话体验。根据OpenAI官方数据,新模型的端到端延迟降低了40%,让用户几乎感受不到延迟。
多语言理解能力大幅提升
新模型支持更多语言和方言,理解能力更强,能够更好地处理口音、语速变化等复杂场景。目前支持的语言数量从原来的30+增加到50+,覆盖全球主要语种和地区方言。
赋能AI智能体实时交互
GPT-Realtime-2为AI智能体提供了强大的实时语音交互底层能力,将推动智能客服、虚拟助手、智能硬件等场景的快速发展。开发者现在可以通过OpenAI API调用这些新模型,构建更强大的语音交互应用。
随着AI技术的不断进步,语音交互将成为人机交互的重要方式。GPT-Realtime-2的发布标志着实时语音AI进入了新的发展阶段。
