OpenAI推出GPT-Realtime:更自然、更智能、实时的语音AI

游乐看科技 2025-08-29 22:20:41

OpenAI 推出 GPT-Realtime:更自然、更智能、实时的语音 AI 模型 近日,OpenAI 正式宣布其 Realtime API 正式走出测试阶段,并推出新一代 speech-to-speech 模型 GPT-Realtime,面向开发者与企业开放。 核心亮点速览: • 端到端语音处理 不再依赖传统语音转文字再生成语音的多阶段流程,而是直接由一个模型处理输入和输出,从而显著降低延迟、保留语音细节与情感,并提升通话自然度。 • 更接近人类交流 GPT-Realtime 在音质自然度、多语切换、语气调节(如“专业风”“亲切风”)等方面表现出色;新增 Cedar 和 Marin 两种声音风格供选择,同时升级了现有 8 种语音。 • 能力提升显著 它在多项基准测试中表现优于 2024 年底版本:Big Bench Audio 推理能力 82.8%,高于之前 65.6%;指令遵循准确率从 20.6% 提升到 30.5%;Function Calling 表现也显著提升。 • 新接口扩展 Realtime API 新增远程 MCP Server 支持,实现对外部工具和数据中心的接入;加入 SIP(电话通信协议)支持,适合集成 PBX 电话系统;还新增图像输入,支持语音+视觉的交互场景。 个人观点: GPT-Realtime 重构了 AI 语音交互逻辑,以更快速、精准和富情感的语音应答推进语音助手进入新阶段。对于客户支持、智能家居、车载助手等场景尤其契合。图像输入与电话功能支持,也为行业落地注入强大应用动力。 🔹 如果你手上开发的是语音助手产品,你最期待让它实现哪些“更像人”的能力? OpenA l GPTRealtime 语音AI 实时语音模型

0 阅读:1

猜你喜欢

游乐看科技

游乐看科技

感谢大家的关注