OpenAI 推出 GPT-Realtime：更自然、更智能、实时的语音 AI

OpenAI 推出 GPT-Realtime：更自然、更智能、实时的语音 AI 模型近日，OpenAI 正式宣布其 Realtime API 正式走出测试阶段，并推出新一代 speech-to-speech 模型 GPT-Realtime，面向开发者与企业开放。核心亮点速览： • 端到端语音处理不再依赖传统语音转文字再生成语音的多阶段流程，而是直接由一个模型处理输入和输出，从而显著降低延迟、保留语音细节与情感，并提升通话自然度。 • 更接近人类交流 GPT-Realtime 在音质自然度、多语切换、语气调节（如“专业风”“亲切风”）等方面表现出色；新增 Cedar 和 Marin 两种声音风格供选择，同时升级了现有 8 种语音。 • 能力提升显著它在多项基准测试中表现优于 2024 年底版本：Big Bench Audio 推理能力 82.8%，高于之前 65.6%；指令遵循准确率从 20.6% 提升到 30.5%；Function Calling 表现也显著提升。 • 新接口扩展 Realtime API 新增远程 MCP Server 支持，实现对外部工具和数据中心的接入；加入 SIP（电话通信协议）支持，适合集成 PBX 电话系统；还新增图像输入，支持语音+视觉的交互场景。个人观点： GPT-Realtime 重构了 AI 语音交互逻辑，以更快速、精准和富情感的语音应答推进语音助手进入新阶段。对于客户支持、智能家居、车载助手等场景尤其契合。图像输入与电话功能支持，也为行业落地注入强大应用动力。 🔹 如果你手上开发的是语音助手产品，你最期待让它实现哪些“更像人”的能力？ OpenA l GPTRealtime 语音AI 实时语音模型

云霞资讯网

OpenAI 推出 GPT-Realtime：更自然、更智能、实时的语音 AI

热门分类