如果说2023年是ChatGPT的元年,那么2025年可能就是数字人走向成熟的拐点。
11月6日,在乌镇世界互联网大会的领奖台上,百度第三次举起了领先科技奖的奖杯。
这一次的获奖技术,叫做剧本驱动多模协同的高拟真数字人。
连续三年在同一个赛道获奖,这在世界互联网大会的历史上并不多见。论技术积累,百度确实有底气,论商业落地,数字已经摆在那里。
6月15日那场直播,你可能还有印象。罗永浩的数字人在百度电商平台上播了整整6个小时,吸引了1300万人次观看,最终GMV突破5500万元。
这个数字放在真人直播里都算得上优秀,更何况这是AI在唱主角。
更让人意外的是细节。双数字人搭档做出超过8300个动作,AI调用知识库1.3万次,生成了9.7万字的产品讲解内容。
这些数字背后,是技术正在从能用变成好用的质变。
在山东德州的夏津县,三位老书记也尝到了数字人的甜头。
开通数字人直播短短一个月,账号订单量已近万单,总销售额突破15万元,成功售出农产品3.3万斤。
对于这些曾经为乡村奔走的退休干部来说,数字人让他们的助农事业有了新的可能。
数字人不是什么新鲜事物。
早在几年前,各种虚拟主播就已经在B站、抖音等平台上出现。
但那时候的数字人,更多是个会动的纸片人,能说话但不会聊天,有表情但缺少灵魂。
真正的突破发生在2024年之后。
百度这次获奖的技术,核心是五项创新的组合拳。
首先是剧本生成,这可不是简单的文案撰写。文心大模型生成的剧本里,不仅有台词,还自带视觉标签和语音标签。
什么意思,就是在说到抬头纹、法令纹的时候,数字人会自动指向相应位置,在送福利的时候会自动切换到兴奋的语气。
其次是语音合成的革命。传统的TTS(文本转语音)听起来总有股机械味,但百度的文本自控语音合成大模型能做到理解文风,预测情绪和韵律。科普产品时娓娓道来,讲到兴奋处激情澎湃,这种自然度已经接近真人水平。
最难的是视觉形象生成。
如何让数字人在数小时的超长直播里,保持动作自然、表情到位,还能和商品、场景自由互动,这是整个行业公认的难题。
百度通过结合多模态视频理解、跨模态信号生成等技术,克服了高可控交互、高精度、长时间一致性保持等痛点。
这五项技术叠加起来,就实现了数字人神、形、音、容、话的高度统一。
用罗永浩的话说,我快成替身了。
百度三连冠,当然首先是技术实力的证明。但如果仅仅停留在技术层面,可能会忽略更重要的东西。
在数字人这条赛道上,百度的策略一直很清晰,不追求短期的流量爆发,而是扎扎实实地做好底层技术积累,然后在商业场景中不断打磨产品。
从慧播星到罗永浩数字人,从教育到电商,每一个落地场景背后,都是对技术边界的一次次探索。
这种务实的风格,在当下的AI行业里反而显得有些另类。太多公司热衷于讲概念、炒估值,真正能把技术落地转化为商业价值的并不多。
百度的三连冠,某种程度上也是对这种扎实做事风格的肯定。
从机械朗读到情绪满分,从纸片人到超拟真,数字人技术的进化速度超出了很多人的想象。
在乌镇的领奖台上,百度举起奖杯的那一刻,标志的不仅是一家公司的成功,更是整个数字人产业的一个里程碑。
当技术足够成熟,商业模式足够清晰,数字人就不再是科幻电影里的概念,而是实实在在改变商业生态的新物种。
如果说过去十年是移动互联网的时代,那么未来十年很可能是AI重构一切的时代。数字人只是其中的一个切面,但足以让我们窥见未来的轮廓。
