如果说2023年是ChatGPT的元年，那么2025年可能就是数字人走向成熟的拐

如果说2023年是ChatGPT的元年，那么2025年可能就是数字人走向成熟的拐点。

11月6日，在乌镇世界互联网大会的领奖台上，百度第三次举起了领先科技奖的奖杯。

这一次的获奖技术，叫做剧本驱动多模协同的高拟真数字人。

连续三年在同一个赛道获奖，这在世界互联网大会的历史上并不多见。论技术积累，百度确实有底气，论商业落地，数字已经摆在那里。

6月15日那场直播，你可能还有印象。罗永浩的数字人在百度电商平台上播了整整6个小时，吸引了1300万人次观看，最终GMV突破5500万元。

这个数字放在真人直播里都算得上优秀，更何况这是AI在唱主角。

更让人意外的是细节。双数字人搭档做出超过8300个动作，AI调用知识库1.3万次，生成了9.7万字的产品讲解内容。

这些数字背后，是技术正在从能用变成好用的质变。

在山东德州的夏津县，三位老书记也尝到了数字人的甜头。

开通数字人直播短短一个月，账号订单量已近万单，总销售额突破15万元，成功售出农产品3.3万斤。

对于这些曾经为乡村奔走的退休干部来说，数字人让他们的助农事业有了新的可能。

数字人不是什么新鲜事物。

早在几年前，各种虚拟主播就已经在B站、抖音等平台上出现。

但那时候的数字人，更多是个会动的纸片人，能说话但不会聊天，有表情但缺少灵魂。

真正的突破发生在2024年之后。

百度这次获奖的技术，核心是五项创新的组合拳。

首先是剧本生成，这可不是简单的文案撰写。文心大模型生成的剧本里，不仅有台词，还自带视觉标签和语音标签。

什么意思，就是在说到抬头纹、法令纹的时候，数字人会自动指向相应位置，在送福利的时候会自动切换到兴奋的语气。

其次是语音合成的革命。传统的TTS（文本转语音）听起来总有股机械味，但百度的文本自控语音合成大模型能做到理解文风，预测情绪和韵律。科普产品时娓娓道来，讲到兴奋处激情澎湃，这种自然度已经接近真人水平。

最难的是视觉形象生成。

如何让数字人在数小时的超长直播里，保持动作自然、表情到位，还能和商品、场景自由互动，这是整个行业公认的难题。

百度通过结合多模态视频理解、跨模态信号生成等技术，克服了高可控交互、高精度、长时间一致性保持等痛点。

这五项技术叠加起来，就实现了数字人神、形、音、容、话的高度统一。

用罗永浩的话说，我快成替身了。

百度三连冠，当然首先是技术实力的证明。但如果仅仅停留在技术层面，可能会忽略更重要的东西。

在数字人这条赛道上，百度的策略一直很清晰，不追求短期的流量爆发，而是扎扎实实地做好底层技术积累，然后在商业场景中不断打磨产品。

从慧播星到罗永浩数字人，从教育到电商，每一个落地场景背后，都是对技术边界的一次次探索。

这种务实的风格，在当下的AI行业里反而显得有些另类。太多公司热衷于讲概念、炒估值，真正能把技术落地转化为商业价值的并不多。

百度的三连冠，某种程度上也是对这种扎实做事风格的肯定。

从机械朗读到情绪满分，从纸片人到超拟真，数字人技术的进化速度超出了很多人的想象。

在乌镇的领奖台上，百度举起奖杯的那一刻，标志的不仅是一家公司的成功，更是整个数字人产业的一个里程碑。

当技术足够成熟，商业模式足够清晰，数字人就不再是科幻电影里的概念，而是实实在在改变商业生态的新物种。

如果说过去十年是移动互联网的时代，那么未来十年很可能是AI重构一切的时代。数字人只是其中的一个切面，但足以让我们窥见未来的轮廓。