Sora2的终极野心,从社交软件到世界模拟器。每天700万次生成,70%的用户在

末号来看科技 2025-11-10 12:37:31

Sora2的终极野心,从社交软件到世界模拟器。

每天700万次生成,70%的用户在创作而不是消费,这是Sora应用上线后交出的成绩单。

要知道,Instagram这样的老牌社交平台,创作者和消费者的比例是典型的幂律分布,少数头部创作者生产内容,绝大多数人只是在刷。

而Sora把这个比例倒过来了。

有意思的是,OpenAI的野心远不止做一个视频生成工具。

在最近的一次播客访谈中,Sora团队负责人Bill Peebles透露了一个听起来有点科幻的愿景,Sora的终局是让每个人在虚拟空间里拥有一个数字副本,这个副本会代替你去完成各种任务,然后向现实世界汇报。

听起来很疯狂,但仔细看Sora 2的技术路径和产品设计,你会发现这个看似遥远的目标,其实已经在一步步铺垫了。

先说技术,Sora 2最大的突破不是生成的视频更流畅或更逼真,而是它失败的方式变了。

Bill举了个例子,如果你给Sora一个提示词,一位篮球明星想要投篮,假设在模型模拟中他投丢了,Sora 2不会为了讨好用户,神奇地让篮球自动飞进篮筐。

相反,它会选择遵从物理定律,篮球会实实在在地从篮板上弹开。

这个细节藏着Sora团队对世界模拟器的理解。

以前的视频生成模型,更像是在盲目迎合提示词,用户说要进球,它就让球进。

但Sora 2不一样,它在模拟一个真实的世界,在这个世界里,物理规律比用户的要求更重要。

Bill把这种现象称为模型失败和AI Agent失败的区别。

Sora在生成视频时,隐式地模拟了一个个体,这个个体有自己的行为逻辑。当投篮不准的时候,它不会作弊,而是展示真实的结果。

这听起来是个小细节,但背后的技术含量很高。

Sora使用的是Diffusion Transformer技术,核心思路是把视频拆解成无数个时空补丁,你可以把它想象成一个个微小的长方体,同时包含空间和时间维度。

这些补丁之间通过注意力机制互相对话,让信息在整个视频的所有部分一次性传递。

正是这种机制,让Sora能够理解物体恒存性,理解物理规律,甚至开始展现出一点AI Agent的雏形。

Bill认为,这主要还是Scaling Law带来的涌现能力,就像GPT从1到3的过程中,模型自然而然地发展出了对世界的内部表示。

技术很硬核,但真正让Sora火起来的,是它的产品设计。

Sora团队的工程主管Thomas曾在Instagram负责排名算法。

他在访谈中坦承,Instagram之所以要做算法推荐,是因为平台的创作者分布太过头部集中。

那些大号一天能发20条内容,而你的朋友可能只发一张咖啡照片。如果按时间顺序排列,你永远刷不到朋友的照片。

所以Instagram引入了算法,重新分配流量。

这个决定当时争议很大,但数据显示它确实让用户看到了更多自己关心的内容,甚至还促进了创作。

但Thomas也承认,这套机制容易跑偏。当平台开始追求盲目消费,追求让用户刷得更久,算法就会推送更廉价的内容,创作者的动力反而被抑制了。

Sora要做的是反其道而行之。它的算法不是为了让你刷得更久,而是为了激励你去创作。

团队甚至会在信息流中插入提示,嘿,你刚看了几个这个领域的视频,要不要自己也创作一个?故意打断你的消费状态。

这套逻辑的核心支撑是Cameo功能,简单说就是你可以上传自己的照片或视频,然后把自己P到各种AI生成的场景里。你可以变成动漫角色,可以和朋友一起出现在科幻片里,甚至可以让你的宠物当主角。

Thomas说,当他们内测Cameo功能的时候,团队的信息流一夜之间全是Cameo内容。

大家疯狂地给彼此制作视频,玩各种内部梗。一周后他们发现,我们居然还在玩这个。

这就是产品的魔力所在,Cameo不只是降低了创作门槛,它还把人情味带回来了。Cameo让你和朋友成为视频的主角,这种社交属性是其他视频生成工具做不到的。

所以Sora才能做到70%的用户在创作,它不是一个视频版的抖音,而是一个让每个人都能参与的创作平台。

如果故事到这里就结束,Sora只是一个很酷的社交+AI产品。

但Bill说的终局,远不止于此。

他认为,Cameo只是一个开始,它是用户向Sora提供自身信息的最低密度方式,你的外貌、声音等等。

未来这个信息通道会越来越密集,模型会深度理解你的成长经历,你和他人的关系,关于你自己的所有细节。

到那时,Sora几乎能像一个数字克隆一样运作。

你手机上会有一个迷你替代现实,你的数字版本可以去和其他人的数字克隆互动,可以执行知识性工作,不仅仅是娱乐。

这听起来像是科幻小说,但技术路径其实很清晰。

Sora本质上是一个世界模拟器,它通过大量视频数据学习物理世界的规律。当模型足够强大,当数据足够丰富,它就能模拟出一个接近真实的虚拟世界。

Bill认为,视频数据是一个巨大的数据金矿。

相比文本,视频每比特所蕴含的智能要低得多,但如果对世界上所有视频数据进行积分,总的智能量要高得多。他很难想象视频数据会用完,因为它的形式太多样了。

更有意思的是,Bill还提到了动漫数据的价值。虽然动漫不遵守现实世界的物理定律,但它包含一些简化的图元,这些图元可能有助于模型更高效地理解真实世界。就像角色在场景中移动这个概念,在动漫和现实中是共通的。

当然,要实现数字副本的愿景,还有很多问题要解决,比如计算成本,视频生成是所有模态中最昂贵的。

还有内容生态的问题,Bill透露,团队正在和IP持有者合作,探索让用户使用喜爱的IP创作,同时权利人能获益的新创作者经济模式。这是一个全新的生态,需要从零开始构建。

Bill说,Sora 1是视频领域的GPT-1时刻,Sora 2是GPT-3.5时刻,它真正突破了可用性障碍,开始被大规模采用。但要达到科学发现的水平,可能需要一个GPT-4级别的突破。

现在谈数字副本、谈世界模拟器,听起来确实有点超前。但回想GPT的发展路径,从1到3.5到4,每一步都伴随着难以想象的能力涌现。

也许再过几年,当我们习惯了在Sora里和自己的数字分身对话,习惯了让它代替自己去完成任务,今天这些看似疯狂的想法,就会变得理所当然。

0 阅读:1
末号来看科技

末号来看科技

感谢大家的关注