云霞资讯网

95后博士休学创业押注AI空间游戏,未上线先出圈吸粉百万

过去,我们经历和见证了不同模态 APP 在不同阶段的发展:从 QQ 和天涯的文本模态,到博客、QQ 空间、微博的图文模态

过去,我们经历和见证了不同模态 APP 在不同阶段的发展:从 QQ 和天涯的文本模态,到博客、QQ 空间、微博的图文模态,往后到土豆、优酷等视频模态,再到现在以抖音、快手为代表的短视频。

就在创业者们用 AI 在文本、图像、视频生成的领域中“卷生卷死”之际,生境科技(Sengine Technology)的 CEO 刘紫东带领团队选择了另一条路径——空间。他认为,每个时代真正的机会来自新的模态,而不是在旧模态里做得更精致。空间,正是像视频一样可以被大众创作、交互和变现的下一代模态。

世界模型有多条技术路线:有以时间理解、动作帧预测为核心的视频大模型(如 DeepMind 的 Gennie 3),有专注隐式空间表达(杨立昆),还有一个主要的类别,就是 3D 场景生成。其中,又细分成基于 3D 高斯泼渐的纯视觉表皮还原(李飞飞的 World Labs)和离散实体的组合与布局(如Autodesk、普林斯顿 infinigen)等。

刘紫东认为后者更贴近实际应用,他将空间生成还原为两个最基本的问题:摆什么,以及摆在哪。这种构建空间的叙事逻辑更多基于人类的实际需求,而非生成一层表皮的纯视觉方案。“英伟达、Autodesk 等大厂和 MIT、普林斯顿等高校实验室都在持续研究这条技术路线,但是我们的算法是最先能达到商业落地的。”他说。

在这条独特技术路径背后,是一条同样不寻常的学术轨迹。刘紫东本科毕业于东南大学建筑学院,后在英国伦敦大学学院获得计算设计硕士学位,之后赴美国德州大学奥斯汀分校攻读博士学位,主要研究方向是空间 AI 生成。2023 年,他敏锐地意识到这条赛道正在出现窗口期——在他看来,除了空间,其他模态的“旧战场”已经结束。

在近期 DeepTech 与刘紫东的深度对话中,我们谈到了对空间智能行业的理解、赛道的选择、技术差异性路径、商业落地和未来发展趋势等。他将空间智能创业所处的阶段,类比为抖音在 PC 互联网时代竞争中,率先识别并切入移动互联网的那个关键节点。

基于 AI 生成空间的核心技术,生境科技已在多个方向展开探索。其中最引人关注的是其自研的全球首款空间 AI 游戏——森盒 SenBOX³,它就像是一个空间编辑器,用户只需要用一句话、一张照片就能自动生成专属的“梦想家园”。

这款产品被不少玩家理解为 AI 版《我的世界》,在尚未正式上线的情况下,基于独特的共创和个性化创作,全网相关内容累计吸引百万级粉丝关注,其中 15 至 25 岁的女性用户占据相当比例。

(来源:刘紫东)

与此同时,该公司也发展了面向 B 端的 API 业务,服务客户包括松下、Ashley、万华等。尽管这部分业务已带来千万元级的营收,但刘紫东更愿意将其视为“顺手做”的延展,而非公司的核心重心。

在做出创业决定时,他并不讳言自己的代际焦虑。作为一名 95 后,刘紫东曾悲观地判断,与 60 后、70 后和 80 后相比,90 后、95 后这一代人的学历红利已经不在。因此当机会来临时,他几乎没有犹豫,选择放弃博士学位回国创业。

刘紫东将效率视为真正的技术壁垒,因此并不惧怕后来者。除了技术的原创性,他的底气一部分还来自于身后的“智囊团”:不仅由其博士生导师丹尼尔·库勒(Daniel Koehler)教授担任公司首席科学家顾问,还获得了中国工程院孟建民院士和“大疆教父”李泽湘教授的支持。截至目前,生境科技已完成 Pre-A 与 Pre-A+ 轮近亿元融资。

在他的设想中,空间 AI 的终点并不仅是一款游戏或一个内容社区,而是逐步演化为一个室内版的“谷歌地球(Google Earth)”——一个与实体经济深度耦合、可以承载交易与社交的空间智能平台。

以下是对话内容,在不改变原意前提下经编辑和整理。

逃离旧战场:空间是 AI 领域少有的“新大陆”

DeepTech:你是基于怎样的判断,认为空间 AI 赛道有潜在的发展机会?

刘紫东:要回答这个问题,我想先谈谈为什么发展其他的模态不行。从商业角度来看,各大厂在文本、图像、视频等模态具有显著优势,如果发展这些传统模态,用户获取成本很高。这不是技术问题而是分发和规模的问题,实际上创业公司在结构上已经输了。

我们是从模态的角度来判断的。显然,文字、图像、视频格局基本已定,目前都属于“旧战场”。其实,每个模态都有自己的代表性 APP,每个时代也有属于自己的模态,而机会往往来自于新模态的产生。

以创立于 2016 年的抖音为例,它最厉害的是推荐算法,如果它只是做今日头条的业务,可能只比新浪、搜狐新闻好用一点,但不可能有如此强的用户感知差异,也就没有今天的体量。

抖音正是在大家聚集在浏览器、杀毒软件、弹窗、门户网站等 PC 端“战场”时,选择了一条不同的发展路径——视频模态。直到今天,它 90% 的体量仍然来自这里。我记得张一鸣当时曾说过:“不要留恋 PC 互联网旧战场,抓住移动互联网机遇。”

我觉得现在同样是到了这样一个时机,当领域都还在“卷”图像、文本、视频这些旧模态时,我们已经有了一个清晰的判断:新的空间模态里才是唯一的“新大陆”。

DeepTech:也就是说,你认为空间是继 AI 生成文本、图像、视频之后的下一个前沿。

刘紫东:是的。一种新模态的崛起离不开技术成熟的发展,这从根本上降低了内容生产和消费的门槛。就像过去拍摄视频需要扛着摄像机,拍摄和剪辑都非常麻烦。直到手机摄影录像功能普及,内容生产才变得简单、门槛大幅降低。在消费侧,手机屏幕提供了更好的观看体验,网速也提升到了 4G、5G 时代。生产和消费两端的共同作用,让视频变得又好看又容易实现,它的火爆也就成了必然。

从文字到图片、视频再到空间,每个模态带来的信息密度不一样。文字已经存在几千年了,后面才有图像。到了视频,它不仅有声音还有时间维度,能更好地描述故事。人类是倾向于更多维度的感知以及更丰富的信息层级,所以,能比视频还更高维、更加贴近现实的就是空间。与视频相比,空间天然有交互、漫游和自主性。

另一方面,刚好在最近几年,空间在内容的生产和消费生态方面也在迅速成熟和便捷。内容生产体现在 AI 制造 3D 资产和图转 3D 等成本大幅下降。从消费层面来看,虚幻引擎已服务于 3D 场景渲染。随着其画质越来越好,已经逐渐支持手机芯片,例如写实化游戏逐渐搬上移动端。从长远来看,在 Vision Pro、AR、VR 方面的布局也在迅速加快。

所以综合来看,我们得出一句“暴论”:从创业公司的视角看,空间模态可能是目前少数仍具备结构性机会的方向之一。

DeepTech:空间与传统的 3D 单体技术有怎样的不同?

刘紫东:空间与 3D 单体的技术路径不太一样。3D 单体通过一张图片就能推理还原出物体,而空间需要一系列图片才能重建。简单来说,3D 单体解决的是“单个物体长什么样”,而空间解决的是“物体如何有序摆放构成满足人类需求的场景”。从城市规划到室内设计,都无非是把东西摆来摆去的过程。

DeepTech:这个方向应该有很多潜在的商业机会,那各家大厂为何不自己做空间智能这个方向呢?

刘紫东:因为大厂在这方面丧失了两个既有的优势:一是场景和用户优势,它没有一款以 3D 空间为主题的 APP;另一方面,在技术、数据和模型算法方面也不占优势。现在,大家对于“什么是空间”还在争议中,它的技术路径不像图像、文本、算法工程那么好找,还在剧烈的波动中。所以,对大厂来说可能“一会想干,一会又放弃”,因此很难组建团队。

建筑学底层的创新和革命:另类世界模型,核心是“摆什么、怎么摆”

DeepTech:生境科技在做的事情是否可以理解为通过“空间理解+AI 生成”,来做下一代基础设施?它和现在大家高度关注的世界模型是一回事吗?

刘紫东:现在,谷歌、李飞飞、杨立昆(Yann LeCun)都在借助世界模型,来探索对物理世界的理解。谷歌做的是文生视频大模型;李飞飞的空间智能模型 Marble 致力于 3D 高斯泼渐(Gaussian Splatting);杨立昆则聚焦于更抽象的世界表征。

(来源:刘紫东)

我们正在做的事情与李飞飞的技术方向比较贴近,但属于完全不同的范式。她是从纯视觉的维度来理解空间,方向是文生图、图转空间。尽管可通过文字方式做修改,但由于链路太长,本质上属于“拿大炮打蚊子”。另外就是,视觉表皮生成的技术路线擅长换风格,但在其它任务是结构性地能力缺失。

这一点在室内空间生成方面更加明显,Marble 不仅精度较低会导致所生成的空间有些比较模糊的地方,而且无法输入足够多的限制条件。虽然其技术可以实现生成用户提出的“童话世界”等切换风格需求,但无法基于这样的需求生成空间,例如“基于三室两厅特定的布局生成空间,我的家庭是三口之家,我喜欢打麻将,爸爸喜欢打游戏”。此外,其很难做二次编辑和交互。

(来源:刘紫东)

DeepTech:除了技术的路径,生境科技在做的事情和世界模型还有哪些本质的不同呢?

刘紫东:从构建空间的叙事逻辑来看,我们也有本质的区别。空间可以分成两类:一类是由自然规律主导的空间,另一类是由人类活动主导的空间。实际上,这两类空间的形成逻辑并不完全相同。

具体而言,自然空间生成完全依赖自然规律和物理规律,但在人类的人造空间,从城市到人类的栖息地,再从城市到建筑再到室内,其生成逻辑物理定律可能只占 30%,剩下的 70% 与人类的需求密切相关。

所以,要生成从城市到室内的空间不是一个纯视觉逻辑,而是包括更多的社会心理学逻辑维度,例如功能、美学、日照采光、隐私和心理学等因素。我们只有把这些维度背后的参数特征提取出来,生成的空间才是能满足人类需求的。

可以说我们相当于创造了一个新学科,在这一理解空间的路径和技术范式上,我们目前是非常少见、甚至可以说是独特的。实际上,我们用了很多建筑学的关于人造空间的思维,然后又把它 AI 化做空间编码,这是前所未有的。可以说,我们在做的 AI 生成空间是建筑学非常底层的一次创新和革命。

我们解决的是摆放、规划和布局的问题,这个问题过去从未有人单独来研究。无论是城市还是室内的空间,所有的空间生成问题都可以拆解成两个子问题:一个是摆什么,另一个是把建筑/物品摆在哪里。

总结来说,李飞飞的空间智能生成的是一层“皮”,更关注的是整体的视觉风格;而我们认为对于人类所建造的空间,需要更专业的其他信息来补充。

DeepTech:它背后的核心逻辑是什么?

刘紫东:这个逻辑其实和推荐算法有相似之处。推荐算法面对海量内容,并根据用户此时此刻的个性化的特征——无论是人物标签、当前行为还是潜在诉求,推荐出用户最喜欢的视频或商品。

但推荐算法主要解决的是选择问题,我们在做的空间生成,不仅需要从海量 3D 资产中选择合适的物品,还要解决摆放的问题——把这些选中的物品合理地布置在空间里。

推荐算法并非抖音首创,但后者将其产品化并做到极致,从这个意义上来说,抖音推动了一个新学科的发展。我们在做的事情同样是将一种新技术的逻辑转化为成熟的产品与应用,相当于空间生成领域的“推荐算法”。

游戏是巨头争霸缝隙中的绿洲,年营收千万的 B 端生意只是“顺手做”

DeepTech:我们看到 AI 家园类游戏——森盒 SenBOX³ 在全网非常火爆,生境科技目前在主推这款游戏,有哪些因素的考虑?

刘紫东:我们的核心技术是 AI 空间生成,现在 90% 以上的精力都在做这款游戏,这也是全球第一个 AI 版《我的世界》。

(来源:刘紫东)

这个决定源于我们对创业公司类型的清醒认知:软件公司的类型涵盖社交、电商、内容,包括知乎、抖音、小红书、豆瓣等等。现在的趋势是,涉及到这三大类的业务都是巨头垄断。过去 10 年没有公司在这方面赚到钱。

软件公司的成长曲线太陡峭了:要么是无限大,要么是 0,没有中间地带,所以这些生意没得做。我们经常说,豆包都是免费的,AI ToC 软件怎么赚钱呢?但是我们发现,在软件公司内有一个例外的领域——游戏。游戏的商业市场交易很好,用户的付费意识很强。

另一方面,游戏内容与整个产业生态很好,个人游戏工作室也能赚到一点钱,非常适合创业。它不是一家独大,它的上限也够高,比如既有像大家都熟悉的王者荣耀、吃鸡这些游戏,也有大量的小游戏。它就像个热带雨林一样,有大象、长颈鹿、老虎,还有蚂蚁。所以我们盘算下来,要做软件只能做游戏,做其他的都是死路。

图丨由生境科技空间智能技术生成的“梦想卧室”(来源:刘紫东)

DeepTech:那剩下 10% 的精力,公司还在发展哪些业务呢?

刘紫东:我们还在做两个方向。一是通过具身智能机器人数据合成平台 SimHub 提供海量的家庭数据,训练机器人对空间智能的感知能力。目前,我们已经与一些机器人厂商,包括扫地机器人厂商合作。但这个市场规模相对有限,而且我们只是批量造数据,不涉及定制化服务。我觉得造数据就像挖石油一样,造好了有人愿意买我就卖一点。

二是 Sengine API,我们与一些大型电商平台合作,通过 API 对接,包括国内外的头部企业松下、Ashley、万华等等。

我们提出了一个概念叫“空间购物车”。过去用户将目标商品放入购物车,并不知道这商品买回家是否合适,下单后可能还要退货。我们的理念是:将你家的毛坯房模型用 AI 空间生成技术做出来,然后用户把相关商品添加到空间购物车后,就可以把它们摆到你家。这样就能一目了然地看到这些东西摆在你家是什么样子、搭得好不好看。

这两个方向用的也都是我们 AI 生成空间的能力,但其实这两件事都是顺手做的,我们最核心的、最好玩的仍然是自己开发的这款游戏。

DeepTech:其实相当于公司在 B 端和 C 端双线作战,这种路径是阶段性的策略,还是长期的并行路线呢?

刘紫东:我们还是以 C 端为主。实际上,新一代的 AI 公司做 B 端和过去传统意义上的 B 端已经有所不同。上一代做 SaaS 的更多是定制开发的软件,大部分能力没法复用。比如以设计平台酷家乐为代表的公司,如果它做 B 端生意,就会陷入无止境的定制开发。

而现在的模型公司,尤其是像我们这种有自己独特模型能力、具有商业变现能力的公司来说,做 B 端和做 C 端可以共享一套模型能力,我们按次数收费,定制化的程度非常低,更多体现在模型能力的复用上。对于我们目前的产品和模型能力来说,B 端业务只是顺手做的,尽管服务的是一些头部的大客户但我自己不太 care,我主要还是关心这款游戏。

DeepTech:发展数据合成平台,是因为生境在数据方面具有优势,还是说在某些方面具有稀缺性呢?

刘紫东:我觉得与其说数据优势,不如说我们理解数据的维度和别人不一样。比如,如果在清朝时挖到了油田并不会有太广泛的影响力,因为那时候还没有汽车。我们擅长的是,更懂得如何充分利用数据背后的信息以及提取特征的维度。

另外,有些创业公司会觉得拥有 1 万套自己的独家数据非常厉害。但我并不这样认为,独家数据的量太少了。如果要训练一个大的空间通用智能,一定是从全球互联网上的亿级、百亿级数据里来学习。

所以问题的关键在于,如何利用互联网上海量的公共资源。任何私有数据库都无法与互联网的公共数据库相媲美,关键在于如何理解它以及如何对其学习。

我们的创新点一方面是我们理解数据的维度更多,另一方面是我们训练了一种多模态对齐的方法,通过看图片学习空间设计,有点类似建筑师:不用走遍全世界,而是通过看图片在脑海里补出建筑整体的形象。

DeepTech:刚才你提到在提取特征数据的维度上,可能和别人做的不太一样。你能具体说说这些特征在哪些方面比较不一样吗?

刘紫东:我们关注的是一些更具体的内容,比如空间是否走得通顺、利用率高不高、使用起来方不方便、感受起来舒不舒服、采光好不好、隐私有没有得到注意等等。

从范式上来说,我觉得大致可以分成两类。一类是在研究世界本源的科学研究,比如研究锂电池、自动驾驶、火箭发射。还有一类以人为中心的研究,比如抖音研究推荐算法,它并没有标准答案,只要数据好、能把握时尚趋势和潮流即可。从这个角度看,我们更多做的是抖音这一类的研究。我们的目标是满足更多用户,让他们更开心、更舒服。

DeepTech:具身智能现在是比较火热的领域,大家也都在讨论这个话题。除了我们刚谈到的空间智能为具身训练数据,有没有可能帮助它做更多的事情?

刘紫东:我觉得这方面可以参考自动驾驶,它可以理解成是道路级的通用空间智能。但应用场景到了室内,有些情况变得不一样。首先,数据采集变得更难、更复杂。因为道路至少可以开一辆车,装个摄像头就能像行车记录仪一样把数据录入下来。

但是,室内场景下没有这样的机器人。现在大部分扫地机器人的精度很低,而且它的高度太低,不能对整个空间做全面扫描,而且还涉及到隐私问题。此外,室内的情况比道路更复杂。道路的物体种类较少,例如大车、小车、行人、摩托车、斑马线等。而室内的复杂性体现在,不仅物品是 3D 的,还可能各角度都有。

另一方面,机器人的任务更复杂。自动驾驶主要是躲避问题,但是对于室内机器人来说,它需要主动操作和理解空间。举个例子,在家里找 U 盘,这个事情不仅仅是空间扫描的问题。

更多时候它可能是藏在某个抽屉里,需要先推理出来,U 盘大概率会放在哪个房间,然后去卧室或客厅搜索的时候,要知道抽屉可以拉开,如果翻一下没找到下一步应该去哪里找。所以,这件事情需要对空间本身有很深层次的理解。

从这方面来看,它可能比自动驾驶还难。因此,当把这些事情想通后,我们觉得未来机器人真的要走进家庭是个长期的目标,至少还需要十年时间。对我们来说,它一定是必经之路。刚才提到的三个难点卡在大家面前,所以领域内数据稀缺。而我们刚好是造数据的,所以我们技术的作用就显得非常重要。

DeepTech:也就是说,相当于可以帮助具身智能领域解决其未完全解决的问题。

刘紫东:是的。现在具身智能领域看起来很热闹,其实解决的问题还相对有限。我们把机器人归纳为三大阶段:

第一阶段是解决小脑的运动问题,比如在后空翻、打拳击、跑步时,保持机器人自己不摔倒,这个问题其实已经基本解决了。大概十年前美国通过强化学习和物理仿真做了一套系统,之后有了现在的相关技术。

第二个阶段解决的是操作问题,比如机器人站在台面上叠衣服、倒水,或拿苹果、拿杯子等任务。这也是最近两年最火的话题,V2A(Voice to Action,语音到行动)对机器人说一段话,通过环境感知后执行任务。但是,这样的环境感知和执行其实空间智能很弱,它基本上是在固定的、单一的场景执行比较固定的任务。

这与找 U 盘、端茶递水,或在商场里找厕所这类的任务根本不是一回事。实际上,这些复杂的空间任务就是第三阶段要解决的问题——主动理解空间智能,它并不是纯视觉理解的问题。

(来源:刘紫东)

DeepTech:所以,相当于现在还没有正式地进入到训练空间智能阶段?

刘紫东:可以这么说。现在的机器人训练一般是在工厂或样板间、实验室,可能 100 平米、200 平米。让一个机器人在里面走来走去,不停地做小的模型训练。所以它没有泛化能力,但解决特定场景已经足够用。所以,现在还是初步的空间智能,整个行业还没有正式地开展这方面的工作。

研发效率即技术壁垒,不惧“后来者”

DeepTech:刚才我们也谈到了,尽管大型公司有资源优势,但生境形成了和他们差异化的发展方向。那么,公司在这个领域有哪些技术壁垒,或者说在保持技术原创性方面做了哪些努力或尝试呢?

刘紫东:我并不认为世界上有什么坚不可摧的技术壁垒。我们过去的叙事逻辑是,什么东西是别人永远都实现不了,只有我能实现的。但现在,我们对技术的理解和认知也在不断加深。我认为所谓的技术壁垒,本质上就是你的研发效率。

如果你的研发效率比别人高 10 倍,那客观上就形成了技术壁垒,这是一个永无止境的赛跑。这种效率体现在成本和时间两个方面:如果用更少的资源、更短的时间走得更前,那就会保持领先。

所以,技术壁垒的本质还是企业的研发效率。这取决于整个研发架构的设计、系统的优化以及团队的文化、人才的选拔机制、招聘机制和晋升机制,它是由综合的因素决定的。我们的技术端是绝对原创的,所以也不惧怕后来者借鉴,当别人借鉴的速度还没有我们原创的速度快的时候,壁垒就形成了。

从结果上来看,我们并不是世界上第一家做空间生成的公司。实际上在我们之前早几年,像酷家乐、三维家、居然设计家(Homestyler)、Autodesk、英伟达都曾想过做空间摆放。另一方面,学界对这个方向的研究已有几十年了,最近几年也非常火。我们是用最短的时间,用最低的成本走在了最前面,证明了自己的执行力。

DeepTech:生境在做的事情其实是一个全新的角度,包括我们刚才提到的创造了一个新 的学科。这和你在本科期间从事建筑方面的研究学习是不是也有非常密切的关系?

刘紫东:对,其中最重要的是把人类的空间理解成功能,这并不是常识。其实在过去几千年,建筑学也不是这么来看待空间的,甚至我在刚开始学习建筑学的时候也没有空间的概念。但是在 100 年前,建筑学有一次革命,现代主义建筑号召要“以人为本”。也就是说,从城市规划到室内设计,再到家庭设计都是按照人的需求进行设计。

现在主流的处理空间的方法,还是传统的自然语言处理(NLP)和计算机视觉(CV)方式的延伸。基于 CV 的 3D 建模更擅长的是单体生成,这方面并没有太多的技术稀缺性。我们公司也有很好的图转 3D 单体的模型,现在仓库里面已经有 100 万个单体了。

但是问题的关键在于,如何针对用户特定的需求,从这个仓库中选择出来合适的商品,综合各种因素,摆放到合适的位置。本科期间,我们做了大量关于这方面能力的建筑学训练和认知升维。这也是为什么我们现在这么稀缺和独特,能把这个事情落地的原因。

DeepTech:决定成立公司做创业这件事,是你在德州大学奥斯汀分校读博期间发生的。是怎样的契机让你觉得时机非常成熟了,已经不能再等而是必须立刻休学去做这件事?

刘紫东:我觉得是两方面。一方面是从宏观层面来说,与 60 后、70 后、80 后相比,我们 90 后、95 后这一代人是被时代抛弃掉的一代。学历红利已不再,时代没有给我们太多机会,所以我是很绝望地活着的。对我来说走创业这条路是“没得选”,我非常珍惜技术创新的机会,当机会来了一定要抓住。

从微观上来说,当时我在国外通过一些创新项目和比赛已经小有名气。2022 年底,随着 ChatGPT 的火爆,有些国内外的投资人认为我们做 AI 生成空间挺好玩,就联系到我。所以,我几乎没有什么迟疑就休学了,然后于 2023 年 4 月在深圳成立了这家公司。

DeepTech:你本身是 95 后,团队也是一支年轻的团队,你是如何管理团队的呢?

刘紫东:作为公司的 CEO,我和整个团队的相处模式会随着公司的情况的发展而有所变化。公司刚开始成立时只有几个人、十几个人,去年发展到 30 多人,现在已经有 70 多人了。我更倾向于直接管理,我觉得减少中间层级,可以降低沟通成本和提升效率。但是这需要对管理者和执行者都有更高的综合素质。这确实是一段挺奇妙的人生经历。我很难描述现在的状态,它有点来得太快了,有点像拔苗助长的感觉。我其实也经常陷入一种反思,感觉一切都挺不可思议的。

DeepTech:空间生成是一个新的领域,它又涉及到很多学科交叉,你是如何管理和建设这支团队的呢?

刘紫东:主要以培养为主,因为 AI 领域变化很快。我们的团队成员不一定非得是对口的,可能只是大方向相近,然后我们再精准培养、逐步上手。尤其是比较前沿的方向或没有标准答案的领域,我们更加倾向于招学生,然后通过校企合作来进行培养。整体上来说,公司在 3D 空间内容生成的核心技术壁垒都是我们自己创造出来的。在这方面,我们觉得智商和意愿比直接经验高很多倍。

DeepTech:那目前公司的发展状态和你最初预设的相比,是按照原来预设的来发展的吗?

刘紫东:一部分比预想的更慢,一部分则更快。我们的产品研发和赚钱进度比我们想象中要慢,因为我们越做越发现事情的复杂性。但另一方面,我们也更有信心,因为我们踩过的坑,后面进入到这个领域的人还得再踩一遍。所以,研发和赚钱的进度比我们预期的更慢,但融资的进度、团队规模的扩张速度比我们预期中更快。

DeepTech:那在进展慢的方面会有压力吗?

刘紫东:那倒没有,和想象中的进度不太一样是一件很正常的事情。虽然我们有些地方慢一点,但整体上还是一个非常能打的、欣欣向荣的团队。我们刚开始觉得一年能做出来的事情,现在做了两年多,但别人做了 10 年也没做出来。并不是有一家竞品公司做出来了产品,我们没做出来,现在的情况是,我们进行了世界上目前非常少见的、产品化程度最高的尝试,所以我还是比较骄傲的。

空间 AI 的终极外延:不仅是工具,更是元宇宙的商业生态

DeepTech:最后请帮我们畅想一下,随着技术的发展和团队逐渐走上轨道,在与用户的交互方式方面可能会出现哪些颠覆性的改变?

刘紫东:我觉得这个会千差万别。首先,游戏领域会在全球范围内出现的第一个类似现在抖音地位的、基于空间模态的娱乐内容社交平台。它既有娱乐属性,也有社交属性。最终可能是一个平台,也可能是两个平台。

人们会在这个平台上做几件事情:

第一,成为一个风靡全球的、时尚和有活力的游戏内容社区,以青少年群体为主,然后向二三十岁的中青年群体蔓延。

第二,演化为包含实体经济的元宇宙电商平台,类似于室内版的“谷歌地球(Google Earth)”,人们可以在该平台社交、购物,甚至直播等各种活动。用户可以通过这个平台,足不出户地去全球各地的家庭做客。既有个体户在这个元宇宙平台上开店售卖商品,也有大连锁店在上面开 Shopping Mall。

当然,我们还有一个更近期的目标,所有与设计和空间改造相关的都可以通过我们的平台作为流量入口。比如买画、地毯、床单、窗帘、摆件、花草……甚至布置儿童房等。

它们很可能是同步进行的。首先它是款游戏,然后会进行现实的镜像。之后会有实际的需求在平台产生,接下来就会有买卖、有交易,再往后就会有商家在上面开店。

(来源:刘紫东)

DeepTech:所以,也可以说它是虚拟现实之间真正的元宇宙平台?

刘紫东:元宇宙这个词在五年前已经被用滥了,它之所以没发展起来原因还是卡在了技术问题。过去的元宇宙其实都是用雇佣大量场景地编手工建模搭建出来的场景,那不是真正的元宇宙。随着空间模态技术的成熟,每个人可以便捷地把自己家复制到网上、创造 3D 资产以及做渲染,所以现在我们觉得真正的元宇宙时机到来了。

DeepTech:总结来说,AI 生成空间相当于改变了生产关系,也就是把之前特别高的门槛或者难以做到的事情,现在做成普通用户人人都能参与、能实现的一种工具。

刘紫东:对,这是其中的一个方面。我们通过 AI 让更多用户能够体验到个性化设计的乐趣,相当于帮他们跨越了一个维度,显著降低了技术的实现门槛。

但其实我们做的事情并不只是提供了一个工具那么简单,而是提供了一种可以激发大规模创意以及互动的基础能力。一种已经被验证的生态型公司的经典路径是:商业来自于流量,流量来自于内容,内容来自于工具。所以,当我们有了一个好工具之后,它会产生好的内容,好的内容又会吸引更多用户,而当平台聚集了海量用户后,各种商业机会就都来了。

如果说过去十年,工具型平台的终点是内容社区,那么空间 AI 的终点,很可能是一个涵盖内容社区、电商和社交的、真实世界的数字镜像与商业生态。

运营/排版:何晨龙