整个6月,全球科技界最受关注的事件,非Meta宣布收购ScaleAI49%的股权莫属。
如果不是担心美国越来越严格的反垄断法,这个股权占比或许更高。虽然没有绝对控股,但Meta志在掌控,所以施以“双重保险”——股权和人,都收入囊中。
ScaleAI的华裔创始人兼CEOAlexandrWang将进入Meta工作,领导Meta的AI业务。
ScaleAI创始人亚历山大·王/图源:视觉中国
收购价格为143亿美元(ScaleAI估值为290亿美元),约合人民币1030亿,看似属于巨额范畴,实则不然。在财大气粗的科技界,这根本不算多。
比如,2023年,微软和动视暴雪收购案,交易金额达690亿美元。在Meta过去的收购案中,ScaleAI也只能排到第二。2014年,Meta于以190亿美元收购WhatsApp。考虑到两桩案子之间长达11年的通胀因素,当年收购WhatsApp的交易规模,要大得多。
这桩案子最被关注的点,显然不在于交易规模,也不在于28岁华裔创始人的白手起家传奇故事,而是它意味着全球科技界AI突破方向,正在发生一次大转变。
以前,超级巨星是OpenAI和英伟达,在各自赛道,它们如入无人之境;而在这次转变之后,所有人都注定不会轻松。
01
数据很重要,但最穷
关于ScaleAI的报道汗牛充栋,外界都知道这家公司的主营业务是“数据标注”。
到底什么是数据标注?以自动驾驶业务为例,用一个简单场景来说明:自动驾驶AI模型需要用数据来训练,但厂商采集车采集的数据主要是道路影像,而现有技术条件下,AI无法直接读取影像,因此就需要对影像进行标注。
数据标注,是指为图像、文本、视频或音频等原始数据添加结构化信息,以便机器学习模型能够理解和学习这些数据的过程/图源:Shaip
原始影像经处理,变成三维的点云数据,标注就可以开始了。关键一步是标注语义信息,要让AI能识别这些信息,才能读懂图像。标注会很细,比如有车道线标注、斑马线标注、红绿灯标注等。要知道,在很多技术条件平平的数据标注机构,标注是一帧一帧地完成的,背后是海量的人工。
“有多少智能,就有多少人工”,这句AI行业著名的话,指的就是人工数据标注。于是,数据标注领域产生了蔚为壮观的外包现象,无论中外。
总部位于北上广深,服务于本土AI独角兽的中国数据公司们,将工作层层转包,最后交给了中西部三四线城市和县城的劳动者手中。无论是暂时没有好工作的黄毛青年,还是寻求副业的温吞中年人,只要眼神好,精力旺,坐得住,懂得用键盘和鼠标拉框输入就行。生产工具是一台电脑。
作为“国际大厂”的ScaleAI,在外包环节自然会更加国际化。
说到信息产业外包,人们会想到印度。但随着印度经济的发展,尤其是外资涌入推高资产价格之后,印度人钱包鼓了,接受外包的价格也越来越高了。而且,拉框标注这种活儿,技术含量比写代码还低,时薪也更低,毕业于各种理工学院的印度年轻人现在还真不一定看得上。
因此,ScaleAI的外包劳动力网络被拓展到了菲律宾、委内瑞拉,还有非洲的肯尼亚。
菲律宾政府估计全国共有200万人从事数据标注行业,这些工人已成为菲律宾网吧的常客
肯尼亚在哪里?这是一个东非国家,5244万人,有75%的人口在35岁以下。重要的是,作为英国在非洲的殖民地,英语是官方语言之一,受过基础教育的年轻人,英语都还马马虎虎。实际上,早在承接ScaleAI的劳务外包之前,肯尼亚就已经在学术界如雷贯耳。它是全球闻名的“论文工厂”,这里的年轻人经常利用网络,远程帮助全球的莘莘学子搞论文。
由于标注工人的薪水太低和工时过长,劳工组织和一些政府部门准备找ScaleAI的麻烦,但事情后来不了了之。
ScaleAI的众包平台Romotasks上有超过24万名注册工人,Romotasks的宣传语为“在家在线挣美元”,这吸引了不少第三世界国家的工人/图源:DuckDuckGo
从非洲城乡结合部的标注员,到硅谷的千亿美元富豪;从让95%的岗位消失,到给你一个人形机器人的女朋友,AI浪潮影响着所有阶层的地球人,席卷着经济社会的方方面面。它好像是一个包罗万象,充满混沌的“筐”。
实际上,AI作为一个产业,三条支柱基本上可以把所有我们听说过的企业和产品都清晰地分类,并纳入其中。
一是算法,指向了应用端的公司和他们的产品,OpenAI、DeepMind、deepseek之类;
二是算力,指向了硬件供应商,一家独大的英伟达,以及正在崛起的博通等;
三是数据,ScaleAI是数据服务商中最著名的一家,它的对手还有Turing、Labelbox和Handshake等。
赛道不同,人生的富贵程度便天差地别。在算法领域,3月底,OpenAI宣布新一轮融资时,估值已达到3000亿美元,是ScaleAI的10倍。未来,随着头部效应继续放大,估值是否上不封顶,没人知道。在算力环节,英伟达市值已经3.5万亿美元,是ScaleAI的100百倍以上。即使是博通,市值也接近了1.2万亿美元,是ScaleAI的40多倍。
当然,这些公司的体量本不是一个数量级,无论根据哪种估值方法,存在巨大市值差异实属正常。但差异大到如此程度,也说明AI的数据环节相对于算法和算力,可能存在一些天然缺陷。
ScaleAI的股东们,在公司如日中天的时候,愿意一下子卖掉49%的股权,不是没有原因。
02
不是炼油厂,是发动机
AI概念浪潮中,三家公司陆续火了。算法环节的OpenAI最先火了一把,然后是算力之王的英伟达,最后才是这家搞数据、体量小得多的ScaleAI。
数据公司远比前面两类缺乏想象力。
AI概念浪潮中,三家公司陆续火了,而数据公司远比前面两类缺乏想象力
一是,它无法像互联网公司(算法公司更类似于互联网)那样,实现边际成本几乎为零的扩张,无法赢者通吃。目前,在算法环节的独角兽中,OpenAI出现断崖式领先。第二名Anthropic拥有615亿美元的估值,但只有OpenAI3000亿估值的五分之一。第一名和第二名的差距如此之大,说明了这个领域的终极竞赛,最终可能有点像搜索引擎。
二是,它不像硬件厂商那样有技术壁垒。可以这样说,只要不发生算力硬件革命,英伟达的技术壁垒还能持续很久。但ScaleAI和竞争对手之间,很难说有什么本质差异。无论是分布在全球的24万人工标注员,还是中台的软件平台,可能也谈不上什么不可替代的核心竞争力。因此,数据标注市场必然是一个分割的市场,对手提供差不多的服务,大家都有饭吃,但大家都不轻松。因此,在合适的时机卖出好价格,是一种优选。
但ScaleAI收购案的历史性意义却不容被低估。它不只是科技大厂之间的竞争,比如什么Meta落后,奋起直追之类,而是宣告AI浪潮的突破方向出现了逆转——正在从纵向分工细化,走向一体化融合的时代,算力、算法和数据将更加密切地连为一体。
数据是AI时代的石油,数据服务商是“炼油厂”,经过“炼油厂”精炼的数据,才能被AI这台发动机使用。但实际上,随着AI应用不断走向专业化,数据服务商很可能成为发动机的一部分。
这就好比:汽油不是直接流进发动机燃烧的,而是要先和空气混合,形成燃气混合物,喷射到燃烧室,发动机才进行燃烧,实现高效的能量转化。处理和标注后的数据,AI才可以直接读取,正类似于燃气混合物之于汽车发动机。在这个意义上讲,数据处理环节不再是外部“炼油厂”,而本就是发动机的一部分。
Meta宣布收购Scale之后,谷歌、微软和xAI等曾经的客户,已经不再把ScaleAI看作中立、独立的“炼油厂”,有的将和ScaleAI终止合作,有的表示将削减订单。原因不言自明:即便有数据脱敏和客户隐私防火墙,即便Meta所收购股份为非投票股份,但谁能100%保证商业机密的万无一失?
ScaleAI正在成为Meta这台发动机的一部分。其他AI巨头是否会继续信任其他数据商,并保证它们不在未来某一天同样被竞争对手收购,也被打上了问号。可以预见,巨头们将可能强化对数据供应的独占性,推动数据环节重构,将数据和算法进行更深度的融合。
当数据、算法和算力三大支柱融合度不断跃升,很多成见就会被解构。Deepseek通过对算法架构的创新,提升了给定算力的效率,用2000块芯片就完成了被认为必须是万卡集群才能干成的运算。于是,“算力即权力”开始被部分地怀疑。那时候,英伟达市值跌幅17%,蒸发近6000亿美元。
DeepSeek新版V3模型的百科知识(MMLU-Pro,GPQA)、数学(MATH-500,AIME2024)和代码任务(LiveCodeBench)表现均有提升
商业世界有两种逻辑。
资本的逻辑是分拆,把一家公司或一个产业,拆成越来越多的板块或环节,在每个板块和环节都打造独角兽,让每个地方都有一个英伟达或OpenAI,分别卖出去,才能实现最可观的资本利得。
产业的逻辑是整合,提升产业链的纵向协同,你中有我,我中有你,更能节省资源,提升效率,就像Deepseek用算法节省算力,Meta希望用数据独角兽的技能,重构自己的广告分发算法集群一样。
Meta被称为是科技界的“收购大王”。2022年底,Meta股价跌到谷底,一度只有90多美元,现在已突破690美元。在美股七姐妹中,Meta超过7倍的涨幅,仅次于英伟达。市场一直都很相信扎克伯格的洞察力,现在他才41岁。
Meta创始人马克·扎克伯格/图源:视觉中国
AlexandrWang也才28岁。两人都是热衷打造个人品牌,爱出风头的性格,一个公司同时有两颗星星在发光,并不是容易的事情。
他们能在一起共事多久,已不是重点。重点是,AI的风向变了。
转自:南风窗