云霞资讯网

20年最大更新!英伟达CUDA 13.1发布:表面降门槛,实际挖深海沟

本文仅在今日头条发布,谢绝转载英伟达周末放了个大招,CUDA 13.1来了,黄仁勋说这是20年最大升级。按给出来的说法,

本文仅在今日头条发布,谢绝转载

英伟达周末放了个大招,CUDA 13.1来了,黄仁勋说这是20年最大升级。

按给出来的说法,能让大家用15行Python代码就能干过去200行C++的活儿,门槛低到数据科学家都能写GPU内核。

不过这事儿很有意思,一个靠卖铲子起家的公司,突然告诉你挖矿不用练肌肉了,摇两下就行,这到底是图什么呢?

过去二十年,CUDA编程就是个体力活。你得手动管理线程索引、线程块、共享内存布局、线程同步,想用上Tensor Core这种高级货?先把自己修炼成HPC老炮儿再说。

这就像手动挡赛车,每个档位、每次离合都得自己抠,抠好了你牛逼,抠不好车直接散架。

现在CUDA Tile告诉你,别费劲了,把数据当成瓦片往那一摆,写几行Python,剩下的编译器帮你搭建。

听起来像从手动挡换成了自动驾驶,但问题就在这,方向盘看似在你手里,其实方向盘连着的是英伟达的云端服务器。

芯片界传奇人物Jim Keller第一时间跳出来质问:英伟达是不是亲手终结了自己的护城河?

这老哥设计过AMD Zen、苹果A系列芯片,一眼就看穿本质。

过去CUDA的护城河是什么?是几百万程序员花了十几年攒下的代码墙,是深入骨髓的SIMT编程思维惯性,是AMD和Intel做梦都想复制的生态粘性。

现在倒好,英伟达自己把墙拆了,换成了一套叫Tile IR的虚拟指令集。

15行Python vs 200行C++,性能还能打平,一方面看,这是技术革命,另一方面看,这是商业上的请君入瓮。

为什么这么说?因为你用Python写得越爽,就被锁得越死。

Tile IR这套东西,说白了就是英伟达在硬件和软件之间又加了一层“中间层”,而且这层是开源的。

是不是很讽刺?开源不是为了让你白嫖,是为了让所有人都来我的地盘上盖房子。

再说一遍,这不是自毁长城,这是挖护城河。

英伟达在Blackwell架构上把Tensor Core、张量内存加速器这些硬件全部抽象化,你写代码的时候感觉不到它们的存在。听起来很爽对吧?但代价是你的代码只能在英伟达的GPU上跑,而且必须是Blackwell及以后的架构。

目前CUDA Tile仅支持计算能力10。x和12。x的Blackwell系列,老卡?对不起,您继续手写CUDA C++去。

更狠的是,他们还在13.1里塞进了Green Context,能精细划分GPU资源,把SM切给不同任务。这技术一出,云服务商和AI公司想跑混合负载?行啊,但得按英伟达的规矩来,资源隔离得越细,迁移成本就越高。

这时候肯定有人要说了,人家性能提升是真金白银啊,MoE场景下Grouped GEMM API能加速4倍,cuSOLVER批处理特征分解在RTX PRO 6000上比L40S快2倍。

没错,数字是真漂亮。但你想过没有,这些优化全是给Blackwell量身定制的,老架构连汤都喝不上。英伟达不是在卖软件,他是在用软件当诱饵,逼着你换硬件。你以为你在享受技术红利,其实你在为下一代GPU的预售券买单。

其实道理我们日常生活中也经常接触,厂商越送你“免费”的东西,用爽了以后,你换牌子的成本就越高。

英伟达敢把门槛降到地板价,是因为他已经把天花板建到大气层外了。Tile IR表面上是让你轻松,实际上是让你离不开。你今天图省事写的Python内核,三年后想迁移到国产GPU上?对不起,Tile IR这层抽象,竞争对手得花几年时间才能追平。而这几年里,你的团队已经习惯了Python的丝滑,再让他们回去写C++?人都跑光了。

这就是为什么我说英伟达在下一盘大棋。

自动驾驶的终点,从来不是让你自由驰骋,而是让你习惯不用方向盘。

当所有开发者都习惯了Python写内核,当所有框架都基于Tile IR构建,当所有AI模型都依赖Blackwell的专属优化,英伟达就可以坐在总部,微笑着调整“自动驾驶”的参数。

你想反抗?可以啊,先把你那几百万行Python代码,一行行翻译成PTX汇编再说。

所以在一些技术大牛感慨技术升级的时候,需要换个角度,从商业视角看看。

因为商业世界最残酷也最好用的真相,就是所有「为你好」的便利,暗中都标好了锁喉的价格。

黄仁勋说这是他20年来最大的进步,确实没撒谎,只不过进步的是英伟达未来的股价。

各位大佬觉得呢?