20年最大更新！英伟达CUDA 13.1发布：表面降门槛，实际挖深海沟

本文仅在今日头条发布，谢绝转载

英伟达周末放了个大招，CUDA 13.1来了，黄仁勋说这是20年最大升级。

按给出来的说法，能让大家用15行Python代码就能干过去200行C++的活儿，门槛低到数据科学家都能写GPU内核。

不过这事儿很有意思，一个靠卖铲子起家的公司，突然告诉你挖矿不用练肌肉了，摇两下就行，这到底是图什么呢？

过去二十年，CUDA编程就是个体力活。你得手动管理线程索引、线程块、共享内存布局、线程同步，想用上Tensor Core这种高级货？先把自己修炼成HPC老炮儿再说。

这就像手动挡赛车，每个档位、每次离合都得自己抠，抠好了你牛逼，抠不好车直接散架。

现在CUDA Tile告诉你，别费劲了，把数据当成瓦片往那一摆，写几行Python，剩下的编译器帮你搭建。

听起来像从手动挡换成了自动驾驶，但问题就在这，方向盘看似在你手里，其实方向盘连着的是英伟达的云端服务器。

芯片界传奇人物Jim Keller第一时间跳出来质问：英伟达是不是亲手终结了自己的护城河？

这老哥设计过AMD Zen、苹果A系列芯片，一眼就看穿本质。

过去CUDA的护城河是什么？是几百万程序员花了十几年攒下的代码墙，是深入骨髓的SIMT编程思维惯性，是AMD和Intel做梦都想复制的生态粘性。

现在倒好，英伟达自己把墙拆了，换成了一套叫Tile IR的虚拟指令集。

15行Python vs 200行C++，性能还能打平，一方面看，这是技术革命，另一方面看，这是商业上的请君入瓮。

为什么这么说？因为你用Python写得越爽，就被锁得越死。

Tile IR这套东西，说白了就是英伟达在硬件和软件之间又加了一层“中间层”，而且这层是开源的。

是不是很讽刺？开源不是为了让你白嫖，是为了让所有人都来我的地盘上盖房子。

再说一遍，这不是自毁长城，这是挖护城河。

英伟达在Blackwell架构上把Tensor Core、张量内存加速器这些硬件全部抽象化，你写代码的时候感觉不到它们的存在。听起来很爽对吧？但代价是你的代码只能在英伟达的GPU上跑，而且必须是Blackwell及以后的架构。

目前CUDA Tile仅支持计算能力10。x和12。x的Blackwell系列，老卡？对不起，您继续手写CUDA C++去。

更狠的是，他们还在13.1里塞进了Green Context，能精细划分GPU资源，把SM切给不同任务。这技术一出，云服务商和AI公司想跑混合负载？行啊，但得按英伟达的规矩来，资源隔离得越细，迁移成本就越高。

这时候肯定有人要说了，人家性能提升是真金白银啊，MoE场景下Grouped GEMM API能加速4倍，cuSOLVER批处理特征分解在RTX PRO 6000上比L40S快2倍。

没错，数字是真漂亮。但你想过没有，这些优化全是给Blackwell量身定制的，老架构连汤都喝不上。英伟达不是在卖软件，他是在用软件当诱饵，逼着你换硬件。你以为你在享受技术红利，其实你在为下一代GPU的预售券买单。

其实道理我们日常生活中也经常接触，厂商越送你“免费”的东西，用爽了以后，你换牌子的成本就越高。

英伟达敢把门槛降到地板价，是因为他已经把天花板建到大气层外了。Tile IR表面上是让你轻松，实际上是让你离不开。你今天图省事写的Python内核，三年后想迁移到国产GPU上？对不起，Tile IR这层抽象，竞争对手得花几年时间才能追平。而这几年里，你的团队已经习惯了Python的丝滑，再让他们回去写C++？人都跑光了。

这就是为什么我说英伟达在下一盘大棋。

自动驾驶的终点，从来不是让你自由驰骋，而是让你习惯不用方向盘。

当所有开发者都习惯了Python写内核，当所有框架都基于Tile IR构建，当所有AI模型都依赖Blackwell的专属优化，英伟达就可以坐在总部，微笑着调整“自动驾驶”的参数。

你想反抗？可以啊，先把你那几百万行Python代码，一行行翻译成PTX汇编再说。

所以在一些技术大牛感慨技术升级的时候，需要换个角度，从商业视角看看。

因为商业世界最残酷也最好用的真相，就是所有「为你好」的便利，暗中都标好了锁喉的价格。

黄仁勋说这是他20年来最大的进步，确实没撒谎，只不过进步的是英伟达未来的股价。

各位大佬觉得呢？

云霞资讯网

20年最大更新！英伟达CUDA 13.1发布：表面降门槛，实际挖深海沟

热门分类