AI 领域“氢弹级”突破!DeepSeek只是开胃菜?国产LPU惊艳世界
导读:AI 领域“氢弹级”突破!DeepSeek只是开胃菜?国产LPU惊艳世界
当 DeepSeek-R1 惊艳亮相,华尔街曾一度陷入短暂的恐慌。然而,资本巨头们很快便达成了共识:“即便模型效率有所提升,DeepSeek 以三十分之一的成本逼近 GPT-4 的性能,AI 竞赛仍需要海量英伟达 GPU 来支撑算力基座,此项技术恐怕只是昙花一现。”
然而就在近日,企业“无问芯穹”宣称,LPU(语言处理单元)取得了重大突破,单卡即可驱动 Llama2-70B 模型,实现每秒 300token 的推理速度,能耗仅为英伟达 H100 的十分之一。
而搭载 LPU 的 DeepSeek-R1 同样表现出色,在高频交易中,响应时间低至 0.3 毫秒,助力某头部量化基金狂揽 2.3 亿美元。他们未曾想到,当下工程师仅仅凭借一枚指甲盖大小的 LPU,就打破了西方的幻想!
01 LPU研发,终结GPU的霸权
AI 产业被行业内公认为“吞金兽”,不论是前期的数据投喂、算力支持,还是后期的模型迭代以及设备维护,皆需要耗费大量的资金。
即便是月活达 6 亿的 ChatGPT,在收取每月 20 美元的费用之后,2024 年的亏损仍超过 80 亿美元,平均每 11 个月便需进行一次融资。
DeepSeek 虽通过算法优化将训练成本压低至二十分之一,但仍需部署 2000 块 H800,成本高达上百万之多。而且在国内,一张普通的 RTX4090 显卡,其市场价就在 2 万元以上,如此高昂的算力成本,对于多数企业而言,依旧难以承受。
如今,LPU 以惊天动地之势,直接打破了这一困局。借由时序指令集与 SRAM 内存的深度融合,一举解决了困扰行业长达十年的“内存墙”难题。实测表明,单块 LPU 运行 70B 大模型时,推理速度是 H100 的 10 倍,而功耗仅为其五分之一。
更为关键的是,LPU 只需采用 14nm 成熟工艺便能实现千亿参数推理,这意味着直接避开了 7nm 先进制程。据业内人士的估算,倘若 LPU 得以全面普及,AI 推理成本将会再度降低 90%,未来家用显卡运行千亿参数大模型将不再是遥不可及之事。
02 正在成为行业“破壁”者
LPU 的突破并非个例,在长期被西方生科企垄断的领域,中国科研团队同样打了一场极为出色的翻身仗。如今,LPU 采用 14nm 工艺绕开了西方制程,当 LPU 使 AI 推理成本下降 90%,国产产品以不到千元的定价打破了美产的暴利局面……两者共同诠释着科技“既要追求尖端突破,更要注重民生普惠”的发展理念。
03 成本骤降,LPU 重新制定规则?
当 LPU 以 14nm 工艺实现千亿大模型单卡推理时,硅谷突然惊觉——LPU 的横空出世,正在引发一场势如破竹的产业革命。这个曾被视为边缘技术的赛道,竟也隐藏着颠覆算力的密码。
如今,传统内存巨头 SK 海力士出货量同比下降 19.3%,这些曾经备受追捧的科技公司,都开始感受到逐渐被淘汰的压力。随后,LPU 企业 Groq 紧急吸纳沙特 15 亿美元注资,试图跟上步伐,但似乎已为时过晚,搭载 LPU 的智算中心的订单已伴随着创新的加速度纷至沓来。
从算力的洪流,再到 AI 类的国民方案,这场双向的突围正在有力地证明——当不再一味仰望西方标准,世界便会开始追随我们所定义的技术坐标系。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。