10 月 15 日传来的消息,北京大学人工智能研究院孙仲研究员团队联合集成电路学院的伙伴们,硬生生把一款全新的芯片给造了出来。 这玩意儿叫基于阻变存储器的高精度、可扩展模拟矩阵计算芯片,刚一亮相就把国际学界震了一下,相关成果直接发在了 10 月 13 日的《自然・电子学》上,这可是电子领域的顶刊,能上这儿的成果含金量不用多说。 可能有人要问了,这芯片听着名字绕得慌,到底是干啥的?说白了,现在咱们用的通信基站处理信号、AI 大模型调参数,甚至以后 6G 里的海量数据运算,本质上都是在解一堆复杂的矩阵方程。 以前干这活儿全靠数字芯片,比如咱们常说的顶级 GPU,虽说精度够,但慢得够呛,还特别费电 —— 算力中心里一排排服务器轰隆隆转,电费都是笔天文数字。 这时候有人想起了老祖宗的办法:模拟计算。这技术早年间是计算机的核心,直接靠物理定律运算,并行处理能力强、延迟低、省电,天生就适合干矩阵计算这种重活。 可模拟计算为啥后来没人用了?症结就在俩难题上:精度太低,算出来的数不准;还没法扩展,遇到大点的计算任务就歇菜,最后只能被高精度的数字计算挤到教科书里当 “老旧技术”。 这俩坎儿卡了全球科学家几十年,说是世纪难题一点不夸张。孙仲团队就是盯着这硬骨头啃,最后走出了一条融合的路子。不是光改器件,也不是只调电路,而是把新型的阻变存储器、原创的电路设计和经典算法捏到一块儿,硬生生把这俩难题给破了。 先说最关键的精度问题,以前模拟计算算出来的数误差大,这次团队直接把精度拉到了 24 位定点精度,跟咱们常用的数字处理器里的 FP32 精度差不多,完全能满足正经工程计算的要求。 怎么做到的?他们搞了个迭代细化的法子,先快速算出个近似解,再用位切片技术一点点磨细节,算 10 次迭代后,误差能小到 10 的负 7 次方量级,这精度放在以前想都不敢想。 扩展问题也解决了,团队发明了块矩阵模拟计算法,就像拼拼图似的,把大计算任务拆给多个芯片一起干,实验里已经能轻松搞定 16×16 矩阵的求解,规模还能继续往上扩。 光说技术突破不够直观,咱得拿性能说话。测试数据一出来,连业内人都吓了一跳:求解 32×32 的矩阵求逆问题时,这芯片的算力已经超过高端 GPU 的单核性能了。 等问题规模扩大到 128×128,计算吞吐量直接飙到顶级数字处理器的 1000 倍以上 —— 这话啥意思?就是传统 GPU 干一天的活,这款芯片一分钟就能搞定。 更绝的是能效比,同样的精度下,它比传统数字处理器省电 100 倍还多,以后算力中心要是用上这芯片,电费账单得薄一大截,这对现在讲究 “绿色算力” 的趋势来说,简直是及时雨。 真刀真枪的测试更能看出本事。团队把它用到了 6G 里关键的 “大规模 MIMO 信号检测” 上,这活儿要求实时处理海量天线信号,以前数字芯片要么慢要么费电。 结果这新芯片只迭代了 3 次,恢复出来的图像就和原始图像几乎一样,误码率跟 32 位数字计算的效果没差别,这意味着以后 6G 基站能以极低的能耗处理更多信号,网络容量和速度都能往上提一截。 除了通信,AI 领域更是盼着这东西。现在训练大模型,光是调参数的二阶优化算法就特别耗算力,要是用上这芯片,训练效率能显著提升,说不定以后训练个大模型不用再花几个月、烧几百万电费了。 更重要的是它功耗低,能直接塞到手机、自动驾驶汽车这些终端设备里,让设备自己完成复杂的 AI 计算,不用动不动就连云端求助,这可是边缘计算的大突破 —— 以后你的手机可能比现在的电脑还能算,还不用频繁充电。 孙仲研究员说的一句话特实在:“我们就是想用事实证明,模拟计算不是老古董,能以极高效率和精度解决现代科学的核心问题。” 这话没吹牛,要知道数字计算垄断计算机领域半个多世纪了,这次咱们的突破等于开出了另一条路,不光能应对 AI 和 6G 带来的算力爆炸,说不定还能重塑整个算力格局。 现在团队已经在推进产业化了,就是想赶紧把实验室里的成果变成能用上的产品,让这 “千倍算力、百倍能效” 的优势早点落地。 以前总说芯片领域有 “卡脖子” 的地方,但这次北大团队的突破说明,咱们不光能追着别人跑,还能在新赛道上领跑。 这芯片不是靠堆参数拼出来的,是从底层架构上找突破,解决了全球都没搞定的难题。以后再聊起高端算力,可不光有 GPU 了,中国的模拟矩阵芯片说不定会成为新的标杆,这波是真的给中国芯长脸了。
