云霞资讯网

存储通胀时代,企业IT如何寻找“避风港”?

文|魏琳华 刘俊宏编|王一粟采购,正在成为让企业IT负责人们集中头疼的问题。原本可以直接花钱买到一台按标准配置好的服务器

文|魏琳华 刘俊宏

编|王一粟

采购,正在成为让企业IT负责人们集中头疼的问题。

原本可以直接花钱买到一台按标准配置好的服务器,现在采购却常常遇到供应商把内存、闪存、硬盘拆开卖的情况,还要求客户额外付费。

“内存和存储部分需要单独下单,价格比去年翻了一倍多,还不一定有货。”一位管采购的负责人吐槽道。

造成上述“采购乱象”的源头,可以追溯到今年年初美国的“Stargate”(星际之门)计划。

这个面向AI基础设施投资的计划,要在未来4年内投入超过5000亿美元,由OpenAI、软银、甲骨文等巨头牵头。

为了支撑超级集群,它们势必要吃掉巨量的硬件供货。今年10月,OpenAI宣布和韩国两大芯片巨头三星电子、SK海力士合作,计划在2029年向两家公司采购90万片半导体晶圆。

Stargate天量的需求,直接引发了全球性的硬件抢购潮。

市场研究机构TrendForce数据显示,自今年9月起,DDR4与DDR5内存现货价大幅上涨,其中DDR4价格环比上涨158%,DDR5现货价环比大涨307%;NAND Flash价格涨幅同样惊人,据金士顿数据中心SSD业务经理Cameron Crandall透露,其从今年一季度起累计上涨高达246%,其中70%涨幅集中在近60日。

“这是我29年职业生涯中‘从未见过’的剧烈波动。”Cameron Crandall说。

折射到现实中,对于偏好采用自建数据中心或者使用中小型IDC的公司来说,价格增长无疑是一场巨大的风险:原本规划好的预算只能买到以前一半的算力;如果为了节省成本,冒险继续使用老旧的存储硬件,加剧数据腐烂的风险后,企业往往得不偿失。

在硬件资产开始通胀,“上云”这个轻资产运营的选项,再次被推向台前。

这一次,上云的意义不再局限于运维层面的便利,而是躲避风险、降本增效的手段。通过将硬件涨价的风险转移给储货充足的云厂商,通过按需付费、弹性扩展,实现综合降本20%-40%;同时,还能按需调用云厂商的技术、产品。

在存储资源枯竭、价格疯涨的至暗时刻,是时候重新审视上云的价值了。

AI“黑天鹅”扇动全球IT硬件的翅膀?

IT设备采购的困境,并不是今年才发生的。

去年,价格疯涨的核心问题是AI服务器。由于英伟达等厂商的GPU产能不足,导致算力卡成为了硬通货,全球一度一卡难求。但现在,GPU短缺的问题外溢到整个服务器硬件设备上。

Stargate项目的横空出世,全面拉升了服务器采购的各个相关部件支出。

首先是存储的价格“狂飙”。由于AI拉升需求,加上坊间传闻OpenAI的SamAltman一系列鲸吞存储晶圆产能的操作,造成出厂价飙升,中小IDC机房的运营成本也跟着直线拉升。据外媒报道,戴尔、联想、HPE等主要制造商正计划对服务器产品提价约15%。

因此,许多企业被迫陷入了两难境地:要么在高位“接盘”昂贵的硬件,导致现金流紧张;要么延迟扩容计划,业务也受硬件制约难以推进。

为什么一个美国的AI项目,会造成全球IT硬件如此大范围的紧缺?

这是因为,当前的缺口并非简单的供需失衡,本质原因是AI应用的需求,直接拔高了各家企业对基础设施的标准。

在AI时代,算力不再是唯一的瓶颈。当模型参数量达到万亿级别,训练和推理过程中的数据吞吐量以指数级增长,像是多米诺骨牌,一个变化推动着一系列围绕计算的新需求出现:

实际应用中,企业不仅需要GPU进行矩阵计算,更需要高性能的HBM(高带宽内存,特殊工艺处理的DRAM)和NAND(闪存)来存取运算过程中产生的大量数据,以便更快地处理数据;同理,还需要高速光模块来保障数据中心内部的数据交换,支撑低延迟的需求。此外,就连高密度计算产生的高热量,让传统风冷捉襟见肘,液冷等一系列复杂的机房建设都成为了标配。

所有需求叠加在一起,导致整个服务器行业必须进行一次全方位升级换代。

一场由需求引领的连锁反应,落在中小企业头上,就是一座沉重的山。

硬件需求的升级意味着涨价,这意味着企业的服务器机房成本也要增长。比起花钱翻倍,更头疼的是“有价无市”。由于新品产能爬坡需要时间,产品交付周期也被无限拉长——当你终于批下预算,等到货时,报价单又再次根据市场行情上调。

在这种由于“硬件通胀”导致的极端环境下,坚持传统IT架构的企业背着旧时代组建好的基础设施犹如“沉没成本”:跟进,就要花远超预期的投入;不跟进,风险和问题难以处理。

比如,一些企业为了控制失控的成本,开始铤而走险,转向继续使用现有的、即将维保到期的存储硬件。这种行为相当于走钢丝,可能给企业带来风险和安全问题。以数据腐烂为例,在存储、传输或使用过程中,如果硬件受损,就可能导致企业存储的数据无法正常被读取使用。

人们常常把AI比作“第四次工业革命”,一项新技术的出现,往往会改写产业链的各个环节。蒸汽机的发明,淘汰了低效手工业,推动了机械化、规模化产业的诞生。

在AI时代,继续重资产的运营IT架构,正在走向一条死胡同。

硬件通胀时代,企业IT需要上云

在硬件成本飙升的情况下,传统企业 IT 架构面临的核心挑战,还不仅仅是“买不起”,更多问题浮出水面。

其中,服务器资源利用率过低,资源浪费就是一个频繁被企业提起的问题。

对于采用传统IT采购模式的企业来说,必须基于未来服务器资源的需求峰值做规划,购买足量的算力资源和存储资源支撑业务,“屯算力”、“屯存储”就变成了常态。但在实际应用中,先不说企业为了保障业务稳定运行,往往要购买超量的资源;此外,企业花费高价采购的存储和算力,还在绝大多数非峰值时间段处于闲置状态,也就是资源浪费。

但在硬件通胀、采购成本翻倍的今天,这种长期处于低负载模式运行的方案,对中小企业来说显得过于奢侈。

由此,无论是想要转嫁高昂的基础设施成本、还是按需动态调用算力,都指向云厂商的核心优势——靠超大规模算力集群的搭建,让中小企业能够弹性购买服务。

云厂商服务之所以能够让各行业客户买单,它最关键的优势,就是能实现对算力资源的精细化控制。

对于本身需要靠投入基础设施,靠规模化摊薄边际成本的云厂商来说,它们的努力方向,就是榨取算力利用,根据客户需求“量体裁衣”。

这里以华为云为例,相比于中小企业,云厂商通过大规模的基础设施搭建和技术优化,实现了后者难以企及的成本优势。

最基础的服务,就是根据企业的算力需求做到按需供给。

弹性云服务器(ECS)就是最基本的量身定制服务。对于企业来说,相当于拧水龙头——业务高峰期拧大,低谷期拧小。这种“用多少付多少”的模式,避免了企业大部分时间空置算力的尴尬。包年、包月、竞价等多种计费方式,则把服务价格进一步压低。

在灵活调用的基础上,如何进一步榨取算力的利用率,就是各家云厂商靠技术做突围的命题。

以华为云的Flexus X 云服务器的“柔性算力”为例,通过技术优化,再一次打破了资源供应的限制。

过往,即时云厂商的优势就在于“弹性服务”,但传统云服务器仍然存在能够优化的空间。比如,云厂商往往只提供固定的CPU与内存配比,比如2核CPU必须配4G、8G内存,遵循1:2次幂的固定配比。但如果你只需要5G的内存,那多出来的3G内存实际上就被浪费掉了。

去年,华为云发布首创的柔性算力就让CPU和内存配比打破了固定比例的限制,它支持以1核1G为单位进行定义,实现1:3、2:5等自定义特殊规格,做到了更高精度的“量身定制”。同时,配合华为云迁移中心(MgC)的快速平迁,可以根据企业业务具体负载匹配对应服务器规格。据官方数据,最高能实现综合成本降低30%。

算力的问题解决了,下一步就是解决存储问题。数智化时代,如何安全、便宜地储存企业的核心数据,也同样是企业需要解决的痛点。

企业传统的数据存储方式,往往存在两个共性问题:存不下、读取慢。

存不下,指的是企业用于存储的硬盘容量有限,想扩容就需要继续买硬件;而随着硬盘里存的文件越来越多,当系统需要层层翻文件夹找特定数据,速度会变得非常慢。

相比于传统的存储模式,华为云推出的对象存储服务(OBS)更能适应当下的数据需求。

对于企业来说,云服务可以实现理论上的“无限存”,只需要加服务器就能实现无限扩容。它存储数据的方式也和前者不同,传统的存储用树状存储,文件越多,越需要系统多层翻阅查找。

而对象存储服务(OBS)的基本原理可以理解成是,用数据本身+表述数据类型的元数据+全局唯一的Key来描述一个存储单元(对象)。简单来说,OBS相当于将冗杂的数据变成分类存储的包裹,每个都加了标签和编号。

所以,OBS就像一个云端无限大的仓库,企业不需要关心仓库怎么建、怎么扩容,只需要往里扔数据就行。同时,因为OBS描述“对象”的独特方式,这使得华为能提供高达99.9999999999%(12个9)的数据持久性和99.995%的服务可用性(SLA,总可用时间的占比)。

针对预算有限的中小企业,华为云推出的 Flexus OBS 则是这个仓库的“高性价比版”。它保留了核心的存储功能和安全性,专门为需求数据归档、网站建设、内容分发等场景的中小企业设计。据官方数据,其最高可综合降本20%。

总体来看,华为云等厂商提供的方案,本质上是一整套从传统IT架构升级到云服务器的完整解决方案,节省硬件成本的同时,让企业最大化地为有效算力买单。

上云,就是用云端服务的灵活性,去对抗硬件市场的长期涨价。这也是在2025年,企业保持竞争力的最优解。

上云,迎战硬件通胀时代

一个确定的事实是,只要AI技术还在不断升级,持续融入千行百业,那么硬件通胀时代就不会轻易结束。

在这样的背景下,如果坚持选择传统IT架构,走“自建机房”和“传统托管”的路子,无疑是在逆风行走,而企业也不得不面对事倍功半的风险。

当被视为企业资产的IT硬件,正在转变为限制企业现金流的“负债包袱”。此时,“上云”的价值,已经不再局限于技术层面,更体现在金融属性上——它是一种对抗硬件价格浮动的手段。

对于企业来说,通过购买云服务,不仅将硬件的采购和折旧风险转移给了云厂商,也把构建基础设施的“隐形成本”——人力、电力和维护成本都一并抹除。而对于云厂商来说,靠着规模化效应,高效利用手中的资源,把使用成本压缩到中小企业难以企及的价格范围内,这对于企业来说,变成了一笔比之前性价比更高的支出。

不过,对于企业来说,如何将资源迁移到云上就成了问题,一旦出现数据丢失、软件不兼容等问题,导致业务中断,对于企业来说将得不偿失。

如今,随着云厂商工具链的成熟,这一技术门槛已被大幅削平。以华为云迁移中心(MgC)为例,作为一站式迁移平台,它内部集成了大量根据实践总结的迁移工作流模版,包括主机大批量迁移模板、存储数据迁移模板,用户可以根据不同迁移场景做选择。工具化的迁移方法论,大幅提升了迁移速度。据官方数据显示,其帮助神州专车提升了40%迁移效率。

除了硬件成本控制,上云更核心的战略意义,在于 “借力”,通过云厂商集成的先进技术和自身业务快速融合,从而抢占市场先机。

过往,企业自建IT架构下的硬件采购、物流、上架调试通常需要数周甚至数月,而云端资源的获取仅需分钟级。靠部署速度的提升,企业能够更快速地验证新产品。

一个在AI时代更突出的特征是,云厂商已成为前沿技术的“集中地”。为了维持生态竞争力,云厂商通常会第一时间集成最新的AI大模型和AI应用。对于企业而言,不需要自己再做一遍,就可以直接调用对应的技术。

如今,上云已经不仅是出于成本的防御性选择,更是帮助企业转型数智化、通往下一个时代的入场券。