云霞育儿网

“AI原生”重塑云服务:华为云以全栈系统性创新升级云底座

自生成式AI掀起滔天巨浪以来,其对云服务带来的改变就备受瞩目。云计算曾经扮演过“重新定义一切”的角色,而人工智能则要让云计算“重做一遍”。

从量变的角度看,AI业务已逐渐成为云厂商业绩增长的新引擎。根据Gartner的预测,到2029年,50%的云计算资源将被用于AI工作负载,而目前该比例还不到10%,上升空间巨大。各家主流云厂商最近几个季度发布的财报也反映出上述趋势,那些飘红的数字都是AI正在加速渗透的明证。

然而,在弥漫的乐观情绪中亦存在不少杂音,有人质疑部分云厂商重金猛砸算力可能导致入不敷出,也有人不看好市场中缺乏“主心骨”的跟风行为。笔者认为,此刻恰是AI驱动云服务由量变走向质变的关键节点,以“AI原生”思维重新设计企业流程和底层架构,不断创新业务模式,解决复杂问题,才能闯出一片新天地。

显而易见,对云厂商而言,重塑AI新时代的云服务底座,是化解当下矛盾的必由之路。秉承“全面拥抱AI-Native”的理念,业界翘楚华为云率先垂范,双管齐下谋求突围:一是“CloudforAI”,即通过全栈系统性创新,达成大模型的数据准备、训练、推理、应用的全流程高效率和高性能,为开发者提供“AI原生”的基础设施;二是“AIforCloud”,华为云将盘古大模型和华为在产品研发、数据治理、安全防护、业务运维等领域积累的数据和经验相结合,推动云服务迈向更高境界。

在近日举办的华为开发者大会(HDC2025)上,华为云让“AI-Native”的梦想照进现实,从存储、计算、安全、PaaS、数字内容生产、数据库等维度协同发力,探索AI时代云底座的“最优解”。

存储“亮剑”:应对AI大模型训练与推理的多元挑战

伴随AI应用落地进程的加快,数据的价值日益凸显,而存储是整个基础设施中与数据关系最为紧密的环节,因此其地位不断擢升,在云底座的进化中发挥着举足轻重的作用。

欲戴王冠,必承其重。华为云存储服务产品部部长林超认为,AI大模型训练与推理对存储产品提出了前所未有的高要求,大规模数据加载造成带宽密度瓶颈,大型集群中随着卡数的增加,故障次数也随之上升。要解决这些难题必须围绕端到端的生态,驱动存储实现从磁带、硬盘、SSD到内存、显存的全方位跃迁。

如何打破既有的“内存墙”,进而充分释放AI算力,堪称破解困局的首要议题。针对长期困扰客户的“顽疾”,华为云迎难而上,其首创EMS弹性内存存储服务,在NPU计算层和持久化存储两层间增加了内存存储层——基于MemoryPooling专利技术,借助显存扩展、算力卸载、以存代算等三大利器冲破“内存墙”的阻碍。

首先是显存扩展,EMS将NPU计算服务器上空闲的DRAM内存构建成分布式内存池,突破单机内存瓶颈,提升缓存空间和缓存命中率,同时使节点间能进行高效的数据共享,满足大规模分布式推理需求。推理业务可将历史KVCache保存在EMS分布式内存池里,通过以存代算,供后续推理直接调用,促进AI推理性能提升100%,优化后推理首Token输出时延降低80%。

值得关注的是,面对AI大模型训练与推理持续向纵深迈进,单点突破显然无法解决所有问题,唯有打出“组合拳”,方能渡过难关。林超坦言,目前业界对具体的技术路线还存在分歧,华为云在产品研发过程中也有过深入的讨论,最终从技术生态、方案灵活性等角度,确定提供基于“对象存储服务OBS+高性能文件服务SFSTurbo”的AI云存储解决方案。

其一,以OBS数据湖作为统一数据底座,衔接并简化AI系统各个工作环节下的数据流动,包括数据采集、数据预处理、训练、推理、模型部署等,解决海量数据低成本存储的难题。以目前在业务场景中广泛应用的RAG(检索增强生成技术)为例:针对海量非结构化数据带来的挑战,华为云基于OBS服务构建实现语义向量化的知识湖存储,借助读、写、算分离把千亿级规模场景下数据的读性能从百毫秒级降到10毫秒以内,并以高低结合的方式使成本降低50%。据了解,金山办公的AIDocs正与华为云OBS知识湖存储进行共创,探索能支持更大规模文档量级、检索更精准、速度更快的实践路径,赋能千行万业的数智化转型。

其二,在训练推理等对存储性能要求极高的AI场景,为了弥补对象存储的性能短板,以SFSTurbo加速层存储作为OBS数据湖存储的“黄金搭档”。特别推出的AITurbo技术组件,旨在为大模型训练、Checkpoint快存快恢,模型部署等丰富场景提供存取加速。尤值一提的是,AITurbo是华为云AI云存储通往上层生态的入口,承担联接AI云存储系统和上层应用、计算框架、AI平台的重要职责,将为人工智能的真正落地保驾护航。

协同突围:新型云底座不应存在“最短的木板”

如果说存储产品创新为新型云底座的蜕变扫除了突出障碍,那么在AI基础设施尚未成型的背景下,还需达成计算、安全、PaaS、数字内容生产、数据库等环节的全面突围,做到整个“木桶”没有短板。

计算是云服务的核心基石,推动容器智能化升级可显著提升竞争力。在HDC2025上,华为云重磅推出智算集群和CCE智能助手,助力客户高效用云。智算集群面向AIworkload打造,支持任意模型(Anymodel)、任意AI框架(Anyframework)、任意算力规模(Anyscale)、任意部署场景(Anywhere)以及任意类型AI算力(AnyAccelerator)的5A集群,在面向超节点的拓扑感知调度、PD分离扩缩容、AI负载的感知优化弹性扩展能力以及容器极速启动等方面全面优化,加速AI训练和推理;CCE智能助手以Agent的方式深入用户使用容器的全流程,通过智能问答、智能推荐、智能诊断、故障修复等方式全方位地让容器集群的管理变得更简单、自动化和智能化。

安全是云服务的终极防线,亟需完成从云原生到AI原生的跨越式发展。华为云深谙此道,一方面以AI赋能云原生安全体系,完善“一个中心,七层防线”,并积极布局安全大模型能力,实现威胁防护的全链路智能;另一方面,推出华为云端到端的大模型安全方案,基于SecMaster实现智能的模型安全运营,提供运行环境、语料数据、模型、推理等端到端的安全防御,保障运行环境0入侵、训推数据安全可信、推理业务安全合规。

PaaS是云服务的赋能中枢,驱动应用的全生命周期智能化是大势所趋。华为云CodeArtsDoer通过全流程、多Agent协同,突破传统企业研发三大瓶颈,促进企业研发提效:一是更快,全流程AIAgent流水线辅助研发团队工作,让企业研发端到端效率提升40%;二是更准,利用先进的算法ArchRAG和动机性遗忘机制,打造动态认知进化引擎,使Agent代码采纳率达40%以上;三是更稳,做到从开发-构建-部署全流程无断点安全合规。

数字内容生产是云服务的创新利器,典型代表“数字人”有望加速进化。在HDC2025上,华为云正式发布智能交互数字人,MetaStudio预集成盘古、DeepSeek等业内主流大模型,融合多模态降噪、人脸检测、唇动识别等技术,形成快集成、易扩展、强交互、低时延等竞争优势,一个SDK、5行代码即可快速集成至各类应用和智能终端。目前,智能交互数字人方案已覆盖电商、零售、医疗、金融、制造、文旅等领域,实现规模化行业应用。

数据库是云服务的关键底座,必须持续迭代以应对新挑战。华为云GaussDB业务透明多写使大并发事务处理能力达到业界领先,采用业界首创的邻居故障检测算法达到RTO

站在更开阔的视角,AI推理需求的集中爆发和智能体的迅猛发展,将进一步刺激云基础设施端各个环节的创新热情,存储、计算、数据库等核心模块的未来形态很可能出现重大变化,安全、PaaS、数字内容生产的服务模式也会不断演进。从这个意义上讲,云计算与AI相生相长的故事未完待续,期待更多的开发者参与其间,共同书写绚丽华章。

转自:IT创事记