当AI同时精通"看"与"画":阿里巴巴团队揭秘统一多模态AI模型的惊人进展

科技行者 8小时前 阅读数 4 #科技

在人工智能领域,有两类模型一直沿着不同的轨道发展:一类擅长"理解"图像和文字,就像一个能看懂图片并回答问题的智能助手;另一类则擅长"创造"图像,就像一位根据文字描述作画的数字艺术家。直到最近,这两种能力很少能在同一个AI系统中完美共存。这正是阿里巴巴集团联合多所高校研究人员在最新综述论文中探讨的热门话题。

这篇题为《统一多模态理解与生成模型:进展、挑战与机遇》的重要综述论文由阿里巴巴集团的研究团队主导,作者包括来自阿里巴巴集团的Xinjie Zhang(同时隶属于香港科技大学)、Jintao Guo(同时隶属于南京大学)、Shanshan Zhao,以及Minghao Fu(同时隶属于南京大学)、Lunhao Duan(同时隶属于武汉大学)、Guo-Hua Wang、Qing-Guo Chen(项目负责人)、Zhao Xu、Weihua Luo和Kaifu Zhang。该论文于2025年5月发表在arXiv预印本平台,编号为arXiv:2505.02567v2。

一、为什么我们需要"全能型"AI系统?

想象一下,如果你家里有两位外国朋友:一位只能听懂你说的话并回答问题,另一位则只能根据你的描述画画,但不能回答你的问题。虽然他们各自都很有才华,但你必须在两人之间不断切换才能完成复杂任务。这就是当今人工智能领域的现状——我们有出色的"理解型"模型(如能看图回答问题的GPT-4V)和"生成型"模型(如能画图的Stable Diffusion),但它们像两个分离的世界,很少能融为一体。

最近,研究人员开始探索一个令人兴奋的方向:能否创造一个既能理解图像和文字,又能创作高质量图像的"全能型"AI系统?就像一位既能欣赏艺术品并对其发表见解,又能亲自创作艺术的全能艺术大师。这样的系统不仅能让我们与AI的交流更自然,还能实现前所未有的复杂任务,如根据详细指令修改图像、创建连贯的图文故事,或将视觉分析转化为直观的图像输出。

2025年3月,OpenAI推出的GPT-4o展示了这一方向的巨大潜力,它不仅能理解多种模态的输入,还能生成各类输出,引发了学术界和工业界对统一多模态模型的广泛兴趣。然而,创建这样的统一系统面临着巨大的挑战,正如阿里巴巴的研究团队在本文中深入探讨的那样。

二、为什么构建统一模型如此困难?

要理解构建统一模型的难度,我们可以想象两种完全不同的烹饪技巧:西式烘焙和中式炒菜。虽然两者都能做出美食,但它们使用的工具、原料处理方法和烹饪流程完全不同。同样,目前的AI世界也分为两大阵营,使用着截然不同的"烹饪方法"。

在"理解"这边,主流模型采用所谓的"自回归"方法,就像写小说一样,一个词接一个词地生成内容。这些模型,如GPT家族,通常采用"解码器"结构,擅长的是文本处理和逻辑推理。当它们需要处理图像时,会把图像转换成一种类似文本的表示,然后用处理文本的方式来理解图像。

而在"生成图像"这边,主流技术则基于"扩散模型",这是一种完全不同的方法。想象你有一张充满噪点的照片,扩散模型就像一位专业修图师,能一步步去除噪点,最终呈现出清晰的图像。这种方法使用的是名为UNet或DiT的特殊架构,配合像CLIP这样的先进文本编码器。

这两种方法就像烹饪中的烘焙和炒菜,各有所长,但融合起来却异常困难。自回归模型在图像生成方面的表现不如扩散模型,但它们与大语言模型共享结构,更适合构建统一系统。因此,关键挑战在于:如何让这两种不同"烹饪流派"的优势在同一个"厨房"中发挥作用?

此外,还有一个关键问题:如何有效地将图像转换成适合自回归模型处理的"标记"。有些方法使用像VQGAN这样的像素级编码器,另一些则使用像CLIP这样的语义编码器,每种方法都有其优缺点。就像要决定是将蔬菜切成丁还是切成丝,不同的处理方式会影响最终的烹饪效果。

三、统一模型的三大架构流派

在这个新兴的统一模型领域,研究者们提出了三种主要的架构方向,就像建筑师尝试不同的设计理念来建造同一座桥梁。阿里巴巴的研究团队将这些方法分为三大类:基于扩散的模型、基于自回归的模型,以及结合两者的混合模型。

基于扩散的统一模型

基于扩散的统一模型就像一位既会修复老照片又能根据描述创作新照片的数字艺术家。在这类模型中,代表作是Dual Diffusion,它引入了一个双分支的扩散过程,同时处理文本和图像。

想象一下,当你给这位艺术家一对照片和文字描述,他会先使用专业工具(如T5编码器处理文字,SD-VAE编码器处理图像)将它们转换成特殊的"创作草稿"。然后,他会在这些草稿上添加一些随机的"艺术噪点",使它们变得模糊不清。

接下来,神奇的部分开始了:艺术家开始同时"修复"这两份带有噪点的草稿,逐步使它们变得清晰。关键是,在修复过程中,文字草稿和图像草稿会相互"交流"——文字会指导图像的修复,图像也会帮助文字表达更加精确。这种双向交流确保了最终的文字和图像在内容上高度一致。

完成修复后,艺术家会用特殊工具(T5解码器和VAE解码器)将修复好的草稿转换成最终的作品:一段自然流畅的文字和一幅高清的图像。

虽然这种方法能产生高质量的图像和文本,但它也面临一些挑战:多轮扩散迭代会导致处理速度较慢;双分支架构增加了模型的复杂性;而且对噪点水平很敏感,可能影响输出质量。

基于自回归的统一模型

基于自回归的统一模型则像一位擅长讲故事的艺术家,他能一段一段地创作出连贯的文字和图像。这类模型通常基于像LLaMA、Vicuna或Qwen这样的大语言模型,将文本和图像视为一种统一的"序列"来处理。

根据处理图像的方式不同,这类模型又可以细分为四种类型:

第一种是像素编码模型,如LWM、Chameleon和ANOLE。这些模型使用VQGAN等工具将图像压缩成一系列离散的"图像单词",然后像处理文本一样逐个生成这些"图像单词"。这就像艺术家先将复杂的画面概念化为一系列简单的视觉元素,然后一步步构建完整画面。

第二种是语义编码模型,如Emu、DreamLLM和VL-GPT。这些模型使用CLIP等工具提取图像的高级语义特征,然后使用扩散模型将这些特征转换回图像。这更像是艺术家先理解画面的整体概念和情感,然后才开始具体创作。

第三种是可学习查询编码模型,如SEED系列和MetaQueries。这些模型不是直接编码整个图像,而是学习一组"查询令牌"来提取图像中最重要的信息。这就像艺术家不会记住画面的每个细节,而是抓住关键的构图元素和视觉重点。

第四种是混合编码模型,如Janus和VARGPT。这些模型结合了像素级和语义级的编码方法,试图兼顾两种方法的优势。这就像艺术家同时关注画面的整体概念和具体细节,既不失大局观,又不忽视精细之处。

每种方法都有其优缺点。像素编码保留了更多细节但产生的序列更长;语义编码更简洁但可能丢失低级视觉信息;可学习查询更灵活但可能难以处理复杂场景;混合编码更全面但也更复杂。

融合自回归和扩散的混合模型

第三种架构是混合模型,如Transfusion、Show-o和MonoFormer,它们试图将自回归和扩散这两种"烹饪方法"融合在一起。这就像一位创新的厨师,将东西方烹饪技巧融为一体,创造出前所未有的美食体验。

在这类模型中,文本内容是通过自回归方式一个词一个词地生成的,保留了大语言模型的强大推理能力;而图像则是通过多步扩散过程生成的,利用了扩散模型在视觉质量方面的优势。这种组合让模型既能进行复杂的语言推理,又能生成高质量的图像。

比如,在Transfusion模型中,当你描述"一只戴着墨镜的猫坐在海滩上"时,模型会先用自回归方式理解这个描述,然后通过扩散过程逐步从噪点中"浮现"出符合描述的图像。整个过程中,文本理解和图像生成相互指导,确保最终生成的图像准确反映文本描述的内容。

这种混合方法虽然结合了两种技术的优势,但也面临计算成本高、架构复杂等挑战。不过,它代表了一个极具前景的研究方向。

四、超越图文:走向全模态统一模型

随着研究的深入,一些前沿工作开始探索不仅限于文本和图像的统一模型,而是能够处理音频、视频、语音等多种模态的"全能型"AI系统。这就像从训练双语翻译官,发展到培养精通十几种语言的语言大师。

例如,Spider利用ImageBind(一种将六种模态映射到统一空间的模型)支持文本、图像、视频、音频等多种模态的输入和输出。OmniFlow集成了HiFiGen用于音频和音乐生成,SD-VAE用于图像处理,使用MMDiT作为骨干网络。AnyGPT则利用EnCodec进行音频标记化,SpeechTokenizer处理语音,训练了一个带有模态特定前缀的统一Transformer。

这些"全能型"模型展示了人工智能向通用基础模型发展的趋势,能够理解和生成人类感官输入和交流的全部范围。然而,它们也面临着诸多挑战,如模态不平衡(文本和图像模态往往占主导地位)、可扩展性问题(支持更多模态会增加模型复杂性)以及跨模态语义一致性等。

五、数据集与评测:统一模型的"训练场"与"考场"

要训练一个既能理解又能生成的统一模型,就需要大量高质量、多样化的训练数据,就像培养一位全能艺术家需要接触各种艺术形式和风格。研究者们根据不同用途,开发了多种数据集。

在多模态理解方面,有像LAION-5B这样包含近60亿图文对的庞大数据集,还有COYO(约7.47亿样本)和DataComp(14亿样本)等经过精心筛选的高质量数据集。这些就像艺术家的基础学习材料,帮助模型理解图像和文本之间的关联。

对于文本到图像生成任务,研究者们使用了LAION-Aesthetics(筛选出具有较高"美学价值"的1.2亿图像)、JourneyDB(400万由Midjourney平台生成的高质量图像-提示对)等数据集。这些相当于艺术创作的示范作品,展示了如何根据文字描述创作出精美图像。

在图像编辑方面,MagicBrush提供了约1万个手动标注的真实图像编辑样本,HQ-Edit包含约20万高分辨率编辑样本,这些就像教导艺术家如何根据指令修改已有作品。

此外,还有像Multimodal C4这样包含超过1亿文档和5.71亿图像的交错图文数据集,以及针对特定任务(如人脸生成、可控生成等)的专门数据集。这些丰富多样的数据集为统一模型提供了全面的"训练材料"。

评估统一模型的性能也需要专门的基准测试,这些测试覆盖了从基础理解到复杂推理、从图像生成到图像编辑等各个方面。比如,MMBench提供了3千个双语多选题来评估模型的跨语言比较能力;MMMU增加了1.15万个大学水平的多模态问题来测试领域知识和逻辑推理;而T2I-CompBench则专门评估模型生成符合复杂文本描述的图像的能力。

这些数据集和基准测试就像艺术学院的课程和考试,全面评估模型在各个方面的能力,推动着统一模态模型的不断进步。

六、统一模型面临的挑战与未来机遇

尽管统一多模态模型取得了令人印象深刻的进展,但这个领域仍处于起步阶段,面临着几个关键挑战。

首先是标记化和压缩策略的效率问题。视觉和文本数据维度极高,导致极长的标记序列。想象一下,如果一张普通图片需要用成千上万个"词"来描述,那么处理起来就会非常耗时且占用大量内存。研究者需要找到更有效的方法来压缩这些信息,同时保持表达的准确性。

其次是跨模态注意力的性能瓶颈。随着图像分辨率和上下文长度的增加,计算成本急剧上升。这就像让一个人同时关注一本厚书和一幅复杂画作中的每个细节,几乎是不可能的任务。稀疏或层次化注意力机制可能是解决这一问题的方向。

第三是预训练数据集的噪声和偏见问题。特别是对于复杂图像构图和交错图文数据,现有数据集常常包含噪声或偏见。这就像用不准确或有偏见的教材来培训学生,inevitably会影响最终的学习成果。可靠的数据过滤、去偏见和合成技术对于确保模型的公平性和稳健性至关重要。

第四是评估协议的局限性。目前的评估通常针对单一任务进行,缺乏对统一模型在整体上的综合评估。特别是对于图像编辑和交错图文生成等复杂任务,尤其需要更全面的基准测试。

未来,统一多模态模型有望在几个方向取得突破:首先是架构设计的创新,包括新型标记化方法、更高效的训练策略等;其次是数据集策略的优化,如混合真实和合成数据、去除偏见等;最后是评估方法的改进,发展更全面、更公平的基准测试。

值得注意的是,当前的统一多模态模型主要关注图像理解和文本到图像生成,而像图像编辑这样的复杂功能通常需要通过后期微调才能实现。更高级的功能,如空间控制的图像生成、多主体驱动的图像生成以及交错图文生成,在统一框架中仍有很大的探索空间。

结语:AI的全能时代即将到来

归根结底,统一多模态模型代表了AI发展的一个激动人心的新方向——从专注于单一能力的"专家系统"向集成多种能力的"全能系统"过渡。就像人类不仅可以理解所见所闻,还能表达思想和创造艺术,未来的AI系统也将能够无缝地理解和生成各种形式的内容。

阿里巴巴研究团队的这篇综述不仅系统地梳理了当前统一多模态模型的研究现状,还指出了未来的发展方向和机遇。随着像GPT-4o这样的模型展示出越来越强大的多模态能力,我们可以期待在不久的未来,AI将能够更自然、更直观地与人类交流和创造。

这不仅对技术本身是一个重大进步,也将为内容创作、教育、医疗、设计等众多领域带来革命性的变化。想象一下,未来的AI助手不仅能理解你的问题并用文字回答,还能即时创建符合你需求的图像、视频或音频,甚至能根据你的反馈进行精确的编辑和调整。

对于有兴趣深入了解这一领域的读者,可以访问阿里巴巴研究团队在GitHub上提供的相关资料,包括论文引用、数据集和基准测试等信息。随着研究的不断深入和技术的快速迭代,统一多模态模型必将迎来更加光明的未来。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

科技行者

科技行者

科技行者,一个只谈智能的信息服务平台。