腾讯混元突破性研究：定制化视频生成框架让AI视频更会"演"了

科技行者 2天前阅读数 2 #科技

2025年5月，腾讯混元团队发布了一项重要研究成果——"HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation"（混元定制：一种多模态驱动的定制化视频生成架构）。这项研究发表于arXiv预印本平台（arXiv:2505.04512v2），代表了视频生成领域的一次重要突破，所有代码和模型均已在官方网站https://hunyuancustom.github.io上公开。

一、为什么我们需要"定制化"视频生成？

想象你是一名广告制作人，急需为新产品拍摄一段广告片。传统方式需要花费大量时间和金钱聘请演员、租用摄影棚、购买昂贵的设备。而如今的AI视频生成技术虽然已经取得了长足进步，却仍然面临着一个关键问题：如何让生成的视频更精准地满足我们的需求？

这就像是一位厨师，他可以做出美味的菜肴，但却无法精确控制菜肴的每个细节——比如咸淡、辣度、口感等。现有的视频生成模型就像这样的厨师，虽然能制作出视频，却难以精确控制视频中的细节，特别是当你希望视频中出现特定人物或物体时。

腾讯混元团队的这项研究正是致力于解决这一难题。他们开发的HunyuanCustom系统，就像是一位能够根据你的精确要求调整每个细节的大厨，可以根据你提供的图片、音频、视频片段和文字描述，生成一个既符合你要求又保持角色一致性的定制化视频。

二、HunyuanCustom模型的"魔力"是什么？

HunyuanCustom的核心魔力在于它能够同时处理多种不同类型的信息，并将它们融合在一起，生成高质量且主体一致的视频。这有点像一个多才多艺的导演，他能够同时理解剧本、演员特点、音乐情绪和背景场景，并将它们和谐地融合在一起，拍摄出一部完美的电影。

具体来说，这个"多才多艺的导演"有以下几个过人之处：

首先，HunyuanCustom能够通过一种基于LLaVA的文本-图像融合模块，实现文字和图像之间的互动理解。想象一下，当你向一个普通人展示一张猫的照片，并告诉他"制作一个这只猫在海滩上玩耍的视频"，这个人需要同时理解照片中猫的特征（毛色、体型等）以及文字描述中的场景要求（海滩、玩耍动作）。HunyuanCustom就是通过这个模块实现类似的理解能力。

其次，研究团队设计了一个图像ID增强模块，它能够将图像信息沿着时间轴进行连接，利用视频模型在时间序列信息传输方面的效率，有效加强视频中ID的一致性。这就好比导演确保整部电影中同一个演员的妆容、服饰和表演风格保持一致，不会突然改变。

第三，为了实现音频驱动的视频定制，团队提出了AudioNet模块，它通过空间交叉注意力机制实现分层对齐，使生成的视频能够与输入的音频完美同步。这就像是确保演员的口型和动作与配音完美匹配，使整个表演看起来自然流畅。

最后，对于视频驱动的视频定制，HunyuanCustom设计了一个视频条件注入模块，通过基于块分割的特征对齐网络，集成经过潜在压缩的条件视频。这就像是将一段现有的视频重新演绎，保留其动作和场景，但替换其中的主角或物体。

三、创新性的数据处理：做好"原料"准备

在烹饪中，原料的质量决定了最终菜肴的味道。同样，在AI模型训练中，数据的质量也直接影响模型的表现。HunyuanCustom团队非常重视数据处理，设计了一套严格的数据处理流程。

他们的数据来源多种多样，包括自己收集的数据和开源数据集（如OpenHumanvid）。为了确保数据质量，团队进行了多重筛选和处理：

首先，他们使用PySceneDetect工具将原始视频分割成单个镜头片段，避免视频中出现镜头转换，就像厨师会仔细挑选每一种食材，确保没有任何瑕疵。

接着，他们运用textbpn-plus-plus技术过滤掉含有大量文字的视频片段，并裁剪含有字幕、水印和标志的视频，就像厨师会去除食材中不需要的部分，只保留最精华的部分。

考虑到视频大小和时长的不均匀分布，团队进行了裁剪和对齐处理，将短边标准化为512或720像素，视频长度限制为5秒（129帧），这就像是将食材切成统一大小，以便烹饪时受热均匀。

为了确保美学质量、运动幅度和场景亮度，团队使用koala-36M模型进行进一步精细筛选，设定了特定于其数据集的阈值为0.06，就像厨师会对食材进行最后一轮检查，确保只有最优质的食材才能用于烹饪。

在提取主体方面，团队设计了专门的算法：对于人物主体，他们使用Qwen7B模型标记视频中的所有主体并提取其ID，然后采用YOLO11X进行人体分割获取边界框，同时使用InsightFace检测面部位置。对于非人物主体，他们利用QwenVL从视频中提取主体关键词，并使用GroundingSAM2生成掩码和边界框。

对于音频数据处理，团队使用LatentSync评估音频和视频之间的同步性，丢弃同步置信度低于3分的视频，并将音视频偏移调整为零。同时，他们计算hyperIQA质量分数，移除得分低于40的视频，以确保数据的高质量。

这一系列精心设计的数据处理步骤，就像厨师在烹饪前的详细准备工作，为后续的模型训练奠定了坚实基础。

四、HunyuanCustom如何实现图像驱动的视频定制？

图像驱动的视频定制是HunyuanCustom的核心功能，就像是根据一张照片将静态人物"带入生活"，让他们在视频中活动起来。这个过程可以比作一位画家将静态的肖像画转变为一部生动的动画电影。

在这个过程中，HunyuanCustom需要解决两个关键问题：一是如何理解图像中人物或物体的特征和身份信息；二是如何将这些特征保持一致地呈现在生成的视频中。

为了解决第一个问题，HunyuanCustom采用了基于LLaVA的文本-图像交互模块。这个模块就像是一个能同时理解视觉和语言的翻译官，可以将图像中的视觉信息与文本描述进行有效融合。

具体来说，当给定一段文本输入T和一个图像输入I（图像对应文本中的某个描述词TI），HunyuanCustom设计了一个模板来促进文本和图像之间的交互。研究团队探索了两种模板：一种是图像嵌入模板，将文本中的描述词TI替换为图像标记<image>（例如，对于文本提示"A man is playing guitar"，如果我们输入"man"的身份图像，结果模板就是"A <image> is playing guitar"）；另一种是图像附加模板，通过添加身份提示"The TI looks like <image>"将图像标记放在文本提示之后（例如，对于文本提示"A man is playing guitar"，结果模板是"A man is playing guitar. The man looks like <image>"）。

处理后，图像标记<image>被LLaVA提取的24×24图像隐藏特征所替代。由于图像特征标记明显长于文本特征标记，为了防止图像特征过度影响文本理解，研究团队在文本提示和图像提示之间插入了一个特殊标记<SEP>，这有助于LLaVA模型保留文本提示中的信息，同时建立起文本提示和图像身份之间的联系。

然而，LLaVA模型作为多模态理解框架，主要捕捉文本和图像之间的相关性，提取类别、颜色和形状等高级语义信息，往往忽略文本和纹理等更细微的细节。在视频定制中，身份很大程度上由这些图像细节决定，因此仅依靠LLaVA分支不足以保持身份一致性。

为了解决这个问题，研究团队提出了一个身份增强模块。通过将视频潜在表示与目标图像沿时间轴连接，并利用视频模型在时间维度上高效的信息传输能力，可以有效增强视频的身份一致性。

具体来说，他们首先将图像调整为与视频帧大小相匹配，然后使用预训练的因果3DVAE将图像I从图像空间映射到潜在空间。有了图像潜在表示zI和噪声视频潜在表示zt，他们沿第一个序列维度连接它们，得到一个新的潜在表示z = {zI, zt}。利用预训练的Hunyuan视频在时间序列建模方面的强大先验，身份可以沿着时间轴高效传播。

对于多主体定制，HunyuanCustom基于训练好的单主体定制模型，进一步微调以适应多主体定制任务。当有多个条件图像{I1, I2, ..., Im}，每个图像都有对应的文本描述{TI,1, TI,2, ..., TI,m}时，对于每个图像，它们会被模板化为"the TI,k looks like <image>"，并使用LLaVA模型建模文本-图像相关性。此外，为了增强图像身份，所有图像都被编码到潜在空间以获得图像潜在表示{zI,1, zI,2, ..., zI,m}，然后与视频潜在表示连接。为了区分不同的身份图像，第k个图像被分配一个时间索引-k，这与3D-RoPE相关联。

通过这种方法，HunyuanCustom能够生成既符合文本描述又保持图像身份一致性的视频，就像是一位能够根据照片和剧本精确还原人物特征和故事情节的导演。

五、多模态视频生成：音频与视频的魔力融合

除了基于图像的视频定制外，HunyuanCustom还可以接受音频和视频作为输入条件，实现更丰富的创作可能性。这就像是一位不仅能看懂剧本和照片，还能根据音乐和视频片段创作的全能导演。

在音频驱动的视频定制方面，传统的音频驱动人类动画方法通常使用人物图像和音频作为输入，使图像中的角色说出相应的语音。然而，这种图像到视频的范式会导致生成的视频中人物的姿势、服装和环境与输入图像保持一致，限制了在不同姿势、服装和环境中生成目标角色视频的能力。

HunyuanCustom通过有效捕捉和维护角色身份信息，进一步整合音频输入，实现了更灵活和可控的语音驱动数字人生成。具体来说，给定一个人物图像、一段文本提示和相应的音频，系统可以生成一个视频，其中角色在文本描述的场景中与音频同步说话、演奏或唱歌。

为了有效解耦音频信号和身份信息，HunyuanCustom提出了身份解耦AudioNet。考虑到身份信息主要通过文本模态（通过LLaVA）和沿潜在时间维度的标记连接注入，AudioNet采用了一种替代条件机制，避免与身份线索纠缠。

具体而言，给定一个f'帧的音视频序列，首先为每个音频帧提取音频特征，得到大小为f'×4×c的张量，其中4表示每个音频帧的标记数量。由于视频潜在表示通过VAE在时间上被压缩为f帧（f = ⌊f'/4⌋ + 1，其中1对应未压缩的初始帧，4是时间压缩率），包含身份图像的ID增强视频潜在表示包含f+1帧。为了在时间上对齐音频特征与压缩的视频潜在表示，首先在初始帧之前填充音频特征以匹配(f+1)×4帧，然后将每4个连续的音频帧聚合为单个帧，形成一个在时间上与视频潜在表示对齐的新音频特征张量fA。

有了时间对齐的音频特征fA，HunyuanCustom使用交叉注意力模块将音频信息注入视频潜在表示zt。为了防止不同帧的音频和视频之间的帧间干扰，它采用了一种空间交叉注意力机制，在逐帧的基础上执行音频注入。

在视频驱动的视频定制方面，视频编辑是一项基本任务，通常涉及修改视频中主体的外观和动作。HunyuanCustom利用其强大的主体一致性，支持主体级编辑，如替换和插入。

视频包含丰富的时空信息，这在有效内容提取和高效集成到生成模型方面都带来了挑战。现有方法，如VACE，通过适配器模块注入视频条件，这会使计算成本加倍，严重限制效率。其他方法将条件视频和生成视频的潜在表示沿时间轴连接，导致序列长度加倍，注意力计算呈二次增长。

为克服这些限制，HunyuanCustom采用了更高效的视频条件注入策略，解耦视频信息与图像和音频模态。具体而言，它首先使用预训练的因果3D-VAE压缩条件视频，通过特征对齐将结果特征与噪声视频潜在表示对齐，然后直接将对齐的特征添加到视频潜在表示中，实现高效、有效的视频条件整合，而不会产生显著的计算开销。

这些创新使HunyuanCustom能够生成既符合音频或视频条件，又保持图像身份一致性的视频，扩展了视频定制的应用范围和灵活性。

六、实验结果：HunyuanCustom表现如何？

为了评估HunyuanCustom的性能，研究团队进行了广泛的实验，比较了它与现有的最先进视频定制方法。这些实验就像是一场大型厨艺比赛，各路大厨（不同的模型）需要根据相同的要求（输入条件）制作美味佳肴（生成视频），然后由专业评委（评估指标）评判成果。

在单主体视频定制方面，HunyuanCustom与商业产品（Vidu 2.0、Keling 1.6、Pika和Hailuo）以及开源方法（Skyreels-A2和VACE）进行了比较。实验结果表明，HunyuanCustom在ID一致性（Face-Sim）和主体相似性（DINO-Sim）方面均取得最佳成绩，同时在提示遵循和时间一致性方面取得了可比的结果。

具体来说，在Face-Sim指标上，HunyuanCustom得分为0.627，远高于第二名Hailuo的0.526；在DINO-Sim指标上，HunyuanCustom得分为0.593，也明显优于其他方法。这表明HunyuanCustom在保持视频中人物或物体的身份一致性方面表现出色。

在多主体视频定制实验中，研究团队将HunyuanCustom与领先的多主体视频定制方法进行了比较。结果显示，Pika可以生成指定的主体，但视频帧不稳定，有时男性会消失或女性无法按提示打开门；Vidu和VACE部分捕捉人类身份但丢失了非人类物体的细节；SkyReels A2在右侧场景中经历了严重的帧不稳定性，薯片有明显变化且存在许多伪影。相比之下，HunyuanCustom有效捕捉了人类和非人类主体身份，生成的视频遵循给定提示，并保持了高视觉质量和稳定性。

基于其强大的身份保持和多模态控制能力，HunyuanCustom在虚拟人类广告、虚拟试穿和精细视频编辑等实际应用中表现出巨大潜力。例如，在虚拟人类广告应用中，HunyuanCustom可以接受人物图像和产品图像作为输入，生成相应的广告视频，其中人物的身份得到有效维护，同时保留了目标产品的细节，包括其上的文字。此外，人物与产品之间的互动看起来自然，视频紧密遵循给定的提示，表明HunyuanCustom在生成广告视频方面具有显著潜力。

在音频驱动的视频定制实验中，HunyuanCustom展示了生成符合音频和文本条件的视频的能力，同时保持角色身份一致性。生成的视频紧密遵循给定的提示，同时保持角色身份不变。它能够与其他主体（如物品或人物）进行有效互动，这可以显著增强其在直播和广告方面的应用。此外，它可以生成具有多样场景和姿势的视频，例如设定在明朝的视频，角色自动穿着符合时期的服装，无需明确提示，以及展示与输入图像不同的生动、逼真表情的女性。这表明HunyuanCustom具有强大的世界建模和泛化能力。

综合来看，这些实验结果证明了HunyuanCustom在生成高质量、身份一致的视频方面的卓越性能，无论是单主体还是多主体场景，以及在音频和视频驱动的视频定制任务中。

七、模型结构的秘密：设计选择的智慧

HunyuanCustom的卓越性能不仅仅来自于其使用的数据和训练方法，还源于其精心设计的模型结构。通过消融研究，研究团队深入探究了HunyuanCustom各组件的作用，就像是拆解一台精密机器以了解其内部运作原理。

研究团队进行了多项消融实验，比较了三个简化版本的模型：（1）没有LLaVA的模型；（2）没有身份增强的模型；（3）使用通道级连接而非时间连接进行身份增强的模型。

结果表明，没有LLaVA的模型表现出较差的身份保持能力，这表明LLaVA不仅传递提示信息，还提取关键的身份特征。没有LLaVA的模型无法捕捉目标图像中的任何显著细节。此外，有LLaVA但缺乏身份增强的模型能够捕捉全局身份信息，但错过了详细的身份特征，表明身份增强模块在细化身份细节方面的有效性。

最后，使用通道连接代替时间连接的模型展示了较差的生成质量。虽然它能很好地捕捉身份，但在初始帧中存在严重的模糊效果，类似于Vidu的结果。这表明时间连接有助于通过强大的时间建模先验有效捕捉目标信息，同时最小化对生成质量的影响。

总的来说，HunyuanCustom成功捕捉了全局和局部身份细节，同时确保了高生成质量，这突显了设计选择的有效性。

八、结语：迈向更广阔的视频定制未来

在这项研究中，腾讯混元团队提出了HunyuanCustom，一种新颖的多模态定制视频生成模型，解决了主体一致性视频生成的关键挑战，并支持多模态身份中心的视频定制。通过结合图像、音频和视频模态与文本驱动的条件机制，HunyuanCustom提供了一个强大的框架，可以生成具有精确身份一致性的高质量视频。

HunyuanCustom的集成文本-图像融合模块、图像ID增强模块，以及高效的音频和视频特征注入过程，确保生成的视频符合用户的特定要求，实现了高保真度和灵活性的双重目标。通过广泛的实验，研究团队证明了HunyuanCustom在各种任务中的卓越性能，包括单主体和多主体生成、音频驱动和视频驱动的视频定制。

结果显示HunyuanCustom在ID一致性、真实性和视频-文本对齐方面优于现有方法，为可控视频定制提供了领先解决方案。这项工作为可控视频生成领域的未来研究铺平了道路，进一步扩展了人工智能生成内容在创意产业和其他领域的潜在应用。

随着技术的不断进步，我们可以期待更多令人兴奋的应用场景：从个性化广告制作、虚拟角色创建到电影制作中的特效生成，HunyuanCustom这类技术将极大地改变创意内容生产的方式，让更多创意不再受限于技术和成本的束缚。

对于那些对HunyuanCustom技术细节感兴趣的读者，可以访问项目官方网站https://hunyuancustom.github.io，获取完整的代码和模型资源，亲自体验这一突破性技术的魅力。

发表评论:取消回复

◎欢迎参与讨论，请在这里发表您的看法、交流您的观点。