[CV]《LearningtoDetectUnknownJailbrea

爱生活爱珂珂 2025-10-21 06:22:08

[CV]《Learning to Detect Unknown Jailbreak Attacks in Large Vision-Language Models》S Liang, Z Xu, J Tao, H Xue... [Renmin University of China & Alibaba Group] (2025)

大型视觉语言模型(LVLMs)虽已做大量安全对齐工作,却仍易受“越狱攻击”(jailbreak attacks)威胁,导致安全风险。现有检测方法存在两大难题:

1. 学习型方法依赖于特定攻击数据,泛化能力差,难以识别未知攻击;

2. 非学习型方法基于启发规则,准确率和效率受限。

为此,本文提出“Learning to Detect”(LoD)框架,创新点在于:

- 不直接针对具体攻击训练,而是学习针对“任务”的安全特征,使用纯安全与不安全(但未被攻击修改)输入数据;

- 多模态安全概念激活向量(MSCAV)模块,利用LVLM各层内部激活,捕捉安全相关信息,实现细粒度安全表示学习;

- 安全模式自编码器(SPAE),仅用安全输入训练,通过重建误差识别异常,完成无监督攻击分类。

实验证明,LoD在三种主流LVLM及五种代表性攻击(包括提示操控和对抗扰动)上,最小AUROC最高提升62.31%,且计算效率最高提升62.7%。相比现有基于内嵌特征的方法(如GradSafe、HiddenDetect)和启发式方法,LoD兼具高准确率、强泛化和高效性。

核心技术解析:

- MSCAV利用线性分类器对每层激活做安全概率预测,筛除无关信息,形成安全向量,验证安全与非安全输入在LVLM激活空间线性可分;

- SPAE通过自编码器学习安全MSCAV的分布,异常输入重建误差显著增大,实现异常检测,捕获跨层安全模式依赖,提升检测精度。

此外,本文还进行了详尽的消融实验、参数敏感性分析及阈值选择研究,确保方法鲁棒且实用。代码已开源:

总结来看,LoD是一种创新的基于任务学习的多模态安全检测框架,突破了传统方法的泛化和效率瓶颈,为未来LVLM安全防护提供了坚实基石。

原文链接:arxiv.org/abs/2510.15430

欢迎分享与讨论!

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注