

VLSU: 映射多模态联合理解界限以确保AI安全
作者:Shruti Palaskar, Leon Gatys, Mona Abdelrahman, Mar Jacobo, Larry Lindsey, Rutika Moharir, Gunnar Lund, Yang Xu, Navid Shiee, Jeffrey Bigham, Charles Maalouf, Joseph Yitan Cheng
多模态基础模型的安全性评估通常将视觉和语言输入分开对待,这可能忽视了联合作用中的风险,例如单一良性内容在结合时可能变得有害。现有方法也未能明确区分明显不安全的内容和边界案例,导致可能过度屏蔽或未能拒绝真正有害的内容。我们提出了视觉语言安全理解(VLSU),这是一个综合框架,通过细粒度的严重性分类和对17种不同安全模式的组合分析来系统性评估多模态安全性。通过使用包含真实世界图像和人工标注的多阶段处理流程,我们构建了一个涵盖15种危害类别的大规模基准数据集,共计8,187个样本。
在对十一种最先进模型的评估中,我们发现了系统性的多模态联合理解失败:尽管模型能够在明显的单模态安全信号上达到90%以上的精度,但当需要联合图像和文字推理来确定安全标签时,性能会显著下降至20-55%。最关键的是,在联合图像-文本安全分类中,34%的错误发生在单独模态正确分类的情况下,这进一步显示了复合推理能力的缺失。此外,我们发现模型难以在拒绝不安全内容与响应需要处理的边界案例之间找到平衡。例如,我们发现通过指令框架设计可以将Gemini-1.5针对边界内容的过度屏蔽率从62.4%减少至10.4%,但与此同时,对不安全内容的拒绝率会从90.8%下降至53.9%。
总体而言,我们的框架揭示了当前模型在联合图像-文本理解方面的弱点,以及在对齐性上的差距,并提供了一个关键的测试平台来助力下一步在可靠的视觉-语言安全性研究上的进展。
VLSU: 映射多模态联合理解界限以确保AI安全
2025年11月20日|研究领域公平性,研究领域语言处理和语音|NeurIPS研讨会
此论文已被NeurIPS 2025的“学习评估演化LLM生命周期”研讨会接收。
多模态基础模型的安全性评估通常将视觉和语言输入分开对待,这可能忽视了联合作用中的风险,例如单一良性内容在结合时可能变得有害。现有方法也未能明确区分明显不安全的内容和边界案例,导致可能过度屏蔽或未能拒绝…
解耦安全适配器(DSA)实现高效的防护措施和灵活的推理时对齐
2025年6月27日|研究领域方法与算法,研究领域语言处理和语音
现有的AI安全保障范式,如防护模型和对齐训练,通常在推理效率或开发灵活性之间妥协。我们引入了解耦安全适配器(DSA),这是一种解决这些挑战的新型框架,通过将安全性相关的计算从任务优化的基础模型中解耦。DSA利用轻量级的适配器,这些适配器通过使用基础模型的内部表示,能够实现多样化和…
探索机器学习中的机会。


我们的机器学习研究每天都在开创新的领域。


[人形纪元网出品] [多模态模型安全性] [刘智勇频道] [真机智能(zhenrobot.com)] [真机算法] [真机资本(zhencap.com)] [真机宇宙(zhenmeta.com)] [机器姬永生人] [机器洞察网] [AI之星网] [风投高科网] [猛虎财经网] [硅基科学网] [人形纪元网] [真机量化(zhenquant.hk)] [真机内参] [真机尽调(zhendue.com)] [高能判官] [片场狂徒] [暴徒外放] [Cognition OS] [Embodied OS] [黄金广告位]
📚 【精品资源】添加关注『人形纪元网微信公众号』,即可免费获取完整版《刘智勇频道第五卷》



从技术到应用,看来未来的生活离不开这些尖端创新了,厉害!
希望以后这样的成果能普及到更多领域,造福社会!
年轻人的学习工具越来越智能了,我们小时候哪有这些黑科技支持!