零开销 (消除图像)幻觉 基于:零、空间投影挖掘正常样本特征

2025-07-23 18:16:40      来源:株洲新闻网

【导读】当前大型视觉语言模型(LVLMs)存在物体幻觉问题,即会生成图像中不存在的物体描述。西安交通大学研究团队提出了一种名为Nullu的方法,通过提取「幻觉子空间」(HalluSpace)并进行零空间投影来编辑模型权重,从而有效消除幻觉,且不增加额外推理成本。

当前大型视觉语言模型(LVLMs)普遍存在「物体幻觉」问题:模型会凭空生成图像中不存在的物体描述。

为了高效地实现幻觉消除,西安交通大学研究团队提出了一种利用「幻觉子空间」(HalluSpace)进行零空间投影的高效模型权重编辑方法Nullu(NullspaceofHalluSpace)。

论文地址:https://arxiv.org/abs/2412.13817代码地址:https://github.com/Ziwei-Zheng/Nullu

该方法的核心思路在于:从特征空间寻找到正常样本表征与幻觉样本特征的核心差异。

为了实现这一目标,研究人员在提取「真实描述+图像」与「幻觉描述+图像」的模型内部嵌入特征基础上,通过对二者嵌入特征的差进行主成分分析,定位导致幻觉的关键子空间,即HalluSpace

实验发现,HalluSpace内包含了LVLM所基于的大语言模型(LLMs)过强的偏好先验知识,而这在以往研究中已被证明是产生幻觉的主要原因之一。

因此,通过正交化模型权重,将输入样本的特征投影至HalluSpace的零空间,可以有效去除这种偏好先验,从而抑制幻觉生成。

Nullu实现简单,无需训练,便于部署,且不引入额外推理开销,在多个幻觉消除任务上取得了出色的效果,成果已发表于CVPR2025

基于零空间投影的权重编辑

Nullu的权重编辑过程主要分为三个步骤:1)真实-幻觉数据对构建;2)HalluSpace抽取;3)基于零空间投影的模型权重编辑。

数据对构建

对于任意「视觉-文本」结构的输入数据,研究人员将构建数据对来实现幻觉子空间的抽取。每个数据对具有相同的图像和不同的文本信息:其中一个文本包含准确描述图像中物体的真实描述,作为负样本;另一个包含幻觉描述,作为正样本。

可以直接使用LURE[1]数据集作为数据对,其中每一对样本包含图像及其对应的真实描述(GroundTruth,GT)以及通过关键词替换得到的幻觉描述(HallucinationDescription,HD)。

LURE数据构建的流程如下:图像从MSCOCO2014数据集的训练集中随机选取5000张图像,并获取与对应的描述作为GT

在此基础上,替换GT中最易引发幻觉的对象,如高频对象等,作为幻觉描述HD。

HalluSpace抽取

HalluSpace的抽取将主要在LVLM的语言模型部分的MLP层特征空间进行,整体流程如图所示。

语言大模型部分由LLM构成,各层包括一个自注意力层和一个MLP层。为抽取幻觉子空间HalluSpace,首先分别输入具有真实响应和幻觉响应的正负样本对,在LLM部分的每层分别计算并存储嵌入特征,随后在特征的长度维度上,对每个样本对应的特征求平均值,将这些嵌入特征堆叠成正负样本特征矩阵,并求出差异矩阵。

接着,通过SVD分解对差异矩阵进行主成分分析。

最后,选取具有对应于前𝑘个奇异值的右奇异向量,即特征向量V的前𝑘个列向量。

这些方向代表了真实特征和幻觉特征之间的主要差异,可以被视为模型特征空间中引发幻觉描述的方向,即HalluSpace

基于零空间投影的模型权重编辑

由于HalluSpace表示了真实数据和幻觉数据分布之间的主要差异方向,因此可以通过将模型特征投影到幻觉空间的零空间来去除特征中的潜在幻觉信息。

由于所有输入共享HalluSpace,因此直接将模型权重向HalluSpace的零空间进行投影,即可消除潜在幻觉风险。

经过编辑的新模型参数,可以直接重新加载到原始模型中,因此在推理时,不会引入任何额外计算开销。

如下图所示,当输入内容的内部特征存在处于HalluSpace的分量时,新的模型参数可以有效将该分量消除,从而减少幻觉的发生。

幻觉子空间的存在性与讨论

研究人员进一步利用实验,验证了HalluSpace的存在性;同时,论文通过解码对HalluSpace内部所包含的信息进行了分析讨论,揭示了Nullu与现有方法的相互关系;进一步,文章对Nullu的有效性进行了分析,并揭示了其与直接偏好优化(DPO)的潜在关系。

幻觉子空间的存在性分析

假设HalluSpace存在,在测试集上(非LURE数据集),真实样本和幻觉样本计算得到的特征差异向量在HalluSpace应具有较大分量。

为评估这一点,研究人员在CHAIR测试上,选择了100个LLaVA-1.5发生幻觉的描述性问题作为测试对象,计算每个样本幻觉发生和没有幻觉时嵌入特征的差异向量进行测试。

此外,实验中还随机选取了100个随机向量作为比较基线。

为了避免范数的影响,研究人员进一步对所有的向量都进行了归一化处理。

图中(a)展示了向量在归一化球面上的分布示意图。

对于随机向量,其将随意的分布在单位球内部,因此在幻觉子空间的投影分量将会较低;而所计算的差向量如果成功捕获了幻觉信息,则在幻觉子空间的投影分量将会很高。

因此研究人员进行了验证性的计算,结果显示,所计算差向量在幻觉子空间的投影分量比随机对照组高出了10倍以上。

这一证据表明,幻觉子空间捕捉到了LVLM特征中和幻觉有关的特征方向,从而证明了幻觉子空间的存在性。

其他讨论与分析

论文中通过对HalluSpace内部所包含的信息进行解码,发现其内部包含了众多语言模型的偏好先验。

因此,将模型参数向HalluSpace的正交零空间投影实现了去除模型内部语言偏好的功能,从而有效解决了物体幻觉问题。这一思路与现有的方法,如VCD[2]具有类似性。

另外,文章进一步揭示了Nullu与直接偏好优化(DPO)的潜在关系,进一步说明了方法的有效性,这里不再赘述。

实验与分析

研究人员将所提出方法部署于LLaVA-1.5、MiniGPT-4和mPLUG-Owl2,并在多个数据集对Nullu的有效性进行了验证:包括在CHAIR和POPE的幻觉性能验证,以及在MME和LLaVA-Bench的通用性能测试。

通过下图可以看出,由于Nullu可以通过模型编辑直接修改模型参数,因此在推理过程中,不会引入任何额外的推理开销,实现了零开销抑制物体幻觉。

相比现有其他解码增强方法,Nullu能以更快的速度,实现更好的物体幻觉解决性能。且这一性能提升并非通过减少模型输出长度来实现的。

为直观展示物体幻觉的缓解效果,研究人员进一步展示了Nullu在LLaVA-Bench开放式生成任务数据集上的测试案例。

如下图中所示,对于同一问题,使用经过Nullu进行权重编辑的模型成功消除了原始模型输出中存在的物体幻觉。

研究人员还进行了在线测试来对Nullu的有效性进行检测。在原始模型输出物体幻觉词「person」时,改用经过编辑的权重进行推理后,输出变更为「mountain」,进一步证明了所提出方法的有效性。

结语

研究人员提出了一种基于特征编辑的物体幻觉消除方法Nullu。

Nullu针对模型各层的多层感知机部分进行幻觉空间识别,通过提取真实特征与幻觉特征差异的低秩子空间,并进一步对LVLM的权重进行正交化投影,从而缓解物体幻觉问题。

实验结果表明,Nullu能够在不增加额外推理成本的情况下显著缓解物体幻觉,这使得该方法相较于当前的解码阶段方法和后处理方法,在推理速度上更具优势。

同时,经该方法编辑后的模型在通用大型视觉语言模型基准测试中仍能保持良好性能,证明其在提升真实性的同时,并未损害模型的整体能力。

理论分析表明,该方法与直接偏好优化在权重更新方式上存在内在一致性。通过与先前研究的对比分析进一步发现,该方法通过调整模型参数,有效减少了大语言模型中的语言偏差,而语言偏差已被证实是导致对象幻觉的关键因素之一。

作者介绍

论文作者来自西安交通大学人工智能安全实验室(AI-SEC)团队,其中第一作者杨乐为西安交通大学特聘研究员,共同第一作者为西安交通大学博士生郑子维,通讯作者为西安交通大学沈超教授。

参考资料:

[1]Zhou,Yiyang,etal."Analyzingandmitigatingobjecthallucinationinlargevision-languagemodels."InICLR2024.

[2]Leng,Sicong,etal."Mitigatingobjecthallucinationsinlargevision-languagemodelsthroughvisualcontrastivedecoding."InCVPR2024.

  以西安咸阳机场为例,扩建后拥有4座航站楼,航站楼面积高居国内前5。但西安咸阳机场去年旅客吞吐量排在全国第11位,西安去年GDP仅排在全国第21位。

责编:夏睿文编辑

伊核设施周边民众被告知可正常生活

  乌鲁木齐不缺国际和地区航线。2024年,乌鲁木齐机场累计运营定期客货运输航线共240条。其中,国际定期客运航线26条,与高加索地区三国与中亚五国实现全部通航,通航中亚航点数量为国内十大枢纽机场之首。

上蚂蚁保选刘亦菲的好医保

  2023年7月,中共中央总书记、国家主席、中央军委主席习近平在四川考察时指出,四川要发挥高校和科研机构众多、创新人才集聚的优势和产业体系较为完善、产业基础雄厚的优势,在科技创新和科技成果转化上同时发力。

长安没吃到的荔枝阿麦斯请了

  数据显示,免签对入境游的促进效果显著。春秋旅游副总经理周卫红此前表示,自中国对多国单方面免签以来,对入境游市场起到积极的推动作用,让来自更多客源地的境外游客能够以更便捷的方式来到中国。

伊朗称以色列明显无能

  经查,李鹏新丧失理想信念,背弃初心使命,培植个人势力,搞“七个有之”;无视中央八项规定精神,违规接受宴请和车辆司机服务安排;对组织不忠诚、不老实,在组织函询时不如实说明问题,违背组织原则,卖官鬻爵,严重污染地方政治生态;廉洁底线失守,长期违规收受礼品、礼金;腐化堕落;贪婪无度,政商勾连,大搞新型腐败,利用职务便利为他人在矿产开发、企业经营、干部选拔任用等方面谋利,并非法收受股权股份等巨额财物。

马嘉祺歌手第一期备选了首歌

  去哪儿数据显示,消息发布后,去哪儿平台“澳大利亚”机票搜索量环比增长四成以上。在去哪儿平台上,飞往澳大利亚的航线覆盖多个城市。悉尼可直飞北京、上海、广州、深圳、成都、杭州、重庆、南京、厦门、天津、济南、西安、海口、郑州、太原等多个城市,暑期从郑州、重庆、天津往返悉尼更便宜,价格在2500元左右。此外,墨尔本可直飞北京、上海、广州、成都、杭州、南京、厦门、青岛、海口等城市,上海、广州也有直飞布里斯班的航班在售。从旅游订单来看,大堡礁、悉尼歌剧院、出海观海豚受到旅客欢迎,8-12日团预订更多。在澳大利亚,旅客可以出海观鲸、看企鹅归巢,体验特色风情。

王勉易梦玲

  第三,新的台行政机构刚上路,即遇上立法机构改革风暴,尚无亮丽表现。再加上若干“部会”状况不少,屡成媒体议论焦点,如台内务主管部门、经济主管部门、“海委会”等。/p>

王勉易梦玲

  纪宁说:“欧美国家的网球市场已逐渐进入饱和阶段,中国被认为可能带来新的爆发性增长点。”他认为,在中国这个网球新兴市场,应更充分地挖掘体育明星的商业价值。“这有利于全面释放中国体育经济的增长潜力。”/p>

保护情绪和保护健康一样重要

  中国驻英国使馆发言人13日表示,英方有关制裁是没有国际法依据的单边主义行径,中方坚决反对,已向英方提出严正交涉。英国政府罔顾国内国际民意,不断火上浇油,助长战事延绵不绝、生灵涂炭,致使和平更加遥遥无期。