AAAI 2025论文,方法部分感觉有点难理解(导师说方法像扩散模型,之后去看一下)
背景
物体幻觉阻碍了 LVLMs 在需要精确判断的场景(医疗诊断、自动驾驶等)下的可靠性和适用性。
问题
软视觉token映射到大语言模型的词嵌入空间时,模型对无关视觉特征产生了过度自信
本文贡献
1、首次用变分信息瓶颈(VIB)原理作为正则化技术来缓解 LVLM 中的物体幻觉问题
2、提出了一种名为 ADAVIB 的自适应噪声控制策略 。该策略基于相似度分布的熵来衡量样本的过度自信程度,可以动态地调整注入的随机噪声强度
方法
普通的LVLM步骤是,直接把图像解码器生成的特征向量v通过projector (MLP) 映射到z,z就是软视觉token,然后嵌入到输入的提示词token中作为输入进入到大语言模型中进行处理,本论文提出了一种新的方法叫ADAVIB,主要公式minLvib是目标函数,前一项表达的是压缩项,也可以命名为正则项,主要作用是限制z从v带走过多信息;第二大项是预测项,主要是生成任务本身的损失,作用是保证压缩后的z能生成正确的答案y。
对于主要公式(minLvib)的解释
β是一个权重系数,论文里叫Lagrange multiplier,主要是用来平衡压缩和预测项,如果β越大,那么约束更强,信息流更容易受限;相反如果β小则能保留更多信息,β会根据熵做自适应调整。 pΘ(z|v)是后验分布,论文里将它建模为一个高斯分布,μ是均值∑是方差,大白话讲就是模型不算直接输出一个固定的z,而是先输出z大概位置和波动大小,再从这个分布里进行采样。r(z)是先验分布,是不依赖具体输入v的参考分布,对于后验分布来说是一个约束目标。
最后生成的z是经过重参数化采样得到的,μ和∑分别是后验分布的均值和方差,e是标准的高斯噪声,然后把标准高斯噪声与后验分布的方差进行逐元素相乘(论文中注入噪声最直接体现在公式 (9)。作者将 visual token 写成公式9,∑控制噪声幅度,因此 z 不是确定性映射结果,而是带随机扰动的压缩表示。这种噪声注入对应 VIB 中的信息压缩过程,用来限制无关信息流入 LLM。)
实验
所用数据集:
- MSCOCO
- CHAIR
- POPE 并用Accuracy和F1进行评估
MiniGPT-4和LLaVa-1.5作为backbone
结果
在MiniGPT-4 和 LLaVa-1.5上,都能稳定降低 object hallucination,并且在两个基准上都优于普通微调和多种强基线;在 MSCOCO 上,ADAVIB 显著降低了 CHAIR_S 和 CHAIR_I,说明生成描述里“图中不存在物体”的现象更少,在 POPE 上也整体提升了 Accuracy 和 F1,在 Popular split 上提升更明显,证明它对高频物体共现带来的统计偏差抑制更有效。消融实验中证明adaptive β 和 **reparameterization 都是有效组件,而机理分析图说明 ADAVIB 会让 visual token 到 LLM 词空间的相似度分布更平滑、熵更高,最后的敏感性实验也表明,压缩强度过大或过小都会变差,自适应控制优于固定设置