ADAVIB | Silverashの隙间

AAAI 2025论文，方法部分感觉有点难理解（导师说方法像扩散模型，之后去看一下）

背景

物体幻觉阻碍了 LVLMs 在需要精确判断的场景（医疗诊断、自动驾驶等）下的可靠性和适用性。

问题

软视觉token映射到大语言模型的词嵌入空间时，模型对无关视觉特征产生了过度自信

本文贡献

1、首次用变分信息瓶颈（VIB）原理作为正则化技术来缓解 LVLM 中的物体幻觉问题

2、提出了一种名为 ADAVIB 的自适应噪声控制策略。该策略基于相似度分布的熵来衡量样本的过度自信程度，可以动态地调整注入的随机噪声强度

方法

普通的LVLM步骤是，直接把图像解码器生成的特征向量v通过projector (MLP) 映射到z，z就是软视觉token，然后嵌入到输入的提示词token中作为输入进入到大语言模型中进行处理，本论文提出了一种新的方法叫ADAVIB，主要公式minL_vib是目标函数，前一项表达的是压缩项，也可以命名为正则项，主要作用是限制z从v带走过多信息；第二大项是预测项，主要是生成任务本身的损失，作用是保证压缩后的z能生成正确的答案y。

对于主要公式(minL_vib)的解释

β是一个权重系数，论文里叫Lagrange multiplier，主要是用来平衡压缩和预测项，如果β越大，那么约束更强，信息流更容易受限；相反如果β小则能保留更多信息，β会根据熵做自适应调整。 p_Θ（z|v）是后验分布，论文里将它建模为一个高斯分布，μ是均值∑是方差，大白话讲就是模型不算直接输出一个固定的z，而是先输出z大概位置和波动大小，再从这个分布里进行采样。r（z）是先验分布，是不依赖具体输入v的参考分布，对于后验分布来说是一个约束目标。

最后生成的z是经过重参数化采样得到的，μ和∑分别是后验分布的均值和方差，e是标准的高斯噪声，然后把标准高斯噪声与后验分布的方差进行逐元素相乘（论文中注入噪声最直接体现在公式 (9)。作者将 visual token 写成公式9，∑控制噪声幅度，因此 z 不是确定性映射结果，而是带随机扰动的压缩表示。这种噪声注入对应 VIB 中的信息压缩过程，用来限制无关信息流入 LLM。）

实验

所用数据集：

MSCOCO
CHAIR
POPE 并用Accuracy和F1进行评估

MiniGPT-4和LLaVa-1.5作为backbone

结果

在MiniGPT-4 和 LLaVa-1.5上，都能稳定降低 object hallucination，并且在两个基准上都优于普通微调和多种强基线；在 MSCOCO 上，ADAVIB 显著降低了 CHAIR_S 和 CHAIR_I，说明生成描述里“图中不存在物体”的现象更少，在 POPE 上也整体提升了 Accuracy 和 F1，在 Popular split 上提升更明显，证明它对高频物体共现带来的统计偏差抑制更有效。消融实验中证明adaptive β 和 **reparameterization 都是有效组件，而机理分析图说明 ADAVIB 会让 visual token 到 LLM 词空间的相似度分布更平滑、熵更高，最后的敏感性实验也表明，压缩强度过大或过小都会变差，自适应控制优于固定设置

背景

问题

本文贡献

方法

对于主要公式(minLvib)的解释

实验

结果

对于主要公式(minL_vib)的解释