模型详细情况和参数
LLaMA-Adapter是2023年3月份提出的一个微调大语言模型的方法。该方法与斯坦福的Alpaca不同,是在预训练模型的上面加了一个1200万参数的结构,将其余部分冻结来做微调的结果。这个模型效果非常好,引起了广泛的关注。而本次发布的V2版本则是继续将大模型的微调推广到多模态部分。
如何有效地将大型语言模型(LLM)转换为指令追随者是最近流行的研究方向,而训练LLM进行多模态推理的研究较少。尽管最近的LLaMA Adapter展示了用LLM处理视觉输入的潜力,但它仍然不能很好地推广到开放式视觉指令,并且落后于GPT-4。
LLaMA Adapter V2是一个参数有效的可视化指令模型。具体来说,首先通过解锁更多可学习的参数(例如,范数、偏差和尺度)来增强LLaMA Adapter,这些参数将指令跟随能力分布在除适配器之外的整个LLaMA模型中。
其次,提出了一种早期融合策略,只将视觉标记馈送到早期LLM层,有助于更好地整合视觉知识。
第三,通过优化可学习参数的不相交组,引入了图像-文本对和指令跟随数据的联合训练范式。该策略有效地缓解了图像-文本对齐和指令跟随两个任务之间的干扰,并仅使用小规模的图像-文本和指令数据集就实现了强大的多模态推理。
在推理过程中,将额外的专家模型(如字幕/OCR系统)纳入LLaMA Adapter,以进一步增强其图像理解能力,而不产生训练成本。与原始LLaMA Adapter相比,LLaMA Adapter V2只需在LLaMA上引入14M参数,就可以执行开放式多模态指令。新设计的框架还表现出更强的纯语言指令跟随能力,甚至在聊天交互方面表现出色。