LLaMA Adapter V2 - LLaMA Adapter V2

模型详细情况和参数

LLaMA Adapter V2

模型全称
LLaMA Adapter V2
模型简称
LLaMA Adapter V2
模型类型
基础大模型
发布日期
2023-04-28
预训练文件大小
未知
是否支持中文(中文优化)
最高支持的上下文长度
2K
模型参数数量(亿)
650.0
模型代码开源协议
预训练结果开源商用情况
-
模型HuggingFace链接
暂无
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
...
LLaMA
查看详情

LLaMA Adapter V2 简介

LLaMA-Adapter是2023年3月份提出的一个微调大语言模型的方法。该方法与斯坦福的Alpaca不同,是在预训练模型的上面加了一个1200万参数的结构,将其余部分冻结来做微调的结果。这个模型效果非常好,引起了广泛的关注。而本次发布的V2版本则是继续将大模型的微调推广到多模态部分。


如何有效地将大型语言模型(LLM)转换为指令追随者是最近流行的研究方向,而训练LLM进行多模态推理的研究较少。尽管最近的LLaMA Adapter展示了用LLM处理视觉输入的潜力,但它仍然不能很好地推广到开放式视觉指令,并且落后于GPT-4。


LLaMA Adapter V2是一个参数有效的可视化指令模型。具体来说,首先通过解锁更多可学习的参数(例如,范数、偏差和尺度)来增强LLaMA Adapter,这些参数将指令跟随能力分布在除适配器之外的整个LLaMA模型中。


其次,提出了一种早期融合策略,只将视觉标记馈送到早期LLM层,有助于更好地整合视觉知识。


第三,通过优化可学习参数的不相交组,引入了图像-文本对和指令跟随数据的联合训练范式。该策略有效地缓解了图像-文本对齐和指令跟随两个任务之间的干扰,并仅使用小规模的图像-文本和指令数据集就实现了强大的多模态推理。


在推理过程中,将额外的专家模型(如字幕/OCR系统)纳入LLaMA Adapter,以进一步增强其图像理解能力,而不产生训练成本。与原始LLaMA Adapter相比,LLaMA Adapter V2只需在LLaMA上引入14M参数,就可以执行开放式多模态指令。新设计的框架还表现出更强的纯语言指令跟随能力,甚至在聊天交互方面表现出色。


欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

LLaMA Adapter V2所属的领域
多模态学习

多模态学习

Multimodal Learning

35个资源

LLaMA Adapter V2相关的任务
文本生成图片

文本生成图片

Text to Image

35个资源