LLaMA Adapter V2

基础大模型

LLaMA Adapter V2

发布时间: 2023-04-28

609

GitHub Hugging Face 在线体验

模型参数（Parameters）

650.0

最高上下文长度（Context Length）

是否支持中文

不支持

推理能力（Reasoning）

模型基本信息

是否支持推理过程

不支持

最高上下文输入长度

2K tokens

最长输出结果

暂无数据

模型类型

基础大模型

发布时间

2023-04-28

模型预文件大小

暂无数据

开源和体验地址

代码开源状态

预训练权重开源

GitHub 源码

https://github.com/ZrrSkywalker/LLaMA-Adapter

Hugging Face

暂无开源HuggingFace地址

在线体验

暂无在线体验地址

官方介绍与博客

官方论文

LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model

DataLearnerAI博客

暂无介绍博客

API接口信息

接口速度（满分5分）

暂无数据

接口价格

暂无公开的 API 定价信息。

LLaMA Adapter V2模型在各大评测榜单的评分

当前尚无可展示的评测数据。

发布机构

上海人工智能实验室

查看发布机构详情

LLaMA Adapter V2模型解读

LLaMA-Adapter是2023年3月份提出的一个微调大语言模型的方法。该方法与斯坦福的Alpaca不同，是在预训练模型的上面加了一个1200万参数的结构，将其余部分冻结来做微调的结果。这个模型效果非常好，引起了广泛的关注。而本次发布的V2版本则是继续将大模型的微调推广到多模态部分。

如何有效地将大型语言模型（LLM）转换为指令追随者是最近流行的研究方向，而训练LLM进行多模态推理的研究较少。尽管最近的LLaMA Adapter展示了用LLM处理视觉输入的潜力，但它仍然不能很好地推广到开放式视觉指令，并且落后于GPT-4。

LLaMA Adapter V2是一个参数有效的可视化指令模型。具体来说，首先通过解锁更多可学习的参数（例如，范数、偏差和尺度）来增强LLaMA Adapter，这些参数将指令跟随能力分布在除适配器之外的整个LLaMA模型中。

其次，提出了一种早期融合策略，只将视觉标记馈送到早期LLM层，有助于更好地整合视觉知识。

第三，通过优化可学习参数的不相交组，引入了图像-文本对和指令跟随数据的联合训练范式。该策略有效地缓解了图像-文本对齐和指令跟随两个任务之间的干扰，并仅使用小规模的图像-文本和指令数据集就实现了强大的多模态推理。

在推理过程中，将额外的专家模型（如字幕/OCR系统）纳入LLaMA Adapter，以进一步增强其图像理解能力，而不产生训练成本。与原始LLaMA Adapter相比，LLaMA Adapter V2只需在LLaMA上引入14M参数，就可以执行开放式多模态指令。新设计的框架还表现出更强的纯语言指令跟随能力，甚至在聊天交互方面表现出色。

Foundation Model

LLaMA

View Details

关注DataLearnerAI公众号

关注DataLearnerAI微信公众号，接受最新大模型资讯