DeciLM 6B - DeciLM-6B

模型详细情况和参数

DeciLM 6B

模型全称
DeciLM-6B
模型简称
DeciLM 6B
模型类型
基础大模型
发布日期
2023-09-13
预训练文件大小
11.3GB
是否支持中文(中文优化)
最高支持的上下文长度
4K
模型参数数量(亿)
57.0
模型代码开源协议
Llama 2 Community License Agreement
预训练结果开源商用情况
Llama 2 Community License Agreement - 免费商用授权
模型GitHub链接
暂无
模型HuggingFace链接
https://huggingface.co/Deci/DeciLM-6b
在线演示地址
暂无
DataLearnerAI的模型介绍
基础模型
无基础模型
发布机构

DeciLM-6B 简介

DeciLM 6B 是一种创新的大型语言模型(LLM),旨在解决训练和推理中不断增长的计算需求问题。它伴随着 DeciLM 6B-Instruct,后者经过微调以适用于指令跟随用例。关于 DeciLM 6B 及其创新的关键要点包括:

  1. 独特的架构:DeciLM 6B 使用了一种可变的 Grouped-Query Attention(GQA)方法,不同于传统的变换器模型,可以在效率和模型质量之间取得平衡。
  2. 可变的 Grouped-Query Attention:与其他模型不同,DeciLM 在变换器层之间变化了注意组、键和值的数量,以满足每个层独特的需求。
  3. AutoNAC 引擎:DeciLM 的架构是使用 Deci 的专有神经架构搜索(NAS)引擎 AutoNAC 生成的,它有效地选择了每个层的最佳 GQA 组参数。
  4. 训练:DeciLM 6B 使用 SlimPajamas 数据集的子集进行训练,并经过 LoRA 微调,创建了 DeciLM 6B-Instruct。
  5. 性能分析:尽管具有明显较少的参数,DeciLM 6B-Instruct 在其类别中表现出色,排名前列,性能出色。
  6. 推理效率:DeciLM 展示了比其他模型更出色的内存效率和更高的吞吐量。由 Deci 开发的 Infery-LLM 推理 SDK 进一步提高了效率并降低了推理成本。
  7. 成本和环境影响:使用 DeciLM 和 Infery-LLM 可降低推理成本,减少碳排放,是一种环保的选择。
  8. 生成式人工智能应用:DeciLM 的效率提升使其适用于各种生成式人工智能应用,确保实时响应和高吞吐量。
  9. 开源可用性:DeciLM 以宽松的许可证发布给开源社区,鼓励研究人员和开发人员在其工作中使用它。

总之,DeciLM 6B 代表了LLM领域的重大进展,提供了效率和模型质量之间的平衡。其独特的架构创新和与Infery-LLM的兼容性使其成为各种AI应用的有价值资源,同时也解决了成本和环境问题。

欢迎大家关注DataLearner官方微信,接受最新的AI模型和技术推送

DeciLM 6B所属的领域
自然语言处理

自然语言处理

Natural Language Process

35个资源

DeciLM 6B相关的任务
问答系统

问答系统

Question Answering

35个资源