模型详细情况和参数
C4AI Command R+是由CohereAI开源并发布的一个大语言模型,包含了1040亿参数,是目前开源的大模型中参数数量最高的一类。这是CohereAI发布的R系列模型中性能最强的一个(在2024年3月初,CohereAI发布过了Command R模型,参考: https://www.datalearner.com/ai-models/pretrained-models/c4ai-command-r-v01 )。相比较其它主流的大语言模型关注文本理解能力,C4AI Command R+最主要的特点是瞄准了检索增强生成(Retrieval Augmented Generation, RAG)和工具使用两种特殊的企业级应用的场景。也就是说,C4AI Command R+针对模型RAG和工具使用这两方面做了比较多的优化和提升。
CoereAI强调,C4AI Command R+模型是专为企业需求定制的,结合较高的效率和准确率,把大语言模型从一个针对文本进行回答的模型转变成可以作为企业生产力工具的模型。为此,C4AI Command R+特别针对检索增强生成训练,可以提供行内的索引生成以降低幻觉,提高检索增强的准确性。
下图是C4AI Command R+与Claude 3 Sonnet和GPT-4-Turbo的模型在文本摘要和推理能力的对比,前者是基于人工评价的摘要总结,重要的是考虑原始文本的引用。
需要注意的是,这不是当前市场上主流的公开评测,而是CohereAI自己收集的并采用人工评估的一个测试结果。主要针对文本的流畅程度、引用的指令以及有用性进行评估。数据集包含250个高度多样化的文本和复杂的摘要指令。
上图的右图是检索增强生成能力的对比,采用公开数据集测试结果。使用相同的工具检索维基百科和互联网数据集(Bamboogle和StrategyQA)。结果显示Command R+是超过了Claude 3 Sonnet以及Mistral-Large,比GPT-4-Turbo略差。
除了RAG能力外,Command R+在工具使用上也非常出色。首先,Command R+支持多步骤工具使用,意味着模型可以联合多个工具,并设计多个步骤来完成复杂的任务。甚至在调用工具出错的时候,Command R+还能自我更正并尝试其它途径。CohereAI在不同的工具使用能力数据集上做了评测:
这里的第一个评测是来自微软的大模型工具使用能力评测基准,ToolTalk,里面定义了28个工具。通过模拟用户对话测试大模型工具的使用能力(关于ToolTalk的详细情况参考: ToolTalk:微软发布的一个用以评测大语言模型工具使用能力的评测工具和评测数据集 )。这里可以看到,Command R+在工具使用能力上远超Claude 3 Sonnet和Mistral Large,也是略好于GPT-4-Turbo。
除了在RAG和工具使用上表现很好外,Command R+在多语言能力上也很不错。官方宣称Command R+支持10+个语言类别,包括英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语和中文。而且在语言能力的压缩上也很不错。这意味着Command R+可以保持在多语言不错的理解能力上降低使用成本。
CohereAI开源了1040亿参数的Command R+模型的预训练结果。不过,该模型的预训练结果并不可以商用。CohereAI与微软合作,提供了相关的API接口的商用服务,价格如下:
Cohere API Pricing | $ / M input tokens | $ / M output tokens |
---|---|---|
Command R | $0.50 | $1.50 |
Command R+ | $3.00 | $15.00 |
这意味着Command R+的100万次输入和输出价格是18美元,而相应的GPT-4-Turbo的价格是40美元,这意味着,如果Command R+在工具使用上和GPT-4-Turbo差不多水平,那使用Command R+会更划算。