最新AI大模型咨询与技术解读——来自DataLearnerAI

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

阿里巴巴开源第二代大语言模型Qwen2系列，最高参数规模700亿，评测结果位列开源模型第一，超过了Meta开源的Llama3-70B！

Qwen系列大语言模型是阿里巴巴开源的大语言模型。最早的Qwen模型在2023年8月份开源，当时只有70亿参数规模模型，随后阿里巴巴不断开源新的模型，最高参数规模达到了700亿，版本也从1.0升级到2024年3月份的1.5，再到今天发布的Qwen2系列。Qwen已经开源了几十个不同参数规模的大模型。此次发布的Qwen2.0系列不仅在评测任务上超过了现有的开源模型，也在实际应用中有非常好的表现。

小木

876

Qwen2/Qwen2-72B/大语言模型/通义千问/阿里巴巴

阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型：MMLU评测接近Llama-3-70B，略超Mixtral-8×22B！

Qwen1.5系列是阿里开源的一系列大语言模型，也是目前为止最强开源模型之一。Qwen1.5是Qwen2的beta版本，此前开源的模型最大参数规模都是720亿，和第一代模型一样。就在刚刚，阿里开源了1100亿参数规模的Qwen1.5-110B模型。评测结果显示MMLU略超Llama3-70B和Mixtral-8×22B。我们实测结果，相比Qwen1.5-72B模型来说，复杂任务的逻辑提升比较明显！

小木

985

Qwen1.5-110B/Qwen1.5-72B/国产大模型/通义千问/阿里巴巴

HumanEval评测接近GPT-4-Turbo！阿里巴巴开源70亿参数编程大模型CodeQwen1.5-7B！

编程大模型是当前大语言模型里面最重要的一类。一般是基础大模型在预训练之后，加入代码数据集继续训练得到。在代码补全、代码生成方面一般强于常规的大语言模型。阿里最新开源的70亿参数大模型CodeQwen1.5-7B在HumanEval评测结果上超过了GPT-4早期版本，表现异常地好！

小木

1232

CodeQwen/CodeQwen1.5-7B/编程大模型

Qwen1.5系列再次更新：阿里巴巴开源320亿参数Qwen1.5-32B模型，评测结果超过Mixtral 8×7B MoE，性价比更高！

阿里巴巴最新开源了320亿参数的大语言模型Qwen1.5-32B，这个模型在各项评测结果中都略超此前最强开源大模型Mixtral 8×7B MoE，比720亿参数的Qwen-1.5-72B模型略差。但是一半的参数意味着只有一半的显存，这样的性价比极高。

小木

1301

Qwen1.5/Qwen1.5-32B/通义千问/阿里巴巴

重磅！阿里巴巴开源自家首个MoE技术大模型：Qwen1.5-MoE-A2.7B，性能约等于70亿参数规模的大模型Mistral-7B

阿里巴巴的通义千问一直是开源领域最强大的大模型之一。就在今天，阿里巴巴首次开源了他们家的MoE技术大模型Qwen1.5-MoE-A2.7B，这个模型是使用现有的Qwen-1.8B模型作为起点，通过类似merge技术进行合并得到的。

小木

1744

MoE/Qwen1.5-MoE/混合专家大模型/通义千问

重磅！第二代通义千问大模型开源，阿里巴巴一口气开源了30个不同参数规模的模型，其中Qwen1.5-72B仅次于GPT-4.

今天阿里巴巴开源了他们家第二代的Qwen系列大语言模型（准确说是1.5代），从官方给出的测评结果看，Qwen1.5系列大模型相比较第一代有非常明显的进步，其中720亿参数规模版本的Qwen1.5-72B-Chat在各项评测结果中都非常接近GPT-4的模型，在MT-Bench的得分中甚至超过了此前最为神秘但最接近GPT-4水平的Mistral-Medium模型。

小木

3500

Qwen/Qwen1.5/Qwen2/千问大模型/通义千问/通义千问大模型

阿里巴巴的第二代通义千问可能即将发布：Qwen2相关信息已经提交HuggingFace官方的transformers库

通义千问是阿里巴巴开源的一系列大语言模型。Qwen系列大模型最高参数量720亿，最低18亿，覆盖了非常多的范围，其各项评测效果也非常好。而昨天，Qwen团队的开发人员向HuggingFace的transformers库上提交了一段代码，包含了Qwen2的相关信息，这意味着Qwen2模型即将到来。

小木

1555

Qwen-7B/Qwen2/Qwen2-7B/通义千问

阿里巴巴开源国内最大参数规模大语言模型——高达720亿参数规模的Qwen-72B发布！还有一个可以在手机上运行的18亿参数的Qwen-1.8B

Qwen系列是阿里巴巴开源的一系列大语言模型。在此前的开源中，阿里巴巴共开源了3个系列的大模型，分别是70亿参数规模和140亿参数规模的Qwen-7B和Qwen-14B，还有一个是多模态大模型Qwen-VL。而此次阿里巴巴开源了720亿参数规模的Qwen-72b，是目前国内最大参数规模的开源大语言模型，应该也是全球范围内首次有和Llama2-70b同等规模的大语言模型开源。

小木

3366

Qwen-72B/Qwen大模型/阿里巴巴