最新AI大模型咨询与技术解读——来自DataLearnerAI

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

如何估计大模型推理或者训练所需要的显存大小？HuggingFace官方工具Model Memory Calculator，一键计算大模型显存需求~

大模型对显卡资源的消耗是很大的。但是，具体每个模型消耗多少显存，需要多少资源大模型才能比较好的运行是很多人关心的问题。此前，DataLearner曾经从理论上给出了大模型显存需求的估算逻辑，详细说明了大模型在预训练阶段、微调阶段和推理阶段所需的显存资源估计，而HuggingFace的官方库Accelerate直接推出了一个在线大模型显存消耗资源估算工具Model Memory Calculator，直接可以估算在HuggingFace上托管的模型的显存需求。

小木

10044

Accelerate/ModelMemoryCalculator/大模型显存估计/显存估计

大语言模型的指令微调（Instruction Tuning）最全综述：从数据集到技术全解析

当前的大语言模型主要是预训练大模型，在大规模无监督数据上训练之后，再经过有监督微调和对齐之后就可以完成很多任务。尽管如此，面对垂直领域的应用，大模型依然需要微调才能获得更好地应用结果。而大模型的微调有很多方式，包括指令微调、有监督微调、提示工程等。其中，指令微调（Instruction Tuning）作为改进模型可控性最重要的一类方法，缺少深入的研究。浙江大学研究人员联合Shannon AI等单位发布了一篇最新的关于指令微调的综述，详细描述指令微调的各方面内容。

小木

9929

大模型微调/指令微调

比Office Copilot更快一步~基于AI大语言模型生成PPT、Word和网页的应用的新产品测试~Gamma.APP，PPT打工人必备

大语言模型（Large Language Model，LLM）已经在很多领域都产生了巨大的影响。但是其中最为大家所期待的功能之一就是基于idea生成PPT、Word文档等。此前微软Office Copilot已经吸引了很多人的关注，但目前依然没有开放。而今天DataLearnerAI发现了一个类似的产品，来自洛杉矶初创企业Gamma的产品目前已经支持基于文本生成PPT、Word和网页应用了，本文带大家简单体验一下这个产品。

小木

2604

AI生成PPT/大模型应用/生成PPT

Meta即将推出开源的CodeLLaMA：一种新的编程AI模型

据传，Meta公司即将推出一款名为Code LLaMA的开源AI模型，用于生成编程代码。这一新模型被视为与OpenAI的Codex模型竞争的产品，并建立在Meta最近发布的LLaMA 2上。以下是关于这一新技术的详细分析。

小木

557

CodeLLaMA/LLaMA/编程大模型

大规模中文开源数据集发布！2TB、几十亿条可商用的中文数据集书生·万卷 1.0开源~中文大模型能力可能要更上一层楼了！

随着近年来GPT-3、ChatGPT等大模型的兴起，高质量的数据集在模型训练中扮演着越来越重要的角色。但是当前领先的预训练模型使用的数据集细节往往不公开，开源数据的匮乏制约着研究社区的进一步发展。特别是大规模中文数据集十分缺乏，对中文大模型以及业界模型的中文支持都有很大的影响。此次，上海人工智能实验室发布的这个数据集包含了丰富的中文，对于大模型的中文能力提升十分有价值。

小木

3709

中文预训练数据集/大模型数据集/开源数据集

如何微调大语言模型？吴恩达联合LaminiAI最新一个小时短课教会大模型微调！这次是面向中级水平人员~

当谈及人工智能的巨大进步，大模型的崛起无疑是其中的一个重要里程碑。这些大模型，如GPT-3，已经展现出令人惊叹的语言生成和理解能力，但是为了让它们在特定任务上发挥最佳性能，大模型微调（Fine-tuning）是一种非常优秀的方法。微调是一种将预训练的大型模型进一步优化，以适应特定任务或领域的过程。但微调并不是很简单，今天吴恩达联合Lamini推出了全新的大模型微调短课《Finetuning Large Language Models》。

小木

1944

AI教程/LLM/吴恩达/大模型微调/微调

OpenAI官方教程：如何针对大模型微调以及微调后模型出现的常见问题分析和解决思路~以GPT-3.5微调为例

OpenAI在2023年8月份发布了GPT-3.5的微调接口，并表示会在2023年秋天开放16K的gpt-3.5-turbo-16k模型和GPT-4的微调（参考：[重磅！GPT-3.5可以微调了！OpenAI发布GPT-3.5 Turbo微调接口](https://www.datalearner.com/blog/1051692752268726 "重磅！GPT-3.5可以微调了！OpenAI发布GPT-3.5 Turbo微调接口")）。然而，微调并不是一个简单的问题，如何对大模型微调以及如果微调出现问题

小木

3682

OpenAI/大模型微调/微调数据制作

最强SQL代码生成开源大模型发布：DefogAI开源超过gpt-3.5-turbo的SQL生成大模型SQLCoder，免费商用授权~

SQLCoder 是 Defog 团队推出的一款前沿的语言模型，专门用于将自然语言问题转化为 SQL 查询。这是一个拥有150亿参数的模型，其性能略微超过了 gpt-3.5-turbo 在自然语言到 SQL 生成任务上，并且显著地超越了所有流行的开源模型。更令人震惊的是，尽管 SQLCoder 的大小只有 text-davinci-003 的十分之一，但其性能却远超后者。

小木

3598

SQLCoder/编程大模型

需要多少GPU显存才能运行预训练大语言模型？大语言模型参数规模与显存大小的关系估算方法~

开源大语言模型的发展非常迅速，其强大的能力也吸引了很多人的尝试与体验。尽管预训练大语言模型的使用并不复杂，但是，因为其对GPU资源的消耗很大，导致很多人并不能很好地运行加载模型，也做了很多浪费时间的工作。其中一个比较的的问题就是很多人并不知道自己的显卡支持多大参数规模的模型运行。本文将针对这个问题做一个非常简单的介绍和估算。

小木

6683

大模型/显存消耗/显存计算/预训练大模型

又一个国产开源大模型发布：前腾讯创始人创业公司元象发布XVERSE-13B，超过Baichuan-13B，与ChatGLM2-12B齐平！但免费商用授权！

XVERSE-13B是元象开源的一个大语言模型，发布一周后就登顶HuggingFace流行趋势榜。该模型最大的特点是支持多语言，其中文和英文水平都十分优异，在评测结果上超过了Baichuan-13B，与ChatGLM2-12B差不多，不过ChatGLM2-12B是收费模型，而XVERSE-13B是免费商用授权！

小木

1082

LLM/XVERSE-13B/大模型

数学推理能力超过ChatGPT-3.5：微软与中科院研究人员合作最新的开源大模型WizardMath发布！开源模型第一，免费商用授权！

WizardLM是微软联合北京大学开源的一个大语言模型。此前，发布的WizardLM和WizardCoder都是业界开源领域最强的大模型。其中，前者是针对指令优化的大模型，而后者则是针对编程优化的大模型。而此次WizardMath则是他们发布的第三个大模型系列，主要是针对数学推理优化的大模型。在GSM8K的评测上，WizardMath得分超过了ChatGPT-3.5、Claude Instant-1等闭源商业模型，得分十分逆天！

小木

1121

WizardLM/WizardMath/数学推理大模型

Embedding开源模型重磅玩家：北京智源人工智能研究院最新Embedding模型发布！登顶MTEB，免费商用授权！

Embedding模型作为大语言模型（Large Language Model，LLM）的一个重要辅助，是很多LLM应用必不可少的部分。但是，现实中开源的Emebdding模型却很少。最近，北京智源人工智能研究院（BAAI）开源了BGE系列Embedding模型，不仅在MTEB排行榜中登顶冠军，还是免费商用授权的大模型，支持中文，应该可以满足相当多人的需要。

小木

3022

BGE/Embedding/Embedding大模型

超越所有开源编程大模型和GPT-3.5！华为发布150亿参数规模的编程大模型PanGu-Coder2

华为盘古大模型一直是国内大模型领域比较早的先行者，不过由于该模型并不针对个人开放，因此很少有人可以体验到该模型的效果。但是，盘古大模型一直在不断发展。2023年7月27日，华为发布最新的论文，展示了新一代盘古大模型的编程能力。该模型名字为PanGu-Coder2，论文的数据显示该模型目前超越所有开源编程大模型的效果，也超过GPT-3.5，接近GPT-4。

小木

1597

盘古大模型/编程大模型