最新AI大模型咨询与技术解读——来自DataLearnerAI

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

各大企业和机构拥有的NVIDIA A100的GPU显卡数量

Stateof.AI上周发布了最新的AI的报告中报告了当前各大企业和机构拥有的NVIDIA A100的GPU数量。A100是目前商用的最强大的GPU，对于超级计算机、大规模AI模型的训练和推理来说都十分重要。这里透露的各大企业的GPU数量也让我们可以看到各家的竞争情况。

2023/09/08 20:19:06

4385

#A100##GPU##洞察报告#

Claude开始转向收费模式！推出Claude Pro，定价20美元一个月解锁PDF理解最强大模型的能力~

Anthropic公司宣布，其开发的智能助手Claude推出收费订阅服务，命名为Claude Pro，定价20美元一个月（或者18英镑）。免费用户依然可以使用，但是有发送频率限制。本篇博客将解释一下ClaudeAI的Claude服务是否收费以及收费之后的ClaudePro提供的服务等。

2023/09/08 10:07:58

5786

#ClaudeAI##ClaudePro##Claude收费情况#

如何估计大模型推理或者训练所需要的显存大小？HuggingFace官方工具Model Memory Calculator，一键计算大模型显存需求~

大模型对显卡资源的消耗是很大的。但是，具体每个模型消耗多少显存，需要多少资源大模型才能比较好的运行是很多人关心的问题。此前，DataLearner曾经从理论上给出了大模型显存需求的估算逻辑，详细说明了大模型在预训练阶段、微调阶段和推理阶段所需的显存资源估计，而HuggingFace的官方库Accelerate直接推出了一个在线大模型显存消耗资源估算工具Model Memory Calculator，直接可以估算在HuggingFace上托管的模型的显存需求。

2023/09/01 18:09:17

11991

#Accelerate##ModelMemoryCalculator##大模型显存估计##显存估计#

OpenAI官方Prompt教程：如何让ChatGPT扮演不同角色，完成教学任务

Prompt技巧一直是提升ChatGPT等大语言模型使用效率的最重要方法之一。为此，OpenAI官方也在不断地分享官方的Prompt技巧。2023年的8月31日，OpenAI官方最新分享了一个教室使用的Prompt来帮助老师授课的案例。尽管这是针对老师的Prompt教程，但是其中的设计思路其实也可以广泛运用在客服、问答系统、编程等领域。

2023/09/01 08:50:30

2316

#ChatGPTPrompt##Prompt##教师Prompt#

MetaAI开源高质量高精度标注的图像数据集FACET：3.2万张图片、5万个主题，平均图像解析度达到1500×2000

MetaAI在2023年8月31日开源了一个全新的图像数据集，FACET（FAirness in Computer Vision EvaluaTion），FACET数据集包含32,000张图片和50,000人，这些图片由专家进行了详细的标注，包括人口统计属性（如感知性别表达和感知年龄组）和其他物理属性（如感知肤色和发型）。这样的设计使得研究人员可以更全面、更深入地评估模型在不同人群中的表现，从而更准确地识别和解决模型的不公平性问题。

2023/09/01 08:13:08

581

#FACET##图像数据集##数据集#

OpenAI发布企业使用的ChatGPT：没有限制且更快的GPT-4、数据隔离、基于GPT-4的高级数据分析功能，但是暂不支持私有化部署

OpenAI发布了ChatGPT的企业版，这是一个专为企业设计的聊天机器人。这个版本不仅提供了企业级的安全和隐私保护，还具有更高的处理速度和更多的自定义选项。相比较个人版的ChatGPT，企业版主要是提升了性能、强调了安全等。

2023/08/29 09:16:09

768

#ChatGPT##OpenAI##企业版ChatGPT#

大语言模型的指令微调（Instruction Tuning）最全综述：从数据集到技术全解析

当前的大语言模型主要是预训练大模型，在大规模无监督数据上训练之后，再经过有监督微调和对齐之后就可以完成很多任务。尽管如此，面对垂直领域的应用，大模型依然需要微调才能获得更好地应用结果。而大模型的微调有很多方式，包括指令微调、有监督微调、提示工程等。其中，指令微调（Instruction Tuning）作为改进模型可控性最重要的一类方法，缺少深入的研究。浙江大学研究人员联合Shannon AI等单位发布了一篇最新的关于指令微调的综述，详细描述指令微调的各方面内容。

2023/08/28 15:22:05

11773

#大模型微调##指令微调#

比Office Copilot更快一步~基于AI大语言模型生成PPT、Word和网页的应用的新产品测试~Gamma.APP，PPT打工人必备

大语言模型（Large Language Model，LLM）已经在很多领域都产生了巨大的影响。但是其中最为大家所期待的功能之一就是基于idea生成PPT、Word文档等。此前微软Office Copilot已经吸引了很多人的关注，但目前依然没有开放。而今天DataLearnerAI发现了一个类似的产品，来自洛杉矶初创企业Gamma的产品目前已经支持基于文本生成PPT、Word和网页应用了，本文带大家简单体验一下这个产品。

2023/08/26 14:37:59

3330

#AI生成PPT##大模型应用##生成PPT#

Meta即将推出开源的CodeLLaMA：一种新的编程AI模型

据传，Meta公司即将推出一款名为Code LLaMA的开源AI模型，用于生成编程代码。这一新模型被视为与OpenAI的Codex模型竞争的产品，并建立在Meta最近发布的LLaMA 2上。以下是关于这一新技术的详细分析。

2023/08/24 20:39:36

671

#CodeLLaMA##LLaMA##编程大模型#

大规模中文开源数据集发布！2TB、几十亿条可商用的中文数据集书生·万卷 1.0开源~中文大模型能力可能要更上一层楼了！

随着近年来GPT-3、ChatGPT等大模型的兴起，高质量的数据集在模型训练中扮演着越来越重要的角色。但是当前领先的预训练模型使用的数据集细节往往不公开，开源数据的匮乏制约着研究社区的进一步发展。特别是大规模中文数据集十分缺乏，对中文大模型以及业界模型的中文支持都有很大的影响。此次，上海人工智能实验室发布的这个数据集包含了丰富的中文，对于大模型的中文能力提升十分有价值。

2023/08/24 16:39:22

4437

#中文预训练数据集##大模型数据集##开源数据集#

如何微调大语言模型？吴恩达联合LaminiAI最新一个小时短课教会大模型微调！这次是面向中级水平人员~

当谈及人工智能的巨大进步，大模型的崛起无疑是其中的一个重要里程碑。这些大模型，如GPT-3，已经展现出令人惊叹的语言生成和理解能力，但是为了让它们在特定任务上发挥最佳性能，大模型微调（Fine-tuning）是一种非常优秀的方法。微调是一种将预训练的大型模型进一步优化，以适应特定任务或领域的过程。但微调并不是很简单，今天吴恩达联合Lamini推出了全新的大模型微调短课《Finetuning Large Language Models》。

2023/08/24 16:35:11

2123

#AI教程##LLM##吴恩达##大模型微调##微调#

OpenAI官方教程：如何针对大模型微调以及微调后模型出现的常见问题分析和解决思路~以GPT-3.5微调为例

OpenAI在2023年8月份发布了GPT-3.5的微调接口，并表示会在2023年秋天开放16K的gpt-3.5-turbo-16k模型和GPT-4的微调（参考：[重磅！GPT-3.5可以微调了！OpenAI发布GPT-3.5 Turbo微调接口](https://www.datalearner.com/blog/1051692752268726 "重磅！GPT-3.5可以微调了！OpenAI发布GPT-3.5 Turbo微调接口")）。然而，微调并不是一个简单的问题，如何对大模型微调以及如果微调出现问题

2023/08/23 11:46:59

4927

#OpenAI##大模型微调##微调数据制作#

重磅！GPT-3.5可以微调了！OpenAI发布GPT-3.5 Turbo微调接口

此前，OpenAI的CEO说今年等算力不那么紧张的时候就可以让大家微调OpenAI的GPT模型，现在这个功能已经发布了！OpenAI发布了GPT-3.5 Turbo的微调接口，允许大家用自己的数据微调GPT-3.5模型！

2023/08/23 08:57:48

2049

#GPT-3.5##GPT4##OpenAI##微调#

最强SQL代码生成开源大模型发布：DefogAI开源超过gpt-3.5-turbo的SQL生成大模型SQLCoder，免费商用授权~

SQLCoder 是 Defog 团队推出的一款前沿的语言模型，专门用于将自然语言问题转化为 SQL 查询。这是一个拥有150亿参数的模型，其性能略微超过了 gpt-3.5-turbo 在自然语言到 SQL 生成任务上，并且显著地超越了所有流行的开源模型。更令人震惊的是，尽管 SQLCoder 的大小只有 text-davinci-003 的十分之一，但其性能却远超后者。

2023/08/22 11:22:41

4059

#SQLCoder##编程大模型#

AI2发布全新的大语言模型预训练数据集：包含3万亿tokens的大规模文本数据集AI2 Dolma，开源免费商用数据集~

Allen Institute for AI简称AI2，是2014年成立的一个非营利性研究组织，其创办者是之前的微软联合创始人Paul G. Allen。目前该组织主导了几个非常大的项目，希望借助AI来推动科学、医学等领域的进步。此前也开源过大模型OLMo等。这次是该组织第一份发布AI数据集相关的项目，名称位Dolma，是一个包含了3万亿tokens的数据集，目前第一版本仅仅包含英文。

2023/08/21 21:49:30

1653

#Dolma##开源数据集##数据集##预训练数据集#