最新AI大模型咨询与技术解读——来自DataLearnerAI

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力？新消息泄露该模型支持2.5万个字符上下文！

尽管OpenAI最早也是马斯克和别人一起创立，由于各种原因分道扬镳之后马斯克也没有对相关产品感兴趣，直到ChatGPT风卷全球之后，马斯克与OpenAI的人公开吵了几次之后成立了这家公司。半年后的现在，马斯克透露xAI即将发布它的首个大模型Grōk AI。而一位老哥已经透露了该模型的一些细节。

小木

1045

Grok/GrōkAI/twitter/xAI/马斯克

马斯克创造的新的大模型企业xAI的大模型GrokAI模型评测结果出炉~MMLU与代码评分超过ChatGPT-3.5

xAI是马斯克在2023年3月份创办的一家大模型初创企业。因为ChatGPT过于火爆，离开OpenAI之后马斯克又再次开始推出大模型，就是这个Grok。xAI今天也宣布了Grok模型的细节。其在多个知名榜单评测上的得分结果超过了ChatGPT-3.5水平。本文详细介绍一下这个模型。

小木

1224

Grok/Grok-1/xAI/马斯克

ChatGPT即将可以读取谷歌和微软的云盘数据为你管理私有数据！

ChatGPT的发展速度很快，在前面已经介绍过ChatGPT即将推出的Team订阅计划和新界面，包括对接自定义数据和自定义接口等。此外，DataLearnerAI还发现ChatGPT即将推出关联APP的能力，截图显示，目前已经测试了对接Google Drive和Microsoft 365两个。

小木

441

ChatGPT/ChatGPTContextConnectors/新版本ChatGPT

ChatGPT颠覆更新！即将发布的ChatGPT新版本带来巨变，新界面和可以自定义GPT-4功能：可以对接私有数据与私有接口的个性化ChatGPT即将到来！

ChatGPT是当前大模型服务最前沿和风向标，每一次改动都会引起巨大的关注。此前，在ChatGPT的js脚本中就隐藏了即将发布的ChatGPT Team计划。而现在，新的ChatGPT UI代码和功能也被发现。新的GPT除了界面的巨大变化外，还有一个类似自定义AI Agent能力，可以直接接入自己的私有数据和API接口对外提供服务！十分震惊！

小木

1881

ChatGPT/GPT对接接口/GPT对接私有数据/GPT自定义/MagicMaker/新版本ChatGPT

HuggingFace开源语音识别模型Distil-Whisper，基于OpenAI的Whisper-V2模型蒸馏，速度快6倍，参数小49%！

语音识别在实际应用中有非常多的应用。早先，OpenAI发布的Whisper模型是目前语音识别模型中最受关注的一类，也很可能是目前ChatGPT客户端语音识别背后的模型。HuggingFace基于Whisper训练并开源了一个全新的Distil-Whisper，它比Whisper-v2速度快6倍，参数小49%，而实际效果几乎没有区别。

小木

2226

Distil-Whisper/HuggingFace/Whisper/语音识别

检索增强生成中的挑战详解：哪些因素影响了检索增强生成的质量？需要如何应对？

检索增强生成（Retrieval-augmented Generation，RAG）是一种结合了检索和大模型生成的方法。它从一个大型知识库中检索与输入相关的信息，然后利用这些信息作为上下文和问题一起输入给大语言模型，并让大语言模型基于这些信息生成答案的方式。检索增强生成可以让大语言模型与最新的外部数据或者知识连接，进而可以基于最新的知识和数据回答问题。尽管检索增强生成是一种很好的补充方法，但是，如果文档切分有问题、检索不准确，结果也是不好的。

小木

1078

RAG/向量检索增强生成/检索增强生成

检索增强生成（RAG）方法有哪些提升效果的手段：LangChain在RAG功能上的一些高级能力总结

检索增强生成（Retrieval-augmented Generation，RAG）可以让大语言模型与最新的外部数据或者知识连接，进而可以基于最新的知识和数据回答问题。尽管检索增强生成是一种很好的补充方法，如果文档切分有问题、检索不准确，结果也是不好的。而检索增强生成也有一些提升方法，本文基于LangChain提供的一些方法给大家总结一下。

小木

3484

RAG/查询重写/检索增强生成

大模型泛化能力详解：大模型泛化能力分类、泛化能力来源和泛化研究的方向

关于什么是好的泛化、存在哪些类型的泛化以及在不同的场景中哪些应该被优先考虑，人们对此了解甚少且意见不一。而MetaAI等机构的研究人员最近发布了一篇关于大模型泛化能力的综述，详细总结了大模型泛化能力的分类等。本篇论文详细总结一下大模型的泛化能力分类以及什么样的泛化是未来的中的重点等问题。

小木

5765

Generalisation/大模型/泛化能力

华为大模型生态重要一步！PyTorch最新2.1版本宣布支持华为昇腾芯片（HUAWEI Ascend）

大模型的发展一个重要的基础条件是底层硬件计算能力的大幅提高，特别是GPU的发展，与transformer架构的大模型训练非常契合。当前全球最大的GPU供应商英伟达系列的显卡几乎垄断了大模型训练与推理的所有GPU芯片市场。除了英伟达显卡本身算力强悍外，基于英伟达GPU之上构建的CUDA、PyTorch等平台软件生态也是非常重要的一环。而最新的PyTorch2.1版本发布的一个beta特性中包含了对华为昇腾芯片的原生支持，这也是大模型生态多样性发展的一个很重要的信号。

小木

2215

NPU/PyTorch/华为/昇腾芯片

截止目前中文领域最大参数量的大模型开源：上海人工智能实验室开源200亿参数的书生·浦语大模型（InternLM 20B系列），性能提升非常明显！

上海人工智能实验室是国内顶尖的人工智能实验室，此前在大模型领域，他们与商汤科技发布的书生·浦语系列在国内引起了很大的关注。此次，他们又开源了一个全新的200亿参数规模的大语言模型InternLM 20B，应该是截止目前中文领域开源的参数规模最大的一个大模型了。

小木

567

InternLM/InternLM20B/书生·浦语

LM-SYS开源包含人类偏好的3.3万条真实对话语料：可用于RLHF的训练过程！

LM-SYS全称Large Model Systems Organization，是由加利福尼亚大学伯克利分校的学生和教师与加州大学圣地亚哥分校以及卡内基梅隆大学合作共同创立的开放式研究组织。该团队在2023年3月份成立，目前的工作是建立大模型的系统，是聊天机器人Vicuna的发布团队。今天开源了包含3.3万包含真实人类偏好的对话数据集和3000条专家标注的对话数据集：Chatbot Arena Conversation Dataset和MT-bench人工注释对话数据集。

小木

817

ChatbotArenaConversationDataset/LM-SYS/RLHF数据集/大模型数据集/对齐数据集

text-davinci-003后继者！OpenAI发布了一个新的补全大模型：GPT-3.5-Turbo-Instruct，完全的指令模型，没有聊天优化

OpenAI最新发布了GPT-3.5-Turbo-Instruct，这是一款强大的指令遵循大模型。尽管官方没有发布官方博客介绍，但我们将在本文中详细探讨这一模型的特点以及其在人工智能领域的价值。

小木

3027

GPT-3.5-Turbo-Instruct/指令大模型

LangChain提升大模型基于外部知识检索的准确率的新思路：更改传统文档排序方法，用 LongContextReorder提升大模型回答准确性！

检索增强生成（Retrieval-augmented generation，RAG）是一种将外部知识检索与大型语言模型生成相结合的方法，通常用于问答系统。当前使用大模型基于外部知识检索结果进行问答是当前大模型与外部知识结合最典型的方式，也是检索增强生成最新的应用。然而，近期的研究表明，这种方式并不总是最佳选择，特别是当检索到的文档数量较多时，这种方式很容易出现回答不准确的情况。为此，LangChain最新推出了LongContextReorder，推出了一种新思路解决这个问题。

小木

3588

LangChain/LongContextReorder/RAG/外部数据/大模型知识检索/检索增强生成

Transformer蓝图：Transformer 神经网络架构的综合指南——万字长文、20多个图片介绍大语言模型主流架构Transformer的发展历史、现状和未来结果

CMU的工程人工智能硕士学位的研究生Jean de Nyandwi近期发表了一篇博客，详细介绍了当前大语言模型主流架构Transformer的历史发展和当前现状。这篇博客非常长，超过了1万字，20多个图，涵盖了Transformer之前的架构和发展。此外，这篇长篇介绍里面的公式内容并不多，所以对于害怕数学的童鞋来说也是十分不错。本文是其翻译版本，欢迎大家仔细学习。

小木

1538

Transformers架构/大模型教程/大语言模型架构/深度学习架构

LLaMA2 7B一样的性能但是由15倍的推理速度！Deci开源DeciLM-6B和DeciLM-6B-Instruct，发布一天上榜HuggingFace Trending

随着大型语言模型（LLMs）的不断发展，它们在训练和推理方面的计算需求已经呈指数级增长。这一趋势不仅带来了高昂的成本和能源消耗，还引入了模型部署和可伸缩性方面的障碍。为此，DeciLM开源了2个全新的DeciLM-6B和DeciLM-6B-Instruct大模型，参数比LLaMA2 7B略低，性能相当，但是推理速度却超过LLaMA2 7B的15倍。

小木

712

DeciLM-6B/DeciLM-6B-Instruct/LLaMA2-7B