最新AI大模型咨询与技术解读——来自DataLearnerAI

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

最新OpenAI的API透露，ChatGPT Plus外还有升级版的订阅计划：ChatGPT Team！25美元一个月！Plus用户可能没有GPT-4-32K了！

ChatGPT是OpenAI提供的最强大的大模型服务。而截止目前为止，OpenAI公开的ChatGPT的订阅计划包含三个：免费版本的ChatGPT-3.5、个人用户付费订阅的ChatGPT Plus以及面向企业的企业版本。而最新的ChatGPT的API接口显示，OpenAI即将推出一个Team版本的计划，是当前ChatGPT Plus版本的升级版！

小木

1521

#ChatGPT##ChatGPTTeam##ChatGPT订阅##OpenAI#

HuggingFace开源语音识别模型Distil-Whisper，基于OpenAI的Whisper-V2模型蒸馏，速度快6倍，参数小49%！

语音识别在实际应用中有非常多的应用。早先，OpenAI发布的Whisper模型是目前语音识别模型中最受关注的一类，也很可能是目前ChatGPT客户端语音识别背后的模型。HuggingFace基于Whisper训练并开源了一个全新的Distil-Whisper，它比Whisper-v2速度快6倍，参数小49%，而实际效果几乎没有区别。

小木

1995

#Distil-Whisper##HuggingFace##Whisper##语音识别#

苹果最新的M3系列芯片对于大模型的使用来说未来价值如何？结果可能不太好！M3芯片与A100算力对比！

M3系列芯片是苹果最新发布的芯片。也是当前苹果性能最好的芯片。由于苹果的统一内存架构以及它的超大内存，此前很多人发现可以使用苹果的电脑来运行大语言模型。尽管它的运行速度不如英伟达最先进的显卡，但是由于超大的内存（显存），它可以载入非常大规模的模型。而此次的M3芯片效果如何，本文做一个简单的分析。

小木

3304

#M3芯片##M系列芯片##大模型硬件##苹果#

ChatGPT 3.5只有200亿规模的参数？最新微软的论文暴漏OpenAI的ChatGPT的参数规模远低于1750亿！

2022年11月底发布的ChatGPT是基于OpenAI的GPT-3优化得到的可以进行对话的一个产品。直到今年更新到3.5和4之后，官方分为两个产品服务，其中ChatGPT 3.5是基于gpt-3.5-turbo打造，免费试用。因此，几乎所有人都自然认为这是一个与GPT-3具有同等规模参数的大模型，也就是说有1750亿参数规模。但是，在10月26日微软公布的CodeFusion论文的对比中，大家发现，微软的表格里面写的ChatGPT 3.5只有200亿参数规模。

小木

422

#ChatGPT##GPT-3##GPT-3.5#

为什么大语言模型的训练和推理要求比较高的精度，如FP32、FP16？浮点运算的精度概念详解

在大语言模型的训练和应用中，计算精度是一个非常重要的概念，本文将详细解释关于大语言模型中FP32、FP16等精度概念，并说明为什么大语言模型的训练通常使用FP32精度。

小木

2880

#FP16##FP32##大模型训练##精度#

可能是史上最强大的AI Agent！OpenAI重磅更新：整合了多模态、外部访问、数据分析后的GPT-4更像是AI Agent了！

此前OpenAI的ChatGPT Plus版本为GPT-4模型提供了多个强大的插件供大家使用，包括基于Bing的带网络浏览的Browse、文本生成图片的DALL·E3、高级数据分析功能等。就在几个小时前，OpenAI的部分用户收到了官方的一个非常重磅的更新，即上传任意文档的分析以及整合了所有工具后的GPT-4！这个功能被称为GPT-4（All Tools）！这个工具可以在一次对话中自主选择调用多个不同工具完成用户的输入指令，非常接近AI Agent形态！

小木

1824

#AIAgent##AllTools##GPT-4##OpenAI#

智谱AI与清华大学联合发布第三代基座大语言模型ChatGLM3：6B版本的ChatGLM3能力大幅增强，依然免费商用授权！

ChatGLM系列是智谱AI发布的一系列大语言模型，因为其优秀的性能和良好的开源协议，在国产大模型和全球大模型领域都有很高的知名度。今天，智谱AI开源其第三代基座大语言模型ChatGLM3-6B，官方说明该模型的性能较前一代大幅提升，是10B以下最强基础大模型！

小木

2107

#ChatGLM##ChatGLM3#

检索增强生成中的挑战详解：哪些因素影响了检索增强生成的质量？需要如何应对？

检索增强生成（Retrieval-augmented Generation，RAG）是一种结合了检索和大模型生成的方法。它从一个大型知识库中检索与输入相关的信息，然后利用这些信息作为上下文和问题一起输入给大语言模型，并让大语言模型基于这些信息生成答案的方式。检索增强生成可以让大语言模型与最新的外部数据或者知识连接，进而可以基于最新的知识和数据回答问题。尽管检索增强生成是一种很好的补充方法，但是，如果文档切分有问题、检索不准确，结果也是不好的。

小木

937

#RAG##向量检索增强生成##检索增强生成#

检索增强生成（RAG）方法有哪些提升效果的手段：LangChain在RAG功能上的一些高级能力总结

检索增强生成（Retrieval-augmented Generation，RAG）可以让大语言模型与最新的外部数据或者知识连接，进而可以基于最新的知识和数据回答问题。尽管检索增强生成是一种很好的补充方法，如果文档切分有问题、检索不准确，结果也是不好的。而检索增强生成也有一些提升方法，本文基于LangChain提供的一些方法给大家总结一下。

小木

3234

#RAG##查询重写##检索增强生成#

2023年AI与开源进展总结：来自LightningAI首席AI科学家Sebastian Raschka的2023年年度AI发展总结

Sebastian Raschka博士是一位深度学习和人工智能研究员、程序员、作者和教育者。他曾是威斯康星大学麦迪逊分校的统计学助理教授，专注于机器学习和深度学习研究。然而，他在2023年辞职，全职投入到他在2022年加入的Lightning AI创业公司，担任首席AI教育者。本文是Sebastian Raschka博士最新的2023年AI进展总结的翻译，大家参考。

小木

274

#2023报告##大模型总结#

如何提高大语言模型作为Agent的能力？清华大学与智谱AI推出AgentTuning方案

尽管开源的大语言模型发展非常迅速，但是，在以大语言模型作为核心的新一代AI Agent解决方案上，开源大语言模型比商业模型表现要明显地差。为了提高大语言模型作为AI Agent的表现和能力，清华大学和智谱AI推出了一种新的方案，AgentTuning，可以将有效增强开源大语言模型作为AI Agent的能力。

小木

1474

#AgentTuning##AIAgent##智能体#

大模型泛化能力详解：大模型泛化能力分类、泛化能力来源和泛化研究的方向

关于什么是好的泛化、存在哪些类型的泛化以及在不同的场景中哪些应该被优先考虑，人们对此了解甚少且意见不一。而MetaAI等机构的研究人员最近发布了一篇关于大模型泛化能力的综述，详细总结了大模型泛化能力的分类等。本篇论文详细总结一下大模型的泛化能力分类以及什么样的泛化是未来的中的重点等问题。

小木

4819

#Generalisation##大模型##泛化能力#

聊天大模型的输出速度应该是多少？单张显卡最多可以支持多少个人同时聊天？来自贾扬清最新的讨论

大模型应用中一个非常重要的问题就是大模型的响应速度。尤其是作为聊天应用来说，在用户输入之后，大模型可以在多短的时间内给出回应对于用户体验来说影响巨大。这里有2个问题经常会被大家所关注，一个是大模型每秒输出多少个tokens就可以满足用户的日常聊天使用，另一个问题是单张显卡最多可以支撑多少个用户的聊天需求。在前几天的vllm meetup上，贾扬清给出了一些讨论，他认为我们目前可能高估了大模型的聊天应用成本。

小木

1292

#大模型性能##大模型聊天速度#

让大模型支持更长的上下文的方法哪个更好？训练支持更长上下文的模型还是基于检索增强？

在大语言模型中，上下文长度是指模型可以考虑的输入数据的数量。更长的上下文在大语言模型的实际应用中有非常重要的价值。当前，让大语言模型支持更长的上下文有两种常用的方法，一种是训练支持更长上下文长度的模型，扩展模型的输入，另外一种是检索增强生成的方法（Retrieval Augmentation Generation，RAG）。但二者应该如何选择，这是一个很少能直接比较的问题。为此，英伟达（Nvidia）的研究人员做了一个详细的比较。

小木

1470

#long-context##大语言模型##检索增强生成##长上下文#