最新AI大模型咨询与技术解读——来自DataLearnerAI

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

ChatGLM-6B是清华大学知识工程和数据挖掘小组发布的一个类似ChatGPT的开源对话机器人，由于该模型是经过约1T标识符的中英文训练，且大部分都是中文，因此十分适合国内使用。本文将详细记录如何在Windows环境下基于GPU和CPU两种方式部署使用ChatGLM-6B，并说明如何规避其中的问题。

2023/05/21 17:14:02

40888

#ChatGLM##VisualGLM##部署#

个人网站申请免费ssl证书最靠谱的办法

如今，不支持https的网站基本都无法访问，https网站需要在服务端保存ssl证书才可以建立。这个原理本文不多说。目前，各大云服务厂商也提供ssl证书的发放和管理，但都是收费的。对于个人网站来说，基于第三方的服务申请免费证书其实是合适的。但是，国内申请证书并不好用。本文主要记录一个最简单的免费证书申请安装方法。

2023/05/21 15:08:40

1057

#ssl证书#

ChatGLM-6B升级！清华大学开源VisualGLM-6B：一个可以在本地运行的读懂图片的语言模型！

今天，THUDM开源了ChatGLM-6B的多模态升级版模型VisualGLM-6B。这是一个多模态对话语言模型，支持图像、中文和英文。VisualGLM-6B的特别之处在于它能够整合视觉和语言信息。可以用来理解图片，解析图片内容。

2023/05/19 00:27:34

4548

#ChatGLM-6B##VisualGLM-6B##图片理解##多模态模型#

在消费级显卡上微调OpenAI开源的自动语言识别模型Whisper：8GB显存即可针对你自己的数据建立ASR模型

德国的一位博士生开源了一个使用LoRA（Low Rank Adaptation）技术和PEFT（Parameter Efficient Fine Tuning）方法对Whisper模型进行高效微调的项目。可以让大家在消费级显卡（显存8GB）上对OpenAI开源的WhisperV2模型进行微调！

2023/05/17 23:08:02

2715

#ASR##LoRA##PEFT##Whisper##微调#

2023年4月业界发布的重要20多个AI模型总结：OpenAssistant、Segment Anything Model、StableLM、AudioGPT等

2022年11月底，OpenAI发布ChatGPT，2023年3月14日，GPT-4发布。这两个模型让全球感受到了AI的力量。而随着MetaAI开源著名的LLaMA，以及斯坦福大学提出Stanford Alpaca之后，业界开始有更多的AI模型发布。本文将对4月份发布的这些重要的模型做一个总结，并就其中部分重要的模型进行进一步介绍。

2023/05/17 20:32:40

2663

#2023年4月份AI模型##AI模型月报#

HuggingFace宣布在transformers库中引入首个RNN模型：RWKV，一个结合了RNN与Transformer双重优点的模型

RWKV是一个结合了RNN与Transformer双重优点的模型架构。由香港大学物理系毕业的彭博首次提出。简单来说，RWKV是一个RNN架构的模型，但是可以像transformer一样高效训练。今天，HuggingFace官方宣布在transformers库中首次引入RNN这样的模型，足见RWKV模型的价值。

2023/05/15 23:11:38

2261

#HuggingFace##RWKV##transformers#

康奈尔大学发布可以在一张消费级显卡上微调650亿参数规模大模型的框架：LLMTune

Cornell Tech开源了LLMTune，这是一个可以在消费级显卡上微调大模型的框架，经过测试，可以在48G显存的显卡上微调4bit的650亿参数的LLaMA模型！

2023/05/14 23:42:57

2305

#PEFT##大模型微调#

预训练模型编程框架Transformers迎来重磅更新：Transformers Agents发布，一个完全的多模态AI Agent！

今天，HuggingFace官方宣布了Transformers最大胆的功能：Transformers Agents。这是继AutoGPT开创性发布之后，AI Agent被业界接受的另一个重要的里程碑。

2023/05/13 00:44:20

1526

#AIAgent##AutoGPT##Transformers#

Google反击OpenAI的大杀器！下一代语言模型PaLM 2：增加模型参数并不是提高大模型唯一的路径！

作为PaLM的继任者，PaLM2的发布被谷歌寄予厚望。与OpenAI类似，谷歌官方没有透露很多关于模型的技术细节，虽然发布了一个92页的技术报告，但是，正文内容仅仅27页，引用和作者14页，剩余51页都是展示大量的测试结果。而前面的27页内容中也没有过多的细节描述。尽管如此，这里面依然有几个十分重要的结论供大家参考。

2023/05/11 23:13:53

1783

#Google##PaLM##PaLM2#

OpenAI官方最新研究成果：如何用GPT-4这样的语言模型来解释语言模型中的神经元（neurons）

今天，OpenAI官方宣布了一个非常有意思的论文，他们使用GPT-4模型来自动解释GPT-2中每个神经元的含义，试图让语言模型来对语言模型本身的原理进行解释。

2023/05/10 22:30:44

754

#OpenAI##可解释性#

通用人工智能（AGI）再往前一步：MetaAI发布新的能听会说的多模态AI大模型ImageBind

当前，大语言模型主要是基于生成式自然语言处理模型为主。少部分多模态模型可以处理文本、图片和视频信息。但是，AI模型目前还无法像人类一样接受周围的多模态信息进行处理，如图像、文本、声音等。但是，昨天MetaAI发布了一个可以听说读写的AI大模型ImageBind，它可以同时处理6种数据，并输出。本文将简单介绍一下这个模型。

2023/05/10 13:32:14

916

#AGI##ImageBind##多模态大模型#

AI大模型领域的热门技术——Embedding入门介绍以及为什么Embedding在大语言模型中很重要

今天，推特上一位科技博主SullyOmarr分享了一个关于embedding的内容十分火爆。主要介绍为什么embedding对于在目前的AI大模型中很重要。这是一个十分不错的关于embedding知识的介绍。本文将根据SullyOmarr的内容也对embedding做一个简单的介绍，并解释为什么它在大语言模型中十分重要。

2023/05/09 23:46:35

7456

#Embedding##大语言模型##长输入#

当前业界最优秀的8个编程大模型简介：从最早的DeepMind的AlphaCode到最新的StarCoder全解析~

大语言模型中一个非常重要的内容就是关于代码的支持。通常，基于代码数据训练的模型不仅在代码补全方面有着更好地支持，也可能是大语言模型逻辑能力的部分来源。本文将总结目前业界专门针对代码补全（生成）方面而做的8个大模型。

2023/05/07 23:47:24

5760

#编程##编程大模型#

最新发布！截止目前最强大的最高支持65k输入的开源可商用AI大模型：MPT-7B！

昨天，开源AI模型领域迎来一个重磅玩家，MosaicML发布MPT-7B系列模型，根据官方宣布的测试结果，MPT-7B的水平与MetaAI发布的LLaMA-7B水平差不多，属于当前开源领域最强大的模型。最重要的是，MPT-7B系列中有一个可以支持最多65k上下文输入的开源模型，比GPT-4的32k还高！应该是目前最长的！

2023/05/07 09:20:26

2429

#MPT-7B##开源模型#

如何用7.7亿参数的蒸馏模型超过5400亿的大语言模型——Google提出新的模型蒸馏方法：逐步蒸馏（Distilling step-by-step）详解

华盛顿大学研究人员与Google的研究人员一起在5月3日公布了一个新的方法，即逐步蒸馏（Distilling step-by-step），这个方法最大的特点有2个：一是需要更少的数据来做模型的蒸馏（根据论文描述，平均只需要之前方法的一半数据，最多只需要15%的数据就可以达到类似的效果）；而是可以获得更小规模的模型（最多可以比原来模型规模小2000倍！）

2023/05/05 22:03:05

2458

#模型蒸馏#