统计、机器学习与编程知识的原创博客

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

HuggingFace官方宣布将对GGUF格式的大模型文件增加更多的支持，未来可以直接在HF上查看GGUF文件的元数据信息！

当前的大模型的参数规模较大，数以千亿的参数导致了它们的预训练结果文件都在几十GB甚至是几百GB，这不仅导致其使用成本很高，在不同平台进行交换也非常困难。因此，大模型预训练结果文件的保存格式对于模型的使用和生态的发展来说极其重要。昨天HuggingFace官方宣布将推动GGUF格式的大模型文件在HuggingFace上的使用。

小木

298

GGML/GGUF/HuggingFace/大模型加速/大模型文件格式/大模型量化

英伟达在GTC2024大会发布新AI算力芯片：NVIDIA新AI芯片B200的升级是什么？B200与H200对比，它对GPT-4训练和推理的影响是什么？

NVIDIA在2024年GPU技术大会（NVIDIA GPU Technology Conference，GTC）发布了全新的算力芯片和服务，即基于最新的Blackwell架构的算力芯片B200和GB200服务器。但是，大多数人对于NVIDIA芯片的升级只有数字的变化，本文将针对NVIDIA的GPU算力芯片做简单的介绍，并说明NVIDIA B200以及GB200的升级的地方。

小木

306

GB200/H100/H200/NVIDIA/显卡

如何训练一个大语言模型？当前基于transformer架构的大语言模型的通用训练流程介绍

在当今的人工智能领域，大型语言模型（LLM）已成为备受瞩目的研究方向之一。它们能够理解和生成人类语言，为各种自然语言处理任务提供强大的能力。然而，这些模型的训练不仅仅是将数据输入神经网络，还包括一个复杂的管线，其中包括预训练、监督微调和对齐三个关键步骤。本文将详细介绍这三个步骤，特别关注强化学习与人类反馈（RLHF）的作用和重要性。

小木

307

大模型训练过程/大模型预训练

LM-SYS开源包含人类偏好的3.3万条真实对话语料：可用于RLHF的训练过程！

LM-SYS全称Large Model Systems Organization，是由加利福尼亚大学伯克利分校的学生和教师与加州大学圣地亚哥分校以及卡内基梅隆大学合作共同创立的开放式研究组织。该团队在2023年3月份成立，目前的工作是建立大模型的系统，是聊天机器人Vicuna的发布团队。今天开源了包含3.3万包含真实人类偏好的对话数据集和3000条专家标注的对话数据集：Chatbot Arena Conversation Dataset和MT-bench人工注释对话数据集。

小木

313

ChatbotArenaConversationDataset/LM-SYS/RLHF数据集/大模型数据集/对齐数据集

MistralAI发布了Mixtral 8×7B MoE模型的论文，更详细的参数和对比结果~

在人工智能快速发展的今天，创新型模型如Mixtral 8x7B的出现，不仅推动了技术的进步，还为未来的AI应用开辟了新的可能性。这款基于Sparse Mixture of Experts（SMoE）架构的模型，不仅在技术层面上实现了创新，还在实际应用中展示了卓越的性能。尽管一个月前这个模型就发布，但是MistralAI今天才上传了这个模型的论文，我们可以看到更详细的信息。

小木

315

MistralAI/Mixtral/专家混合模型

重磅！马斯克宣布本周开源xAI开发的大语言模型Grok！

就在刚刚，马斯克在推特上宣布本周会开源Grok大语言模型。xAI是马斯克在2023年3月份创办的一家大模型初创企业。因为ChatGPT过于火爆，离开OpenAI之后马斯克又再次开始推出大模型，就是这个Grok。

小木

317

Grok/xAI/马斯克

StabilityAI发布实时文本生成图片大模型SDXL Turbo——生成一张图片可能只需要0.207秒

StabilityAI是当前最流行的开源文本生成图像大模型Stable Diffusion背后的公司。这家公司在文本生成图片和文本生成视频方面开源了诸多的大模型。其中，Stable Diffusion是目前使用人数最多的开源文本生成图像大模型。就在刚才，StabilityAI又发布了一个全新的实时的文本生成图像大模型Stable Diffusion XL Turbo，这个最新的模型在A100上生成一张图片只需要0.207秒！

小木

325

SDXLTurbo/StabilityAI/StableDiffusion/StableDiffusionXLTurbo

重回第一！OpenAI升级GPT-4-Turbo到2024-04-09版本（gpt-4-turbo-2024-04-09），GPT-4推理和数学能力大幅提高，基准测试最高有接近20%的提升！

OpenAI的GPT-4一直是全球最强的大语言模型。但是在最近的一系列新模型对比中，已经有一些模型在某些领域被认为已经接近或者超过GPT-4了。而在前几天，OpenAI更新了一个新版本的GPT-4，是GPT-4-Turbo-2024-04-09，官方说该版本的GPT在推理和数学能力上有明显提升，而实测结果也很不错。在基准测试评测中，最高有19%的提升幅度！在GPT-4这样强的模型上有这样的提升幅度，十分不错！

小木

332

GPT-4/gpt-4-turbo-2025-04-09/GPT-4更新

Google前AI研究人员认为2024年可能不会出现能与GPT-4竞争的开源模型/产品

OpenAI在2023年3月份发布了GPT-4，10个月过去了，目前也没有任何一家产品或者模型可以打败GPT-4。但是，很多人都对2024年抱有非常好的期待，认为2024年会出现能与GPT-4竞争的大模型。包括MistralAI的CEO也说他们会在2024年发布性能媲美GPT-4的大模型。但是，Google前AI研究人员，GalileoAI的联合创始人认为2024年也不会出现这种情况。

小木

337

GPT-4/开源大模型

2023年度巨献，一图总结2023年最重要的AI相关的产品和技术~共48个产品或技术上榜

2022年11月底，ChatGPT横空出世，全球都被这样一个“好像”有智能的产品吸引力。随后，工业界、科研机构开始疯狂投入大模型。在2023年，这个被称为大模型元年的年份，有很多令人瞩目的AI产品与模型发布。2023年，DataLearner收集了大量的大模型，并发布了很多大模型相关的技术博客，在即将结束的2023年，我们以这个『2023年最令人瞩目的AI产品』结束本年的技术分享。

小木

345

2023大模型/大模型总结

OpenAI的GPT模型API接口新增的top_logprobs和logprobs参数是什么？有什么用处？为什么说这个参数可以帮助我们减轻大模型幻觉问题

在最新的OpenAI官方接口文档中，新增了top_logprobs和logprobs这2个参数。这2个参数是一起配合使用的。后者是一个布尔类型，表明模型的返回结果中是否增加输出每个token的概率，而top_logprobs参数是一个整数类型，取值范围是0-5之间。如果top_logprobs设置为true，那么模型会根据top_logprobs的设置结果，返回输出结果中每个token及其后续的n个单词的概率。

小木

348

OpenAI/大模型困惑度/大模型幻觉/大模型接口

Mixtral-8×7B-MoE模型升级新版本，MistralAI开源全球最大混合专家模型Mixtral-8×22B-MoE

Mixtral-8×7B-MoE是由MistralAI开源的一个MoE架构大语言模型，因为它良好的开源协议和非常好的性能获得了广泛的关注。就在刚才，Mixtral-8×7B-MoE的继任者出现，MistralAI开源了全新的Mixtral-8×22B-MoE大模型。

小木

352

MistralAI/Mixtral-8×22B-MoE/Mixtral-8×7B-MoE

ChatGPT即将可以读取谷歌和微软的云盘数据为你管理私有数据！

ChatGPT的发展速度很快，在前面已经介绍过ChatGPT即将推出的Team订阅计划和新界面，包括对接自定义数据和自定义接口等。此外，DataLearnerAI还发现ChatGPT即将推出关联APP的能力，截图显示，目前已经测试了对接Google Drive和Microsoft 365两个。

小木

365

ChatGPT/ChatGPTContextConnectors/新版本ChatGPT

GPT-5可能是什么样？网友总结了Sam在达沃斯论坛中的几场演讲，抽取了Sam演讲中包含的GPT-5相关的内容

OpenAI的CEO Sam最近参加了世界经济论坛，发表了几场演讲。有网友听了完整的Sam的4-5场演讲，并从中抽取了Sam关于GPT-5相关的论述。从中我们可以看到未来GPT-5可能的样子。这里为大家总结翻译一下。

小木

367

GPT-5/OpenAI/Sam/大模型洞察/大模型进展

截止目前为止最大的国产开源大模型发布：元象科技开源XVERSE-65B大模型，16K上下文，免费商用

国产大语言模型的开源领域一直是很多企业或者科研机构都在卷的领域。最早，智谱AI开源ChatGLM-6B之后，国产大模型的开源就开始不断发展。早期大模型开源的参数规模一直在60-70亿参数规模，随着后续阿里千问系列的140亿参数的模型开源以及智源340亿参数模型开源之后，元象科技开源650亿参数规模的大语言模型XVERSE-65B，将国产开源大模型的参数规模提高到新的台阶。

小木

369

XVERSE-65B/国产大模型/开源大模型