统计、机器学习与编程知识的原创博客

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

李开复创业公司零一万物开源迄今为止最长上下文大模型：Yi-6B和Yi-34B，支持200K超长上下文

零一万物（01.AI）是由李开复在2023年3月份创办的一家大模型创业企业，并在2023年6月份正式开始运营。在2023年11月6日，零一万物开源了4个大语言模型，包括Yi-6B、Yi-6B-200K、Yi-34B、Yi-34B-200k。模型在MMLU的评分上登顶，最高支持200K超长上下文输入，获得了社区的广泛关注。

2023/11/09 18:40:55

1136

Long-Context/Yi-34B/Yi-6B/零一万物

截止目前可能是全球最快的大语言模型推理服务：实机演示Groq公司每秒500个tokens输出的450亿参数的Mixtral 8×7B模型

大模型的推理速度是当前制约大模型应用的一个非常重要的问题。在很多的应用场景中（如复杂的接口调用、很多信息处理）的场景，更快的大模型响应速度通常意味着更好的体验。但是，在实际中我们可用的场景下，大多数大语言模型的推理速度都非常有限。慢的有每秒30个tokens，快的一般也不会超过每秒100个tokens。而最近，美国加州一家企业Groq推出了他们的大模型服务，可以达到每秒接近500个tokens的响应速度，非常震撼。

2024/02/19 18:25:08

1128

Groq/LPU/大模型加速/大模型推理加速

可能是过去三十年来编程语言最大的革新：新的面向AI的编程语言Mojo发布~

昨天，前苹果工程师、swift编程语言创建者Chris Lattner创立的ModularAI发布了一个新的编程语言Mojo。根据测试，该语言比Python最高提速35000倍！本文将简单介绍一下这个Mojo编程语言。

2023/05/04 22:23:32

1126

AI编程/Mojo

人工智能颠覆影响者营销的八种方式

影响者营销将是极好的机会，可以使你的形象更加完善，并接触到新的受众，是一个人性化的宏伟机会？的确如此。它是否充满了影响者和品牌宁愿不管理的问题？同样地，是的。

2021/11/11 09:13:44

1117

AI应用

6种大模型的使用方式总结，使用领域数据集持续做无监督预训练可能是一个好选择

Sebastian Raschka是LightningAI的首席科学家，也是前威斯康星大学麦迪逊分校的统计学助理教授。他在大模型领域有非常深的简介，也贡献了许多有价值的内容。在最新的一期统计中，他总结了6种大模型的使用方法，引起了广泛的讨论。其中，关于使用领域数据集做无监督预训练是目前讨论较少，但十分重要的一个方向。

2023/12/24 22:13:33

1111

大模型预训练/无监督预训练/有监督微调/领域大模型

谷歌发布号称超过GPT-4V的大模型Gemini：4个版本，最大的Gemini的MMLU得分90.04，首次超过90的大模型

谷歌在几个小时前发布了Gemini大模型，号称历史最强的大模型。这是一系列的多模态的大模型，在各项评分中超过了GPT-4V，可能是目前最强的模型。

2023/12/07 10:05:15

1110

Gemini/Gemini-Nano/Gemini-Pro/Gemini-Ultra/GPT-4V

OpenAI开放自定义用户指令，让ChatGPT永久记住这些自定义系统prompt：你的ChatGPT按照你的偏好变成一个专属助理了~

几个小时前，OpenAI官方宣布开放ChatGPT的系统指令设置功能。主要就是现在你可以为自己的ChatGPT设置一个系统级别的指令，按照你的偏好，来回复所有问题。

2023/07/21 08:24:58

1109

ChatGPT/OpenAI

马斯克的X.AI平台即将发布的大模型Grōk AI有哪些能力？新消息泄露该模型支持2.5万个字符上下文！

尽管OpenAI最早也是马斯克和别人一起创立，由于各种原因分道扬镳之后马斯克也没有对相关产品感兴趣，直到ChatGPT风卷全球之后，马斯克与OpenAI的人公开吵了几次之后成立了这家公司。半年后的现在，马斯克透露xAI即将发布它的首个大模型Grōk AI。而一位老哥已经透露了该模型的一些细节。

2023/11/05 13:56:32

1102

Grok/GrōkAI/twitter/xAI/马斯克

开源多模态大模型新选择：DeepSeekAI（深度求索科技）开源全新多模态大模型DeepSeek-VL模型，包含可在手机端运行的13亿规模tiny多模态模型。

深度求索是著名量化机构幻方量化旗下的一家大模型初创企业，成立与2023年7月份。他们开源了很多大模型，其中编程大模型DeepSeek-Coder系列获得了非常多的好评。而在今天，DeepSeek-AI再次开源了全新的多模态大模型DeepSeek-VL系列，包含70亿和13亿两种不同规模的4个版本的模型。

2024/03/11 14:11:26

1101

DeepSeek-VL/DeepSeekAI/多模态大模型

KerasCV——一个新的简单易用的计算机视觉（CV）算法库

KerasCV是由Keras官方团队发布的一个计算机视觉框架，可以帮助大家用来处理计算机视觉领域的相关任务和问题。这是2022年4月刚发布的最新产品，由于是官方团队出品的工具，所以质量有保证，且社区活跃，一直在积极更新。

2022/09/29 22:12:43

1098

keras/python/算法库

Python800页免费电子书——Python基本库和著名经典库的使用

《Python Notes For Professionals》是StackOverflow上的人总结的Python使用方法。

2022/04/11 15:55:55

1091

python

阿里开源截止目前为止参数规模最大的Qwen1.5-110B模型：MMLU评测接近Llama-3-70B，略超Mixtral-8×22B！

Qwen1.5系列是阿里开源的一系列大语言模型，也是目前为止最强开源模型之一。Qwen1.5是Qwen2的beta版本，此前开源的模型最大参数规模都是720亿，和第一代模型一样。就在刚刚，阿里开源了1100亿参数规模的Qwen1.5-110B模型。评测结果显示MMLU略超Llama3-70B和Mixtral-8×22B。我们实测结果，相比Qwen1.5-72B模型来说，复杂任务的逻辑提升比较明显！

2024/04/26 22:15:34

1079

Qwen1.5-110B/Qwen1.5-72B/国产大模型/通义千问/阿里巴巴

文本理解与代码补全都很强！Salesforce开源支持8K上下文输入的大语言模型XGen-7B！

Salesforce是全球最大的CRM企业，但是在开源大模型领域，它也是一个不可忽视的力量。今天，Salesforce宣布开源全新的XGen-7B模型，是一个同时在文本理解和代码补全任务上都表现很好的模型，在MMLU任务和代码生成任务上都表现十分优秀。最重要的是，它的2个基座模型XGen-7B-4K-Base和XGen-7B-8K-Base都是完全开源可商用的大模型。

2023/06/30 00:22:23

1078

LLM/XGen/大语言模型/编程大模型

个人网站申请免费ssl证书最靠谱的办法

如今，不支持https的网站基本都无法访问，https网站需要在服务端保存ssl证书才可以建立。这个原理本文不多说。目前，各大云服务厂商也提供ssl证书的发放和管理，但都是收费的。对于个人网站来说，基于第三方的服务申请免费证书其实是合适的。但是，国内申请证书并不好用。本文主要记录一个最简单的免费证书申请安装方法。

2023/05/21 15:08:40

1074

ssl证书