统计、机器学习与编程知识的原创博客

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

好东西！Transformer入门神作手把手按行实现Transformer教程The Annotated Transformer2022版本来袭

The Annotated Transfomer是哈佛大学的研究人员于2018年发布的Transformer新手入门教程。这个教程从最基础的理论开始，手把手教你按照最简单的python代码实现Transformer，一经推出就广受好评。2022年，这个入门教程有了新的版本。

2022/11/05 20:02:14

1757

transformer/教程

OpenAI正式开放ChatGPT Team订阅计划，价格每个月贵25%，更多的GPT-4，附ChatGPT付费计划对比

OpenAI今天开放了ChatGPT的Team版本的订阅计划，相比较普通的Plus会员版本，Team版本的计划价格更贵，但是可以使用更多的GPT-4额度。不过，与此前传闻比较少了很多功能，唯一比较吸引人的就是更多的GPT-4使用额度了。最少两个人合买。

2024/01/11 15:12:22

1753

ChatGPTPlus/ChatGPTTeam/ChatGPT订阅

Deep Neural Networks and Tabular Data: A Survey——XGBoost依然是最优秀的算法模型

异质表格数据是最常用的数据形式，对于众多关键和计算要求高的应用来说是必不可少的。在同质数据集上，深度神经网络已多次显示出优异的性能，因此被广泛采用。然而，它们在表格数据建模（推理或生成）方面的应用仍然具有高度挑战性。

2022/03/31 12:15:19

1749

论文快讯

总结一下截止2023年中旬全球主要厂商拥有的GPU数量以及训练GPT-3/LLaMA2所需要的GPU数量

GPU Utils最近总结了一个关于英伟达H100显卡在AI训练中的应用文章。里面透露总结了一些当前的主流厂商拥有的显卡数量以及一些模型训练所需的显卡数。文章主要描述的是H1000的供应与需求，也包含H100的性能描述，本文主要总结一下里面提到的显卡数相关统计供大家参考。

2023/08/04 11:11:48

1739

GPU/显卡数量

OpenAI发布新一代向量大模型，接口已经更新到text-embedding-3-large，embedding长度升级，价格最高下降5倍！

决定向量检索准确性的核心是向量大模型的能力，即文本转成embedding向量是否准确。今天，OpenAI宣布了他们第三代向量大模型text-embedding，模型能力增强的同时价格下降！

2024/01/26 14:40:34

1723

OpenAI/text-embedding-3/向量大模型

国产开源大模型再添重要玩家：BAAI发布开源可商用大模型Aquila

BAAI全称北京智源人工智能研究院（Beijing Academy of Artificial Intelligence），是国内非常重要的一个人工智能研究机构。此前发布了悟道系列数据集和大模型。在最近，他们开源了一个全新的国产开源大语言模型Aquila系列模型。该模型基于大量的中英文数据集训练，是一个完全开源可商用国产大语言模型。

2023/06/13 08:25:14

1722

Aquila/国产大模型/大模型

一个非常有趣的数据工程师小游戏

Firebolt开发了一个数据工程师的网页小游戏，带你体验数据分析的全流程。游戏里你扮演一个数据工程师，从数据收集开始，经历数据pipeline、数据入数据湖以及数据分析等，最终形成各种图表的结果。

2022/03/29 10:02:56

1719

好物推荐

如何提高大语言模型作为Agent的能力？清华大学与智谱AI推出AgentTuning方案

尽管开源的大语言模型发展非常迅速，但是，在以大语言模型作为核心的新一代AI Agent解决方案上，开源大语言模型比商业模型表现要明显地差。为了提高大语言模型作为AI Agent的表现和能力，清华大学和智谱AI推出了一种新的方案，AgentTuning，可以将有效增强开源大语言模型作为AI Agent的能力。

2023/10/24 20:33:26

1714

AgentTuning/AIAgent/智能体

2022年必读的AI论文——100个AI领域被引最多的论文分析

尽管AI领域在工业界发展迅速，企业研究机构在拼命的开发相关的产品以推动各自业务的发展。但是他们也在科研领域不断贡献大量的AI论文。Zeta Alpha的一篇博客分析了2022年发表的被引用最多的100篇AI论文，给大家提供一个洞察思路。

2023/03/04 23:36:34

1677

AI/论文

AI2发布全新的大语言模型预训练数据集：包含3万亿tokens的大规模文本数据集AI2 Dolma，开源免费商用数据集~

Allen Institute for AI简称AI2，是2014年成立的一个非营利性研究组织，其创办者是之前的微软联合创始人Paul G. Allen。目前该组织主导了几个非常大的项目，希望借助AI来推动科学、医学等领域的进步。此前也开源过大模型OLMo等。这次是该组织第一份发布AI数据集相关的项目，名称位Dolma，是一个包含了3万亿tokens的数据集，目前第一版本仅仅包含英文。

2023/08/21 21:49:30

1653

Dolma/开源数据集/数据集/预训练数据集

缺少有标注的数据集吗？福音来了——HuggingFace发布few-shot神器SetFit

少量标记的学习（Few-shot learning）是一种在较少标注数据集中进行模型训练的一种学习方法。为了解决大量标注数据难以获取的情况，利用预训练模型，在少量标记的数据中进行微调是一种新的帮助我们进行模型训练的方法。而就在昨天，Hugging Face发布了一个新的语句transformers（Sentence Transformers）框架，可以针对少量标记数据进行模型微调以获取很好的效果。

2022/09/27 23:17:15

1649

few-shotlearning/sentencetransformers/transformers

强大的对象分割开源算法！Meta AI开源Segment Anything: Working（SAM）预训练大模型！

SAM全称是Segment Anything Model，由MetaAI最新发布的一个图像分割领域的预训练模型。该模型十分强大，并且有类似GPT那种基于Prompt的工作能力，在图像分割任务上展示了强大的能力！此外，该模型从数据集到训练代码和预训练结果完全开源！真Open的AI！

2023/04/24 22:43:01

1644

MetaAI/图像分割/预训练模型

好消息！吴恩达再发大模型精品课程：Generative AI with Large Language Models，一个面向中级人员的生成式AI课程

吴恩达创办的DeepLearning.AI一直在提供各种面向AI领域的精品课程。在上个月，他们发布的四门AI短课程（包含了ChatGPT的使用、ChatGPT Prompt工程技术、面向LLM应用的LangChain教程和Diffusion工作原理）受到了广泛的欢迎。今天，吴恩达宣布与AWS的研究人员一起推出了全新的长课程《Generative AI with Large Language Models》，这门课程的主要内容是讲授生成式AI的工作原理以及如何部署面向真实世界应用的生成式AI模型。

2023/06/29 23:32:22

1642

AI教程/吴恩达/生成式AI课程