统计、机器学习与编程知识的原创博客

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

HuggingFace官方宣布将对GGUF格式的大模型文件增加更多的支持，未来可以直接在HF上查看GGUF文件的元数据信息！

当前的大模型的参数规模较大，数以千亿的参数导致了它们的预训练结果文件都在几十GB甚至是几百GB，这不仅导致其使用成本很高，在不同平台进行交换也非常困难。因此，大模型预训练结果文件的保存格式对于模型的使用和生态的发展来说极其重要。昨天HuggingFace官方宣布将推动GGUF格式的大模型文件在HuggingFace上的使用。

2024/03/16 21:34:14

1535

GGML/GGUF/HuggingFace/大模型加速/大模型文件格式/大模型量化

斯坦福2022年度AI指数报告简介及下载链接

人工智能指数是斯坦福大学以人为本人工智能研究所（Stanford Institute for Human-Centered Artificial Intelligence (HAI)）联合学术界、工业界的专家一起发布的人工智能相关的发展报告。2022年度AI指数报告在近几日发布。

2022/03/20 23:10:21

1541

AI/人工智能/报告

未经证实的GPT-4技术细节，关于GPT-4的参数数量、架构、基础设施、训练数据集、成本等信息泄露，仅供参考

几个小时前SemiAnalysis的DYLAN PATEL和DYLAN PATEL发布了一个关于GPT-4的技术信息，包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集，并未公开数据源。但是内容还是有一定参考性，大家自行判断。

2023/07/11 09:36:14

1543

GPT-4

如何使用git从GitHub上下载项目、更新远端项目并提交本地的更改

介绍如何使用git下载远程、更新远程项目到本地，提交本地更改到远程

2023/04/24 22:37:11

1554

git

GPT-3最新的能力开放——自动重构和增强你的代码！

OpenAI在3月15日发布了一个最新的GPT-3和Codex的版本，这个版本最大的能力就是可以在已有的文本上插入或者编辑新的内容。而不是续写已有的文本。这个能力最大的应用就是重写已有文本，或者用来重构代码。

2022/03/19 14:21:35

1555

GitHub/openai/重构

预训练模型编程框架Transformers迎来重磅更新：Transformers Agents发布，一个完全的多模态AI Agent！

今天，HuggingFace官方宣布了Transformers最大胆的功能：Transformers Agents。这是继AutoGPT开创性发布之后，AI Agent被业界接受的另一个重要的里程碑。

2023/05/13 00:44:20

1561

AIAgent/AutoGPT/Transformers

OpenAI是一家什么样的企业——OpenAI介绍与成果总结

OpenAI是全球最著名的人工智能研究机构，发布了许多著名的人工智能技术和成果，如大语言模型GPT系列、文本生成图片预训练模型DALL·E系列、语音识别模型Whisper系列等。由于这些模型在各自领域都有相当惊艳的表现，引起了全世界广泛的关注。

2022/12/09 23:13:30

1580

OpenAI

阿里巴巴的第二代通义千问可能即将发布：Qwen2相关信息已经提交HuggingFace官方的transformers库

通义千问是阿里巴巴开源的一系列大语言模型。Qwen系列大模型最高参数量720亿，最低18亿，覆盖了非常多的范围，其各项评测效果也非常好。而昨天，Qwen团队的开发人员向HuggingFace的transformers库上提交了一段代码，包含了Qwen2的相关信息，这意味着Qwen2模型即将到来。

2024/01/31 12:50:16

1596

Qwen-7B/Qwen2/Qwen2-7B/通义千问

没有显卡也没关系！基于Google Colab免费GPU额度部署Stable Diffusion XL模型，可以生成4K的图！

Stable Diffusion XL是StabilityAI最新的开源模型。是目前业界流行的免费开源图像生成大模型。2023年4月份StabilityAI就宣布了SD XL的存在并在2023年7月26日开源。SD XL相比较此前的模型速度更快、提示词更短、生成的图像更加真实。但是，大多数人可能并没有实际运行过，感受过这个模型的魅力。在这篇博客中，我们给大家展示如何利用Google Colab的免费GPU资源，部署一个SD XL模型，并通过prompt生成一些图片。

2023/08/17 23:30:44

1597

StableDiffusionXL/StableDiffusion教程/免费GPU资源

来自OpenAI的官方解释：ChatGPT中的GPTs与Assistants API的区别是什么？有什么差异？

OpenAI发布的产品中，有2个产品可以用来将GPT当作一个类似AI Agent工具使用，同时支持接入自定义的接口和数据。那就是GPTs和Assistant API，前者可以在界面直接操作，后者则是一个API，两者功能接近，为了让大家更加清晰理解二者区别，OpenAI官方最近发布了二者的解释。

2023/12/08 08:51:11

1613

AssistantAPI/ChatGPT/GPTs

深度学习中为什么要使用Batch Normalization

Batch Normalization（BN）是一种深度学习的layer（层）。它可以帮助神经网络模型加速训练，并同时使得模型变得更加稳定。尽管BN的效果很好，但是它的原理却依然没有十分清晰。本文总结一些相关的讨论，来帮助我们理解BN背后的原理。

2021/11/03 21:05:27

1616

BatchNormalization/深度学习

吴恩达宣布和OpenAI、LangChain、Lamini三家公司一起推出三门全新AI短视频课程：ChatGPT API、LangChain和Diffusion Models

今天，吴恩达在推特上宣布和OpenAI、LangChain以及Lamini三家公司共同推出了3门短视频课程，分别是《使用ChatGPT API构建系统》、《基于LangChain的大语言模型应用与开发》和《Diffusion模型是如何工作的》。三门课程都是1个小时的短视频课程，而且配有详细的Jupyter Notebook使用方法。

2023/06/01 23:27:32

1631

AI教程/吴恩达/生成式AI短课程

asd

2021/08/17 12:41:19

1639

asd

OpenAI可能即将增加按年付费的选项，一年的ChatGPT Plus仅需200美元

在1月8日的ChatGPT网站的接口中，有人发现OpenAI增加了按年订阅的选项。接口返回的信息表示，ChatGPT的按年付费200美元即可，折算之后每个月大约16.66美元，一年立省40美元~

2024/01/09 16:21:58

1641

ChatGPT/ChatGPTPlus/ChatGPT付费

好消息！吴恩达再发大模型精品课程：Generative AI with Large Language Models，一个面向中级人员的生成式AI课程

吴恩达创办的DeepLearning.AI一直在提供各种面向AI领域的精品课程。在上个月，他们发布的四门AI短课程（包含了ChatGPT的使用、ChatGPT Prompt工程技术、面向LLM应用的LangChain教程和Diffusion工作原理）受到了广泛的欢迎。今天，吴恩达宣布与AWS的研究人员一起推出了全新的长课程《Generative AI with Large Language Models》，这门课程的主要内容是讲授生成式AI的工作原理以及如何部署面向真实世界应用的生成式AI模型。

2023/06/29 23:32:22

1642

AI教程/吴恩达/生成式AI课程