人工智能与大模型最新资讯与技术博客

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

如何构建下一代机器翻译系统——Building Machine Translation Systems for the Next Thousand Languages

本周，谷歌的研究人员在arXiv上提交了一个非常有意思的论文，其主要目的就是分享了他们建立能够翻译一千多种语言的机器翻译系统的经验和努力。

2022/05/12 23:15:05

795

工程实践/机器翻译系统/论文快讯

XLNet基本思想简介以及为什么它优于BERT

前几天刚刚发布的XLNet彻底火了，原因是它在20多项任务中超越了BERT。这是一个非常让人惊讶的结果。之前我们也说过，在斯坦福问答系统中，XLNet也取得了目前单模型第一的成绩（总排名第四，前三个模型都是集成模型）。

2022/05/12 22:52:33

6812

深度学习/论文快讯/预训练模型

Unifying Language Learning Paradigms——谷歌的一个模型打天下

如今，自然语言处理的预训练模型被广泛运用在各个领域。各大企业和组织都在追求各种大型的预训练模型。但是当你问我们应该使用哪一个预训练模型来解决问题的时候，通常没有统一的答案，一般来说它取决于下游的任务，也就是说需要根据任务类型来选择模型。而谷歌认为这不是一个正确的方向，因此，本周，谷歌提出了一个新的NLP预训练模型框架——Unifying Language Learning Paradigms（简称UL2）来尝试使用一个模型解决多种任务。

2022/05/12 22:50:30

2347

论文快讯/通用预训练模型

Python编程环境搭建——小白起步教程！

Python作为目前最流行的编程语言，因为其易用性以及丰富的库成为很多人的工具。它不仅是程序员的编程语言，也是各行各业提升工作效率的工具。本篇博客作为一篇针对完全小白的python语言搭建环境，不会为python语言本身做介绍，完全只考虑搭建python编程环境，目的是让你动手在电脑上写下第一行python程序，并成功运行，为广大童鞋提供一个入门参考。

2022/05/06 21:43:20

1046

python/教程

开源版本的GPT-3来临！Meta发布OPT大语言模型！

关注深度学习或者NLP的童鞋应该都知道openAI的GPT-3模型，这是一个非常厉害的模型，在很多任务上都取得了极其出色的成绩。然而，OpenAI的有限开放政策让这个模型的应用被限定在很窄的范围内。甚至由于大陆不在OpenAI的API开放国家，大家几乎都无法使用和体验。而五一假期期间，FaceBook的研究人员Susan Zhang等人发布了一个开源的大预言模型，其参数规模1750亿，与GPT-3几乎一样。

2022/05/05 23:00:56

5633

NLP/深度学习

超越Cross-Entropy Loss（交叉熵损失）的新损失函数——PolyLoss简介

Google旗下自动驾驶公司Waymo的研究人员Mingxing Tan发现了一个可以替代Cross-Entropy Loss的新的损失函数：PolyLoss，这是发表在ICLR 22的一篇新论文。什么都不变的情况下，只需要将损失函数的代码替换成PolyLoss，那么模型在图像分类、图像检测等任务的性能就会有很好的提升！

2022/05/03 17:31:30

1860

损失函数/深度学习

开源利器！一个文件实现完整的强化学习算法

很多算法的开源实现都包含多个文件，因此，学习这些开源代码的时候通常难以找到入口，也无法快速理解作者的逻辑，对于学习的童鞋来说都带来了不小的挑战。这里推荐一个非常优秀的强化学习开源库，它将经典的强化学习算法都实现在一个文件中，想要学习源代码的童鞋只需要看单个文件即可，这就是ClearRL!

2022/05/03 17:10:15

1346

强化学习

期刊审稿周期查询方法

科研成果发表速度对于国内的硕士生和博士生来说非常重要，它涉及了同学们的毕业、出国和奖学金等。很多童鞋在投稿之前都希望了解期刊的审稿周期。虽然大多数期刊没有规定明确的审稿时间，但是，随着大家对学术期刊投稿周期的关注，很多学术期刊也开始就自己的审稿速度开始有所要求，本文针对常见的期刊审稿周期提供一个普遍的分析方法。

2022/04/24 22:29:37

14172

学术期刊