最新AI大模型咨询与技术解读——来自DataLearnerAI

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

深度学习模型训练将训练批次（batch）设置为2的指数是否有实际价值？

在深度学习训练中，由于数据太大，现在的训练一般是按照一个批次的数据进行训练。批次大小（batch size）的设置在很多论文或者教程中都提示要设置为$2^n$，例如16、32等，这样可能会在现有的硬件中获得更好的性能。但是，目前似乎没有人进行过实际的测试，例如32的batch size与33的batch size性能到底有多大差别？德国的Thomas Bierhance做了一系列实验，以验证批次大小设置为2的幂次方是不是真的可以加速。

2022/07/05 22:28:32

2554

#深度学习##训练技术#

指标函数（Metrics Function）和损失函数（Loss Function）的区别是什么？

指标（metrics）和损失函数（loss function）在深度学习和机器学习里面非常常见，很多时候他们的公式都似乎是一样的，在编写程序的时候，二者的区别好像也不是很大。那为什么还会有这两种不同的概念出现呢？本文将简单介绍一下二者的区别和应用。

2022/07/05 19:14:02

2689

#指标函数##损失函数##深度学习#

Python3.11最新特性来了，多个好特性提升！

上个月Python的3.11版本发布了第一个beta版本，3.11带来了很多非常棒的新特性，例如错误提示更加具体，可以定位到具体代码位置等，十分友好，建议大家关注。这里简单为大家介绍一下。

2022/07/02 18:11:46

1133

#python#

亚马逊近线性大规模模型训练加速库MiCS来了！

2022/06/29 19:55:06

1135

#分布式训练##深度学习#

不更改一行AI模型的代码加速你的模型训练过程——AI模型训练加速库Nebulgym简介

前几天初创AI企业Nebuly开源了一个AI加速库nebulgym，它最大的特点是不更改你现有AI模型的代码，但是可以将训练速度提升2倍。

2022/06/17 09:06:51

1129

#AI训练##模型加速#

简单几步教你如何在搭建并使用DALL·E开源版本来基于文字生成图片

大规模的text-to-image模型没有公开预训练结果，OpenAI的意思就是我这玩意太厉害，随便放出来可能会被你们做坏事，而谷歌训练这个应该就是为了云服务挣钱，所以都没有公开可用的版本供大家玩耍。虽然业界有基于论文的实现，但是训练模型需要耗费大量的资源，没有开放的预训练结果，我们普通个人也很难玩起来。但是，大神Sahar提供了一个免费使用开源实现的text-to-image预训练模型的方式。

2022/06/12 18:44:53

11011

#Text-To-Image##图片生成##预训练模型#

0基础基于Node.js创建第一个Vue的web项目

最近开始学习新的前端技术。以前开发网站直接使用jQuery+Bootstrap组合，感觉非常容易和方便。但是，现在前端貌似都开始转向基于构建的方式去开发。由于初学者进入一个项目看很多内容也不如上手启动一个项目感受好，本文抛弃原理，直接教大家上手创建一个vue项目。

2022/06/08 22:05:31

790

#vue##前端构建#

Hugging Face发布最新的深度学习模型评估库Evaluate！

就在儿童节前一天，Hugging Face发布了一个最新的深度学习模型评估库Evaluate。对于机器学习模型而言，评估是最重要的一个方面。但是Hugging Face认为当前模型评估方面非常分散且没有很好的文档。导致评估十分困难。因此，Hugging Face发布了这样一个Python的库，用以简化大家评估的步骤与时间。

2022/06/01 11:14:40

2089

#huggingface##模型评价##深度学习#

为什么Python可以处理任意长度的整数运算——Python原理详解

在做LeetCode题目的时候，有一类题目是关于大数运算的。比如，全排列计算或者组合运算，在使用C语言或者Java代码解决这类问题的时候都会遇到变量数值超过阈值的情况。一般来说需要自己构造字符串数组或者是其它数组来存储超过长度的数值。但是，使用Python语言处理这类问题时候却毫无压力，这类题目的计算不会有任何问题。本文将从Python底层实现解释这个问题。

2022/05/26 21:06:58

2252

#Python#

PyTorch终于支持苹果的M1芯片了！

自从苹果发布M1系列的自研芯片开始，基于ARM架构的电脑处理器开始大放异彩。而强大的M1芯片的能力也让很多Mac用户高兴很久。而就在现在，M1也开始支持PyTorch的深度学习框架了。PyTorch官网刚刚宣布，经过和Apple的Metal工程师队伍的合作，PyTorch支持Mac的GPU加速了。

2022/05/19 22:52:17

1364

#pytorch##苹果#

如何构建下一代机器翻译系统——Building Machine Translation Systems for the Next Thousand Languages

本周，谷歌的研究人员在arXiv上提交了一个非常有意思的论文，其主要目的就是分享了他们建立能够翻译一千多种语言的机器翻译系统的经验和努力。

2022/05/12 23:15:05

775

#工程实践##机器翻译系统##论文快讯#

XLNet基本思想简介以及为什么它优于BERT

前几天刚刚发布的XLNet彻底火了，原因是它在20多项任务中超越了BERT。这是一个非常让人惊讶的结果。之前我们也说过，在斯坦福问答系统中，XLNet也取得了目前单模型第一的成绩（总排名第四，前三个模型都是集成模型）。

2022/05/12 22:52:33

6737

#深度学习##论文快讯##预训练模型#

Unifying Language Learning Paradigms——谷歌的一个模型打天下

如今，自然语言处理的预训练模型被广泛运用在各个领域。各大企业和组织都在追求各种大型的预训练模型。但是当你问我们应该使用哪一个预训练模型来解决问题的时候，通常没有统一的答案，一般来说它取决于下游的任务，也就是说需要根据任务类型来选择模型。而谷歌认为这不是一个正确的方向，因此，本周，谷歌提出了一个新的NLP预训练模型框架——Unifying Language Learning Paradigms（简称UL2）来尝试使用一个模型解决多种任务。

2022/05/12 22:50:30

2292

#论文快讯##通用预训练模型#

Python编程环境搭建——小白起步教程！

Python作为目前最流行的编程语言，因为其易用性以及丰富的库成为很多人的工具。它不仅是程序员的编程语言，也是各行各业提升工作效率的工具。本篇博客作为一篇针对完全小白的python语言搭建环境，不会为python语言本身做介绍，完全只考虑搭建python编程环境，目的是让你动手在电脑上写下第一行python程序，并成功运行，为广大童鞋提供一个入门参考。

2022/05/06 21:43:20

1013

#python##教程#