最新AI大模型咨询与技术解读——来自DataLearnerAI

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

Seq2Seq的建模解释和Keras中Simple RNN Cell的计算及其代码示例

RNN的应用有很多，尤其是两个RNN组成的Seq2Seq结构，在时序预测、自然语言处理等方面有很大的用处，而每个RNN中一个节点是一个Cell，它是RNN中的基本结构。本文从如何使用RNN建模数据开始，重点解释RNN中Cell的结构，以及Keras中Cell相关的输入输出及其维度。我已经尽量解释了每个变量，但可能也有忽略，因此可能对RNN之前有一定了解的人会更友好，本文最主要的目的是描述Keras中RNNcell的参数以及输入输出的两个注意点。如有问题也欢迎指出，我会进行修改。

小木

3828

Keras/RNN/Seq2Seq/SimpleRNNCell/深度学习

softmax作为输出层激活函数的反向传播推导

softmax作为多标签分类中最常用的激活函数，常常作为最后一层存在，并经常和交叉熵损失函数一起搭配使用。这里描述如何推导交叉熵损失函数的推导问题。

小木

5195

python/人工智能/深度学习

深度学习技巧之Batch Normalization

Batch Normalization是深度学习中最重要的技巧之一。是由Sergey Ioffe和Christian Szeged创建的。Batch Normalization使超参数的搜索更加快速便捷，也使得神经网络鲁棒性更好。本篇博客将简要介绍相关概念和原理。

小木

4820

coursera/深度学习/调优

基于GPU的机器学习Python库——RAPIDS简介及其使用方法

随着深度学习的火热，对计算机算力的要求越来越高。从2012年AlexNet以来，人们越来越多开始使用GPU加速深度学习的计算。然而，一些传统的机器学习方法对GPU的利用却很少，这浪费了很多的资源和探索的可能。在这里，我们介绍一个非常优秀的项目——RAPIDS，这是一个致力于将GPU加速带给传统算法的项目，并且提供了与Pandas和scikit-learn一致的用法和体验，非常值得大家尝试。

小木

14572

GPU/机器学习/深度学习

数据科学的Python——keras备忘录发布，含Keras的各种使用样例

小木

2465

keras/深度学习

标签平滑（Label Smoothing）——分类问题中错误标注的一种解决方法

在2016年，Szegedy等人提出了inception v2的模型（论文：Rethinking the inception architecture for computer vision.）。其中提到了Label Smoothing技术，可以提高模型效果。

小木

12091

深度学习

使用卷积神经网络进行手写识别

本文是发在Medium上的一篇博客：《Handwritten Equation Solver using Convolutional Neural Network》。本文是原文的翻译。这篇文章主要教大家如何使用keras训练手写字符的识别，并保存训练好的模型到本地，以及未来如何调用保存到模型来预测。

小木

3395

卷积神经网络/深度学习

CNN中的一些高级技术（空洞卷积/显著图/反卷积）

卷积神经网络是图像识别领域最重要的深度学习技术。也可以说是是本轮深度学习浪潮开始点。本文总结了CNN的三种高级技巧，分别是空洞卷积、显著图和反卷积技术。

小木

10936

卷积神经网络/深度学习

一文看懂如何初始化神经网络

深度学习的初始化非常重要，这篇博客主要描述两种初始化方法：一个是Kaiming初始化，一个是LSUV方法。文中对比了不同初始化的效果，并将每一种初始化得到的激活函数的输出都展示出来以查看每种初始化对层的输出的影响。当然，作者最后也发现如果使用了BatchNorm的话，不同的初始化方法结果差不多。说明使用BN可以使得初始化不那么敏感了。

小木

6269

深度学习/神经网络

提炼BERT——将BERT转成小模型（Distilling BERT — How to achieve BERT performance using Logistic Regression）

BERT是很好的模型，但是它的参数太大，网络结构太复杂。在很多没有GPU的环境下都无法部署。本文讲的是如何利用BERT构造更好的小的逻辑回归模型来代替原始BERT模型，可以放入生产环境中，以节约资源。

小木

4033

BERT/深度学习

CNN经典算法AlexNet介绍

2012年发表的AlexNet可以算是开启本轮深度学习浪潮的开山之作了。由于AlexNet在ImageNet LSVRC-2012（Large Scale Visual Recognition Competition）赢得第一名，并且错误率只有15.3%（第二名是26.2%），引起了巨大的反响。相比较之前的深度学习网络结构，AlexNet主要的变化在于激活函数采用了Relu、使用Dropout代替正则降低过拟合等。本篇博客将根据其论文，详细讲述AlexNet的网络结构及其特点。

小木

8931

卷积神经网络/深度学习

深度学习的反向传播手动推导

反向传播算法是深度学习求解最重要的方法。这里我们手动推导一下。

小木

3859

反向传播/梯度下降/深度学习

深度学习的经典算法的论文、解读和代码实现

深度学习是目前最火的算法领域。他在诸多任务中取得的骄人成绩使得其进化越来越好。本文收集深度学习中的经典算法，以及相关的解释和代码实现。

小木

15389

深度学习

深度学习卷积操作的维度计算（PyTorch/Tensorflow等框架中Conv1d、Conv2d和Conv3d介绍）

卷积操作的维度计算是定义神经网络结构的重要问题，在使用如PyTorch、Tensorflow等深度学习框架搭建神经网络的时候，对每一层输入的维度和输出的维度都必须计算准确，否则容易出错，这里将详细说明相关的维度计算。

小木

19501

PyTorch/卷积神经网络/深度学习

CNN经典算法之Inception V1（GoogLeNet）

GoogLeNet是谷歌在2014年提出的一种CNN深度学习方法，它赢得了2014年ILSVRC的冠军，其错误率要低于当时的VGGNet。与之前的深度学习网络思路不同，之前的CNN网络的主要目标还是加深网络的深度，而GoogLeNet则提出了一种新的结构，称之为inception。GoogLeNet利用inception结构组成了一个22层的巨大的网络，但是其参数却比之前的如AlexNet网络低很多。是一种非常优秀的CNN结构。

小木

4782

GoogLeNet/Inception/卷积神经网络/深度学习