统计、机器学习与编程知识的原创博客

★ 【置顶】推荐一个国内可以按分钟计费的4090显卡租用公有云，一个小时24GB显存的4090只需要2.37元——仙宫云

大模型的发展速度很快，对于需要学习部署使用大模型的人来说，显卡是一个必不可少的资源。使用公有云租用显卡对于初学者和技术验证来说成本很划算。DataLearnerAI在此推荐一个国内的合法的按分钟计费的4090显卡公有云服务提供商仙宫云，可以按分钟租用24GB显存的4090显卡公有云实例，非常具有吸引力~

4090显卡/仙宫云/显卡公有云/显卡租赁

检索增强生成（RAG）

大模型检索增强生成是一种结合了大规模语言模型的自动生成能力和针对特定数据的检索机制，以提供更准确、信息丰富的输出内容的技术。

查看RAG合集

Long Context

大模型对长上下文的处理能力在于它们能够理解和维持较长篇幅的文本连贯性，有助于提升质量，以及对复杂问题和讨论的理解和回应质量。

LongContext合集

AI Agent

大模型的AI Agent是一种高级智能系统，能够理解复杂的指令和查询，并以人类般的方式生成响应、执行任务或提供决策支持。

AI Agent合集

通过从零开始实现一个感知机模型，我学到了这些【转载】

本文转自雷锋网，原文《通过从零开始实现一个感知机模型，我学到了这些》，作者：恒亮，文章转载已获授权。感知器（英语：Perceptron）是Frank Rosenblatt在1957年就职于Cornell航空实验室（Cornell Aeronautical Laboratory）时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络，是一种二元线性分类器。本文介绍了搭建感知机模型的基本操作也包含了作者的一些心得。

2017/03/14 10:04:25

3142

人工智能/感知机/机器学习/神经网络

网络爬虫模拟登陆获取数据并解析实战（二）

网络爬虫模拟登陆获取数据并解析实战

2016-09-09 08:33:54

3117

java/网络爬虫

深度学习技巧之一

2018/09/25 10:22:47

3111

机器学习/深度学习/调参

模型中的参数和超参数

2019/03/27 21:20:13

3109

模型中的参数和超参数

Git的简介和使用

Git是一个版本控制系统，用来追踪计算机文件的变化的工具，也是一个供多人使用的协同工具。它是一个分布式的版本控制系统，本文将简单介绍如何使用。

2018/04/05 09:51:36

3102

协作/编程

线性数据结构之跳跃列表（Skip List）详解及其Java实现

数据结构中，自平衡二叉查找树搜索效率高，但是需要通过旋转和变色维护平衡。而列表虽然简单，但是对元素的查找需要比对列表中的每个元素，查找速度较慢。为了兼顾列表的简单易用，并提高查找效率，跳跃列表（Skip List）应运而生。

2018/10/31 11:18:48

3100

列表/数据结构/索引

Keras框架下输出模型中间层学习到的表示的两种常用方式

深度学习本质上是表示学习，它通过多层非线性神经网络模型从底层特征中学习出对具体任务而言更有效的高级抽象特征。针对一个具体的任务，我们往往会遇到这种情况：需要用一个模型学习出特征表示，然后将学习出的特征表示作为另一个模型的输入。这就要求我们会获取模型中间层的输出，下面以具体代码形式介绍两种具体方法。

2019/04/10 20:26:10

3098

Keras/中间层表示

hive数据操作

hive的使用方法

2016-04-06 21:32:47

3084

hadoop/hive

Dask concat throws ValueError: Shape of passed values is (xxx, xxx), indices imply (xxx, xxx)

在使用Dask进行两个dataframe的concatenate操作的时候抛出ValueError，本文记录这个错误以及解决方案。

2020/05/31 17:42:24

3080

dask/dataframe

如何把一个目录下的所有文件，合并成一个文件

java 读写操作

2016-10-11 09:14:46

3074

java/数据处理

AI系统中（机器学习算法）导致偏差的原因总结

基于算法的业务或者说AI的应用在这几年发展的很快。但是，在实际应用的场景中，我们经常会遇到一些非常奇怪的偏差现象。例如，Facebook将黑人标记为灵长类动物、城市图像识别系统将公交车上的董明珠形象广告识别为闯红灯的人等。算法系统出现偏差的原因有很多。本篇博客将总结在数据获取相关方面可能导致模型出现偏差的原因。

2021/11/07 22:31:25

3066

AI系统/算法偏差

大模型领域的GGML是什么？GGML格式的大模型文件与原有文件有什么不同？它是谁提出的？如何使用？

GGML是在大模型领域常见的一种文件格式。HuggingFace上著名的开发者Tom Jobbins经常发布带有GGML名称字样的大模型。通常是模型名+GGML后缀，那么这个名字的模型是什么？GGML格式的文件名的大模型是什么样的大模型格式？如何使用？本文将简单介绍。

2024/01/20 10:48:01

3057

GGML/大模型加速/大模型工具/大模型文件格式

浮动

2018/10/09 14:39:26

3053

浮动

tokens危机到来该怎么办？新加坡国立大学最新研究：为什么当前的大语言模型的训练都只有1次epoch？多次epochs的大模型训练是否有必要？

epoch是一个重要的深度学习概念，它指的是模型训练过程中完成的一次全体训练样本的全部训练迭代。然而，在LLM时代，很多模型的epoch只有1次或者几次。这似乎与我们之前理解的模型训练充分有不一致。那么，为什么这些大语言模型的epoch次数都很少。如果我们自己训练大语言模型，那么epoch次数设置为1是否足够，我们是否需要更多的训练？

2023/05/31 00:33:36

3050

tokens/大语言模型/正则化/训练技术

财大气粗！英伟达官方AI Playground提供可以免费使用的Stable Diffusion XL、LLaMA2、CLIP等模型

AI Playground最近的LLaMA2、Stable Diffusion XL等模型的进展也让大家看到了最新最强大的模型的能力。但是，对于大多数人来说，这些模型的使用依然具有较高的门槛，除了硬件资源消耗大，本身的部署也不容易。而支撑这些模型的一个重要的硬件因素就是英伟达的显卡。显卡已经超越一般理财，变得越来越贵。因此，基于大模型的免费服务成本也很高，而今天，英伟达官方的NGC网站推出了新的几款可以免费使用的大模型，包括聊天大模型LLaMA2、文本生成图片大模型Stable Diffusion等，基于

2023/08/10 13:43:21

3045

StableDiffusionXL/免费资源