统计、机器学习与编程知识的原创博客

Dirichlet Distribution（狄利克雷分布）与Dirichlet Process（狄利克雷过程）

Dirichlet过程是一个随机过程，在非参数贝叶斯模型中有广泛运用，最常见的应用是Dirichlet过程混合模型

2017/11/14 15:06:41 阅读 103335

Dirichlet分布/Dirichlet过程/无限混合模型/混合模型/贝叶斯模型

回归模型中的交互项简介（Interactions in Regression）

在回归模型中加入交互项是一种非常常见的处理方式。它可以极大的拓展回归模型对变量之间的依赖的解释。本篇博客将简要介绍这个交互项。

2017/10/16 20:58:09 阅读 99519

交互项/回归模型/正则项

贝塔分布（Beta Distribution）简介及其应用

贝塔分布（Beta Distribution）是一个连续的概率分布，它只有两个参数。它最重要的应用是为某项实验的成功概率建模。在本篇博客中，我们使用Beta分布作为描述。

2017/11/08 11:16:18 阅读 96906

BetaDistribution/Beta分布/推断/统计

矩母函数简介（Moment-generating function）

在统计学中，矩母函数是一个关于随机变量的实值函数，它可以替代密度函数来描述分布。也就是说，出了概率密度函数外，我们也可以通过矩母函数来描述分布。

2017/10/20 11:44:18 阅读 64032

分布/统计

普通最小二乘法（Ordinary Least Squares，OLS）的详细推导过程

在统计学中，普通最小二乘法（OLS）是一种用于在线性回归模型中估计未知参数的线性最小二乘法。这篇博客将简要描述其参数的求解过程。

2018/10/12 10:50:21 阅读 63136

优化/回归/最小二乘法/机器学习

使用R语言进行K-means聚类并分析结果

R语言进行数据分析非常简单方便，在这篇博客中，我们将描述如何使用R语言进行K-means聚类分析，并分析结果。

2018/10/31 14:25:22 阅读 62295

K-means/R语言/聚类

深度学习技巧之Early Stopping（早停法）

当我们训练深度学习神经网络的时候通常希望能获得最好的泛化性能（generalization performance，即可以很好地拟合数据）。但是所有的标准深度学习神经网络结构如全连接多层感知机都很容易过拟合：当网络在训练集上表现越来越好，错误率越来越低的时候，实际上在某一刻，它在测试集的表现已经开始变差。早停法就是一种防止深度学习网络模型过拟合的方法。

2018/09/26 09:29:56 阅读 42303

深度学习/深度学习技巧

手把手教你本地部署清华大学的ChatGLM-6B模型——Windows+6GB显卡本地部署

ChatGLM-6B是清华大学知识工程和数据挖掘小组发布的一个类似ChatGPT的开源对话机器人，由于该模型是经过约1T标识符的中英文训练，且大部分都是中文，因此十分适合国内使用。本文将详细记录如何在Windows环境下基于GPU和CPU两种方式部署使用ChatGLM-6B，并说明如何规避其中的问题。

2023/05/21 17:14:02 阅读 41653

ChatGLM/VisualGLM/部署

Wishart分布简介

Wishart分布在多元高斯的贝叶斯推断中非常重要。它通常作为正态分布的协方差矩阵的逆矩阵的共轭先验存在。这篇博客将详细讲述Wishart分布及其作用。

2017/11/04 09:29:46 阅读 39772

Wishart分布/分布/多元正态分布/统计/高斯分布

stata 用outreg2输出回归结果

stata 输出回归结果

2018/05/18 16:49:38 阅读 37826

stata；outreg2

多元高斯分布（多元正态分布）简介

高斯分布是一种非常常见的分布，对于一元高斯分布我们比较熟悉，对于高斯分布的多元形式有很多人不太理解。这篇博客的材料主要来源Andrew Ng在斯坦福机器学习课的材料。

2017-01-28 23:02:43 阅读 36609

正态分布/统计基础/高斯分布

R语言分析面板数据：简单案例

面板数据，即Panel Data，也叫“平行数据”，是指在时间序列上取多个截面，本文介绍了一个R语言处理面板数据的案例

2017/05/03 16:12:03 阅读 28360

R语言/面板数据

OpenRouterAI：一个提供目前最优秀大模型API的网站，支持GPT-4 32k和Claude v2接口！

今天发现另一个可以替代官方API的接口网站，OpenRouter。尽管OpenAI和Anthropic的模型非常好，但是开发者使用需要申请API，但是，这两个服务的API申请非常麻烦。而OpenRouter目前提供了这些接口的付费调用，价格与官网完全一致，十分良心！

2023/07/31 21:26:15 阅读 25315

API/Claudev2/GPT4-32K/LLMAPI

GGUF格式的大模型文件是什么意思？gguf是什么格式？如何使用？为什么有GGUF格式的大模型文件？GGUF大模型文件与GGML的差异是啥？

在大模型领域，GGUF是一个非常常见的词语，也是非常常见的大模型预训练结果命名方式。很多人都有疑问gguf是什么格式？很多模型模型，如Yi-34B、Llama2-70B等模型都有对应的GGUF版本，这些版本都模型除了文件名多了GGUF外，其它与原有的模型名称完全一致。那么，GGUF大模型文件格式是什么意思？为什么会有这样的大模型文件，与它一同出现对比的是GGML格式文件，二者的区别是啥？

2024/03/16 21:34:26 阅读 24996

GGML/GGUF/大模型加速/大模型文件格式/大模型量化

Python中的Pickle操作（pkl文件解释）

您刚刚经历了一个耗时的过程，将一堆数据加载到python对象中。也许你从数千个网站上爬取了数据。也许你计算了pi的数值。如果您的笔记本电脑电池耗尽或python崩溃，您的信息将丢失。 Pickling允许您将python对象保存为硬盘驱动器上的二进制文件。在你pickle你的对象后，你可以结束你的python会话，重新启动你的计算机，然后再次将你的对象加载到python中。

2019/03/11 16:43:55 阅读 24602

python/序列化