时间序列数据处理中的相关数学概念

标签:#时间序列数据##统计# 时间:2019/07/09 14:50:20 作者:小木

时间序列数据分析的基础包含大量的统计知识。这篇博客主要用通俗的语言描述时间序列数据中涉及到的一些基本统计知识。

[TOC]

随机变量(Random Variable)

随机变量可以理解为一个实值函数,且是可测的函数。它主要被用来描述样本空间中某些事件发生的概率。例如,掷一个均匀六面骰子,那么我们可以使用X(x)来描述骰子结果是x的事件,那么X就可以理解为一个随机变量。这个时候X的取值有6种情况。此时,X是离散随机变量,可以用如下形式表示:

X=\{x_1,x_2,\cdots\}

假如X事件的结果(也就是X的取值结果)是全部的实数或者一部分区间组成,那么X就是连续随机变量,例如明天天气的温度等,此时可以使用如下形式表示:

X = \{x|a\leq x \leq b, -\infty < a < b < \infty\}

概率质量函数(Probability Mass Function)

概率质量函数(Probability Mass Function,PMF)是用来描述离散型随机变量的输出概率的函数,也就是取值的概率(注意,这里的事件必须是样本空间中的,不然这个值就是0了):

f_X(x) = \Pr(X=x)

概率密度函数(Probability Density Function)

概率密度函数(Probability Density Function,PDF)是用来描述连续型随机变量输出结果的概率,是一个函数。连续随机变量在某一点的概率实际上是0,因为一个点在连续空间中可以理解是无穷小的,所以我们用这个点附近的密度来描述它的概率:

f_X(x)

一般我们通过累积分布函数来计算概率密度函数,即当概率密度函数在x处连续的时候,那么累积分布函数F可导,且:

f_X(x) = F_X^{'}(x)

累积分布函数定义见后续。

累积分布函数(Cumulative Distribution Function,CDF)

一般我们使用F表示随机变量累积分布函数,它是概率密度函数的积分,能完整地描述随机变量的分布:

F_X(x) = P(X\leq x) = \int_{-\infty}^x f_X(t)dt

随机过程(Stochastic Process)

随机过程就是一组随机变量\{X_t\}的集合,其索引t是时间集合T,即t\in T。也就是说随机过程可以看成是一个带有时间的序列,序列中的每一个元素都是一个随机变量(也就是不是确定的数值了)。那么,意味着,这个序列上每个点我们都用概率去描述,而不是使用确定的值来描述,这种统计方式描述序列值具有更高的灵活性。在时间序列数据建模中是非常合适的。

平稳过程(Stationary Process)

平稳过程是一个统计概念,一般来说分成强平稳过程和弱平稳过程。

强平稳过程(Strong Stationary Process)

强平稳过程是一种非常严格定义的平稳过程,是指一种随机过程中任取一段时间t_1,\cdots,t_k,其联合概率分布,与平移任意一段时间之后的t_{1+i},\cdots,t_{k+i}的联合概率分布相同。也就是联合分布与时间无关。例如,假设Y\sim \text{uniform}(0,2\pi],那么:

X_t = cos(t+Y)

就是一个强平稳过程,因为任意时间范围内它的联合发布都是一样的。

弱平稳过程(Weaky Stationary Process)

强平稳过程定义太过严格,现实中并不常见。于是出现了弱平稳过程。弱平稳过程只要求时间序列数据的一阶矩(即均值)是常数,而自协方差(autocovariance)与时间起点无关,只与时间间隔相关。这个定义比强平稳过程放松了,在现实中也有了一些应用意义。

白噪声(White Noise)

白噪声是一种最简单的强平稳过程。白噪声是一种随机信号,但是其均值为0(时间序列数据中)。在时间序列数据分析中,通常会假设观测值是由一个确定性的线性过程加上一个独立的随机噪音值生成的。很多时候时间序列数据的建模目标是观测值减去模型拟合的结果,得到一个白噪音,这样意味着你的模型已经把所有的因素都考虑到了。

欢迎大家关注DataLearner官方微信,接受最新的AI技术推送