数学基础 — 概率统计

参考资料 #

基础概念 #

符号大全 #

符号含义
Ω全集
空集

平均数 #

平均数(Mean),也常被称为算术平均值,是最常用的集中趋势的度量。

  • 样本平均数,当我们计算一个样本的平均数时,公式为:

$$ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} $$

其中,$\bar{x}$ 表示样本平均数,$x_i$ 表示样本中的每个个体数值,$n$ 是样本中的个体数量,$\sum$ 表示求和。

  • 总体平均数,当我们计算一个总体的平均数时,公式为:

$$ \mu = \frac{\sum_{i=1}^{N} x_i}{N} $$

其中,$\mu$ 表示总体平均数,$x_i$ 表示总体中的每个个体数值,$N$ 是总体中的个体数量,$\sum$ 表示求和。

平均数是数据集中最常见和最直观的度量方式,它提供了数据集中数值的中心位置。然而,需要注意的是,平均数对异常值(极端值)非常敏感,因此在分析数据时,也常常需要考虑其他的统计量,如中位数和众数,以获得更全面的数据特征。

方差 #

  • 样本方差($S^2$)的公式是:

$$ S^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n - 1} $$

其中,$x_i$ 是每个样本点的值,$\bar{x}$ 是样本的平均值,$n$ 是样本的数量。

  • 总体方差($\sigma^2$)的公式是:

$$ \sigma^2 = \frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N} $$

其中,$x_i$ 是每个数据点的值,$\mu$ 是总体的平均值,$N$ 是总体的数量。

标准差 #

标准差和方差都需要平均数为基础进行计算,它们用来说明数据的变化程度。

  • 样本标准差(S)的公式是方差的平方根,即:

$$ S = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n - 1}} $$

  • 总体标准差($\sigma$)的公式也是方差的平方根,即:

$$ \sigma = \sqrt{\frac{\sum_{i=1}^{N} (x_i - \mu)^2}{N}} $$

偏差 #

偏差,就是偏差。

基础概念 #

蒙提·霍尔问题(三门问题) #

伯努利实验 #

伯努利试验(Bernoulli trial,或译为白努利试验)是只有两种可能结果(“成功”或“失败”)的单次随机试验。

抛一次硬币产生一个取值为 1 或 0 的随机变量 X,接连掷下去产生的(取值为 1 或 0)一系列随机变量的集合,被称为伯努利过程

随机变量 #

联合概率 #

包含多个条件且所有条件同时成立的概率称为联合概率。

边缘概率 #

仅与单个随机变量相关的概率称为边缘概率。

条件概率 #

条件概率的计算公式。

贝叶斯公式 #

贝叶斯公式是概率论中一条重要的定理,用于在已知先验信息的情况下更新对事件的概率估计。该公式以数学的方式描述了在新的证据出现后,我们如何更新对事件概率的信念。下面是贝叶斯公式的表达形式:

$$ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} $$ 其中:

  • P(A|B) 是在给定事件 B 发生的条件下事件 A 发生的概率,称为后验概率。
  • P(B|A) 是在给定事件 A 发生的条件下事件 B 发生的概率,称为似然。
  • P(A) 是事件 A 的先验概率,即在考虑任何新证据之前,我们对事件 A 的初始概率估计。
  • P(B) 是事件 B 的概率,也称为边缘概率。

如何理解贝叶斯公式:

  1. 先验概率和后验概率:贝叶斯公式涉及先验概率(Prior Probability)和后验概率(Posterior Probability)。先验概率是在没有新证据之前对事件发生概率的估计,而后验概率则是在考虑了新证据之后对事件发生概率的更新估计。

  2. 更新信念:贝叶斯公式的核心思想是“学习”或“更新”。我们开始时有一个关于某件事情发生的概率估计(先验概率),然后当我们获得新的信息或数据时,我们使用贝叶斯公式来更新我们对这个事件发生概率的估计(后验概率)。

  3. 不断迭代:贝叶斯公式可以被反复应用,每次获得新的信息后,都可以用新的后验概率作为下一次计算的先验概率,不断地更新我们对事件发生概率的估计。

期望 #

假设你掷一个公平的六面骰子,每面的数字分别是 1 到 6。这个骰子每一面出现的概率都是$\frac{1}{6}$。那么,掷骰子的期望值为:

$$ E(X) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = 3.5 $$

这意味着,如果你掷这个骰子很多次,每次的结果平均来说会接近 3.5,尽管实际上你每次都是得到一个整数。

一个随机变量的期望刻画的是这个随机变量的概率分布的“中心”,加权平均。

离散值的概率分布 #

二项分布 #

二项分布描述了一系列独立的伯努利实验中成功的次数,伯努利实验即只有两种结果的随机实验,例如抛硬币就是一个典型的伯努利实验。二项分布则表示“硬币正面向上的概率为 $p$ 时,抛硬币 $n$ 次后正面向上的次数”。

$$ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} $$

其中:

  • $P(X = k)$ 是在 $n$ 次试验中恰好有 $k$ 次成功的概率。
  • $\binom{n}{k}$ 是组合数,表示从 $n$ 次试验中选择 $k$ 次成功的方式数,计算公式为 $\frac{n!}{k!(n-k)!}$。
  • $p$ 是每次试验中成功的概率。
  • $1-p$ 是每次试验中失败的概率。

这个计算公式需要用到排列组合的基本知识,另外我看了 B 站这个视频可以很好理解二项分布:

【什么是二项分布|说人话的统计学】
https://www.bilibili.com/video/BV1zj411c7R2/

排列组合 #

概率质量函数(PMF) #

概率质量函数是离散随机变量在各特定取值上的概率,即随机变量的取值是可数的(例如,抛硬币的结果、掷骰子的点数)。对于任何特定的值 $x$,PMF 给出了随机变量 $X$ 等于 $x$ 的概率,记为 $P(X=x)$。PMF 的值是非负的,并且所有可能值的 PMF 之和等于 1。

大数定律 #

最小二乘法 #

连续值的概率分布 #

中心极限定理 #

中心极限定理说明了在一定条件下,不管原始总体的分布如何,样本均值的分布都将近似于正态分布。

正态分布 #

也叫高斯分布。

泊松分布 #

概率密度函数(PDF) #

对于连续值的概率分布可以用概率密度函数(Probability Density Function, PDF)的来表示概率分布图。但要注意,PDF 图形上的高度并不直接代表概率,而是概率密度。实际的概率是通过计算 PDF 在某个区间上的积分得到的(因为是连续的,需要求指定区间的面积)。

对于连续随机变量,直接用概率表示其取值的高低是不可行的,因为连续随机变量在任何一个具体的点上取值的概率都是零。这是因为连续随机变量可以在一个区间内取无穷多个值,所以单个点的概率在数学上被定义为零。

对于连续型随机变量 $ X $,其概率密度函数 $ f(x) $ 需满足以下条件:

  1. $ f(x) \geq 0 $ 对于所有的 $ x $。

  2. $ \int_{-\infty}^{\infty} f(x) , dx = 1 $,即概率密度函数在整个定义域上的积分等于1。

通过概率密度函数,我们可以计算随机变量 $ X $ 在某个区间 $ [a, b] $ 内取值的概率,这通过积分来计算:

$$ P(a \leq X \leq b) = \int_a^b f(x) , dx $$

比如,正态分布的概率密度函数表示为: $$f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$$

其中:

  • $x$ 是随机变量的值。
  • $\mu$ 是分布的均值(或期望值)。
  • $\sigma$ 是分布的标准差。
  • $\sigma^2$ 是方差。

一般来说,概率质量函数(PMF)用来描述离散随机变量,概率密度函数(PDF)用来描述连续随机变量。

似然函数 #

Wiki 写得很清楚了。

最大似然估计 #

最大似然估计(Maximum Likelihood Estimation, MLE)是一种在统计学中用于估计模型参数的方法。它基于一个简单的原则:选择那些使观察到的数据出现概率(或“似然性”)最大的参数值。换句话说,最大似然估计寻找的是在给定观测数据下,最有可能产生这些数据的参数值。

与概率分布函数不同,概率分布函数是随机变量的函数,参数固定。似然函数是参数的函数,随参数的变化而变化。做似然估计时,首先对一定的概率分布和样本取值,定义似然函数,然后再求出使似然函数取极值的参数,它便是最大似然估计的参数。

联合分布 #

边缘分布 #

条件分布 #

协方差 #

协方差与相关系数 #

协方差(Covariance)是一个用来衡量两个随机变量关系的统计量,具体来说,它描述了这两个变量如何一同变化(即它们之间的线性相关程度)。协方差的数值可以告诉我们两个变量之间的变化趋势是正相关、负相关,还是无相关。协方差可以根据以下公式计算:

$$ Cov(X, Y) = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})(Y_i - \bar{Y}) $$

其中:

  • $n$ 是观测值的总数。
  • $X_i$ 和 $Y_i$ 分别是 $X$ 和 $Y$ 的第 $i$ 个观测值。
  • $\bar{X}$ 和 $\bar{Y}$ 分别是 $X$ 和 $Y$ 的样本均值。
  • $\sum_{i=1}^{n}$ 表示对所有观测值的求和。

协方差相关系数通常也叫皮尔逊相关系数。

协方差矩阵 #

假设有 $n$ 个随机变量 $X_1, X_2, \ldots, X_n$,它们的协方差矩阵记为 $\Sigma$,定义如下:

$$ \Sigma = \begin{bmatrix} \sigma_{1}^2 & \sigma_{12} & \cdots & \sigma_{1p} \ \sigma_{21} & \sigma_{2}^2 & \cdots & \sigma_{2p} \ \vdots & \vdots & \ddots & \vdots \ \sigma_{p1} & \sigma_{p2} & \cdots & \sigma_{p}^2 \ \end{bmatrix} $$

  • $\sigma_{i}^2$ 表示第 $i$ 个随机变量的方差。
  • $\sigma_{ij}$ 或 $\sigma_{ji}$ 表示第 $i$ 个随机变量和第 $j$ 个随机变量之间的协方差。
  • 对角线上的元素($\sigma_{1}^2, \sigma_{2}^2, \ldots, \sigma_{p}^2$)表示各个变量自身的方差。
  • 非对角线上的元素表示不同变量之间的协方差,反映了变量之间的线性相关性。
  • 协方差矩阵是对称的,即 $\sigma_{ij} = \sigma_{ji}$。

多元正态分布 #

椭圆 #

在二维空间中,多元正态分布的等高线可以被表示为椭圆。这些椭圆的形状、大小和方向由分布的协方差矩阵决定。可以说协方差矩阵就是椭圆。

  • 形状和大小:协方差矩阵的对角元素(即方差)决定了椭圆的大小和延伸程度。方差越大,椭圆在该方向上越长。
  • 方向:非对角线元素(即协方差)决定了椭圆的方向。正协方差意味着椭圆沿着 (y=x) 方向倾斜,负协方差意味着椭圆沿着 $y=-x$ 方向倾斜。
  • 旋转:如果两个变量之间存在相关性,椭圆会相对于坐标轴旋转。旋转的角度与两变量之间的相关强度有关。

数学描述 #

对于二维情况,假设我们有一个二元正态分布的随机向量 $\mathbf{X} = (X_1, X_2)^T$,其均值向量为 $\mathbf{\mu} = (\mu_1, \mu_2)^T$,协方差矩阵为:

$$ \Sigma = \begin{pmatrix} \sigma_{11} & \sigma_{12} \ \sigma_{21} & \sigma_{22} \end{pmatrix} $$

其中,$\sigma_{11}$ 和 $\sigma_{22}$ 分别是 $X_1$ 和 $X_2$ 的方差,$\sigma_{12} = \sigma_{21}$ 是 $X_1$ 和 $X_2$ 之间的协方差。

等高线可以通过以下二次形式表示:

$$ (\mathbf{x} - \mathbf{\mu})^T \Sigma^{-1} (\mathbf{x} - \mathbf{\mu}) = C $$

其中,$\mathbf{x} = (x_1, x_2)^T$ 是二维空间中的点,$C$ 是一个常数,决定了椭圆的“高度”。通过改变 $C$ 的值,我们可以得到一系列同心椭圆,它们描述了多元正态分布的不同概率密度水平。

概率的应用 #

本福特定律 #

本福特定律(Benford’s Law),也被称为首位数定律或显著数字定律,是一个关于在许多自然集合中数字出现频率的观察现象。根据本福特定律,一个自然数集合中首位数字为较小数字的概率比首位数字为较大数字的概率要高得多。具体来说,首位数字为1的概率最大,约为30.1%,而首位数字为9的概率最小,约为4.6%。

本福特定律的数学表达式为:

$$ P(d) = \log_{10}(d + 1) - \log_{10}(d) = \log_{10}\left(1 + \frac{1}{d}\right) $$

其中,$P(d)$ 是首位数字为 $d (d = 1, 2, …, 9)$的概率。

本福特定律适用于许多不同类型的数据集,包括财务报表、人口统计数据、河流的长度、科学文章中出现的数字等,该定律适用于跨越多个数量级的数据集。然而,并不是所有数据集都遵循本福特定律。

本福特定律在数据分析、审计和反欺诈领域有着重要的应用。例如,审计师可能会使用本福特定律来检测财务数据中的异常或操纵行为,因为人为制造的数字分布往往与本福特定律预测的分布不一致。

伪随机数 #

蒙特卡洛方法 #

蒙特卡洛方法的核心思想是通过随机抽样来近似解决问题。具体来说,它通过生成大量随机样本来模拟或估计一个系统的行为,进而计算出所关心的量的近似值。

卡尔曼波过滤器 #

马尔可夫链 #

时间离散的过程,有时也被称为“链”。

隐马尔可夫模型 #

支持向量机 #

朴素贝叶斯分类器 #

模式识别 #

概率的发展历史 #

帕斯卡 #

本文共 4306 字,上次修改于 Apr 10, 2024
相关标签: 数学, 机器学习, 读书笔记