方差/标准差

  1. 计算均值:$\mu=\frac{\sum_{i=1}^{N}X_i}{N}$
  2. 与均值的偏差:$X_i-\mu$
  3. 偏差的平方和:$(\sum_{i=1}^{N}(X_i-\mu)^2)$
  4. 方差(偏差平方和除以总数N):$\sigma^2=\frac{\sum_{i=1}^{N}(X_i-\mu)^2}{N}$
  5. 标准差(方差的平方根):$\sigma=\sqrt{ \frac{\sum_{i=1}^{N}(X_i-\mu)^2}{N} } $

意义:如 “均值 90 分,标准差 7.07 分”,说明多数成绩在 90±7.07 分范围内

范数

$$ L_p=||x||_p=\sqrt[p]{\textstyle\sum_{i=1}^nx_i^p},X=(x_1,x_2,…,x_n) $$

范数的一般定义

设 $V$ 是数域 $F$(实数域 $\mathbb{R}$ 或复数域 $\mathbb{C}$)上的线性空间,对于 $V$ 中的任意向量 $x$,定义一个非负实数 $|x|$,如果它满足以下三个条件:

  1. 非负性:$|x| \geq 0$,当且仅当 $x = 0$(零向量)时,$|x| = 0$。
  2. 齐次性:对于任意的 $k \in F$ 和 $x \in V$,有 $|kx| = k |x|$,其中 $ k $ 是数 $k$ 的绝对值(如果 $k$ 是实数)或模(如果 $k$ 是复数)。
  3. 三角不等式:对于任意的 $x,y \in V$,有 $|x + y| \leq |x| + |y|$。

那么,$|\cdot|$ 就称为 $V$ 上的一个范数。

L1范数

L1范数也称为曼哈顿范数或 $L_1$ 模,用于衡量向量中各个元素绝对值之和。

对于向量: 假设有一个 $n$ 维向量 $\mathbf{x} = (x_1, x_2, \cdots, x_n)$,其L1范数的计算公式为: $|\mathbf{x}|1 = \sum{i = 1}^{n}|x_i|=|x_1| + |x_2| + \cdots + |x_n|$

例如,若向量 $\mathbf{x} = (1, -2, 3)$ ,则 $|\mathbf{x}|_1= 1 + -2 + 3 = 1 + 2+3=6$。

对于矩阵: 设 $A$ 是一个 $m\times n$ 的矩阵 $A=(a_{ij})$,其L1范数(也称为列和范数)定义为矩阵每列元素绝对值之和的最大值,计算公式为: $|A|1 = \max{1\leq j \leq n}\sum_{i = 1}^{m}|a_{ij}|$

例如,对于矩阵 $A = \begin{bmatrix}1 & -2 \\ 3 & 4\end{bmatrix}$,第一列元素绝对值之和为 $ 1 + 3 = 4$,第二列元素绝对值之和为 $ -2 + 4 = 6$, 所以 $|A|_1 = 6$。

L2范数

L2范数也称为欧几里得范数或 $L_2$ 模,在二维和三维空间中,它对应于我们通常所说的距离。

对于向量: 对于 $n$ 维向量 $\mathbf{x} = (x_1, x_2, \cdots, x_n)$,其L2范数的计算公式为: $|\mathbf{x}|2 = \sqrt{\sum{i = 1}^{n}x_i^2}=\sqrt{x_1^2 + x_2^2 + \cdots + x_n^2}$ 例如,若向量 $\mathbf{x} = (1, -2, 3)$ ,则 $|\mathbf{x}|_2=\sqrt{1^2+(-2)^2 + 3^2}=\sqrt{1 + 4 + 9}=\sqrt{14}$ 。

对于矩阵: 设 $A$ 是一个 $m\times n$ 的矩阵 $A=(a_{ij})$,其L2范数(也称为谱范数)定义为矩阵 $A^TA$ 的最大特征值的平方根,计算公式为: $|A|2 = \sqrt{\lambda{\max}(A^TA)}$ 其中 $\lambda_{\max}(A^TA)$ 表示矩阵 $A^TA$ 的最大特征值 。计算矩阵的L2范数相对复杂,通常需要先计算 $A^TA$,再求解其特征值。

L1范数和L2范数在机器学习中经常用于正则化,其中L1范数会使得一些参数变为0,产生稀疏解,L2范数则会使参数值尽可能小,但不会为0 。