数学公式记录

方差/标准差

计算均值：$\mu=\frac{\sum_{i=1}^{N}X_i}{N}$
与均值的偏差：$X_i-\mu$
偏差的平方和：$(\sum_{i=1}^{N}(X_i-\mu)^2)$
方差（偏差平方和除以总数N）：$\sigma^2=\frac{\sum_{i=1}^{N}(X_i-\mu)^2}{N}$
标准差（方差的平方根）：$\sigma=\sqrt{ \frac{\sum_{i=1}^{N}(X_i-\mu)^2}{N} } $

意义：如 “均值 90 分，标准差 7.07 分”，说明多数成绩在 90±7.07 分范围内

范数

$$ L_p=||x||_p=\sqrt[p]{\textstyle\sum_{i=1}^nx_i^p},X=(x_1,x_2,…,x_n) $$

范数的一般定义

设 $V$ 是数域 $F$（实数域 $\mathbb{R}$ 或复数域 $\mathbb{C}$）上的线性空间，对于 $V$ 中的任意向量 $x$，定义一个非负实数 $|x|$，如果它满足以下三个条件：

非负性：$|x| \geq 0$，当且仅当 $x = 0$（零向量）时，$|x| = 0$。

齐次性：对于任意的 $k \in F$ 和 $x \in V$，有 $|kx| =

|x|$，其中 $

$ 是数 $k$ 的绝对值（如果 $k$ 是实数）或模（如果 $k$ 是复数）。

三角不等式：对于任意的 $x,y \in V$，有 $|x + y| \leq |x| + |y|$。

那么，$|\cdot|$ 就称为 $V$ 上的一个范数。

L1范数

L1范数也称为曼哈顿范数或 $L_1$ 模，用于衡量向量中各个元素绝对值之和。

对于向量：假设有一个 $n$ 维向量 $\mathbf{x} = (x_1, x_2, \cdots, x_n)$，其L1范数的计算公式为： $|\mathbf{x}|1 = \sum{i = 1}^{n}|x_i|=|x_1| + |x_2| + \cdots + |x_n|$

例如，若向量 $\mathbf{x} = (1, -2, 3)$ ，则 $|\mathbf{x}|_1=

-2

= 1 + 2+3=6$。

对于矩阵：设 $A$ 是一个 $m\times n$ 的矩阵 $A=(a_{ij})$，其L1范数（也称为列和范数）定义为矩阵每列元素绝对值之和的最大值，计算公式为： $|A|1 = \max{1\leq j \leq n}\sum_{i = 1}^{m}|a_{ij}|$

例如，对于矩阵 $A = \begin{bmatrix}1 & -2 \\ 3 & 4\end{bmatrix}$，第一列元素绝对值之和为 $

= 4$，第二列元素绝对值之和为 $

-2

= 6$，所以 $|A|_1 = 6$。

L2范数

L2范数也称为欧几里得范数或 $L_2$ 模，在二维和三维空间中，它对应于我们通常所说的距离。

对于向量：对于 $n$ 维向量 $\mathbf{x} = (x_1, x_2, \cdots, x_n)$，其L2范数的计算公式为： $|\mathbf{x}|2 = \sqrt{\sum{i = 1}^{n}x_i^2}=\sqrt{x_1^2 + x_2^2 + \cdots + x_n^2}$ 例如，若向量 $\mathbf{x} = (1, -2, 3)$ ，则 $|\mathbf{x}|_2=\sqrt{1^2+(-2)^2 + 3^2}=\sqrt{1 + 4 + 9}=\sqrt{14}$ 。

对于矩阵：设 $A$ 是一个 $m\times n$ 的矩阵 $A=(a_{ij})$，其L2范数（也称为谱范数）定义为矩阵 $A^TA$ 的最大特征值的平方根，计算公式为： $|A|2 = \sqrt{\lambda{\max}(A^TA)}$ 其中 $\lambda_{\max}(A^TA)$ 表示矩阵 $A^TA$ 的最大特征值。计算矩阵的L2范数相对复杂，通常需要先计算 $A^TA$，再求解其特征值。

L1范数和L2范数在机器学习中经常用于正则化，其中L1范数会使得一些参数变为0，产生稀疏解，L2范数则会使参数值尽可能小，但不会为0 。