附录
附录
Page399: 行列式(determinant)
n 阶方阵 A 的行列式(determinant)定义为:
其中,Sn 为所有 n 阶排列(permutation)的集合,par(σ) 的值为 -1 或 +1 取决于 σ = (σ1,σ2,...σn) 为奇排列或偶排列,即其中出现降序的次数为奇数或偶数,例如 (1,3,2) 中降序次数为 1,(3,1,2) 中降序次数为 2。对于单位阵,有 det(I) = 1。直观理解:
- 是什么:以二维为例,表示一个区域的面积,负数则是将区域翻转,或者说定向改变。如果矩阵所代表的变换将空间压缩到更小的维度(不满秩),则行列式为 0(比如二维到一维,面积就变成了零)。列代表基向量,行代表坐标,一个 m×n 的矩阵表示 n 个基向量表示的空间映射在 m 维的坐标上。行列式是面积(二维)或体积(三维)缩放的比例。
- 怎么算:以二维为例,主对角线元素代表两个维度缩放的比例,其余两个元素代表两个维度的坐标区域对角线的缩放。
Page399: 迹(trace)
对于 n 阶方阵 A,它的迹(trace)是主对角线上的元素之和,即:
Page400: Frobenius 范数
矩阵 A(m×n) 的 Frobenius 范数定义为:
矩阵的 Frobenius 范数就是将矩阵张成向量后的 L2 范数,其实就是所有元素的平方和再开方。Page402: 低秩矩阵近似问题
给定一个秩为 r 的矩阵 A,欲求其最优 k 秩近似矩阵 A'(k ≤ r),这样的问题称为低秩矩阵近似问题。
该问题可以形式化为:
该问题可以使用奇异值分解:对矩阵 A 进行奇异值分解后,将 Σ 矩阵(见奇异值分解)的 r-k 个最小的奇异值置零获得矩阵 Σ_k,A_k = U_k Σ_k V_k^T 就是最优解,其中 U_k 和 V_k 分别是 U 和 V 前 k 列组成的矩阵。这个结果也称为 Eckart-Young-Mirsky 定理。Page402: 奇异值分解(Singular Value Decomposition,简称 SVD)
对任意矩阵 都可分解为:,其中, 是满足 的 m 阶酉矩阵(unitary matrix); 是满足 的 n 阶酉矩阵; 是 m×n 的矩阵,其中 且其他位置的元素均为 0, 为非负实数且满足 。
Page403: 拉格朗日乘子法(Lagrange multipliers)
拉格朗日乘子法是一种寻找多元函数在一组约束下的极值的方法。通过引入拉格朗日乘子,可将有 d 个变量与 k 个约束条件的最优化问题转化为具有 d+k 个变量的无约束优化问题求解。有等式约束和不等式约束两种。
以等式约束的优化问题为例。假定 x 为 d 维向量,要求 x 的某个取值 x* 使目标函数 f(x) 最小且同时满足 g(x)=0 的约束。从几何角度看该问题的目标是在由方程 g(x)=0 确定的 d-1 维曲面上寻找能使目标函数 f(x) 最小化的点。此时很容易得出在最优点目标函数与约束函数相切(即目标函数在该点的梯度正交于约束曲面)。由此可知,在最优点,梯度 方向相同或相反:,即存在 λ ≠ 0 使得 ,λ 称为拉格朗日乘子,定义拉格朗日函数为:。Page405: 对偶函数(dual function)
将优化问题的约束推广到多个:具有 m 个等式约束和 n 个不等式约束,且可行域 非空的优化问题:
该问题为优化问题的主问题(primal problem),相应的拉格朗日函数为:
,
其对偶函数定义为:
。
对偶函数给出了主问题的最优值下界,因为若 x* 为主问题可行域的点,对任意 ,都有 ,进而有 。Page406: 二次规划(Quadratic Programming,简称 QP)
一类典型的优化问题,包括凸二次优化和非凸二次优化。目标函数是变量的二次函数,约束条件是变量的线性不等式。假定变量个数为 d,约束条件个数为 m,标准的二次规划问题形如:
其中,x 为 d 维向量, Q ∈ R 为实对称矩阵,A ∈ R 为实矩阵,b ∈ R 和 c ∈ R 为实向量,Ax ≤ b 的每一行对应一个约束。Page407: 半正定规划(Seme-Definite Programming,简称 SDP)
是一类凸优化问题,其中的变量可组织成半正定对称矩阵形式,且优化问题的目标函数和约束都是这些变量的线性函数。
给定 d×d 的对称矩阵 X, C,,
若 Ai(i=1,...,m) 也是 d×d 的对称矩阵,bi(i=1,2,...,m) 为 m 个实数,则半正定规划问题形如:Page409: 伯努利分布(Bernoulli distribution)
关于布尔变量 x ∈ {0,1} 的概率分布,其连续参数 μ ∈ [0,1] 表示变量 x=1 的概率。
Page409: 均匀分布(uniform distribution)
关于定义在区间
[a,b](a<b)
上连续变量的简单概率分布。Page410: 多项分布(multinominal distribution)
将伯努利分布由单变量扩展为 d 维,并在此基础上扩展二项分布就得到多项分布,它描述了在 N 次独立实验中有 mi 次 xi=1 的概率。
Page410: 二项分布(binomial distribution)
描述 N 次是独立的伯努利实验中有 m 次成功(x=1)的概率。
Page411: 贝塔分布(Beta distribution)
关于连续变量 μ ∈ [0,1] 的概率分布,由两个参数 a>0, b>0 确定:
当 a=b=1 时,贝塔分布退化为均匀分布。Page412: 狄利克雷分布(Dirichlet distribution)
关于一组 d 个连续变量 μi ∈ [0,1] 的概率分布,。令 ,参数
当 d=2 时,狄利克雷分布退化为贝塔分布。Page412: 高斯分布(Gaussian distribution)
亦称正态分布(normal distribution),是应用最广泛的连续概率分布。
对于单变量 x ∈ (-∞, +∞),高斯分布的参数为均值 μ ∈ (-∞, +∞) 和 方差 σ^2 > 0。
对于 d 维向量 x,多元高斯分布的参数为 d 维均值向量 μ 和 d×d 的对称正定协方差矩阵 Σ。Page412: 正态分布(normal distribution)
同高斯分布。
Page413: 共轭分布(conjugate distribution)
假设变量 x 服从分布 P(x|Θ),其中 Θ 为参数,X={x1,x2,...,xm} 为变量 x 的观测样本,假设参数 Θ 服从先验分布 ∏(Θ)。
若由先验分布 ∏(Θ) 和抽样分布 P(X|Θ) 决定的后验分布 F(Θ|X) 与 ∏(Θ) 是同种类型的分布,则称先验分布 ∏(Θ) 为分布 P(X|Θ) 或 P(x|Θ) 的共轭分布。Page414: 相对熵(relative entropy)
亦称 KL 散度或信息散度,可用于度量两个概率分布之间的差异。给定两个概率分布 P 和 Q,二者之间的相对熵定义为:
其中 p(x) 和 q(x) 分别为 P 和 Q 的概率密度函数。
通俗地说,用分布 Q 的最佳信息传递方式来传达分布 P,比用分布 P 自己的最佳信息方式传达平均多耗费的信息长度为 KL 散度。Page414: 信息散度(information divergence)
同相对熵。
Page415: 交叉熵(cross entropy)
KL 散度展开可得:
其中 H(P) 为熵,H(P,Q) 为 P 和 Q 的交叉熵。 通俗地说,用分布 Q 的最佳信息传递方式传达分布 P 中随机抽选的一个事件,所需的平均信息长度为交叉熵。Page415: 熵(entropy)
熵是对整个事件信息量的量化,传达信息所需的最优平均信息长度为香农熵。
附:一些不错的学习资料
- 奇异值分解
- 拉格朗日乘子法
- 梯度
- 正定矩阵和半正定矩阵
- 贝塔分布
- 狄利克雷分布
- 熵、相对熵、交叉熵