矩阵的正定（Positive Definite）与负定（Negative Definite）：从Fisher信息矩阵看“曲率”的秘密

矩阵的正定与负定：从Fisher信息矩阵看“曲率”的秘密

在数学和统计学中，矩阵的“正定性”和“负定性”是一对重要概念，尤其在优化、统计推断和机器学习中频繁出现。比如，Fisher信息矩阵（Fisher Information Matrix, FIM）常被描述为“正定”的，这不仅是个数学性质，还与参数估计的“曲率”密切相关。那么，什么是正定和负定？它们有什么用？今天我们就来聊聊这些问题，以Fisher信息矩阵为例，揭开矩阵性质背后的奥秘。

什么是正定和负定？

矩阵的正定性和负定性是线性代数中的概念，用来描述一个对称矩阵的“方向性”和“形状”。假设 ( $A$ ) 是一个 ( $\times n$ ) 的实对称矩阵（即 ( $A = A^T$ )），它的正定性和负定性定义如下：

正定（Positive Definite）

矩阵 ( $A$ ) 是正定的，如果对于任意非零向量 ( $\in \mathbb{R}^n$ )（( $\neq 0$ )）：

$x^T A x > 0$

这意味着 ( $A$ ) 的二次型（quadratic form）总是正的。

负定（Negative Definite）

矩阵 ( $A$ ) 是负定的，如果：

$x^T A x < 0$

即二次型总是负的。

其他情况

半正定（Positive Semidefinite）：( $x^T A x \geq 0$ )，允许等于零。
半负定（Negative Semidefinite）：( $x^T A x \leq 0$ )。

通俗比喻

想象 ( $A$ ) 是一个“碗”的形状：

正定：像一个“正放的碗”，碗底在下，口朝天，无论从哪个方向离开碗底，高度（ $x^T A x$ ）都增加，像一个凸起的谷底。凸函数（想象 $x^2$ 的样子）。
负定：像一个“倒扣的碗”，碗底在上，口朝地，所有方向都下降，像一个凹陷的山顶。凹函数（想象 $l o gx$ 的样子）。
半正定或半负定：碗可能有平坦的区域，某些方向高度不变。

如何判断正定和负定？

数学上有几种等价方法判断一个对称矩阵的性质：

特征值（Eigenvalues）：
- 正定：所有特征值 ( $\lambda_i > 0$ )。
- 负定：所有特征值 ( $\lambda_i < 0$ )。
- 半正定：所有特征值 ( $\lambda_i \geq 0$ )。
二次型：
- 检查 ( $x^T A x$ ) 在所有非零 ( $x$ ) 上的符号。
主子式（Leading Principal Minors）：
- 正定：所有主子式（从左上角逐步扩大的子矩阵的行列式）都大于零。
- 负定：主子式符号交替（奇数阶负，偶数阶正）。

简单例子

( $\begin{bmatrix} 2 & 0 \\ 0 & 2 \end{bmatrix}$ )：
- ( $x^T A x = 2x_1^2 + 2x_2^2 > 0$ )（除非 ( $x = 0$ )），正定。
- 特征值：2, 2，皆正。
( $\begin{bmatrix} -1 & 0 \\ 0 & -1 \end{bmatrix}$ )：
- ( $x^T A x = -x_1^2 - x_2^2 < 0$ )，负定。
- 特征值：-1, -1，皆负。

Fisher信息矩阵的正定性

Fisher信息矩阵 ( $I(\theta)$ ) 定义为得分函数的协方差：

$I(\theta)_{ij} = E\left[ \frac{\partial \log p(x|\theta)}{\partial \theta_i} \frac{\partial \log p(x|\theta)}{\partial \theta_j} \bigg| \theta \right]$

或者等价地：

$I(\theta)_{ij} = -E\left[ \frac{\partial^2 \log p(x|\theta)}{\partial \theta_i \partial \theta_j} \bigg| \theta \right]$

书中常说：“如果模型是可识别的（即不同参数 ( $\theta$ ) 对应不同分布 ( $p(x|\theta)$ )），Fisher信息矩阵通常是正定的。”为什么？

正定的来源

得分函数的协方差：( $I(\theta)$ ) 是协方差矩阵，而协方差矩阵天然是半正定的（( $x^T I x = E[(x^T s)^2] \geq 0$ )）。
可识别性：如果模型可识别，得分函数 ( $s(\theta) = \nabla \log p$ ) 在不同 ( $\theta$ ) 下变化显著，( $I(\theta)$ ) 没有零特征值（即 ( $x^T I x = 0$ ) 仅当 ( $x = 0$ )），从而正定。

正态分布例子

对于 ( $\sim N(\mu, \sigma^2)$ )：

$I(\theta) = \begin{bmatrix} \frac{1}{\sigma^2} & 0 \\ 0 & \frac{1}{2\sigma^4} \end{bmatrix}$

特征值：( $\frac{1}{\sigma^2}, \frac{1}{2\sigma^4}$ )，皆正。
( $x^T I x = \frac{x_1^2}{\sigma^2} + \frac{x_2^2}{2\sigma^4} > 0$ )，正定。

正定和负定的用途

正定和负定不仅是数学标签，它们在实际中有重要作用，尤其与“曲率”挂钩。

1. 曲率与优化

正定：表示函数（比如负对数似然）在某点是“碗口向上”的凸函数，最优解在底部。Fisher信息矩阵正定说明似然函数局部是凸的，参数估计有唯一解。
负定：表示“碗口向下”，如损失函数的最大值。优化时常希望Hessian负定（如最大化似然）。

在牛顿法中，Hessian的正定性保证步长方向正确，而Fisher信息矩阵正定则为自然梯度提供稳定基础。

2. 参数估计精度

Fisher信息矩阵正定意味着它的逆 ( $I(\theta)^{-1}$ ) 存在且正定，提供了参数估计的协方差下界（Cramér-Rao界）：

$\text{Cov}(\hat{\theta}) \geq I(\theta)^{-1}$

正定性保证协方差矩阵有效，估计精度可量化。

3. 稳定性与正交性

正定矩阵的特征值全正，保证系统（如优化过程）稳定。
如果 ( $I_{ij} = 0$ )（参数正交），矩阵接近对角形式，正定性更易满足，简化计算。

正定性与“曲率”的联系

Fisher信息矩阵的正定性为何能衡量“参数估计的曲率”？

几何意义：( $x^T I x$ ) 是对数似然函数在 ( $\theta$ ) 附近曲率的期望。正定说明曲率处处向上，似然函数像一个“碗”，参数估计的“底部”清晰。
信息含量：曲率越大（特征值越大），似然对参数变化越敏感，数据提供的信息越多。

例如，( $I_{\mu\mu} = \frac{1}{\sigma^2}$ ) 表明，当 ( $\sigma^2$ ) 小时，曲率大，( $\mu$ ) 的估计更精确。

总结

矩阵的正定性和负定性描述了二次型的符号和函数的形状：正定是“正放的碗”，负定是“倒扣的碗”。在Fisher信息矩阵中，正定性源于模型的可识别性，保证了似然函数的局部凸性和参数估计的稳定性。它不仅衡量“曲率”，还为优化和推断提供了理论支撑。下次看到正定矩阵，不妨想想：它在告诉你什么形状的故事？

补充

“碗口向上”是什么意思？

在数学和几何中，当我们说一个矩阵 ( $A$ ) 是正定的，意味着它的二次型 ( $x^T A x$ ) 对于所有非零向量 ( $x$ ) 都是正的（( $x^T A x > 0$ )）。这可以用一个碗的形状来类比，但这里的“碗”是指一个三维空间中的曲面，具体来说是一个抛物面或椭球面。

“碗口向上”：指的是这个曲面在原点（( $x = 0$ )）处达到最小值（( $x^T A x = 0$ )），然后随着 ( $x$ ) 远离原点，曲面高度（( $x^T A x$ )）逐渐增加。这种形状在数学上对应一个凸函数，底部在最低点，像一个正放的碗。
几何图像：想象一个普通的碗，开口朝天，底部在桌子上的形状。无论你从哪个方向（( $x$ ) 的任意方向）离开中心，高度（碗的深度，或 ( $x^T A x$ )）都上升。

举个例子

考虑正定矩阵 ( $\begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$ )：

$x^T A x = x_1^2 + x_2^2$

当 ( $x = [0, 0]$ ) 时，( $x^T A x = 0$ )（最低点）。
当 ( $x = [1, 0]$ ) 时，( $x^T A x = 1$ )；( $x = [0, 2]$ ) 时，( $x^T A x = 4$ )。
这是一个碗口向上的抛物面，底部在原点，向上延伸。

“碗倒扣在桌子上”

“碗倒扣在桌子上的形状”，是一个很自然的联想，但它对应的是负定矩阵，而不是正定矩阵。

“碗口向下”（负定）：如果矩阵 ( $A$ ) 是负定的，( $x^T A x < 0$ ) 对所有非零 ( $x$ ) 成立。这时，曲面在原点处是最高点（( $x^T A x = 0$ )），向四周下降，像一个倒扣的碗，或一个“坑”。
例子：( $\begin{bmatrix} -1 & 0 \\ 0 & -1 \end{bmatrix}$ )：
$x^T A x = -x_1^2 - x_2^2$
- ( $x = [0, 0]$ ) 时，( $x^T A x = 0$ )（最高点）。
- ( $x = [1, 0]$ ) 时，( $x^T A x = -1$ )；( $x = [0, 2]$ ) 时，( $x^T A x = -4$ )。
- 这是一个碗口向下的抛物面，像倒扣的碗。

为什么正定对应“碗口向上”？

在统计和优化中，正定矩阵（如Fisher信息矩阵）常用来描述凸性：

Fisher信息矩阵 ( $I(\theta)$ ) 正定，表示负对数似然 ( $-\log p(x|\theta)$ ) 在真实参数附近是“碗口向上”的凸函数，存在唯一的最优解。
“曲率”是指碗的陡峭程度，正定保证曲率正向（向上弯曲），便于优化和估计。

反过来，负定矩阵可能对应最大值问题（如似然函数的最大化），形状是“碗口向下”。

后记

2025年2月25日12点24分于上海，在Grok 3大模型辅助下完成。