最大似然估计

2024年11月24日

目标

我们有一个数据集 $D$ ，其中包含特征向量 $x_{k}$ 和类别标签 $ω_{k}$ 。将 $D_{i}$ 表示为类别 $ω_{i}$ 的特征集合。我们做出以下假设：

给定类别标签 $ω_{j}$ ，属于该类别的特征分布服从均值为 $μ_{j}$ 、协方差为 $Σ_{j}$ 的高斯分布，即 $p (x ∣ ω_{j}) \sim N (μ_{j}, Σ_{j})$ 。
样本 $x \in D_{i}$ 是*独立同分布（i.i.d.）*的，且服从上述假设的高斯分布。

MLE（最大似然估计）要解决的问题是，在给定数据的情况下，找到最可能的参数集 $μ_{j}, Σ_{j}$ 。我们记

θ = (μ, Σ)

其中包含每个类别的均值和协方差。 $θ$ 的似然函数为

l (θ) = p (D ∣ θ),

而 $θ$ 的 MLE 估计 $\hat{θ}$ 为

\hat{θ} = ar g θ max l (θ) .

在实际计算中，我们使用对数似然函数以简化计算：

l (θ) = lo g p (D ∣ θ),

因为最大化对数似然等价于最大化似然。换句话说，似然函数告诉我们，如果每个数据点都是从 $θ$ 定义的分布中独立抽取的，生成我们数据集的概率是多少。最大化这个概率的 $\hat{θ}$ 定义了 $D$ 实际被抽取的分布。

我们可以尝试通过将 $l (θ)$ 的梯度设为 $0$ 来找到 $\hat{θ}$ ，并验证解是否为最大值。然而，这并不能保证找到全局最大值。

假设我们的数据集 $D$ 中的每个元素 $x_{k}$ 都是从已知协方差 $Σ$ 但未知均值 $μ$ 的多元高斯分布中抽取的。 $μ$ 的最大似然估计（MLE）是什么？

\hat{μ} = ar g μ max p (D ∣ μ) .

为了找到 $μ$ 的 MLE，我们需要最大化似然函数。对于多元高斯分布：

p (x_{k} ∣ μ) = \frac{1}{( 2 π ) ^{d /2} ∣ Σ ∣ ^{1/2}} exp (- \frac{1}{2} (x_{k} - μ)^{⊤} Σ^{- 1} (x_{k} - μ)),

其中 $d$ 是 $x_{k}$ 的维度。

由于我们假设样本是独立的，数据集 $D$ 的似然是每个 $x_{k}$ 的似然的乘积。在对数空间中，这变为求和：

lo g p (D ∣ μ) = k = 1 \sum n lo g p (x_{k} ∣ μ) = - \frac{n d}{2} lo g (2 π) - \frac{n}{2} lo g ∣ Σ ∣ - \frac{1}{2} k = 1 \sum n (x_{k} - μ)^{⊤} Σ^{- 1} (x_{k} - μ) .

对梯度求导并设为零：

\nabla_{μ} lo g p (D ∣ \hat{μ}) = k = 1 \sum n Σ^{- 1} (x_{k} - \hat{μ}) = 0.

梯度推导

考虑二次型，其中 $x \in R^{d \times 1}$ ， $Σ \in R^{d \times d}$ ：

f (x) = x^{⊤} Σ x = i = 1 \sum d j = 1 \sum d x_{i} Σ_{ij} x_{j} .

计算梯度：

\frac{\partial f}{\partial x _{k}} = j = 1 \sum d Σ_{kj} x_{j} + i = 1 \sum d x_{i} Σ_{ik} .

其中第一项来自 $i = k$ ，第二项来自 $j = k$ 。我们注意到：

\frac{\partial f}{\partial x _{k}} = (Σ x)_{k} + (Σ^{⊤} x)_{k}

因此，

\nabla_{x} (x^{⊤} Σ x) = (Σ + Σ^{⊤}) x .

在我们的情况下，我们对 $μ$ 求导，代入时会带来一个负号。利用 $Σ^{- 1}$ 是对称的（因为它是协方差矩阵）以及上述结果：

\nabla_{μ} ((x_{k} - \hat{μ})^{⊤} Σ^{- 1} (x_{k} - \hat{μ})) = - 2 Σ^{- 1} (x_{k} - \hat{μ}) .

两边乘以 $Σ$ ：

k = 1 \sum n x_{k} = k = 1 \sum n \hat{μ} = n \hat{μ},

这意味着：

\hat{μ} = \frac{1}{n} k = 1 \sum n x_{k},

这就是样本均值！这个结果非常合理。

✦ 本文的构思、研究、撰写和编辑均未使用大语言模型。