• 设置
  • 高斯情况
    • 总结
  • 首页
  • 文章
  • 笔记
  • 书架
  • 作者
🇺🇸 en 🇫🇷 fr 🇮🇳 ml

Nathaniel Thomas

贝叶斯参数估计

2024年11月25日

贝叶斯参数估计(BPE)与最大似然估计(MLE)或最大后验估计(MAP)有本质上的不同。后两者是求解模型的最优参数集 θ^,而BPE则将 θ视为一个具有分布 p(θ)的随机变量。

设置

我们有一个数据集 D,其中包含 n 个独立同分布的特征 xj​。给定一个新的特征向量 x,我们希望将其分类到某个类别 ω。一种方法是使用贝叶斯决策规则。也就是说,如果

p(x∣Dj​)>p(x∣Di​)

我们就选择类别 ωj​ 而不是类别 ωi​,其中 Dj​ 仅包含属于类别 ωj​ 的特征,反之亦然。如果不进一步假设底层分布的结构,我们无法直接解决这个问题。

因此,我们假设分布 p(x∣Dj​) 完全由一个仅由随机变量 θ 参数化的模型描述。这个分布告诉我们,如果 x 属于类别 ωj​,我们找到它的可能性有多大。从现在开始,为了简洁起见,我省略了 Dj​ 的下标。

然后我们观察到

p(x∣D)​=∫p(x,θ∣D)dθ=∫p(x∣θ)p(θ∣D)dθ​

这更容易处理。我们可以通过将 x 代入我们假设的模型来计算 p(x∣θ)。 p(θ∣D) 也可以计算,因为

p(θ∣D)​=∫p(D∣θ)p(θ)dθp(D∣θ)p(θ)​(贝叶斯规则)=α⋅p(D∣θ)p(θ)=α⋅p(θ)x∈D∏​p(x∣θ)(D 独立同分布)​

总结一下,我们设计了一种方法,可以为我们提供一个关于 x 的似然度,该似然度在所有可能的参数 θ 上取平均,并根据给定类别条件数据 D 的先验和似然度进行加权。

高斯情况

在我们的模型是高斯分布的情况下,均值为 μ,其分布为 p(μ),且协方差 Σ 已知时,BPE 的计算相当简单。在这种情况下,我们的参数集仅包含 μ。

我们假设以下条件:

  1. p(x∣μ)∼N(μ,Σ)。也就是说,我们的模型对每个类别都有效。

  2. p(μ)∼N(μ0​,Σ0​)。这里, μ0​,Σ0​ 是我们在看到数据之前对每个类条件分布形状的“最佳猜测”。

记住我们的目标是计算 p(x∣D),我们首先需要找到 p(μ∣D)。 根据贝叶斯定理:

p(μ∣D)=p(D)p(D∣μ)p(μ)​∝p(D∣μ)p(μ)

代入高斯公式:

p(μ∣D)​∝(k=1∏n​exp(−21​(xk​−μ)⊤Σ−1(xk​−μ)))exp(−21​(μ−μ0​)⊤Σ0−1​(μ−μ0​))=exp(−21​k=1∑n​(xk​−μ)⊤Σ−1(xk​−μ)−21​(μ−μ0​)⊤Σ0−1​(μ−μ0​))=exp(−21​(μ−μn​)⊤Σn−1​(μ−μn​))​

其中

Σn​μn​​=(nΣ−1+Σ0−1​)−1=Σn​(Σ−1k=1∑n​xk​+Σ0−1​μ0​)​
推导

我们注意到指数部分是关于 μ 的二次型。这意味着 p(μ∣D) 也必须是一个高斯分布!让我们将其写成标准形式。 我们分别处理指数中的第一项和第二项。第一项:

​k=1∑n​(xk​−μ)⊤Σ−1(xk​−μ)=k=1∑n​[(xk⊤​Σ−1xk​)−2xk⊤​Σ−1μ+μ⊤Σ−1μ]=常数−2μ⊤Σ−1k=1∑n​xk​+nμ⊤Σ−1μ​

第二项:

(μ−μ0​)⊤Σ0−1​(μ−μ0​)=μ⊤Σ0−1​μ−2μ⊤Σ0−1​μ0​+常数

将它们重新组合在一起:

21​[μ⊤(nΣ−1+Σ0−1​)μ−2μ⊤(Σ−1k=1∑n​xk​+Σ0−1​μ0​)]+常数

这简化为

21​(μ−μn​)⊤Σn−1​(μ−μn​)+常数

其中

Σn−1​Σn−1​μn​​=nΣ−1+Σ0−1​=Σ−1k=1∑n​xk​+Σ0−1​μ0​​

这可以通过比较同类项得出。

因此, p(μ∣D)∼N(μn​,Σn​)。

为了完成这个练习,我们需要找到 p(x∣D)。 由于 x∣μ∼N(μ,Σ), 我们可以表示 x=μ+ϵ。 显然, ϵ∼N(0,Σ)。 因此, x∼N(μn​,Σn​+Σ)。

所以,使用这种方法,我们根本不需要计算积分!

总结

  • p(μ)∼N(μ0​,Σ0​),其中 μ0​,Σ0​ 是“猜测”的
  • p(x∣μ)∼N(μ,Σ),其中 μ,Σ 是从 D 计算出的类条件统计量
  • p(μ∣D)∼N(μn​,Σn​)
  • p(x∣D)∼N(μn​,Σn​+Σ)。此函数用于贝叶斯决策规则

←
十臂测试平台
Hario V60 冲煮方案
→

back to top