• Objectif
  • Exemple : $\boldsymbol{\mu}$ inconnu
  • Accueil
  • Articles
  • Notes
  • Livres
  • Auteur
🇺🇸 en 🇨🇳 zh 🇮🇳 ml

Nathaniel Thomas

Estimation du Maximum de Vraisemblance

24 novembre 2024

Objectif

On nous donne un ensemble de données D, qui contient des vecteurs de caractéristiques xk​ et des étiquettes de classe ωk​. Notons Di​ comme l’ensemble des caractéristiques de la classe ωi​. Nous supposons ce qui suit :

  1. Que p(x∣ωj​)∼N(μj​,Σj​). Autrement dit, étant donné une étiquette de classe, la distribution des caractéristiques appartenant à cette classe forme une Gaussienne de moyenne μj​ et de covariance Σj​.
  2. Les échantillons x∈Di​ sont indépendants et identiquement distribués (i.i.d.) selon cette distribution Gaussienne supposée.

Le problème que l’estimation du maximum de vraisemblance (MLE) cherche à résoudre est de trouver l’ensemble de paramètres μj​,Σj​ le plus probable, étant donné les données. Nous notons

θ=(μ,Σ)

qui inclut les moyennes et les covariances pour chaque classe. La vraisemblance de θ est

l(θ)=p(D∣θ),

et l’estimateur du maximum de vraisemblance (MLE) de θ, θ^, est

θ^=argθmax​l(θ).

En pratique, nous utilisons la log-vraisemblance pour des calculs plus simples :

l(θ)=logp(D∣θ),

car maximiser la log-vraisemblance est équivalent à maximiser la vraisemblance. En d’autres termes, la vraisemblance nous indique la probabilité de générer notre ensemble de données si chaque point de données était tiré indépendamment de la distribution définie par θ. Le θ^ qui maximise cette probabilité définit la distribution réelle à partir de laquelle D a été tiré.

Nous pouvons essayer de trouver θ^ en fixant le gradient de l(θ) à 0 et en vérifiant que la solution est un maximum. Cependant, cela ne garantit pas un maximum global.

Exemple : $\boldsymbol{\mu}$ inconnu

Supposons que chaque élément xk​ de notre ensemble de données D soit tiré d’une distribution gaussienne multivariée avec une covariance connue Σ mais une moyenne inconnue μ. Quel est l’estimateur du maximum de vraisemblance (MLE) de μ ?

μ^​=argμmax​p(D∣μ).

Pour trouver le MLE de μ, nous maximisons la fonction de vraisemblance. Pour une distribution gaussienne multivariée :

p(xk​∣μ)=(2π)d/2∣Σ∣1/21​exp(−21​(xk​−μ)⊤Σ−1(xk​−μ)),

où d est la dimension de xk​.

Puisque nous avons supposé que les échantillons sont indépendants, la vraisemblance de l’ensemble de données D est le produit des vraisemblances de chaque xk​. Cela devient une somme dans l’espace logarithmique :

logp(D∣μ)​=k=1∑n​logp(xk​∣μ)=−2nd​log(2π)−2n​log∣Σ∣−21​k=1∑n​(xk​−μ)⊤Σ−1(xk​−μ).​

En prenant le gradient et en le fixant à zéro :

∇μ​logp(D∣μ^​)=k=1∑n​Σ−1(xk​−μ^​)=0.
Dérivation du gradient

Considérons la forme quadratique, où x∈Rd×1, Σ∈Rd×d :

f(x)=x⊤Σx=i=1∑d​j=1∑d​xi​Σij​xj​.

Calcul du gradient :

∂xk​∂f​=j=1∑d​Σkj​xj​+i=1∑d​xi​Σik​.

Où le premier terme provient de i=k et le second de j=k. Nous remarquons que :

∂xk​∂f​=(Σx)k​+(Σ⊤x)k​

donc,

∇x​(x⊤Σx)=(Σ+Σ⊤)x.

Dans notre cas, nous différencions par rapport à μ, ce qui introduit un signe négatif lors de la substitution. En utilisant le fait que Σ−1 est symétrique (car c’est une matrice de covariance) et le résultat ci-dessus :

∇μ​((xk​−μ^​)⊤Σ−1(xk​−μ^​))=−2Σ−1(xk​−μ^​).

En multipliant par Σ des deux côtés :

k=1∑n​xk​=k=1∑n​μ^​=nμ^​,

ce qui implique :

μ^​=n1​k=1∑n​xk​,

qui est la moyenne empirique ! Ce résultat est tout à fait logique.


←
Construire et déployer du Rust sur un site Hugo
Estimation du Maximum A Posteriori (MAP)
→

back to top