പരമാവധി സാധ്യതാ എസ്റ്റിമേഷൻ

2024, നവംബർ 24

ലക്ഷ്യം

നമുക്ക് ഒരു ഡാറ്റാസെറ്റ് $D$ നൽകിയിട്ടുണ്ട്, അതിൽ ഫീച്ചർ വെക്ടറുകൾ $x_{k}$ ഉം ക്ലാസ് ലേബലുകൾ $ω_{k}$ ഉം അടങ്ങിയിരിക്കുന്നു. $D_{i}$ എന്നത് $ω_{i}$ ക്ലാസിലെ ഫീച്ചറുകളുടെ സെറ്റ് ആയി സൂചിപ്പിക്കുക. ഇനിപ്പറയുന്നവ ഞങ്ങൾ അനുമാനിക്കുന്നു:

$p (x ∣ ω_{j}) \sim N (μ_{j}, Σ_{j})$ . അതായത്, ഒരു ക്ലാസ് ലേബൽ നൽകിയാൽ, ആ ക്ലാസിൽ ഉൾപ്പെടുന്ന ഫീച്ചറുകളുടെ വിതരണം $μ_{j}$ മീൻ ഉം $Σ_{j}$ കോവേറിയൻസ് ഉം ഉള്ള ഒരു ഗോസിയൻ ആയിരിക്കും.
$D_{i}$ ലെ സാമ്പിളുകൾ $x$ ഈ അനുമാനിച്ച ഗോസിയൻ വിതരണം അനുസരിച്ച് സ്വതന്ത്രവും സമാനമായി വിതരണം ചെയ്യപ്പെട്ടവ (i.i.d.) ആണ്.

MLE പരിഹരിക്കാൻ ശ്രമിക്കുന്ന പ്രശ്നം എന്നത്, ഡാറ്റ നൽകിയിരിക്കുന്നതിന് ഏറ്റവും സാധ്യതയുള്ള പാരാമീറ്ററുകളായ $μ_{j}, Σ_{j}$ കണ്ടെത്തുക എന്നതാണ്. ഞങ്ങൾ സൂചിപ്പിക്കുന്നത്

θ = (μ, Σ)

ഇതിൽ ഓരോ ക്ലാസിനും മീനുകളും കോവേറിയൻസുകളും ഉൾപ്പെടുന്നു. $θ$ ന്റെ സാധ്യത

l (θ) = p (D ∣ θ),

ഉം $θ$ ന്റെ MLE, $\hat{θ}$ , ആണ്

\hat{θ} = ar g θ max l (θ) .

പ്രായോഗികമായി, കണക്കുകൂട്ടൽ ലളിതമാക്കാൻ ഞങ്ങൾ ലോഗ്-സാധ്യത ഉപയോഗിക്കുന്നു:

l (θ) = lo g p (D ∣ θ),

കാരണം ലോഗ്-സാധ്യതയെ പരമാവധി ചെയ്യുന്നത് സാധ്യതയെ പരമാവധി ചെയ്യുന്നതിന് തുല്യമാണ്. വാക്കുകളിൽ പറഞ്ഞാൽ, സാധ്യത എന്നത് $θ$ നിർവചിച്ച വിതരണത്തിൽ നിന്ന് ഓരോ ഡാറ്റാപോയിന്റും സ്വതന്ത്രമായി വരച്ചാൽ നമ്മുടെ ഡാറ്റാസെറ്റ് ഉണ്ടാകാനുള്ള സാധ്യതയാണ്. ഈ സാധ്യത പരമാവധി ചെയ്യുന്ന $\hat{θ}$ ആണ് $D$ വരച്ച യഥാർത്ഥ വിതരണം നിർവചിക്കുന്നത്.

$l (θ)$ ന്റെ ഗ്രേഡിയന്റ് $0$ ആയി സജ്ജമാക്കി പരിഹാരം പരമാവധി ആണെന്ന് പരിശോധിച്ചുകൊണ്ട് $\hat{θ}$ കണ്ടെത്താൻ ശ്രമിക്കാം. എന്നിരുന്നാലും, ഇത് ഒരു ഗ്ലോബൽ മാക്സിമം ഉറപ്പാക്കുന്നില്ല.

ഉദാഹരണം: അജ്ഞാത $\boldsymbol{\mu}$

നമുക്ക് അനുമാനിക്കാം, ഡാറ്റാസെറ്റ് $D$ ലെ ഓരോ ഘടകവും $x_{k}$ അറിയപ്പെടുന്ന കോവേറിയൻസ് $Σ$ ഉള്ള ഒരു മൾട്ടിവേറിയേറ്റ് ഗൗസിയൻ ഡിസ്ട്രിബ്യൂഷനിൽ നിന്ന് വരുന്നു, പക്ഷേ മീൻ $μ$ അജ്ഞാതമാണ്. $μ$ ന്റെ MLE എന്താണ്?

\hat{μ} = ar g μ max p (D ∣ μ) .

$μ$ ന്റെ MLE കണ്ടെത്താൻ, ലൈക്ലിഹുഡ് ഫംഗ്ഷൻ മാക്സിമൈസ് ചെയ്യുന്നു. ഒരു മൾട്ടിവേറിയേറ്റ് ഗൗസിയൻ ഡിസ്ട്രിബ്യൂഷനായി:

p (x_{k} ∣ μ) = \frac{1}{( 2 π ) ^{d /2} ∣ Σ ∣ ^{1/2}} exp (- \frac{1}{2} (x_{k} - μ)^{⊤} Σ^{- 1} (x_{k} - μ)),

ഇവിടെ $d$ എന്നത് $x_{k}$ ന്റെ ഡൈമെൻഷൻ ആണ്.

സാമ്പിളുകൾ സ്വതന്ത്രമാണെന്ന് അനുമാനിച്ചതിനാൽ, ഡാറ്റാസെറ്റ് $D$ ന്റെ ലൈക്ലിഹുഡ് ഓരോ $x_{k}$ ന്റെ ലൈക്ലിഹുഡുകളുടെ ഗുണനഫലമാണ്. ഇത് ലോഗ്-സ്പേസിൽ ഒരു തുകയായി മാറുന്നു:

lo g p (D ∣ μ) = k = 1 \sum n lo g p (x_{k} ∣ μ) = - \frac{n d}{2} lo g (2 π) - \frac{n}{2} lo g ∣ Σ ∣ - \frac{1}{2} k = 1 \sum n (x_{k} - μ)^{⊤} Σ^{- 1} (x_{k} - μ) .

ഗ്രേഡിയന്റ് എടുത്ത് പൂജ്യത്തിന് തുല്യമാക്കുമ്പോൾ:

\nabla_{μ} lo g p (D ∣ \hat{μ}) = k = 1 \sum n Σ^{- 1} (x_{k} - \hat{μ}) = 0.

ഗ്രേഡിയന്റിന്റെ ഡെറിവേഷൻ

ക്വാഡ്രാറ്റിക് ഫോം പരിഗണിക്കുക, ഇവിടെ $x \in R^{d \times 1}$ , $Σ \in R^{d \times d}$ :

f (x) = x^{⊤} Σ x = i = 1 \sum d j = 1 \sum d x_{i} Σ_{ij} x_{j} .

ഗ്രേഡിയന്റ് കണക്കാക്കുമ്പോൾ:

\frac{\partial f}{\partial x _{k}} = j = 1 \sum d Σ_{kj} x_{j} + i = 1 \sum d x_{i} Σ_{ik} .

ഇവിടെ ആദ്യത്തെ പദം $i = k$ എന്നതിൽ നിന്നും രണ്ടാമത്തെ പദം $j = k$ എന്നതിൽ നിന്നും വരുന്നു. നമുക്ക് ശ്രദ്ധിക്കാം:

\frac{\partial f}{\partial x _{k}} = (Σ x)_{k} + (Σ^{⊤} x)_{k}

അതിനാൽ,

\nabla_{x} (x^{⊤} Σ x) = (Σ + Σ^{⊤}) x .

ഇവിടെ, $μ$ യുമായി ബന്ധപ്പെട്ട് ഡിഫറൻഷിയേറ്റ് ചെയ്യുമ്പോൾ, സബ്സ്റ്റിറ്റ്യൂട്ട് ചെയ്യുമ്പോൾ ഒരു നെഗറ്റീവ് ചിഹ്നം വരുന്നു. $Σ^{- 1}$ സമമിതിയാണെന്നതും (കോവേറിയൻസ് മാട്രിക്സ് ആയതിനാൽ) മുകളിലെ ഫലവും ഉപയോഗിച്ച്:

\nabla_{μ} ((x_{k} - \hat{μ})^{⊤} Σ^{- 1} (x_{k} - \hat{μ})) = - 2 Σ^{- 1} (x_{k} - \hat{μ}) .

$Σ$ കൊണ്ട് ഇരുവശവും ഗുണിച്ചാൽ:

k = 1 \sum n x_{k} = k = 1 \sum n \hat{μ} = n \hat{μ},

ഇത് സൂചിപ്പിക്കുന്നത്:

\hat{μ} = \frac{1}{n} k = 1 \sum n x_{k},

ഇതാണ് സാമ്പിൾ മീൻ! ഈ ഫലം ഏറ്റവും അർത്ഥവത്താണ്.

←

മാക്സിമം എ പോസ്റ്റീരിയോറി (MAP) എസ്റ്റിമേഷൻ

ഹാരിയോ V60 പാചകക്കുറിപ്പുകൾ

→