Spørsmål:
Krever MLE i.i.d. data? Eller bare uavhengige parametere?
Felix
2012-05-26 15:37:07 UTC
view on stackexchange narkive permalink

Estimering av parametere ved bruk av maksimal sannsynlighetsestimering (MLE) innebærer evaluering av sannsynlighetsfunksjonen, som kartlegger sannsynligheten for at prøven (X) oppstår til verdier (x) på parameterområdet (θ) gitt en fordelingsfamilie (P (X = x | θ) over mulige verdier av θ (merk: har jeg rett i dette?). Alle eksempler jeg har sett innebærer å beregne P (X = x | θ) ved å ta produktet av F (X) hvor F er fordelingen med den lokale verdien for θ og X er prøven (en vektor).

Siden vi bare multipliserer dataene, følger det at dataene er uavhengige? F.eks. kan vi ikke bruke MLE til å passe tid -seriedata? Eller må parametrene bare være uavhengige?

Tre svar:
user10525
2012-05-26 16:31:33 UTC
view on stackexchange narkive permalink

Sannsynlighetsfunksjonen er definert som sannsynligheten for en hendelse $ E $ (datasett $ {\ bf x} $) som en funksjon av modellparametrene $ \ theta $

$$ {\ mathcal L} (\ theta; {\ bf x}) \ propto {\ mathbb P} (\ text {Event} E; \ theta) = {\ mathbb P} (\ text {observing} {\ bf x}; \ theta). $$

Derfor er det ingen antagelse om uavhengighet av observasjonene. I den klassiske tilnærmingen er det ingen definisjon for uavhengighet av parametere, siden de ikke er tilfeldige variabler; noen relaterte begreper kan være identifiserbarhet, parameter ortogonalitet og uavhengighet av maksimal sannsynlighetsestimatorer (som er tilfeldige variabler).

Noen eksempler,

(1). Diskret sak . $ {\ bf x} = (x_1, ..., x_n) $ er et utvalg av (uavhengige) diskrete observasjoner med $ {\ mathbb P} (\ text {observing} x_j; \ theta) >0 $, deretter

$$ {\ mathcal L} (\ theta; {\ bf x}) \ propto \ prod_ {j = 1} ^ n {\ mathbb P} (\ text {observing} x_j; \ theta). $$

Spesielt hvis $ x_j \ sim \ text {Binomial} (N, \ theta) $, med $ N $ kjent, har vi det

$$ {\ mathcal L} (\ theta; {\ bf x}) \ propto \ prod_ {j = 1} ^ n \ theta ^ {x_j} (1- \ theta) ^ {N-x_j}. $$

(2). Kontinuerlig tilnærming . La $ {\ bf x} = (x_1, ..., x_n) $ være et utvalg fra en kontinuerlig tilfeldig variabel $ X $, med fordeling $ F $ og tetthet $ f $, med målefeil $ \ epsilon $, dette er, du observerer settene $ (x_j- \ epsilon, x_j + \ epsilon) $. Deretter

\ begin {eqnarray *} {\ mathcal L} (\ theta; {\ bf x}) \ propto \ prod_ {j = 1} ^ n {\ mathbb P} [\ text {observing } (x_j- \ epsilon, x_j + \ epsilon); \ theta] = \ prod_ {j = 1} ^ n [F (x_j + \ epsilon; \ theta) -F (x_j- \ epsilon; \ theta)] \ end { eqnarray *}

Når $ \ epsilon $ er liten, kan dette tilnærmes (ved bruk av gjennomsnittsverdisetningen) ved

\ begin {eqnarray *} {\ mathcal L} (\ theta; {\ bf x}) \ propto \ prod_ {j = 1} ^ nf (x_j; \ theta) \ end {eqnarray *}

For et eksempel med normal sak, ta en titt på dette.

(3). Avhengig og Markov-modell . Anta at $ {\ bf x} = (x_1, ..., x_n) $ er et sett med observasjoner som muligens er avhengig, og la $ f $ være fugetettheten på $ {\ bf x} $, så

\ begin {eqnarray *} {\ mathcal L} (\ theta; {\ bf x}) \ propto f ({\ bf x}; \ theta). \ end {eqnarray *}

Hvis i tillegg Markov-egenskapen er oppfylt, så

\ begin {eqnarray *} {\ mathcal L} (\ theta; {\ bf x}) \ propto f ({\ bf x}; \ theta) = f (x_1; \ theta) \ prod_ {j = 1} ^ {n-1} f (x_ {j + 1} \ vert x_j; \ theta). \ end {eqnarray *}

Ta også en titt på dette.

Fra du skriver sannsynlighetsfunksjonen som et produkt, antar du * implisitt en avhengighetsstruktur * blant observasjonene.Så for MLE trenger man to antagelser (a) en om fordelingen av hvert enkelt utfall og (b) en om avhengigheten blant resultatene.
gui11aume
2012-05-26 16:32:38 UTC
view on stackexchange narkive permalink

(+1) Veldig bra spørsmål.

Mindre ting, MLE står for maksimum sannsynlighetsoverslag (ikke flere), noe som betyr at du bare maksimerer sannsynligheten. Dette spesifiserer ikke at sannsynligheten må produseres ved IID-prøvetaking.

Hvis avhengigheten av prøvetakingen kan skrives i den statistiske modellen, skriver du bare sannsynligheten deretter og maksimerer den som vanlig.

Den ene saken som er verdt å nevne når du ikke antar avhengighet, er den for den multivariate Gauss-samplingen (for eksempel i tidsserie-analyse). Avhengigheten mellom to gaussiske variabler kan modelleres av deres kovariansuttrykk, som du inkororerer i sannsynligheten.

For å gi et forenklet eksempel, anta at du tegner et utvalg på størrelse $ 2 $ fra korrelerte gaussiske variabler med samme gjennomsnitt og varians. Du vil skrive sannsynligheten som

$$ \ frac {1} {2 \ pi \ sigma ^ 2 \ sqrt {1- \ rho ^ 2}} \ exp \ left (- \ frac {z} {2 \ sigma ^ 2 (1- \ rho ^ 2)} \ right), $$

hvor $ z $ er

$$ z = (x_1- \ mu) ^ 2-2 \ rho (x_1- \ mu) (x_2- \ mu) + (x_2- \ mu) ^ 2. $$

Dette er ikke produktet av de enkelte sannsynlighetene. Likevel vil du maksimere dette med parameterne $ (\ mu, \ sigma, \ rho) $ for å få MLE.

Dette er gode svar og eksempler. Det eneste jeg vil legge til for å se dette i enkle termer er at sannsynlighetsestimering bare krever at en modell for generering av data spesifiseres i form av noen ukjente parametere, skal beskrives i funksjonell form.
(+1) Helt sant! Har du et eksempel på en modell som ikke kan spesifiseres i disse vilkårene?
@gu11aume Jeg tror du refererer til kommentaren min. Jeg vil si at jeg ikke ga et direkte svar på spørsmålet. Svaret på spørsmålet er ja fordi det er eksempler som kan vises hvor sannsynlighetsfunksjonen kan uttrykkes når dataene genereres av avhengige tilfeldige variabler.
Eksempler der dette ikke kan gjøres, ville være der dataene blir gitt uten noen beskrivelse av datagenereringsmekanismen, eller modellen ikke er presentert i en parametrisk form, for eksempel når du får to iid datasett og blir bedt om å teste om de kommer fra den samme distribusjonen der du bare spesifiserer at distribusjonene er helt kontinuerlige.
StasK
2012-05-27 10:24:25 UTC
view on stackexchange narkive permalink

Selvfølgelig har Gaussiske ARMA-modeller sannsynlighet, siden deres kovariansfunksjon kan utledes eksplisitt. Dette er i utgangspunktet en utvidelse av gui11ames svar på mer enn to observasjoner. Minimal googling produserer papirer som denne der sannsynligheten er gitt i den generelle formen.

En annen, til en grad, mer spennende, klasse eksempler er gitt av multilevel modeller for tilfeldig effekt. Hvis du har data i formen $$ y_ {ij} = x_ {ij} '\ beta + u_i + \ epsilon_ {ij}, $$ der indekser $ j $ er nestet i $ i $ (tenk på studenter $ j $ i klasserom $ i $, si, for en klassisk applikasjon av modeller på flere nivåer), så antar vi $ \ epsilon_ {ij} \ perp u_i $, er sannsynligheten $$ \ ln L \ sim \ sum_i \ ln \ int \ prod_j f (y_ {ij} | \ beta, u_i) {\ rm d} F (u_i) $$ og er en sum over sannsynlighetsbidragene definert på nivået av klynger, ikke individuelle observasjoner. (Selvfølgelig, i Gauss-tilfellet, kan du presse integralene rundt for å produsere en analytisk ANOVA-lignende løsning. Men hvis du sier en logitmodell for svaret ditt $ y_ {ij} $, er det ingen vei ut av numerisk integrasjon.)

Stask og @gui11aume, disse tre svarene er fine, men jeg tror de savner et poeng: hva med * konsistensen * av MLE for avhengige data?


Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...