Intuitive reasoning behind biased maximum likelihood estimators

Glen_b

2014-03-05 04:57:34 UTC

view on stackexchange narkive permalink

ML estimatoren resulterer i verdien for parameteren som mest sannsynlig vil forekomme i datasettet.

Gitt forutsetningene, er ML estimatoren verdien av parameteren som har den beste sjansen for å produsere datasettet.

Jeg kan ikke intuitivt forstå en partisk ML-estimator i den forstand at "Hvordan kan den mest sannsynlige verdien for parameteren forutsi den virkelige verdien til parameteren med en skjevhet mot en feil verdi? "

Skjevhet handler om forventninger om samplingsfordelinger. "Mest sannsynlig å produsere dataene" handler ikke om forventningene til distribusjon av prøvetaking. Hvorfor forventes det at de går sammen?

Hva er grunnlaget det er overraskende at de ikke nødvendigvis samsvarer med?

Jeg vil foreslå at du vurderer noen enkle tilfeller av MLE og tenk på hvordan forskjellen oppstår i de spesielle tilfellene.

Som et eksempel kan du vurdere observasjoner på uniform på $ (0, \ theta) $ . Den største observasjonen er (nødvendigvis) ikke større enn parameteren, så parameteren kan bare ta verdier som er minst like store som den største observasjonen.

Når du vurderer sannsynligheten for $ \ theta $ , det er (åpenbart) større jo nærmere $ \ theta $ er den største observasjonen. Så det er maksimert at den største observasjonen; det er tydeligvis estimatet for $ \ theta $ som maksimerer sjansen for å få prøven du fikk:

enter image description here

Men på den annen side må det være partisk, siden den største observasjonen åpenbart (med sannsynlighet 1) er mindre enn den sanne verdien av $ \ theta $ ; ethvert annet estimat av $ \ theta $ som ikke allerede er utelukket av selve prøven, må være større enn det, og må (ganske tydelig i dette tilfellet) være mindre sannsynlig å produsere prøven.

Forventningen om den største observasjonen fra en $ U (0, \ theta) $ er $ \ frac {n } {n + 1} \ theta $ , så den vanlige måten å uklare er å ta som estimator for $ \ theta $ : $ \ hat \ theta = \ frac {n + 1} {n} X _ {(n)} $ , der $ X _ {( n)} $ er den største observasjonen.

Dette ligger til høyre for MLE, og har så lavere sannsynlighet.

takk for svaret ditt. Om den første delen uttrykte jeg meg feil. Jeg mente i utgangspunktet det du sa. Basert på svaret ditt på den andre delen, kan jeg konkludere med at hvis et annet sett med data hentet fra den samme fordelingen, vil ML-estimatoren resultere i en annen skjevhet? Siden du sier at ML-estimatoren er den som "mest sannsynlig" produserer dataene. Hvis vi endrer dataene, kan en annen estimator sannsynligvis produsere dem. Er det riktig?

Estimatoren endres ikke hvis formen på populasjonsfordelingen ikke endres. Noen andre * estimater * vil bli produsert med et annet utvalg, og mengden det er forutinntatt på vil generelt være forskjellige - skjevhet er vanligvis relatert til utvalgets størrelse, selv om populasjonen er den samme. ... (ctd)

(ctd) ... $ \ quad $ Merk at jeg har gjort noen endringer ovenfor som kan hjelpe. I sammenheng med eksemplet mitt ovenfor, med et annet utvalg (denne gangen med størrelsen $ m $ i stedet for $ n $, si) - vil formen til ML * estimator * fremdeles være 'den største observasjonen i prøven', men * estimatet * vil være annerledes (selv med samme $ \ theta $), og skjevheten vil også typisk være forskjellig (på grunn av effektstørrelsen på prøven).

God bruk av det kanoniske eksemplet for å se forskjellen mellom upartiske og ML-estimatorer.

Dimitriy V. Masterov

2014-03-05 05:05:27 UTC

view on stackexchange narkive permalink

$ \ beta ^ {MLE} $ er ikke den mest sannsynlige verdien av $ \ beta $. Den mest sannsynlige verdien er $ \ beta $ selv. $ \ beta ^ {MLE} $ maksimerer sannsynligheten for å tegne prøven vi faktisk fikk.

MLE er bare asymptotisk upartisk, og ofte kan du justere estimatoren for å oppføre seg bedre i endelige prøver. For eksempel er MLE for variansen til en tilfeldig variabel et eksempel, der multiplisering med $ \ frac {N} {N-1} $ transformerer den.

Beklager feilen i første del. Jeg redigerte og fikset det. Men om det du sa om MLE, hvorfor ville det være partisk i utgangspunktet i ikke-asymptotisk tilfelle?

"Bedre" avhenger av hva du ser på; Bessels korreksjon gjør det upartisk, men upartiskhet er ikke i seg selv automatisk "bedre" (MSE er for eksempel verre; hvorfor skal jeg foretrekke upartiskhet fremfor mindre MSE?). Upartiskhet kan hevdes å være bedre, * ceteris paribus *, men dessverre vil * ceteris * ikke være * paribus *.

Min forståelse var at den objektive estimatoren kan vises å være best objektiv gjennom forholdet mellom MLE og Cramer-Rao nedre grense.

@ssah Jeg har blitt fortalt at det er fordi vi bruker gjennomsnittet av prøven i stedet for det sanne gjennomsnittet i formelen. For å være ærlig har jeg aldri funnet denne forklaringen særlig intuitiv, for hvis MLE-estimatoren av gjennomsnittet er upartisk, hvorfor skulle dette gå galt? Jeg legger vanligvis tvilen min til ro med en simulering.

Aksakal

2014-03-05 09:28:39 UTC

view on stackexchange narkive permalink

Her er intuisjonen min.

Bias er et mål på nøyaktighet , men det er også en forestilling om presisjon .

enter image description here

I en ideell verden ville vi få estimatet, som er både presist og nøyaktig, dvs. alltid treffer øyeøyet. Dessverre, i vår ufullkomne verden, må vi balansere nøyaktighet og presisjon. Noen ganger kan vi føle at vi kan gi litt nøyaktighet for å få mer presisjon: vi bytter hele tiden. Derfor betyr det faktum at en estimator er partisk, ikke at den er dårlig: det kan være at den er mer presis.

Thomas Lumley

2020-07-07 07:00:19 UTC

view on stackexchange narkive permalink

Vanlige språklige og tekniske betydninger av partisk er forskjellige. Svaret fra @Glen_b gir en god beskrivelse av hvorfor estimatorer for maksimal sannsynlighet lett kan være partisk i teknisk forstand.

Det er mulig at estimatoren for maksimal sannsynlighet er partisk i noe som vanlig språk, men det er ikke vanlig. Noe må gå galt.

Standardeksemplene på en inkonsekvent MLE involverer sammenkoblede data.

Anta $ X_ {ij} \ sim N (\ mu_i, \ sigma ^ 2) $ , for $ j = 0,1 $ og $ i = 1,2,3, \ dots, n $ . MLE for $ \ mu_i $ er $ (X_ {i0} + X_ {i1}) / 2 $ span >. MLE for $ \ hat \ sigma ^ 2 $ er $$ \ hat \ sigma ^ 2 = \ frac {1} {2n} \ sum_ {i = 1} ^ n \ sum_ {j = 0} ^ 1 (X_ {ij} - \ hat \ mu_i) ^ 2 $$

Når du får mer data, $ \ hat \ sigma ^ 2 $ konvergerer ikke til $ \ sigma ^ 2 $ men til $ \ sigma ^ 2/2 $ .

Med binære matchede pardata er genereringsmodellen $$ \ mathrm {logit} \, P [Y_ {ij} = 1] = \ alpha_i + \ beta \ times j $ $ MLE $ \ hat \ beta $ konvergerer til $ 2 \ beta $ i stedet for til $ \ beta $ .

I begge tilfeller er problemet at antall parametere vokser med $ n $ , og løsningen er en betinget sannsynlighet som fjerner $ n $ avskjærer parametere før du estimerer parameteren du er interessert i.