Spørsmål:
Hvordan fungerer standardfeilen?
luciano
2012-08-02 18:56:56 UTC
view on stackexchange narkive permalink

Jeg har nylig sett på det indre av standardfeilen, og jeg fant meg ikke i stand til å forstå hvordan det fungerer. Min forståelse av standardfeilen er at det er standardavviket for fordelingen av eksempler. Mine spørsmål er:

• hvordan vet vi at standardfeilen er standardavviket til prøven når vi vanligvis tar bare en enkelt prøve?

• hvorfor betyr ikke ligningen å beregne standardfeilen speiler standardavviksligningen for et enkelt utvalg?

Når du sier "enkelt utvalg", mener du ett prøvesett eller egentlig en prøvestørrelse på 1?
Disse er forklart for et enkelt, men interessant problem (et ternært svar) på vanlig, ikke-statistisk språk på http://stats.stackexchange.com/a/18609.
Tre svar:
Michael R. Chernick
2012-08-02 19:41:01 UTC
view on stackexchange narkive permalink

Anta at $ X_1, X_2, \ ldots, X_n $ er uavhengige og distribueres identisk. Dette er situasjonen jeg er ganske sikker på at du refererer til. La deres vanlige gjennomsnitt være $ \ mu $ og deres vanlige variasjon være $ \ sigma ^ 2 $.

Nå er eksemplets gjennomsnitt $ X_b = \ sum_i X_i / n $. Forventningslinearitet viser at gjennomsnittet av $ X_b $ også er $ \ mu $. Forutsetningen om uavhengighet innebærer at variansen på $ X_b $ er summen av avvikene i vilkårene. Hvert slikt begrep $ X_i / n $ har varians $ \ sigma ^ 2 / n ^ 2 $ (fordi variansen til en konstant ganger en tilfeldig variabel er den konstante kvadrat ganger variansen til den tilfeldige variabelen). Vi har $ n $ fordelt slike variabler identisk til sum, så hvert begrep har samme varians. Som et resultat får vi $ n \ sigma ^ 2 / n ^ 2 = \ sigma ^ 2 / n $ for variansen til eksemplets gjennomsnitt.

Vanligvis vet vi ikke $ \ sigma ^ 2 $ og så må vi estimere det ut fra dataene. Avhengig av innstillingen, er det forskjellige måter å gjøre dette på. De to vanligste estimatene for generell bruk av $ \ sigma ^ 2 $ er prøvevariansen $ s ^ 2 = \ frac {1} {n} \ sum_i (X_i-X_b) ^ 2 $ og et lite multiplum av det, $ s_u ^ 2 = \ frac {n} {n-1} s ^ 2 $ (som er en objektiv estimator av $ \ sigma ^ 2 $). Hvis du bruker en av disse i stedet for $ \ sigma ^ 2 $ i foregående avsnitt og tar kvadratroten, får du standardfeilen i form av $ s / \ sqrt {n} $ eller $ s_u / \ sqrt {n} $ .

Dette er veldig bra.Har du forslag til bøker eller avlesninger for å utvikle lignende tankegangsferdigheter.Takk.
Elegant svar!
Joel W.
2012-08-02 22:56:49 UTC
view on stackexchange narkive permalink

Ja, standardfeilen til gjennomsnittet (SEM) er standardavviket (SD) for midlene. (Standardfeil er en annen måte å si SD på en samplingsfordeling. I dette tilfellet er samplingsfordelingen middel for prøver av fast størrelse, si N.) Det er en matematisk sammenheng mellom SEM og populasjonen SD: SEM = populasjon SD / kvadratroten til N. Dette matematiske forholdet er veldig nyttig, siden vi nesten aldri har et direkte estimat av SEM, men vi har et estimat av populasjonen SD (nemlig SD for vårt utvalg). Når det gjelder det andre spørsmålet ditt, hvis du skulle samle flere prøver av størrelse N og beregne gjennomsnittet for hver prøve, kan du estimere SEM ganske enkelt ved å beregne SD for midlene. Så formelen for SEM speiler faktisk formelen for SD for en enkelt prøve.

gung - Reinstate Monica
2012-08-03 23:43:46 UTC
view on stackexchange narkive permalink

+1 til begge @JoelW. & @MichaelChernick. Jeg vil legge til en detalj i @ JoelW.s svar. Han bemerker at "vi nesten aldri har et direkte estimat av SEM", som egentlig er sant, men det er verdt å eksplisitt anerkjenne en advarsel til denne uttalelsen. Nærmere bestemt, når en studie sammenligner flere grupper / behandlinger (for eksempel placebo mot standard medisin vs. nytt legemiddel), blir en ANOVA vanligvis brukt for å se om de alle er like. Nullhypotesen er at hver gruppe er trukket fra samme populasjon, og dermed er alle tre midlene estimater av befolkningens gjennomsnitt. Det vil si at nullhypotesen i en standard ANOVA antar at du har et direkte estimat av SEM. Vurder ligningen for variansen til samplingsfordelingen av middel: $$ \ sigma ^ 2 _ {\ bar x} = \ frac {\ sigma ^ 2_ {pop}} {n_j}, $$ hvor $ \ sigma ^ 2_ {pop } $ er populasjonsvariansen, og $ n_j $ er antall grupper. Selv om vi vanligvis ikke utfører beregningene på denne måten, kan vi bare bruke standardformler for å plugge inn estimerte verdier, og med minimal algebraisk blanding, danne $ F $ -statistikken slik: $$ F = \ frac {n_j \ times s ^ 2 _ {\ bar x}} {s ^ 2 _ {\ text {pooled in group}}} $$ I dette tilfellet bruker vi virkelig standardformelen (bare brukt over gruppen betyr), det vil si: $$ s ^ 2 _ {\ bar x} = \ frac {\ sum_ {j = 1} ^ {n_j} (\ bar x_j- \ bar x _.) ^ 2} {n_j-1}, $$ med $ x _. $ som gjennomsnittet av gruppen betyr.

Ved at vi vanligvis mener at nullhypotesen ikke er sant, er @ JoelW.s poeng riktig, men jeg jobber gjennom dette punktet, fordi jeg tror klarheten den gir er nyttig for å forstå disse problemene.

Jeg tror kommentaren din i utgangspunktet er den samme som denne, som ble skrevet med mindre matematisk notasjon: http://stats.stackexchange.com/questions/32206/why-compare-sum-of-squares-with-anova-and- ikke-middel / 32231 # 32231


Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...