Spørsmål:
Kan bety pluss ett standardavvik overstige maksimumsverdien?
Boyun Omuru
2014-11-18 04:29:59 UTC
view on stackexchange narkive permalink

Jeg har gjennomsnitt 74.10 og standardavvik 33.44 for et utvalg som har minimum 0 og maksimalt 94.33.

Professoren min spør meg hvordan kan bety pluss at et standardavvik overstiger maksimumet.

Jeg viste henne mange eksempler om dette, men hun forstår ikke. Jeg trenger litt referanse for å vise henne. Det kan være hvilket som helst kapittel eller avsnitt fra en statistikkbok som snakker spesielt om dette.

Hvorfor vil du legge til (eller trekke fra) ett standardavvik fra gjennomsnittet?SD er et mål på spredningen av dataene.Ville du ha standardfeilen til gjennomsnittet i stedet kanskje?
Jeg vil ikke legge til eller trekke fra, den som vil ha dette er professoren min.Det er slik hun forstår standardavviket
Et interessant eksempel er prøven (0.01,0.02,0.98,0.99).Både gjennomsnittet pluss standardavviket og gjennomsnittet minus standardavviket ligger utenfor [0,1].
Kanskje hun bare tenker på en normalfordeling?
Fire svar:
Glen_b
2014-11-18 04:42:35 UTC
view on stackexchange narkive permalink

Absolutt kan gjennomsnittet pluss en sd overstige den største observasjonen.

Tenk på prøven 1, 5, 5, 5 -

den har gjennomsnitt 4 og standardavvik 2, så gjennomsnittet + sd er 6, en mer enn prøven maksimalt. Her er beregningen i R:

  > x = c (1,5,5,5) > mean (x) + sd (x) [1] 6  

Det er en vanlig forekomst. Det har en tendens til å skje når det er en rekke høye verdier og en hale til venstre (dvs. når det er sterk venstre skjevhet og en topp nær maksimum).

-

The samme mulighet gjelder for sannsynlighetsfordelinger, ikke bare prøver - populasjonsgjennomsnittet pluss populasjonen sd kan lett overstige den maksimalt mulige verdien.

Her er et eksempel på en $ \ text {beta} (10, \ frac {1} {2}) $ tetthet, som har en maksimal mulig verdi på 1:

enter image description here

I dette tilfellet kan vi se på Wikipedia-siden for beta-distribusjon, som sier at gjennomsnittet er:

$ \ operatorname {E} [X] = \ frac {\ alpha} {\ alpha + \ beta} \! $

og avviket er:

$ \ operatorname {var} [X] = \ frac {\ alpha \ beta } {(\ alpha + \ beta) ^ 2 (\ alpha + \ beta + 1)} \! $

(Selv om vi ikke trenger å stole på Wikipedia, siden de er ganske enkle å utlede.)

Så for $ \ alpha = 10 $ og $ \ beta = \ frac {1} {2} $ har vi gjennomsnitt $ \ ca 0,9523 $ og sd $ \ ca 0,0628 $, så betyr + sd $ \ omtrent 1.0152 $, mer enn det mulige maksimum på 1.

Det vil si at det er lett mulig å ha en verdi på middel + sd som ikke kan observeres som en dataverdi .

--

For alle situasjoner der modusen var maksimalt, må Pearson-modus skjevhet bare være $ < \, - 1 $ for gjennomsnitt + sd for å overskride maksimumet. Det kan ta hvilken som helst verdi, positiv eller negativ, slik at vi kan se at det er lett mulig.

-

Et nært beslektet problem blir ofte sett med konfidensintervaller for et binomium andel, der et ofte brukt intervall, kan det normale tilnærmelsesintervallet produsere grenser utenfor $ [0,1] $.

Vurder for eksempel et normalt tilnærmelsesintervall på 95,4% for populasjonsandelen suksesser i Bernoulli-studier (utfallet er henholdsvis 1 eller 0 som representerer suksess og fiaskohendelser), hvor 3 av 4 observasjoner er "$ 1 $" og en observasjon er "$ 0 $".

Da er den øvre grensen for intervallet $ \ hat p + 2 \ ganger \ sqrt {\ frac {1} {4} \ hat p \ left (1 - \ hat p \ right)} = \ hat p + \ sqrt {\ hat p (1 - \ hat p)} = 0,75 + 0,433 = 1,183 $

Dette er bare eksemplets gjennomsnitt + det vanlige estimatet for sd for binomialet ... og produserer en umulig verdi.

Den vanlige prøven sd for 0,1,1,1 er 0,5 i stedet for 0,433 (de skiller seg ut fordi det binomiale ML-estimatet av standardavviket $ \ hat p (1- \ hat p) $ tilsvarer å dele variansen med $ n $ i stedet for $ n-1 $). Men det gjør ingen forskjell - i begge tilfeller overstiger middel + sd størst mulig andel.

Dette faktum - at et normalt tilnærmingsintervall for binomialet kan produsere "umulige verdier" blir ofte notert i bøker og papirer . Imidlertid har du ikke å gjøre med binomial data. Likevel er problemet - det betyr + et visst antall standardavvik ikke en mulig verdi - analogt.

-

I ditt tilfelle er den uvanlige "0" -verdien i prøven din gjør sd stort mer enn det trekker gjennomsnittet ned, og derfor er middel + sd høyt.

enter image description here

-

( Spørsmålet ville i stedet være - med hvilken begrunnelse ville det være umulig? - for uten å vite hvorfor noen tror det er et problem i det hele tatt, hva tar vi for oss?)

Logisk selvfølgelig viser man at det er mulig ved å gi et eksempel der det skjer. Du har allerede gjort det. I mangel av en oppgitt grunn til at det skulle være annerledes, hva skal du gjøre?

Hvis et eksempel ikke er tilstrekkelig, hvilket bevis vil da være akseptabelt?

Det er egentlig ikke noe poeng å bare peke på en uttalelse i en bok, siden enhver bok kan uttale seg feilaktig - jeg ser dem hele tiden. Man må stole på direkte demonstrasjon av at det er mulig, enten et bevis i algebra (man kan konstruere fra betaeksemplet ovenfor for eksempel *) eller ved numerisk eksempel (som du allerede har gitt), som alle kan undersøke sannheten om selv .

* whuber gir de nøyaktige forholdene for beta-saken i kommentarer.

+1 Beta-eksemplet er en fin idé.Faktisk gitt $ 0 \ lt \ beta \ lt 1 $ og $ \ alpha \ gt \ beta (1+ \ beta) / (1- \ beta) $, * hvilken som helst * Beta $ (\ alpha, \ beta) $ fordelingvil ha gjennomsnitt + sd som overstiger $ 1 $.
La meg forklare nærmere.Jeg leter etter nøyaktighetsprosent for det spesielle apparatet som brukes til å korrigere tennene.Og dette apparatet utførte nøyaktighetsprosent for 7 tenner som følger:% 76,19,% 77,41,% 94,33,% 91,06,% 0,% 87,77,% 91,96.Professoren min legger til en standardavvik for å bety og sier at resultatet ikke kan overstige maksimumsverdien til og med% 100 fordi% 100 er den maksimale nøyaktighetsprosenten som appliancek kan utføre.
Hva er en "nøyaktighetsprosent"?Jeg vet ikke hva det begrepet betyr.Hvorfor legger professoren til et standardavvik til gjennomsnittet?Hvorfor skulle det bety noe i det hele tatt?Hennes feil er å tenke at å legge til et standardavvik til gjennomsnittet nødvendigvis skulle gi en verdi som er mulig for en prosentandel.Hvorfor ville det?
Merk at det numeriske eksemplet ditt passer til beskrivelsen min - du har en rekke høye verdier, og en hale til venstre (foreslått av den lave verdien på 0).Det er akkurat når dette kan skje.Det er egentlig ingen god grunn til å forvente å legge til et hvilket som helst antall standardavvik (til og med en brøkdel av en) til gjennomsnittet, skal respektere 100% grensen.
La meg først forklare "nøyaktighetsprosent".For eksempel vil du oppnå 1 mm bevegelse av tannen.Ved å bruke et apparat oppnår du bare 0,40 mm bevegelse.Nøyaktighetsprosenten for dette eksemplet er% 40
Boyun - Takk for det.Hvorfor legger professoren til et standardavvik i gjennomsnittet?
Og hvorfor vil hun legge til ett standardavvik for å bety at jeg ikke forstår ...
Det er slik hun tenker på standardavvik dessverre, og jeg kan ikke ombestemme meg
Hvordan vil du beregne nøyaktighetsprosenten hvis den oppnådde bevegelsen var 1,20 mm?
I studien overstiger den planlagte bevegelsen aldri den oppnådde bevegelsen
Alt jeg vil er å vise henne en referanse.Jeg vil ikke stave ordene hun fortjener, men uten å få henne til å forstå dette kan jeg ikke bevege meg lenger ...
Hun har rett i at en prosentandel> 100% ikke gir mening i situasjonen din.Problemet er faktisk den uoppgitte forutsetningen om at å legge til en sd til gjennomsnittet, bør være fornuftig i denne sammenhengen når den * ikke *.Det er der jeg tror vanskeligheten din kommer fra.Hvis vi forsto hvor forutsetningen kom fra, kan det føre til en bedre løsning.Det er mulig at det enkle faktum er angitt i en bok et eller annet sted (det er imidlertid en triviell observasjon, så det er mulig det ikke er det heller), men jeg tviler på at det noen gang vil bli satt på en måte som vil tilfredsstille henne, fordi hun er falskforutsetningen er kilden til problemet.
Takk igjen for ditt bidrag.Alt er klart for meg.Nå begynner en ny rettssak for meg - for å få henne til å forstå.Jeg vil vise henne dine kommentarer.Takk så mye
Jeg vil gjerne diskutere i chatten for å fjerne noe.
Pedantisk bruker du og R $ n-1 $ eksemplet på standardavviksberegningen.Hvis befolkningen er $ 1,5,5,5 $, er standardavviket $ \ sqrt {3} \ gt 1 $, så eksemplet ditt er fortsatt gyldig.
@Henry Jeg brukte bevisst det vanlige prøven standardavvik der;OPs problem innebærer middeleksempel og standardavvik.Men ja, $ n $ -divisor-versjonen har også det samme problemet.
Faktisk - mitt mindre poeng er at denne nysgjerrigheten er et resultat av hva standardavvik representerer for sterkt ikke-symmetriske fordelinger i stedet for et resultat av å ta et utvalg.Men generelt synes jeg svaret ditt er utmerket
@Glen_b Jeg tror hun vil legge til og trekke ut en SD som skal bety på grunn av sin vage følelse av Chebychevs ulikhet.Fra det jeg leste tror jeg ikke hun vet om det spesielt.I stedet tenker hun på det spesielle tilfellet med en normalfordeling som OPs observasjon ikke ville være mulig for.Når det er sagt, vet hun heller ikke nok om statistikk for å veilede studentens prosjekt.
@tomka Jeg har forsøkt å hjelpe mange studenter i en lignende stilling.Til slutt lærte jeg den (muligens ikke overraskende) tommelfingerregelen om at det faktisk er umulig å lære en veileder noe gjennom studenten sin.
MSalters
2014-11-18 15:21:16 UTC
view on stackexchange narkive permalink

Per Chebyshevs ulikhet kan mindre enn k -2 poeng være mer enn k standardavvik unna. Så for k = 1 betyr det at mindre enn 100% av prøvene dine kan være mer enn ett standardavvik.

Det er mer interessant å se på lavgrensen. Professoren din bør være mer overrasket over at det er poeng som er omtrent 2,5 standardavvik under gjennomsnittet. Men vi vet nå at bare omtrent 1/6 av prøvene dine kan være 0.

Snives
2015-03-25 22:57:57 UTC
view on stackexchange narkive permalink

Essensen av problemet kan være at distribusjonen din ikke er en normalfordeling som et standardavvik antar. Distribusjonen din er sannsynligvis venstre skjev, så du må først transformere settet ditt til en normalfordeling ved å velge en passende transformasjonsfunksjon. Denne prosessen kalles transformasjon til normalitet. En slik funksjonskandidat i ditt tilfelle kan være en speilet loggtransformasjon. Når settet ditt oppfyller en normalitetstest, kan du ta standardavviket. For å bruke 1 $ \ sigma $ eller 2 $ \ sigma $ verdiene må du forvandle dem tilbake til det opprinnelige datarommet ved hjelp av det omvendte av transformasjonsfunksjonen. Jeg tenker at dette er det professoren din antydet.

Dette er et hyggelig bidrag.Jeg er ikke sikker på at SD virkelig "antar" en normalfordeling, skjønt.
"Distribusjonstilpasning" og å finne en transformasjon til normalitet er forskjellige prosedyrer med forskjellige mål.
Alecos Papadopoulos
2014-11-19 01:59:43 UTC
view on stackexchange narkive permalink

Generelt for tilfeldige variabler i Bernoulli $ X $, som tar verdien $ 1 $ med sannsynligheten $ 0<p<1 $ og verdien $ 0 $ med sannsynligheten $ 1-p $, har vi

$$ E ( X) = p, \; \; SE (X) = \ sqrt {p (1-p)} $$

Og vi vil

$$ E (X) + SE (X) > 1 \ Rightarrow p + \ sqrt {p (1-p)} >1 $$

$$ \ Rightarrow \ sqrt {p (1-p)} > (1-p) $$

Firkant begge sider for å få

$$ p (1-p) > (1-p) ^ 2 \ Rightarrow p > 1-p \ Rightarrow p > \ frac 12 $$

Med ord, for hvilken som helst Bernoulli tilfeldig variabel med $ p>1 / 2 $, holder det teoretiske uttrykket $ E (X) + SE (X) > \ max X $.

Så for eksempel for ethvert ID prøve hentet fra en Bernoulli med for eksempel $ p = 0,7 $, i de fleste tilfeller vil prøven gjennomsnitt pluss prøven standardavviket overstige verdien $ 1 $, som vil være den maksimale verdien som er observert (sperre tilfellet med en null-prøve!).

For andre fordelinger har vi alltid motsatt retning i ulikheten, f.eks. for en enhetlig $ U (a, b) $ er det alltid slik at $ E (U) + SE (U) < \ max U = b $.
Det eksisterer derfor ingen generell regel.



Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...