Spørsmål:
Intuitiv forklaring på tetthet av transformert variabel?
lowndrul
2011-08-18 23:42:23 UTC
view on stackexchange narkive permalink

Anta at $ X $ er en tilfeldig variabel med pdf $ f_X (x) $ . Så har den tilfeldige variabelen $ Y = X ^ 2 $ pdf-filen

$$ f_Y (y ) = \ begin {cases} \ frac {1} {2 \ sqrt {y}} \ left (f_X (\ sqrt {y}) + f_X (- \ sqrt {y}) \ right) & y \ ge 0 \ \ 0 & y \ lt 0 \ end {cases} $$

Jeg forstår beregningen bak dette. Men jeg prøver å tenke på en måte å forklare det til noen som ikke kan beregning. Spesielt prøver jeg å forklare hvorfor faktoren $ \ frac {1} {\ sqrt {y}} $ dukker opp foran. Jeg tar et skikk i det:

Anta at $ X $ har en gaussisk distribusjon. Nesten all vekten av pdf-en ligger mellom verdiene, for eksempel $ - 3 $ og $ 3. $ Men det tilordnes til 0 til 9 for $ Y $ . Så den tunge vekten i pdf for $ X $ er utvidet over et bredere spekter av verdier i transformasjonen til $ Y $ . For at $ f_Y (y) $ skal være en sann pdf, må den ekstra tunge vekten nedveies med multiplikasjonsfaktoren $ \ frac {1} {\ sqrt {y}} $

Hvordan høres det ut?

Hvis noen kan gi en bedre forklaring på seg selv eller lenke til en i et dokument eller en lærebok, vil jeg sette stor pris på det. Jeg finner dette variabelt transformasjonseksemplet i flere intro matematiske sannsynlighets- / statistikkbøker. Men jeg finner aldri en intuitiv forklaring med det :(

Jeg tror forklaringen din er riktig.
Forklaringen er riktig, men den er rent kvalitativ: den presise formen for multiplikasjonsfaktoren er fortsatt et mysterium. -1/2 kraften vises ganske enkelt magisk. Dermed, på et eller annet nivå, må du gjøre det samme som Calculus gjør: finne endringshastigheten til kvadratrotfunksjonen.
Tre svar:
whuber
2011-08-19 01:15:16 UTC
view on stackexchange narkive permalink

PDF-filer er høyder, men de brukes til å representere sannsynlighet ved hjelp av areal. Det hjelper derfor med å uttrykke en PDF på en måte som minner oss om at området er lik høyden ganger basen.

Opprinnelig er høyden til en hvilken som helst verdi $ x $ gitt av PDF-en $ f_X (x) $ . Basen er det uendelige segmentet $ dx $ , hvorfra distribusjonen (det vil si sannsynlighetsmålene i motsetning til fordelingsfunksjonen ) er egentlig differensialformen, eller "sannsynlighetselementet",

$$ \ operatorname {PE} _X (x) = f_X (x) \, dx. $$

Dette, i stedet for PDF, er objektet du vil jobbe med både konseptuelt og praktisk, fordi det eksplisitt inkluderer alt elementer som trengs for å uttrykke en sannsynlighet.

Når vi uttrykker $ x $ når det gjelder $ y = x ^ 2 $ , blir bunnsegmentene $ dx $ strukket (eller klemt): ved å kvadre begge ender av intervallet fra $ x $ til $ x + dx $ vi ser at basen til $ y $ -området må være et intervall med lengde

$$ dy = (x + dx) ^ 2 - x ^ 2 = 2 x \, dx + (dx) ^ 2. $$

Fordi produktet av to uendelige størrelser er ubetydelige sammenlignet med de uendelige store, vi konkluderer

$$ dy = 2 x \, dx, \ text {hvorfra} dx = \ frac {dy } {2x} = \ frac {dy} {2 \ sqrt {y}}. $$

Etter å ha etablert dette, er beregningen triviell fordi vi bare plugger inn den nye høyden og ny bredde:

$$ \ operatorname {PE} _X (x) = f_X (x) \, dx = f_X (\ sqrt {y}) \ frac {dy} {2 \ sqrt {y}} = \ operatornavn {PE} _Y (y). $$

Fordi basen, når det gjelder $ y $ , er $ dy $ , uansett hva som multipliserer den må være høyden, som vi kan lese direkte fra mellomperioden som

$$ \ frac {1} {2 \ sqrt {y}} f_X (\ sqrt {y}) = f_Y (y). $$

Denne ligningen $ \ operatorname {PE} _X (x) = \ operatorname { PE} _Y (y) $ er effektivt en bevaring av område (= sannsynlighet) lov.

Two pdfs

Denne grafikken nøyaktig viser smale (nesten uendelige) biter av to PDF-filer relatert av $ y = x ^ 2 $ . Sannsynligheter er representert av de skyggelagte områdene. På grunn av klemme av intervallet $ [0.32, 0.45] $ via kvadrat, høyden på det røde området ( $ y $ , til venstre) må utvides proporsjonalt for å matche området i den blå regionen ( $ x $ , til høyre).

Jeg elsker uendelig store dyr. Dette er en fantastisk forklaring. Å tenke i form av $ 2x $, som det tydelig kan sees å komme fra derivatet av transformasjonen, er mye mer intuitivt enn å tenke i form av $ \ sqrt {y} $. Jeg tror det var der stikkpunktet mitt var.
@whuber, Jeg mener at første linje skal være $ P (X \ in (x, x + dx)) = f_ {x} (x) dx $?Er det det du mener med $ \ text {pdf} _ {X} (x) $?PS: også nysgjerrig på tankene dine om svaret mitt (nedenfor).
@Carlos Det er litt strengere å uttrykke ideen på den måten jeg gjorde fra begynnelsen: PDF er det du multipliserer Lebesgue-målet $ \ mathrm {d} x $ med for å få det gitte sannsynlighetsmål.
@whuber, men hvis pdf er det du multipliserer, er det begrepet $ f_ {X} (x) $, ikke produktet $ f_ {x} (x) dx $ som du skrev, ikke sant?Det er ikke klart hvorfor du kaller produktet $ f_ {X} (x) dx $ en pdf.
$ f_X (x) dx $ tilsvarer fordelingen, ikke tettheten.
@Carlos Når folk skiller seg, kaller de $ f_X (x) \ mathrm {d} x $ "sannsynlighetselementet" og $ f_X $ "sannsynlighetstettheten" eller PDF.Når de refererer til "distribusjon", betyr de vanligvis funksjonen $ F_X (x) = \ int _ {- \ infty} ^ x f_X (x) \ mathrm {d} x. $
@whuber Så kanskje kalle det sannsynlighetselement i stedet for pdf?Måten det er skrevet nå (som pdf) vil føre folk til forvirring som Fernandos spørsmål til deg, i det andre svaret nedenfor.
@Carlos: takk;nå ser jeg poenget ditt.Jeg gjorde noen endringer for å løse det.
schenectady
2011-08-19 01:12:23 UTC
view on stackexchange narkive permalink

Hva om jeg produserer gjenstander som alltid er firkantede og jeg vet fordelingen av sidelengdene på rutene; hva kan jeg si om fordelingen av kvadratområdene?

Spesielt hvis jeg vet fordelingen av en tilfeldig variabel $ X $, hva kan jeg si om $ Y = X ^ {2} $ ? En ting du kan si er

$$ \ eqalign {F_ {Y} (c) & = & P (Y \ le c) \\ & = & P (X ^ {2} \ le c) \\ & = & P (- \ sqrt {c} \ le X \ le \ sqrt {c}) \\ & = & F_ {X} (\ sqrt {c}) - F_ {X} (- \ sqrt {c}). \\} $$

Så det opprettes et forhold mellom CDF på $ Y $ og CDF på $ X $; hva er forholdet mellom deres PDF-filer? Vi trenger kalkulator for det. Å ta derivatene fra begge sider gir deg resultatene du ønsket.

(+1) Selv om dette ikke er et fullstendig svar, presenterer det en god måte å finne $ f_Y $ på og viser tydelig hvorfor det er en sum av to stykker, en for hver kvadratrot.
Jeg skjønner ikke hvorfor pdf (x) = f (x) dx. Hva med pdf (x) dx = f (x), `tetthet = sannsynlig masse / intervall` ... hva får jeg feil?
Carlos Cinelli
2019-09-13 12:04:33 UTC
view on stackexchange narkive permalink

Tenk deg at vi har en befolkning, og $ Y $ er et sammendrag av denne befolkningen. Så teller $ P (Y \ in (y, y + \ Delta y)) $ andelen individer som har variabel $ Y $ i området $ (y, y + \ Delta y) $ . Du kan vurdere dette som en "søppelbøtte" i størrelse $ \ Delta y $ , og vi teller hvor mange personer som er inne i søpla.

La oss nå uttrykke disse personene på nytt i form av en annen variabel, $ X $ . Gitt at vi vet at $ Y $ og $ X $ er relatert til $ Y = X ^ 2 $ , hendelsen $ Y \ in (y, y + \ Delta y) $ er den samme som hendelse $ X ^ 2 \ in (x ^ 2, (x + \ Delta x) ^ 2) $ som er den samme som hendelsen $ X \ in (| x |, | x | + \ Delta x) ~ \ text {eller} ~ X \ in (- | x | - \ Delta x, - | x |) $ span >. Dermed må individene som er i søpla $ (y, y + \ Delta y) $ også være i søppelkassene $ (| x |, | x | + \ Delta x) $ og $ (- | x | - \ Delta x, - | x |) $ span >. Med andre ord må disse søpplene ha samme andel individer,

\ begin {align} P (Y \ in (y, y + \ Delta y)) & = P \ left (X \ in (| x |, | x | + \ Delta x) \ right) + P \ left (X \ in (- | x | - \ Delta x, - | x |) \ right ) \ end {align}

Ok, la oss nå komme til tettheten. Først må vi definere hva sannsynlighet tetthet er. Som navnet antyder, er det andelen individer per område . Det vil si vi teller andelen av individer på den søpla og deler med størrelsen på søpla . Siden vi har slått fast at andelene av mennesker er de samme her, men størrelsen på søpplene har endret seg, konkluderer vi med at tettheten vil være forskjellig. Men forskjellig med hvor mye?

Som vi sa er sannsynlighetstettheten andelen mennesker i søpla delt på størrelsen på søpla, og tettheten på $ Y $ er gitt av $ f_Y (y): = \ frac {P (Y \ in (y, y + \ Delta y))} {\ Delta y} $ . Analogt er sannsynlighetstettheten til $ X $ gitt av $ f_X (x): = \ frac {P (X \ i (x, x + \ Delta x))} {\ Delta x} $ .

Fra vårt forrige resultat at befolkningen i hver søppel er den samme, har vi den,

\ begin {align} f_Y (y): = \ frac {P (Y \ in (y, y + \ Delta y))} {\ Delta y} & = \ frac {P \ left (X \ in (| x |, | x | + \ Delta x) \ høyre) + P \ venstre (X \ in (- | x | - \ Delta x, - | x |) \ høyre)} {\ Delta y} \\ & = \ frac {f_X (| x |) \ Delta x + f_ {X} (- | x |) \ Delta x} {\ Delta y} \\ & = \ frac {\ Delta x} {\ Delta y} \ left (f_X (| x |) + f_ {X} (- | x |) \ right) \\ & = \ frac {\ Delta x} {\ Delta y} \ left (f_X (\ sqrt {y}) + f_ {X} (- \ sqrt {y}) \ right) \ end {align}

Det vil si at tettheten $ f_X (\ sqrt {y}) + f_ {X} (- \ sqrt {y}) $ endres med faktoren $ \ frac {\ Delta x} {\ Delta y} $ , som er den relative størrelsen på å strekke eller klemme søppelstørrelsen.I vårt tilfelle, siden $ y = x ^ 2 $ , har vi den $ y + \ Delta y = (x + \Delta x) ^ 2 = x ^ 2 + 2x \ Delta x + \ Delta x ^ 2 $ .Hvis $ \ Delta x $ er liten nok, kan vi ignorere $ \ Delta x ^ 2 $ , noe som innebærer $ \ Delta y = 2x \ Delta x $ og $ \ frac {\ Delta x} {\ Delta y} = \frac {1} {2x} = \ frac {1} {2 \ sqrt {y}} $ , og det er derfor faktoren $ \ frac {1} {2 \ sqrt {y}} $ dukker opp i transformasjonen.



Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...