Hvordan fungerer kvantil regresjon?

Spørsmål:

Hvordan fungerer kvantil regresjon?

Jeremy

2015-07-08 00:37:30 UTC

view on stackexchange narkive permalink

Jeg håper å få en intuitiv, tilgjengelig forklaring på kvantil regresjon.

La oss si at jeg har et enkelt datasett med utfallet $ Y $, og prediktorer $ X_1, X_2 $.

Hvis jeg for eksempel kjører en kvantil regresjon på .25, .5, .75, og får tilbake $ \ beta_ {0, .25}, \ beta_ {1, .25} ... \ beta_ {2 , .75} $.

Finnes $ \ beta $ -verdiene ved å bare bestille $ y $ -verdiene, og utføre en lineær regresjon basert på eksemplene som er ved / nær den gitte kvantilen?

Eller bidrar alle prøvene til $ \ beta $ estimatene, med synkende vekter når avstanden fra kvantilen øker?

Eller er det noe helt annet? Jeg har ennå ikke funnet en tilgjengelig forklaring.

Når det gjelder matematikken, kan du finne disse to svarene nyttige: http://stats.stackexchange.com/questions/102906/regarding-the-quantile-regression-via-optimization-approach/102908#102908, http: //stats.stackexchange.com / spørsmål / 88387 / quantile-regression-estimator-formula / 88961 # 88961

eller dette https://stats.stackexchange.com/questions/384909/formulating-quantile-regression-as-linear-programming-problem/384913#384913

To svar:

Stephan Kolassa

2015-07-08 01:00:03 UTC

view on stackexchange narkive permalink

Jeg anbefaler Koenker & Hallock (2001, Journal of Economic Perspectives) og Koenkers eponyme lærebok.

Utgangspunktet er observasjon at medianen til et datasett minimerer summen av absolutte feil. Det vil si at 50% -kvantilen er en løsning på et bestemt optimaliseringsproblem (for å finne verdien som minimerer summen av absolutte feil).
Fra dette er det lett å finne ut at noen $ \ tau $ -kvantil er løsningen på et spesifikt minimeringsproblem, nemlig å minimere en sum av asymmetrisk vektede absolutte feil, med vekter som avhenger av $ \ tau $.
Til slutt, for å lage trinnet til regresjon, modellerer vi løsningen på dette minimeringsproblemet som en lineær kombinasjon av prediktorvariabler, så nå er problemet å finne ikke en eneste verdi, men et sett med regresjonsparametere.

Så intuisjonen din er helt riktig: alle prøvene bidrar til $ \ beta $ estimatene, med asymmetriske vekter avhengig av kvantiteten $ \ tau $ vi sikter mot.

Når det gjelder punkt 1), ville ikke dette bare være sant forutsatt at Y er symmetrisk fordelt?Hvis Y er skjev som {1, 1, 2, 4, 10}, ville medianen 2 absolutt ikke minimere absolutt feil.Antar kvantil regresjon alltid at Y er symmetrisk fordelt?Takk!

@Ben: nei, symmetri er ikke nødvendig.Nøkkelpunktet er at medianen minimerer * forventet * absolutt feil.Hvis du har en diskret fordeling med verdiene 1, 2, 4, 10 og sannsynligheter 0,4, 0,2, 0,2, 0,2, så minimerer en poengsammendrag på 2 faktisk * forventet * absolutt feil.En simulering er bare noen få linjer med R-kode: `foo <- prøve (x = c (1,2,4,10), størrelse = 1e6, prob = c (.4, .2, .2, .2), erstatt = SANT);xx <- seq (1,10, by = .1);plot (xx, sapply (xx, FUN = funksjon (åå) betyr (abs (åå-foo))), type = "l") `

(Og ja, jeg burde vært tydeligere i svaret mitt, i stedet for å diskutere "summer".)

Derp.Hva tenkte jeg.Dette gir mening nå, takk.

TPArrow

2015-07-08 01:21:53 UTC

view on stackexchange narkive permalink

Den grunnleggende ideen om kvantil regresjon kommer av det faktum at analytikeren er interessert i distribusjon av data snarere enn bare gjennomsnittet av data. La oss starte med gjennomsnitt.

Gjennomsnittlig regresjon passer til en linje i form av $ y = X \ beta $ til gjennomsnittet av data. Med andre ord, $ E (Y | X = x) = x \ beta $. En generell tilnærming for å estimere denne linjen bruker metoden med minst kvadrat, $ \ arg \ min_ \ beta (y-x \ beta) '(y-X \ beta) $.

På den annen side ser median regresjon etter en linje som forventer at halvparten av dataene er på sidene. I dette tilfellet er målfunksjonen $ \ arg \ min_ \ beta | y-X \ beta | $ hvor $ |. | $ Er den første normen.

Å utvide ideen om median til kvantil resulterer i kvantil regresjon. Tanken bak er å finne en linje som $ \ alpha $ -prosent av data er utenfor det.

Her gjorde du en liten feil, Q-regresjon er ikke som å finne en datamengde og deretter passe en linje til den delmengden (eller til og med grensene som er mer utfordrende).

Q-regresjon ser etter en linje som deler data i en qroup en $ \ alpha $ quantile og resten. Målfunksjon, sier sjekkfunksjonen til Q-regresjon er $$ \ hat \ beta_ \ alpha = \ arg \ min_ \ beta \ bigg \ {\ alpha | y-X \ beta | I (y>X \ beta) + (1- \ alpha) | yX \ beta | I (y<X \ beta) \ bigg \}. $$

Som du ser er denne smarte målfunksjonen ikke noe mer som å oversette kvantil til et optimaliseringsproblem.

Dessuten, som du ser, er Q-regresjon definert for en viss kvantitet ($ \ beta_ \ alpha $) og kan deretter utvides til å finne alle kvantiler. Med andre ord kan Q-regresjon reprodusere (betinget) distribusjon av respons.

Dette svaret er strålende.

ⓘ

Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.

about - legalese

Loading...