Den grunnleggende ideen om kvantil regresjon kommer av det faktum at analytikeren er interessert i distribusjon av data snarere enn bare gjennomsnittet av data. La oss starte med gjennomsnitt.
Gjennomsnittlig regresjon passer til en linje i form av $ y = X \ beta $ til gjennomsnittet av data. Med andre ord, $ E (Y | X = x) = x \ beta $. En generell tilnærming for å estimere denne linjen bruker metoden med minst kvadrat, $ \ arg \ min_ \ beta (y-x \ beta) '(y-X \ beta) $.
På den annen side ser median regresjon etter en linje som forventer at halvparten av dataene er på sidene. I dette tilfellet er målfunksjonen $ \ arg \ min_ \ beta | y-X \ beta | $ hvor $ |. | $ Er den første normen.
Å utvide ideen om median til kvantil resulterer i kvantil regresjon. Tanken bak er å finne en linje som $ \ alpha $ -prosent av data er utenfor det.
Her gjorde du en liten feil, Q-regresjon er ikke som å finne en datamengde og deretter passe en linje til den delmengden (eller til og med grensene som er mer utfordrende).
Q-regresjon ser etter en linje som deler data i en qroup en $ \ alpha $ quantile og resten. Målfunksjon, sier sjekkfunksjonen til Q-regresjon er $$ \ hat \ beta_ \ alpha = \ arg \ min_ \ beta \ bigg \ {\ alpha | y-X \ beta | I (y>X \ beta) + (1- \ alpha) | yX \ beta | I (y<X \ beta) \ bigg \}. $$
Som du ser er denne smarte målfunksjonen ikke noe mer som å oversette kvantil til et optimaliseringsproblem.
Dessuten, som du ser, er Q-regresjon definert for en viss kvantitet ($ \ beta_ \ alpha $) og kan deretter utvides til å finne alle kvantiler. Med andre ord kan Q-regresjon reprodusere (betinget) distribusjon av respons.