Diagonale rette linjer i residualer mot tilpassede verdier plotter for multippel regresjon

ttnphns

2012-07-27 15:25:00 UTC

view on stackexchange narkive permalink

Det ser ut til at den avhengige variabelen din er konstant på noen av dens underområder eller er nøyaktig lineært avhengig av prediktoren (e). La oss ha to korrelerte variabler, X og Y (Y er avhengig). Spredningsplottet er til venstre.

enter image description here

La oss, som eksempel, komme tilbake på den første muligheten ("konstant"). Kod alle Y-verdiene fra laveste til -0,5 til en enkelt verdi -1 (se bildet i midten). Regress Y på X og plotte rester spredes, det vil si rotere det sentrale bildet slik at prediksjonslinjen er horisontal nå. Likner det bildet ditt?

Det er rettsmedisinsk statistikk på sitt beste! Et stort +1.

Det viser seg at du hadde helt rett, jeg hadde tilfeller der antall retweet faktisk var 0 og disse ~ 15 tilfellene resulterte i de rare restmønstrene. http://i.imgur.com/XGas9.png

John

2012-07-27 14:45:45 UTC

view on stackexchange narkive permalink

Det er ikke overraskende at du ikke ser mønsteret i histogrammet. Det merkelige mønsteret strekker seg ganske mye av histogrammets område og representerer bare noen få datapunkter i hver søppel. Du må virkelig finne ut hvilke datapunkter det er og se på dem. Du kan bruke de forutsagte verdiene og restene for å finne dem enkle nok. Når du har funnet verdiene, begynn å undersøke hvorfor disse kan være spesielle.

Når det er sagt, er dette spesielle mønsteret bare spesielt fordi det er langt. Hvis du ser nøye på restplottet ditt og kvantilplottet ditt, ser du det gjentas, men at det er mindre sekvenser. Kanskje det egentlig bare er en avvik. Eller kanskje det virkelig er et mønster som gjentas. Men du må finne hvor det er i rådataene og undersøke det for å ha noe håp om å forstå det i det hele tatt.

For å gi deg litt hjelp, kvantil- kvantilplott antyder at du har en haug med identiske rester. Det er mulig at det kan være en kodefeil. Jeg kan generere noe lignende i R med ...

  x <- c (rnorm (50), rep (-0.2, 10), rep (0, 4)) qqnorm (x) ; qqline (x)

Legg merke til de flate to flate flekkene i linjen. Imidlertid virker det mer komplisert enn det fordi det er en implikasjon at de identiske restene kommer over en rekke prediktorer.

gung - Reinstate Monica

2012-07-28 23:47:52 UTC

view on stackexchange narkive permalink

Det ser ut til at du bruker R . Merk i så fall at du kan identifisere punkter på et scatterplot ved hjelp av ? Identifisere. Jeg tror det er flere ting som skjer her. For det første har du et veldig innflytelsesrikt punkt på plottet til LN_RT_vol_in ~ LN_AT_vol_in (den uthevede) omtrent (.2, 1.5). Dette er sannsynligvis den standardiserte restverdien som er omtrent -3,7. Effekten av dette punktet vil være å flate regresjonslinjen, vippe den mer vannrett enn den kraftig oppovergående linjen du ellers ville ha fått. En effekt av det er at alle restene dine vil bli rotert mot klokken i forhold til der de ellers ville ha vært plassert i rest ~ forutsagt plottet (i det minste når du tenker i form som samvarierer og ignorerer den andre).

Likevel vil den tilsynelatende rette linjen med rester som du ser fremdeles være der, ettersom de eksisterer et sted i den tredimensjonale skyen til dine originale data. Det kan være vanskelig å finne dem i noen av marginale tomter. Du kan bruke identifiseringsfunksjonen () til å hjelpe, og du kan også bruke rgl -pakken til å lage en dynamisk 3D-spredningsplan som du kan rotere fritt med musen. Vær imidlertid oppmerksom på at rettlinjerester er alle under 0 i sin forventede verdi, og har under 0 rester (dvs. de er under den monterte regresjonslinjen); som gir deg et stort hint om hvor du skal lete. Ser jeg igjen på plottet ditt med LN_RT_vol_in ~ LN_AT_vol_in , jeg tror jeg kan se dem. Det er en ganske rett klynge av punkter som går diagonalt ned og til venstre fra omtrent (-.01, -1.00) ved den nedre kanten av skyen av punkter i den regionen. Jeg mistenker at det er de aktuelle punktene.

Med andre ord ser restene slik ut fordi de allerede er slik i datarommet. I hovedsak er dette det @ttnphns antyder, men jeg tror ikke det er ganske konstant i noen av de opprinnelige dimensjonene - det er en konstant i en dimensjon i en vinkel mot de opprinnelige aksene. Jeg er videre enig med @MichaelChernick i at denne tilsynelatende rettheten i restplottet sannsynligvis er ufarlig, men at dataene dine ikke er veldig normale. De er imidlertid noe normale, og du ser ut til å ha et anstendig antall data, så CLT kan dekke deg, men du vil kanskje starte opp stroppen bare i tilfelle. Til slutt vil jeg bekymre meg for at den "outlier" driver resultatene dine; en robust tilnærming er sannsynligvis fortjent.

Kan dette utsagnet ditt 'det er en konstant i en dimensjon i en vinkel til de originale aksene' være sammenlignbart med mitt 'er nøyaktig lineært avhengig av prediktoren (e)', eller mener du noe annet?

@ttnphns, Jeg savnet den delen av svaret ditt da jeg skummet det; Jeg så det "konstante" og så poengene i plottet ditt, og det var det jeg tok bort. Ja, "det er en konstant i en dimensjon ..." er logisk synlig w / "er nøyaktig lineært avhengig ...". Jeg er nå klar over at kjernepunktet mitt stort sett er det samme som ditt (+1), selv om jeg tror noen av mine andre punkter (om hvilke data som sannsynligvis er skyldige, R-strategier, robuste tilnærminger osv.) Fortsatt bidrar til diskusjonen.

Jo, svaret ditt bidro mye for meg.

Michael R. Chernick

2012-07-27 14:58:16 UTC

view on stackexchange narkive permalink

Jeg vil ikke nødvendigvis si at histogrammet er greit. Visuell overlejring av det som passer best til et histogram kan være villedende, og histogrsm kan være følsom for valget av søppelbredde. Det normale sannsynlighetsplottet ser ut til å indikere en stor avvik fra det normale, og til og med å se på histogrammet ser det for øynene ut til å være svak skjevhet (høyere frekvens i [0, + 0,5] kassen sammenlignet med [-0,5,0] kassen) og alvorlig kurtose (for stor frekvens i intervallene [-4, -3.5] og [2.5, 3]).

Når det gjelder mønsteret ser du at det kan komme fra selektiv utforsking gjennom spredningsplottet. Det ser ut som om du jakter litt mer, kan du finne to eller tre flere linjer nesten parallelt med den du valgte. Jeg synes du leser for mye inn i dette. Men ikke-normaliteten er en reell bekymring. Du har en veldig stor outlier med en rest på nesten -4. Kommer disse restene fra minst mulig kvadrat? Jeg er enig i at det kan være opplysende å se på den tilpassede linjen på et spredningsdiagram av dataene.

Jeg har lagt til delpartiene til de to IV for å kaste mer lys over dette

Jeg vil gjerne se det mest grunnleggende, den tilpassede linjen går gjennom et spredningsdiagram av dataene.