Når skal du gjennomføre flere regresjoner, når skal du sentrere prediktorvariablene og når skal du standardisere dem?

Macro

2012-06-04 21:59:06 UTC

view on stackexchange narkive permalink

I regresjon anbefales det ofte å sentrere variablene slik at prediktorene har gjennomsnitt $ 0 $ . Dette gjør det slik at avskjæringsuttrykket tolkes som den forventede verdien av $ Y_i $ når prediktorverdiene er satt til deres middel . Ellers tolkes skjæringspunktet som den forventede verdien av $ Y_i $ når prediktorene er satt til 0, noe som kanskje ikke er en realistisk eller tolkbar situasjon (for eksempel hva hvis prediktorer var høyde og vekt?). En annen praktisk årsak til skalering ved regresjon er når en variabel har en veldig stor skala, f.eks. hvis du brukte befolkningsstørrelsen i et land som en prediktor. I så fall kan regresjonskoeffisientene være på veldig liten størrelsesorden (f.eks. $ 10 ^ {- 6} $ ) som kan være litt irriterende når du leser datamaskinutdata, så du kan konvertere variabelen til for eksempel befolkningsstørrelse i millioner. Konvensjonen om at du standardiserer spådommer eksisterer primært slik at enhetene til regresjonskoeffisientene er de samme.

Som @gung antyder og @ MånsT viser eksplisitt (+1 til begge, btw), påvirker ikke sentrering / skalering din statistiske inferens i regresjonsmodeller - estimatene justeres riktig og $ p $ -verdiene vil være de samme.

Andre situasjoner der sentrering og / eller skalering kan være nyttig:

når du prøver å summe eller gjennomsnittsvariabler som er i forskjellige skalaer, kanskje for å lage en sammensatt poengsum av noe slag. Uten skalering kan det være slik at en variabel har større innvirkning på summen utelukkende på grunn av skalaen, noe som kan være uønsket.
For å forenkle beregninger og notasjon. Eksempelvis er kovariansematrise av en matrise med verdier som er sentrert av deres eksempler, ganske enkelt $ X'X $ . Tilsvarende, hvis en univariat tilfeldig variabel $ X $ har vært middel sentrert, så $ {\ rm var} (X) = E (X ^ 2) $ og variansen kan estimeres fra et utvalg ved å se på eksemplets gjennomsnitt av kvadratene til de observerte verdiene.
Relatert til nevnte, PCA kan bare tolkes som dekomponering av enestående verdi av en datamatrise når kolonnene først har blitt sentrert ved hjelp av deres midler.

Merk at skalering ikke er nødvendig i de to siste punktene jeg nevnte og sentrering kan ikke være nødvendig i den første punkten jeg nevnte, så de to trenger ikke å gå hånd og hånd til enhver tid.

+1, dette er gode poeng jeg ikke tenkte på. For klarhetens skyld, la meg liste opp noen konkrete eksempler der en forsker kanskje vil kombinere forklarende variabler før en regresjon kjøres, og dermed trenger å standardisere. En sak kan være for forskning på barns atferdslidelser; forskere kan få rangeringer fra både foreldre og lærere, og deretter ønsker å kombinere dem til et enkelt mål på feiljustering. En annen sak kan være en studie på aktivitetsnivået på et sykehjem med egenvurdering av beboere og antall signaturer på registreringsark for aktiviteter.

Men skal vi i teorien ikke bruke populasjonsgjennomsnitt og standardavvik for sentrering / skalering? I praksis er det så enkelt som å bruke eksemplets middel / SD, eller er det mer til det?

For fullstendighets skyld, la meg legge til dette fine svaret at $ X'X $ av den sentrerte og standardiserte $ X $ er korrelasjonsmatrisen.

@AlefSin: det kan være lurt å bruke noe annet enn befolkningens gjennomsnitt / sd, se svaret mitt. Men poenget ditt med at vi skal tenke hva vi skal bruke til sentrering / skalering er veldig bra.

@AlefSin, alle kommentarene mine ble gitt forutsatt at du brukte eksemplets gjennomsnitt / SD. Hvis du sentrerer ved prøven, betyr tolkningen av skjæringspunktet fortsatt den samme, bortsett fra at det er den forventede verdien på $ Y_ {i} $ når prediktorene er satt til deres ** eksempler betyr **. Informasjonen i de tre punktene mine gjelder fremdeles når du sentrerer / skalerer etter antall prøver. Det er også verdt å merke seg at hvis du sentrerer ved eksemplets middelverdi, er resultatet en variabel med gjennomsnitt 0, men skalering med prøvenes standardavvik gir generelt ikke et resultat med standardavvik 1 (f.eks. T-statistikken).

@cbeleites som innebærer å senke korrelasjonen mellom estimater $ \ left \ vert \ mathrm {corr} (\ beta_i, \ beta_j) \ right \ vert $

Er det en god idé å standardisere variabler som er veldig skjevt, eller er det bedre å bare standardisere symmetrisk fordelte variabler? Bør vi bare standardisere inngangsvariablene eller også resultatene?

Kan du forklare den siste kula?Jeg får når du sentrerer datamatrisen først, gjør SVD ($ U \ Sigma V ^ T $), så er U-matrisen bare egenvektorene til kovariansematrisen til den sentrerte datamatrisen.Men hvis du ikke sentrerer det, kan du fortsatt tolke SVD som dekomponeringsvektorene for singulvarverdien bare slik at matrisen V inneholder disse vektorene nå.Mangler jeg noe her?Her er en artikkel som jeg synes pent viser hvordan du uten å sentrere datamatrisen fortsatt kan tolke den slik: https://jeremykun.com/2016/05/16/singular-value-decomposition-part-2-theorem-proof-algoritme /

gung - Reinstate Monica

2012-06-04 21:51:27 UTC

view on stackexchange narkive permalink

Du har kommet over en felles tro. Generelt sett trenger du imidlertid ikke å sentrere eller standardisere dataene dine for flere regresjoner. Ulike forklaringsvariabler er nesten alltid på forskjellige skalaer (dvs. målt i forskjellige enheter). Dette er ikke noe problem; betaene blir estimert slik at de konverterer enhetene til hver forklarende variabel til enhetene i responsvariabelen på riktig måte. En ting som noen ganger sier er at hvis du har standardisert variablene dine først, kan du tolke betaene som mål av betydning. Hvis for eksempel $ \ beta_1 = .6 $ , og $ \ beta_2 = .3 $ , den første forklaringsvariabelen er dobbelt så viktig som den andre. Selv om denne ideen er tiltalende, er den dessverre ikke gyldig. Det er flere problemer, men det enkleste å følge er kanskje at du ikke har noen måte å kontrollere mulige rekkevidde i variablene. Å utlede "viktigheten" av forskjellige forklaringsvariabler i forhold til hverandre er et veldig vanskelig filosofisk spørsmål. Ingenting av det er å antyde at standardisering er dårlig eller feil , bare at det vanligvis ikke er nødvendig .

Det eneste tilfellet jeg kan tenke meg på toppen av hodet mitt der sentrering er nyttig, er før jeg lager maktvilkår. La oss si at du har en variabel, $ X $ , som varierer fra 1 til 2, men du mistenker et krøllete forhold til svarvariabelen, og så vil du lage en $ X ^ 2 $ termin. Hvis du ikke sentrerer $ X $ først, vil den kvadratiske termen din være sterkt korrelert med $ X $ , som kan gjørme estimeringen av beta. Sentrering først løser dette problemet.

(Oppdatering lagt til mye senere :) En analog sak som jeg glemte å nevne, er å skape interaksjon vilkår. Hvis et samspill / produktuttrykk opprettes fra to variabler som ikke er sentrert på 0, vil en viss mengde kollinearitet bli indusert (med den nøyaktige mengden avhengig av forskjellige faktorer). Sentrering først løser dette potensielle problemet. For en mer utfyllende forklaring, se dette utmerkede svaret fra @Affine: Kollinearitetsdiagnostikk bare problematisk når samhandlingsbegrepet er inkludert.

Hvis noen er interessert, snakker jeg også om den feilaktige ideen om å bruke standardiserte betaer for å utlede relativ "betydning" her: [multiple-linear-regression-for-hypothesis-testing] (http://stats.stackexchange.com/questions/ 25690/25707 # 25707)

Belsley, Kuh og Welsch har en gjennomtenkt analyse av denne situasjonen i sin bok fra 1980 * Regression Diagnostics. (Se vedlegg 3B for detaljer.) De konkluderer med at du er feil med at skalering ikke hjelper.Analysen deres er i form av * numerisk stabilitet * av løsningsprosedyren, som måles i form av tilstandsnummeret til datamatrisen $ X $.Dette tilstandstallet kan være veldig høyt når variabler måles på skalaer med forskjellige områder.Omskalering vil da absorbere det meste av "dårskapen" i $ X $ innenfor skaleringsfaktorene.Det resulterende problemet vil være mye bedre betinget.

Om beta1 = 0,6 og beta2 = 0,3, jeg er ikke sikker på om det å si beta1 er like dobbelt så viktig som beta2 er passende, men jeg trodde at siden de er standardiserte, er de på samme "skala", dvs. enheter er standardavvikfra gjennomsnittet.Når det er sagt, vil responsen til Y være to ganger høyere i tilfelle beta1 (holder x2 konstant) enn for beta2 (holder x1 konstant).Ikke sant?Eller har jeg misforstått noe på veien?

@chao, du har egentlig ikke blitt kvitt enhetene som er iboende for de to variablene;du har nettopp skjult dem.Nå er enhetene på X1 per 13,9 cm, og enhetene på X2 er per 2,3 grader Celsius.

Noen regresjonsbiblioteker som lme4 ber deg om å standardisere variablene når det er konvergensproblemer.

Dette svaret skal nevne at standardisering er nødvendig når du bruker regularisering, tror du ikke?Det gir inntrykk av at det ikke er det.

Dette svaret på når R ^ 2 er nyttig ser ut til å si at skalering er nyttig for å gjøre R ^ 2 mer nøyaktig til å representere variansen i rester: https://stats.stackexchange.com/a/13317/184050.Virker som en annen grunn til å skalere?

@skeller88, Hvis du vil skalere, fortsett.Det endrer egentlig ingenting.Hvis du vil ha variansen til restene, kan du prøve å tilnærme det bedre med noe annet, eller du kan bare få variansen til restene.Uansett, gjør som du vil.

MånsT

2012-06-04 22:02:34 UTC

view on stackexchange narkive permalink

I tillegg til merknadene i de andre svarene, vil jeg påpeke at skalaen og plasseringen av de forklarende variablene ikke påvirker gyldigheten til regresjonsmodellen på noen måte.

Vurder modellen $ y = \ beta_0 + \ beta_1x_1 + \ beta_2x_2 + \ ldots + \ epsilon $.

estimatorene for minste kvadrat for $ \ beta_1, \ beta_2, \ ldots $ påvirkes ikke av skifting. Årsaken er at dette er bakken på den passende overflaten - hvor mye overflaten endres hvis du endrer $ x_1, x_2, \ ldots $ en enhet. Dette avhenger ikke av beliggenhet. (Estimatoren på $ \ beta_0 $ gjør det imidlertid.)

Ved å se på ligningene for estimatorene kan du se at skalering av $ x_1 $ med en faktor $ a $ skalerer $ \ hat {\ beta } _1 $ med en faktor $ 1 / a $. For å se dette, vær oppmerksom på at

$$ \ hat {\ beta} _1 (x_1) = \ frac {\ sum_ {i = 1} ^ n (x_ {1, i} - \ bar {x } _1) (y_i- \ bar {y})} {\ sum_ {i = 1} ^ n (x_ {1, i} - \ bar {x} _1) ^ 2}. $$

Dermed

$$ \ hat {\ beta} _1 (ax_1) = \ frac {\ sum_ {i = 1} ^ n (ax_ {1, i} -a \ bar {x} _1) (y_i- \ bar {y})} {\ sum_ {i = 1} ^ n (ax_ {1, i} -a \ bar {x} _1) ^ 2} = \ frac {a \ sum_ {i = 1 } ^ n (x_ {1, i} - \ bar {x} _1) (y_i- \ bar {y})} {a ^ 2 \ sum_ {i = 1} ^ n (x_ {1, i} - \ bar {x} _1) ^ 2} = \ frac {\ hat {\ beta} _1 (x_1)} {a}. $$

Ved å se på den tilsvarende formelen for $ \ hat {\ beta } _2 $ (for eksempel) er det (forhåpentligvis) klart at denne skaleringen ikke påvirker estimatorene for de andre bakkene.

Således tilsvarer skalering bare skalering av de tilsvarende bakkene.

Som gung påpeker, liker noen mennesker å omskalere med standardavviket i håp om at de vil kunne tolke hvor "viktige" de forskjellige variablene er. Selv om denne praksisen kan settes spørsmålstegn ved, kan det bemerkes at dette tilsvarer å velge $ a_i = 1 / s_i $ i beregningene ovenfor, hvor $ s_i $ er standardavviket på $ x_1 $ (som i en merkelig ting å si for å begynne med, siden $ x_i $ antas å være deterministisk).

Er det en god ide å standardisere variabler som er veldig skjevt, eller er det bedre å bare standardisere symmetrisk fordelte variabler? Skal vi bare standardisere inngangsvariablene eller også resultatene?

mogron

2012-06-05 16:55:58 UTC

view on stackexchange narkive permalink

Hvis du bruker gradientnedstigning for å passe til modellen din, kan standardisering av kovariater øke hastigheten på konvergensen (for når du har ikke-skalerte kovariater, kan de korresponderende parametrene dominere gradienten uhensiktsmessig). For å illustrere dette, noen R-koder:

  > mål <- funksjon (par) {par [1] ^ 2 + par [2] ^ 2} # kvadratisk funksjon i to variabler med et minimum ved (0,0) > optim (c (10,10), objektiv, metode = "BFGS") $ teller #returner antall ganger funksjonen og dens gradient måtte evalueres til konvergensfunksjonsgradient 12 3 > mål2 < - funksjon (par) {par [1] ^ 2 + 0.1 * par [2] ^ 2} #a transformasjon av ovennevnte funksjon, tilsvarende uskalerte kovariater> optim (c (10,10), objektiv2, metode = "BFGS" ) $ tellingsfunksjon gradient 19 10 > optim (c (10,1), objektiv2, metode = "BFGS") $ tellinger #skalering av innledende parametere får deg ikke tilbake til original ytelsesfunksjon gradient 12 8

Også for noen applikasjoner av SVM-er kan skalering forbedre prediktiv ytelse: Funksjonsskalering i støttevektordatabeskrivelse.

cbeleites unhappy with SX

2012-06-05 16:00:35 UTC

view on stackexchange narkive permalink

Jeg foretrekker "solide grunner" for både sentrering og standardisering (de eksisterer veldig ofte). Generelt har de mer å gjøre med datasettet og problemet enn med dataanalysemetoden.

Svært ofte foretrekker jeg å sentrere (dvs. forskyve opprinnelsen til dataene) til andre punkter som er fysisk / kjemisk / biologisk / ... mer meningsfull enn gjennomsnittet (se også Makros svar), f.eks

gjennomsnittet av en kontrollgruppe
blankt signal

Numerisk stabilitet er en algoritmerelatert grunn til å sentrere og / eller skalere data.

Ta også en titt på det lignende spørsmålet om standardisering. Som også dekker "bare sentrum".

Sean

2014-08-15 17:29:45 UTC

view on stackexchange narkive permalink

For å illustrere det numeriske stabilitetsproblemet som er nevnt av @cbeleites, er det et eksempel fra Simon Wood på hvordan du kan "bryte" lm () . Først genererer vi noen enkle data og passer til en enkel kvadratisk kurve.

  set.seed (1); n <- 100xx <- sort (runif (n)) y <- .2 * (xx-.5) + (xx-.5) ^ 2 + rnorm (n) *. 1x <- xx + 100b <- lm (y ~ x + I (x ^ 2)) plot (x, y) linjer (x, forutsi (b), col = 'rød')

enter image description here

Men hvis vi legger 900 til X, så bør resultatet være stort sett det samme bortsett fra skiftet til høyre, ikke? Dessverre ikke ...

  X <- x + 900B <- lm (y ~ X + I (X ^ 2)) linjelinjer (X, y) (X, forutsi (B) , col = 'blue')

enter image description here

Edit for å legge til kommentaren av @Scortchi - hvis vi ser på objekt returnert av lm () ser vi at det kvadratiske begrepet ikke er estimert og vises som NA.

  > BCall: lm (formel = y ~ X + I (X ^ 2)) Koeffisienter: (Intercept) XI (X ^ 2) -139.3927 0.1394 NA

Og som foreslått av @Scortchi, hvis vi ser på modellmatrisen og prøver å løse direkte, "bryter den ".

  > X <- model.matrix (b) ## få samme modellmatrise som brukes ovenfor> beta.hat <- løse (t (X)% *% X, t (X) % *% y) ## direkte løsning av 'normale ligninger' Feil i løse. standard (t (X)% *% X, t (X)% *% y): systemet er beregningsvis entall: gjensidig tilstandstall = 3.9864e -19

lm () gir meg imidlertid ingen advarsler eller annen feilmelding enn NA s på I (X ^ 2) -linjen i -sammendrag (B) i R-3.1.1. algoritmer kan selvfølgelig "ødelegges" på forskjellige måter med forskjellige eksempler.

(+1) Merk `lm` unnlater å estimere en koeffisient for kvadratiske begrepet, og gir en advarsel om en enestående designmatrise - kanskje mer direkte illustrerende for problemet enn disse plottene.

Hvordan kan vi forstå årsaken bak dette "bruddet"?Er det bare på grunn av avrundingsfeil / flytepunktsregning?

@Scortchi-ReinstateMonica Dette svaret er hyggelig siden det viser et problematisk problem, men det er ikke gitt noe innblikk i hvorfor det å legge 900 til X forårsaker dårlig kondisjonering.Er det noen som vet hvorfor det skjer?

rudi0086021

2014-03-12 12:29:08 UTC

view on stackexchange narkive permalink

Jeg tviler alvorlig på om sentrering eller standardisering av de opprinnelige dataene virkelig kan redusere multikollinearitetsproblemet når kvadratiske termer eller andre interaksjonsuttrykk er inkludert i regresjonen, da noen av dere, spesielt gung, har anbefalt ovenfor.

For å illustrere poenget mitt, la oss vurdere et enkelt eksempel.

Anta at den sanne spesifikasjonen har følgende form slik at

$$ y_i = b_0 + b_1x_i + b_2x_i ^ 2 + u_i $$

Dermed tilsvarer OLS ligning er gitt av

$$ y_i = \ hat {y_i} + \ hat {u_i} = \ hat {b_0} + \ hat {b_1} x_i + \ hat {b_2} x_i ^ 2 + \ hat {u_i} $$

hvor $ \ hat {y_i} $ er den monterte verdien på $ y_i $, $ u_i $ er den gjenværende, $ \ hat {b_0} $ - $ \ hat {b_2} $ betegner OLS-estimatene for $ b0 $ - $ b2 $ - parametrene som vi til slutt er interessert i. For enkelhets skyld, la $ z_i = x_i ^ 2 $ deretter.

Vanligvis vet vi $ x $ og $ x ^ 2 $ vil sannsynligvis være sterkt korrelert, og dette vil føre til multikollinearitetsproblemet. For å redusere dette vil et populært forslag være å sentrere de opprinnelige dataene ved å trekke gjennomsnittet av $ y_i $ fra $ y_i $ før du legger til kvadratiske termer.

Det er ganske enkelt å vise at gjennomsnittet av $ y_i $ er gitt som følger: $$ \ bar {y} = \ hat {b_0} + \ hat {b_1} \ bar {x} + \ hat {b_2} \ bar {z} $$ hvor $ \ bar {y} $, $ \ bar {x} $, $ \ bar {z} $ betegner henholdsvis $ y_i $, $ x_i $ og $ z_i $.

Derfor trekker du $ \ bar {y} $ fra $ y_i $ gir

$$ y_i- \ bar {y} = \ hat {b_1} (x_i- \ bar {x}) + \ hat {b_2} (z_i- \ bar {z}) + \ hat {u_i} $$

der $ y_i- \ bar {y} $, $ x_i- \ bar {x} $ og $ z_i- \ bar {z} $ er sentrerte variabler. $ \ hat {b_1} $ og $ \ hat {b_2} $ - parametrene som skal estimeres, forblir de samme som i den opprinnelige OLS-regresjonen.

Det er imidlertid klart at i mitt eksempel, sentrerte RHS-variabler $ x $ og $ x ^ 2 $ har nøyaktig samme kovarians / korrelasjon som den usentrerte $ x $ og $ x ^ 2 $, dvs. $ \ text {corr} (x, z) = \ text {corr } (x- \ bar {x}, z- \ bar {z}) $.

Oppsummert, hvis min forståelse av sentrering er riktig, så tror jeg ikke sentreringsdata vil være til hjelp for å dempe MC-problemet forårsaket av å inkludere kvadratiske termer eller andre ordre av høyere orden i regresjon.

Jeg vil gjerne høre dine meninger!

Takk for ditt bidrag, @rudi0086021. Du kan ha rett, men jeg ser et par problemer her. For det første handler sentrering om å trekke gjennomsnittet av ** x **, ikke om å trekke gjennomsnittet av ** y **; For det andre må du sentrere først, sentrering av etterord har ingen effekt som du bemerker. Tenk på: `x = c (1,2,3); x2 = x ^ 2; cor (x, x2); # [1] 0.9897433; xc = c (-1,0,1); xc2 = xc ^ 2; cor (xc, xc2) # [1] 0 '.

Takk for svaret ditt, @gung. Her er tankene mine. For det første så jeg personlig ingen overbevisende grunn til å behandle avhengige og uavhengige variabler forskjellig, det vil si uavhengige variabler, mens jeg ikke gjorde det for avhengige variabler.

For det andre, som du sa, kanskje vi bør sentrere dataene før vi oppretter kvadratiske vilkår. En slik praksis vil redusere MC-problemet. Imidlertid kan det føre til partiske estimater, eller mer konkret, den utelatte variabel bias (OVB). For å illustrere, se følgende eksempel: anta at den sanne spesifikasjonen er: y = b0 + b1 * x + b2 * x ^ 2 + u. Sentrering av dataene på forhånd vil gi: y = b0 + b1 * (x-xhar) + b2 * (x-xbar) ^ 2 + v, der det nye feiluttrykket v = u + b1 * xbar-b2 * xbar ^ 2 + 2b2 * xbar * x. Det er klart at cov (x-xbar, v)! = 0. Dermed vil sentrering av data på forhånd dessverre føre til partiske estimater.

@rudi0086021 Det ser ut som i den siste kommentaren du antar at du vil få de samme koeffisientene når du tilpasser de sentrerte dataene som du ville ha gjort når du tilpasser de usentrerte dataene.Men sentrering før du tar torget er ikke et enkelt skifte konstant, så man bør ikke forvente å få de samme koeffisientene.Den beste passformen etter sentrering er gitt av B0 + B1 * (x-xbar) + B2 * (x-xbar) ^ 2 hvor B0 = b0 + b1 * xbar + b2 * xbar ^ 2, B1 = b1 + 2 * b2 *xbar og B2 = b2.Dermed v = u.Beklager å svare på denne kommentaren så sent, men det kan alltid være andre som meg som ser det for første gang i dag.