Jeg tviler alvorlig på om sentrering eller standardisering av de opprinnelige dataene virkelig kan redusere multikollinearitetsproblemet når kvadratiske termer eller andre interaksjonsuttrykk er inkludert i regresjonen, da noen av dere, spesielt gung, har anbefalt ovenfor.
For å illustrere poenget mitt, la oss vurdere et enkelt eksempel.
Anta at den sanne spesifikasjonen har følgende form slik at
$$ y_i = b_0 + b_1x_i + b_2x_i ^ 2 + u_i $$
Dermed tilsvarer OLS ligning er gitt av
$$ y_i = \ hat {y_i} + \ hat {u_i} = \ hat {b_0} + \ hat {b_1} x_i + \ hat {b_2} x_i ^ 2 + \ hat {u_i} $$
hvor $ \ hat {y_i} $ er den monterte verdien på $ y_i $, $ u_i $ er den gjenværende, $ \ hat {b_0} $ - $ \ hat {b_2} $ betegner OLS-estimatene for $ b0 $ - $ b2 $ - parametrene som vi til slutt er interessert i. For enkelhets skyld, la $ z_i = x_i ^ 2 $ deretter.
Vanligvis vet vi $ x $ og $ x ^ 2 $ vil sannsynligvis være sterkt korrelert, og dette vil føre til multikollinearitetsproblemet. For å redusere dette vil et populært forslag være å sentrere de opprinnelige dataene ved å trekke gjennomsnittet av $ y_i $ fra $ y_i $ før du legger til kvadratiske termer.
Det er ganske enkelt å vise at gjennomsnittet av $ y_i $ er gitt som følger: $$ \ bar {y} = \ hat {b_0} + \ hat {b_1} \ bar {x} + \ hat {b_2} \ bar {z} $$ hvor $ \ bar {y} $, $ \ bar {x} $, $ \ bar {z} $ betegner henholdsvis $ y_i $, $ x_i $ og $ z_i $.
Derfor trekker du $ \ bar {y} $ fra $ y_i $ gir
$$ y_i- \ bar {y} = \ hat {b_1} (x_i- \ bar {x}) + \ hat {b_2} (z_i- \ bar {z}) + \ hat {u_i} $$
der $ y_i- \ bar {y} $, $ x_i- \ bar {x} $ og $ z_i- \ bar {z} $ er sentrerte variabler. $ \ hat {b_1} $ og $ \ hat {b_2} $ - parametrene som skal estimeres, forblir de samme som i den opprinnelige OLS-regresjonen.
Det er imidlertid klart at i mitt eksempel, sentrerte RHS-variabler $ x $ og $ x ^ 2 $ har nøyaktig samme kovarians / korrelasjon som den usentrerte $ x $ og $ x ^ 2 $, dvs. $ \ text {corr} (x, z) = \ text {corr } (x- \ bar {x}, z- \ bar {z}) $.
Oppsummert, hvis min forståelse av sentrering er riktig, så tror jeg ikke sentreringsdata vil være til hjelp for å dempe MC-problemet forårsaket av å inkludere kvadratiske termer eller andre ordre av høyere orden i regresjon.
Jeg vil gjerne høre dine meninger!