Trinnvis logistisk regresjon og prøvetaking

Spørsmål:

Btibert3

2010-12-11 00:42:32 UTC

view on stackexchange narkive permalink

Jeg tilpasser en trinnvis logistisk regresjon på et datasett i SPSS. I prosedyren passer jeg modellen min til et tilfeldig delmengde som er ca. 60% av det totale utvalget, som er omtrent 330 tilfeller.

Det jeg synes er interessant, er at hver gang jeg prøver ut dataene mine på nytt, får jeg forskjellige variabler som dukker inn og ut i den endelige modellen. Noen få prediktorer er alltid til stede i den endelige modellen, men andre kommer inn og ut avhengig av utvalget.

Spørsmålet mitt er dette. Hva er den beste måten å håndtere dette på? Jeg håpet å se konvergensen av prediktorvariabler, men det er ikke tilfelle. Noen modeller gir mye mer intuitiv mening fra et operativt syn (og vil være lettere å forklare beslutningstakerne), og andre passer dataene bedre.

Kort sagt, siden variabler skifter rundt, hvordan vil du anbefale å håndtere situasjonen min?

Tusen takk på forhånd.

Fem svar:

whuber

2010-12-11 01:05:02 UTC

view on stackexchange narkive permalink

Hvis du skal bruke en trinnvis prosedyre, må du ikke prøve på nytt. Lag en tilfeldig delprøve en gang for alle. Utfør analysen din på den. Valider resultatene mot utelukkede data. Det er sannsynlig at de fleste av de "betydningsfulle" variablene vil vise seg å ikke være signifikante.

( Rediger 12/2015: Du kan virkelig gå utover en så enkel tilnærming ved å prøve på nytt, trinnvis prosedyre, og re-validering: dette vil føre deg til en form for kryssvalidering. Men i et slikt tilfelle er det mer sannsynlig at mer sofistikerte metoder for variabelt utvalg, som ryggregresjon, Lasso og Elastic Net, er å foretrekke fremfor trinnvis regresjon.)

Fokuser på variablene som gir mening, ikke de som passer dataene litt bedre. Hvis du har mer enn en håndfull variabler for 330 poster, har du stor risiko for overmontering i utgangspunktet. Vurder å bruke ganske alvorlige inn- og utskrivingskriterier for trinnvis regresjon. Baser den på AIC eller $ C_p $ i stedet for terskler for $ F $ -tester eller $ t $ -tester.

(Jeg antar at du allerede har utført analysen og utforskningen for å identifisere passende omuttrykk for det uavhengige variabler, at du har identifisert sannsynlige interaksjoner, og at du har slått fast at det virkelig er et tilnærmet lineært forhold mellom logitten til den avhengige variabelen og regressorene. Hvis ikke, gjør dette viktige forarbeidet og bare deretter gå tilbake til trinnvis regresjon. )

Vær forsiktig med å følge generiske råd som jeg nettopp ga, forresten :-). Din tilnærming skal avhenge av formålet med analysen (prediksjon? Ekstrapolering? Vitenskapelig forståelse? Beslutningstaking?) Samt dataenes art, antall variabler osv.

+1 for å markere viktigheten av modelltolkning. Jeg vil ikke legge til noe om den uinformerte ML-tilnærmingen (eller ensemblemetoder) med mer komplekse kryssvalideringsskjemaer, fordi jeg føler at du allerede har sagt hva som virkelig betyr noe her: (1) funksjonsvalg gjennom resampling kan knapt tolkes i isolasjon (dvs. ved å sammenligne det ene resultatet etter det andre), og (2) alt avhenger av om vi søker etter en prediktiv eller en forklarende modell.

Takk for innsikten. Jeg har gjort noen forhåndsscreeninger for å begrense søkeområdet og vil bare finne den beste modellen for prediksjon med færrest variabler. Jeg kaster bare 7 prediktorer inn i modellen, som jeg forstår det, burde være ok. Jeg forstår ideen om å holde meg til en prøve, men på baksiden var modellen min grunnleggende annerledes og viser at resultatene er helt avhengige av prøven, noe som fikk meg til å stoppe.

@Btibert3 Right: når resultatene varierer mellom tilfeldige delmengder av dataene dine, kan du ta det som bevis på at de uavhengige variablene ikke er sterke eller konsistente prediktorer for den uavhengige variabelen.

Dikran Marsupial

2010-12-12 00:34:22 UTC

view on stackexchange narkive permalink

Et viktig spørsmål er "hvorfor vil du ha en modell med så få variabler som mulig?". Hvis du vil ha så få variabler som mulig for å minimere kostnadene ved datainnsamling for operativ bruk av modellen din, er svarene gitt av whuber og mbq en utmerket start.

Hvis prediktiv ytelse er det er veldig viktig, da er det sannsynligvis bedre at du ikke gjør noe funksjonsvalg i det hele tatt og bruker normalisert logistisk regresjon i stedet (jf. ryggregresjon). Faktisk, hvis prediktiv ytelse var det som var av største betydning, ville jeg bruke bagged regularisert logistisk regresjon som en slags "belte-og-seler" -strategi for å unngå å overmontere et lite datasett. Millar i sin bok om utvalg av delmengder i regresjon gir ganske mye rådene i vedlegget, og jeg har funnet at det er utmerket råd for problemer med mange funksjoner og ikke veldig mange observasjoner.

Hvis det er viktig å forstå dataene, er det ikke behov for at modellen som brukes til å forstå dataene, er den samme som det ble spådd. I så fall vil jeg prøve dataene flere ganger og se på mønstrene til utvalgte variabler på tvers av prøvene for å finne hvilke variabler som var informative (som mbq antyder, hvis funksjonsvalg er ustabilt, vil ikke en enkelt prøve gi det fulle bildet), men jeg ville fremdeles brukt det bagged regulariserte logistiske regresjonsmodellensemblet for spådommer.

+1 for pekeren til regulert logistisk regresjon. Det er uklart hvordan man formelt kunne "se på mønstre" når man sampler "dataene mange ganger". Det høres ut som datasnoking og virker derfor sannsynlig å føre til frustrasjon og feil.

Valg av funksjoner når utvalget er ustabilt, vil alltid være en oppskrift på frustrasjon og feil. Ved å bruke bare ett utvalg reduseres frustrasjonen, men øker sannsynligheten for feil da det oppfordrer deg til å trekke slutninger om de aktuelle funksjonene for problemet basert på hva som fungerer best på den spesifikke prøven du ser på - som er en form for over- montering. Re-sampling gir deg en ide om usikkerheten i funksjonsvalget - noe som ofte er like viktig. I dette tilfellet bør vi ikke trekke sterke konklusjoner om relevante funksjoner, da det ikke er nok data.

Godt poeng; Jeg hater når folk bare teller middel fra å prøve igjen, det er så sløsing.

user88

2010-12-12 00:04:51 UTC

view on stackexchange narkive permalink

Generelt sett er det to problemer med funksjonsvalg:

minimal optimal , der du søker etter det minste settet med variabler som gir deg den minste feilen
alle relevante , der du søker etter alle variablene som er relevante i et problem

Konvergensen av prediktorvalg er i et domene for alle relevante problem , som er helvete vanskelig og dermed krever mye kraftigere verktøy enn logistisk regresjon, tunge beregninger og en veldig forsiktig behandling.

Men det ser ut til at du gjør det første problemet, så du bør ikke bekymre deg for dette. Jeg kan generelt sette whubers svar, men jeg er uenig i påstanden om at du bør droppe resampling - her vil det ikke være en metode for å stabilisere funksjonsvalg, men likevel vil det være en simulering for å estimere ytelsen til et koblet funksjonsvalg + trening , så vil du få et innblikk i tillit til nøyaktigheten din.

+1 Jeg er bekymret for at mye prøvetaking bare vil være forvirrende og misvisende. Resampling på en kontrollert måte, via kryssvalidering eller en hold-out-prøve for verifisering, er åpenbart ikke problematisk.

mcdowella

2010-12-12 01:10:32 UTC

view on stackexchange narkive permalink

Du kan se på papiret Stability Selection av Meinshausen og Buhlmann i J R Statist. Soc B (2010) 72 Del 4, og diskusjonen etter den. De vurderer hva som skjer når du gjentatte ganger deler settet med datapunkter tilfeldig i to halvdeler og ser etter funksjoner i hver halvdel. Ved å anta at det du ser i den ene halvdelen er uavhengig av hva du ser i den matchende andre halvdelen, kan du bevise grenser for det forventede antall feilaktige valgte variabler.

Peter Flom

2012-10-01 02:52:06 UTC

view on stackexchange narkive permalink

Ikke bruk trinnvis! Se papiret mitt

ⓘ

Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 2.0-lisensen den distribueres under.

about - legalese