Spørsmål:
Forklar modelljustering, på vanlig engelsk
radek
2010-10-24 18:58:02 UTC
view on stackexchange narkive permalink

Når jeg leser om metoder og resultater av statistisk analyse, spesielt innen epidemiologi, hører jeg veldig ofte om justering eller kontrollere modellene.

Hvordan vil du forklare, til en ikke-statistiker, formålet med det? Hvordan tolker du resultatene dine etter å ha kontrollert for en viss variabel?

Liten gjennomgang i Stata eller R, eller en peker til en online, er en sann perle.

To svar:
onestop
2010-10-24 20:20:40 UTC
view on stackexchange narkive permalink

Lettest å forklare ved hjelp av et eksempel:

Se for deg at studien finner ut at folk som så verdensmesterskapets finale var mer sannsynlig å få et hjerteinfarkt i løpet av kampen eller i løpet av det påfølgende døgnet enn de så ikke på det. Bør regjeringen forby fotball fra TV? Men menn er mer sannsynlig å se fotball enn kvinner, og menn er også mer sannsynlig å få et hjerteinfarkt enn kvinner. Så sammenhengen mellom fotballkikk og hjerteinfarkt kan forklares med en tredje faktor som sex som påvirker begge deler. (Sosiologer vil her skille mellom kjønn , en kulturell konstruksjon som er assosiert med fotballkikking, og sex , en biologisk kategori som er assosiert med forekomst av hjerteinfarkt, men to er tydelig veldig sterkt korrelert, så jeg kommer til å ignorere det skillet for enkelhet.)

Statistikere, og spesielt epidemiologer, kaller en slik tredje faktor en confounder , og fenomenet forvirrende . Den mest åpenbare måten å fjerne problemet på er å se på sammenhengen mellom fotballobservasjon og hjerteinfarktforekomst hos menn og kvinner hver for seg, eller i sjargongen, å stratifisere etter kjønn. Hvis vi finner ut at foreningen (hvis det fremdeles er en) er lik hos begge kjønn, kan vi velge å kombinere de to estimatene av foreningen på tvers av de to kjønnene. Det resulterende estimatet av sammenhengen mellom fotballkikking og forekomst av hjerteinfarkt sies da å være justert eller kontrollert for sex.

Vi vil sannsynligvis også ønske å kontrollere andre faktorer på samme måte. Alder er en annen åpenbar (faktisk epidemiologer enten stratifiserer eller justerer / kontrollerer nesten alle foreninger etter alder og kjønn). Sosioøkonomisk klasse er sannsynligvis en annen. Andre kan bli vanskeligere, f.eks. skal vi justere for ølforbruk mens vi ser kampen? Kanskje ja, hvis vi er interessert i effekten av stresset å se kampen alene; men kanskje nei, hvis vi vurderer å forby kringkasting av verdenscupfotball og det også vil redusere ølforbruket. Hvorvidt en gitt variabel er en sammenblander eller ikke, avhenger av nøyaktig hvilket spørsmål vi ønsker å ta opp, og dette kan kreve veldig nøye tanke og bli ganske vanskelig og til og med omstridt.

Det er klart at vi kanskje ønsker å justere / kontrollere for flere faktorer, hvorav noen kan måles i flere kategorier (f.eks. sosial klasse), mens andre kan være kontinuerlige (f.eks. alder). Vi kunne håndtere de kontinuerlige ved å dele inn i (alders-) grupper, og derved gjøre dem til kategoriske. Så si at vi har 2 kjønn, 5 sosiale klassegrupper og 7 aldersgrupper. Vi kan nå se på sammenhengen mellom fotballobservasjon og hjerteinfarktforekomst i 2 × 5 × 7 = 70 lag. Men hvis studien vår er ganske liten, så noen av disse lagene inneholder svært få mennesker, kommer vi til å støte på problemer med denne tilnærmingen. Og i praksis vil vi kanskje justere for et dusin eller flere variabler. En alternativ måte å justere / kontrollere for variabler som er spesielt nyttig når det er mange av dem, er gitt av regresjonsanalyse med flere avhengige variabler, noen ganger kjent som multivariabel regresjonsanalyse. (Det er forskjellige typer regresjonsmodeller, avhengig av typen utfallsvariabel: minste kvadraters regresjon, logistisk regresjon, proporsjonal fare (Cox) regresjon ...). I observasjonsstudier, i motsetning til eksperimenter, ønsker vi nesten alltid å justere for mange potensielle forvirrende, så i praksis blir justering / kontroll for forvirrende ofte gjort ved regresjonsanalyse, selv om det også er andre alternativer, som standardisering, vekting, tilbøyelighet score samsvar ...

+1 (selv om det fortjener +3 i det minste) - veldig grundig og omfattende. Gjorde hele saken mye tydeligere for meg. Takk!
"En alternativ måte å justere / kontrollere variabler som er spesielt nyttig når det er mange av dem, er gitt av regresjonsanalyse med flere avhengige variabler, noen ganger kjent som multivariabel regresjonsanalyse."skal det være "uavhengig" eller misforstår jeg?og er mer vanlig sjargong for dette, "multippel regresjon"?(jeg vet det er diskutabelt)
Matt Albrecht
2010-10-24 22:43:38 UTC
view on stackexchange narkive permalink

Onestop forklarte det ganske bra, jeg skal bare gi et enkelt R-eksempel med sammensatte data. Si at x er vekt og y er høyde, og vi vil finne ut om det er en forskjell mellom menn og kvinner:

  set.seed (69) x <- rep (1: 10,2 ) y <- c (jitter (1:10, faktor = 4), (jitter (1:10, faktor = 4) +2)) sex <- rep (c ("f", "m"), hver = 10) df1 <- data.frame (x, y, sex) med (df1, plot (y ~ x, col = c (1,2) [sex])) lm1 <- lm (y ~ sex, data = df1 ) lm2 <- lm (y ~ sex + x, data = df1) anova (lm1); anova (lm2)  

Du kan se at uten å kontrollere for vekt (i anova (lm1)) er det veldig liten forskjell mellom kjønnene, men når vekten er inkludert som et kovariat (kontrollert for i lm2) blir forskjellen tydeligere.

  # Hvis du vil legge til de monterte linjene i plotcoefs2 <- coef (lm2) abline (coefs2 [1], coefs2 [3], col = 1) abline (coefs2 [1] + coefs2 [2], coefs2 [3], col = 2)  


Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 2.0-lisensen den distribueres under.
Loading...