Hvilken måte (måter?) er det å visuelt forklare hva som er ANOVA?
Eventuelle referanser, lenker (r) (R-pakker?) vil bli ønsket velkommen.
Hvilken måte (måter?) er det å visuelt forklare hva som er ANOVA?
Eventuelle referanser, lenker (r) (R-pakker?) vil bli ønsket velkommen.
Personlig liker jeg å introdusere lineær regresjon og ANOVA ved å vise at det er det samme, og at lineære modeller tilsvarer å dele den totale variansen: Vi har en slags varians i utfallet som kan forklares med faktorene av interesse, pluss den uforklarlige delen (kalt 'gjenværende'). Jeg bruker generelt følgende illustrasjon (grå linje for total variabilitet, svarte linjer for gruppe- eller individuell spesifikk variabilitet):
Jeg liker også heplottene en> R-pakke, fra Michael Friendly og John Fox, men se også Visual Hypothesis Tests in Multivariate Lineær Modeller: The heplots Package for R.
Standard måter å forklare hva ANOVA faktisk gjør, særlig i Linear Model framework, veldig godt forklart i Plansvar på komplekse spørsmål, av Christensen, men det er veldig få illustrasjoner. Saville og Woods Statistiske metoder: Den geometriske tilnærmingen har noen eksempler, men hovedsakelig på regresjon. I Montgomerys Design og analyse av eksperimenter, som hovedsakelig fokuserte på DoE, er det illustrasjoner som jeg liker, men se nedenfor
(disse er mine :-)
Men jeg tror du må se etter lærebøker på lineære modeller hvis du vil se hvordan summen av kvadrater, feil osv. oversettes til et vektorrom, som vist på Wikipedia. Estimation and Inference in Econometrics, av Davidson og MacKinnon, ser ut til å ha fine illustrasjoner (1. kapittel dekker faktisk OLS-geometri), men jeg blar bare i den franske oversettelsen (tilgjengelig her) . The Geometry of Linear Regression har også noen gode illustrasjoner.
Rediger◄:
Ah, og jeg husker bare denne artikkelen av Robert Pruzek, En ny grafikk for enveis ANOVA.
Rediger 2
Og nå har granova -pakken (nevnt av @ gd047 og tilknyttet papiret ovenfor) blitt portet til ggplot, se granovaGG med en illustrasjon for enveis ANOVA nedenfor.
Hva med noe slikt?
Etter Crawley (2005). Statistikk. En introduksjon med R: Wiley.
Takk for ditt gode svar så langt. Mens de var veldig opplysende, følte jeg at det å bruke dem på kurset jeg for tiden underviser (vel, TA'ing) vil være for mye for studentene mine. (Jeg hjelper til med å undervise i kurset BioStatistics for studenter fra avanserte grader i medisinvitenskap)
Derfor endte jeg opp med å lage to bilder (Begge er simuleringsbaserte) som jeg synes er nyttige eksempler for å forklare ANOVA.
Jeg vil gjerne lese kommentarer eller forslag for å forbedre dem.
Det første bildet viser en simulering av 30 datapunkter, atskilt med tre plotter (viser hvordan MST = Var er atskilt med dataene som skaper MSB og MSW:
Det andre bildet viser fire plotter, hver for en annen kombinasjon av varians og forventning for gruppene, mens
Siden vi samler visse typer fine grafer i dette innlegget, er det en annen som jeg nylig har funnet, og som kan hjelpe deg med å forstå hvordan ANOVA fungerer og hvordan F-statistikken genereres. Grafikken ble opprettet ved hjelp av granova -pakken i R.
Ta en titt på Hadley Wickhams presentasjon ( pdf, speil) på ggplot. Fra sidene 23-40 i dette dokumentet beskriver han en interessant tilnærming til å visualisere ANOVAer.
* Link hentet fra: http://had.co.nz/ggplot2/
Flott spørsmål. Du vet, jeg har slitt med å pakke hodet rundt ANOVA i veldig lang tid. Jeg finner meg alltid tilbake til "mellom versus innen" -intuisjonen, og jeg har alltid prøvd å forestille meg hvordan dette ville se ut i hodet på meg. Jeg er glad for at dette spørsmålet kom opp, og jeg har vært overrasket over de varierte tilnærmingene til dette i svarene ovenfor. samle flere plott på ett sted der jeg kunne se hva som skjedde samtidig fra mange forskjellige retninger: 1) hvor langt fra hverandre populasjonene er, 2) hvor langt fra hverandre dataene er, 3) hvor store er mellom sammenlignet med innen , og 4) hvordan gjør sentrale kontra ikke-sentrale Sammenligner F-distribusjoner?
I en virkelig flott verden kunne jeg til og med leke med glidebrytere for å se hvordan prøvestørrelse endrer ting.
Så jeg har lekt med kommandoen manipulere
i RStudio, og hellig ku, det fungerer! Her er et av plottene, et øyeblikksbilde, egentlig:
Hvis du har RStudio, kan du få koden for å lage plottet ovenfor (glidere og alt)! på Github her.
Etter å ha spilt med dette en stund, er jeg overrasket over hvor godt F-statistikken skiller gruppene, selv for moderat små utvalgstørrelser. Når jeg ser på populasjonene, er de egentlig ikke så langt fra hverandre (for mitt øye), men "innenfor" -stangen er konsekvent dverget av "mellom" -stangen. Lær noe hver dag, antar jeg.
For å illustrere hva som skjer med enveis ANOVA har jeg noen ganger brukt en applet som tilbys av forfatterne av "Introduction to the Practice of Statistics", som lar studentene leke med innenfor og mellom avvik og observere deres effekt på F-statistikken. Her er lenken (appleten er den siste på siden). Eksempel på skjermbilde:
Brukeren kontrollerer den øverste glidebryteren, og varierer de vertikale spredningene til de tre datagruppene. Den røde prikken nederst beveger seg langs plottet av p-verdier mens F-statistikken vist nedenfor er oppdatert.
Det ser ut til at skipet allerede har seilt når det gjelder svar, men jeg tror at hvis dette er et innføringskurs som de fleste av bildene som tilbys her, vil være for vanskelig å forstå for introduksjonsstudenter ... aller minst for vanskelig å forstå uten en innledende skjerm som gir en veldig forenklet forklaring på partisjoneringsvarians. Vis dem hvordan SST-total øker med antall fag. Etter å ha vist at det er blåst opp for flere fag (kanskje å legge til en i hver gruppe flere ganger), forklar du at SST = SSB + SSW (selv om jeg foretrekker å kalle det SSE fra begynnelsen fordi det unngår forvirring når du går til undersøkelsen IMO ). Vis dem deretter en visuell fremstilling av varianspartisjoneringen, f.eks. en stor firkantet fargekodet slik at du kan se hvordan SST er laget av SSB og SSW. Deretter kan grafer som ligner på Tals eller EDi bli nyttige, men jeg er enig med EDi i at skalaen skal være SS i stedet for MS for pedagogiske formål når jeg først forklarer ting.
Her er noen representasjoner av situasjoner der en ANOVA vil konkludere med et annet passformnivå mellom $ Y $ og $ X $.