Hvordan visualiserer jeg hva ANOVA gjør?

Spørsmål:

Tal Galili

2010-12-09 03:45:46 UTC

view on stackexchange narkive permalink

Hvilken måte (måter?) er det å visuelt forklare hva som er ANOVA?

Eventuelle referanser, lenker (r) (R-pakker?) vil bli ønsket velkommen.

I bloggen sin "En psykologs innsats innen statistisk programmering" gir Kristoffer Magnusson et godt eksempel på enveis anovavisualisering ved bruk av D3.js http://rpsychologist.com/d3-one-way-anova/#comment-1891

Jeg har funnet denne fine visualiseringen av hva variansanalyse er. Det er ikke så presist som tidligere svar, men du kan spille interaktivt med visualiseringen.Fant det ganske intersting: http://students.brown.edu/seeing-theory/regression/index.html#third

Ni svar:

chl

2010-12-09 04:24:18 UTC

view on stackexchange narkive permalink

Personlig liker jeg å introdusere lineær regresjon og ANOVA ved å vise at det er det samme, og at lineære modeller tilsvarer å dele den totale variansen: Vi har en slags varians i utfallet som kan forklares med faktorene av interesse, pluss den uforklarlige delen (kalt 'gjenværende'). Jeg bruker generelt følgende illustrasjon (grå linje for total variabilitet, svarte linjer for gruppe- eller individuell spesifikk variabilitet):

alt text

Jeg liker også heplottene en> R-pakke, fra Michael Friendly og John Fox, men se også Visual Hypothesis Tests in Multivariate Lineær Modeller: The heplots Package for R.

Standard måter å forklare hva ANOVA faktisk gjør, særlig i Linear Model framework, veldig godt forklart i Plansvar på komplekse spørsmål, av Christensen, men det er veldig få illustrasjoner. Saville og Woods Statistiske metoder: Den geometriske tilnærmingen har noen eksempler, men hovedsakelig på regresjon. I Montgomerys Design og analyse av eksperimenter, som hovedsakelig fokuserte på DoE, er det illustrasjoner som jeg liker, men se nedenfor

alt text

(disse er mine :-)

Men jeg tror du må se etter lærebøker på lineære modeller hvis du vil se hvordan summen av kvadrater, feil osv. oversettes til et vektorrom, som vist på Wikipedia. Estimation and Inference in Econometrics, av Davidson og MacKinnon, ser ut til å ha fine illustrasjoner (1. kapittel dekker faktisk OLS-geometri), men jeg blar bare i den franske oversettelsen (tilgjengelig her) . The Geometry of Linear Regression har også noen gode illustrasjoner.

Rediger◄:

Ah, og jeg husker bare denne artikkelen av Robert Pruzek, En ny grafikk for enveis ANOVA.

Rediger 2

Og nå har granova -pakken (nevnt av @ gd047 og tilknyttet papiret ovenfor) blitt portet til ggplot, se granovaGG med en illustrasjon for enveis ANOVA nedenfor.

enter image description here

Er den første illustrasjonen produsert med R?

@gd047 Ja. Bør ha den stygge kildekoden et sted hvis du vil. Den andre gjøres i Metapost.

@gd047 OK, som vanlig er det alltid når vi ser etter gammel kode at vi ikke finner den (til tross for min beste innsats med grep / find), så jeg skrev om et raskt (fortsatt stygt) [R-skript] (https: // gist. github.com/736212) for det. Jeg har også satt et eksempel på [MP-koden] (https://gist.github.com/736216).

[Geometrien til lineær regresjon] (http://www.ceseephd.net/wp-content/uploads/2011/12/Projection1.pdf) lenke ser ut til å ha råtnet, dessverre.

EDi

2010-12-11 19:19:30 UTC

view on stackexchange narkive permalink

Hva med noe slikt? alt text

Etter Crawley (2005). Statistikk. En introduksjon med R: Wiley.

(+1) Jeg minner meg om `plot.design ()` (men din i en forbedret versjon :-)

Dette er det beste.

Tal Galili

2010-12-11 01:15:08 UTC

view on stackexchange narkive permalink

Takk for ditt gode svar så langt. Mens de var veldig opplysende, følte jeg at det å bruke dem på kurset jeg for tiden underviser (vel, TA'ing) vil være for mye for studentene mine. (Jeg hjelper til med å undervise i kurset BioStatistics for studenter fra avanserte grader i medisinvitenskap)

Derfor endte jeg opp med å lage to bilder (Begge er simuleringsbaserte) som jeg synes er nyttige eksempler for å forklare ANOVA.

Jeg vil gjerne lese kommentarer eller forslag for å forbedre dem.

Det første bildet viser en simulering av 30 datapunkter, atskilt med tre plotter (viser hvordan MST = Var er atskilt med dataene som skaper MSB og MSW:

Det venstre plottet viser et spredningsdiagram av dataene per gruppe.
Den midterste viser hvordan data vi skal bruke for MSB ser ut.
Det rette bildet viser hvordan dataene vi skal bruke for MSW ser ut.

alt text

Det andre bildet viser fire plotter, hver for en annen kombinasjon av varians og forventning for gruppene, mens

Den første raden med plott er for lav varians, mens den andre rad er for høy (er) varians.
Den første kolonnen med plott er for equa Jeg forventer mellom gruppene, mens den andre kolonnen viser grupper med (veldig) forskjellige forventninger.

alt text

(+1) Jeg tror alltid at takeaway-meldingene når vi underviser i ANOVA er: (1) vi har et F-forhold som gjenspeiler den relative betydningen av variansen som er beregnet av vår interesse for interesse. total varians (eller MSB / MSW hvor MSW = MST-MSB), (2) forskjellene mellom gruppen betyr er en varians, og (3) vi tester eksplisitt $ H_0: ~ \ mu_1 = \ mu_2 = \ ldots = \ mu_k $ * vs. * $ H_1: ~ \ eksisterer \ i, j ~ | ~ \ mu_i \ neq \ mu_j $ ($ H_1 \ equiv \ neg ~ H_0 $). Hvis du er i stand til å formidle disse ideene til en grafisk skjerm - noe som ser ut til å være tilfelle her--, så tror jeg du er nesten ferdig.

Hei chl, takk for positive tilbakemeldinger (og for forrige detaljerte svar)! Jeg tror noen av de største massasjene jeg tar med hjem fra å forberede materialet til denne klassen, er: 1) Hvordan beskrive transformasjonen av de originale dataene for å få tiltak for MSB og MSW. 2) Hvordan teststatistikken til MSB / MSW faktisk er en ensidig (ikke en tosidig) test der H0 er at MSB <= MSW. Til slutt tenkte jeg bare å merke at det er sant at SSW = SST-SSB (men jeg kan ikke se hvordan det er sant for MSW = MST-MSB).

Jepp, beklager at jeg skrev raskt. Jeg mente: Tenk på modellen $ y_ {ij} = \ mu + \ alpha_i + \ varepsilon_ {ij} $ eller $ y_ {ij} = \ mu_i + \ varepsilon_ {ij} $ og uthev grafisk følgende nedbrytning: $ y_ { ij} = \ bar {y_i} + \ varepsilon_ {ij} = \ bar {y} + (\ bar {y} _i- \ bar {y}) + (y_ {ij} - \ bar {y} _i) $ , det er obs. uttrykkes som avvik fra det store gjennomsnittet + gruppesnittet + svingninger rundt gruppesnittet. Deretter har vi $ (y_ {ij} - \ bar {y}) = (\ bar {y} _i- \ bar {y}) + (y_ {ij} - \ bar {y} _i) $ eller total variasjon = variasjon mellom gruppe + variasjon innen gruppe (som i utgangspunktet er ditt første bilde).

George Dontas

2010-12-11 23:33:57 UTC

view on stackexchange narkive permalink

Siden vi samler visse typer fine grafer i dette innlegget, er det en annen som jeg nylig har funnet, og som kan hjelpe deg med å forstå hvordan ANOVA fungerer og hvordan F-statistikken genereres. Grafikken ble opprettet ved hjelp av granova -pakken i R. alt text

(+1) Jeg ga en lenke til Robert Pruzeks artikkel, men jeg visste ikke at den var tilgjengelig i R.

Dimitry L

2010-12-09 08:19:57 UTC

view on stackexchange narkive permalink

Ta en titt på Hadley Wickhams presentasjon ( pdf, speil) på ggplot. Fra sidene 23-40 i dette dokumentet beskriver han en interessant tilnærming til å visualisere ANOVAer.

* Link hentet fra: http://had.co.nz/ggplot2/

user1108

2012-01-01 07:03:06 UTC

view on stackexchange narkive permalink

Flott spørsmål. Du vet, jeg har slitt med å pakke hodet rundt ANOVA i veldig lang tid. Jeg finner meg alltid tilbake til "mellom versus innen" -intuisjonen, og jeg har alltid prøvd å forestille meg hvordan dette ville se ut i hodet på meg. Jeg er glad for at dette spørsmålet kom opp, og jeg har vært overrasket over de varierte tilnærmingene til dette i svarene ovenfor. samle flere plott på ett sted der jeg kunne se hva som skjedde samtidig fra mange forskjellige retninger: 1) hvor langt fra hverandre populasjonene er, 2) hvor langt fra hverandre dataene er, 3) hvor store er mellom sammenlignet med innen , og 4) hvordan gjør sentrale kontra ikke-sentrale Sammenligner F-distribusjoner?

I en virkelig flott verden kunne jeg til og med leke med glidebrytere for å se hvordan prøvestørrelse endrer ting.

Så jeg har lekt med kommandoen manipulere i RStudio, og hellig ku, det fungerer! Her er et av plottene, et øyeblikksbilde, egentlig:

visualizeANOVA

Hvis du har RStudio, kan du få koden for å lage plottet ovenfor (glidere og alt)! på Github her.

Etter å ha spilt med dette en stund, er jeg overrasket over hvor godt F-statistikken skiller gruppene, selv for moderat små utvalgstørrelser. Når jeg ser på populasjonene, er de egentlig ikke så langt fra hverandre (for mitt øye), men "innenfor" -stangen er konsekvent dverget av "mellom" -stangen. Lær noe hver dag, antar jeg.

David

2012-01-02 05:33:47 UTC

view on stackexchange narkive permalink

For å illustrere hva som skjer med enveis ANOVA har jeg noen ganger brukt en applet som tilbys av forfatterne av "Introduction to the Practice of Statistics", som lar studentene leke med innenfor og mellom avvik og observere deres effekt på F-statistikken. Her er lenken (appleten er den siste på siden). Eksempel på skjermbilde:

enter image description here

Brukeren kontrollerer den øverste glidebryteren, og varierer de vertikale spredningene til de tre datagruppene. Den røde prikken nederst beveger seg langs plottet av p-verdier mens F-statistikken vist nedenfor er oppdatert.

russellpierce

2010-12-11 20:43:17 UTC

view on stackexchange narkive permalink

Det ser ut til at skipet allerede har seilt når det gjelder svar, men jeg tror at hvis dette er et innføringskurs som de fleste av bildene som tilbys her, vil være for vanskelig å forstå for introduksjonsstudenter ... aller minst for vanskelig å forstå uten en innledende skjerm som gir en veldig forenklet forklaring på partisjoneringsvarians. Vis dem hvordan SST-total øker med antall fag. Etter å ha vist at det er blåst opp for flere fag (kanskje å legge til en i hver gruppe flere ganger), forklar du at SST = SSB + SSW (selv om jeg foretrekker å kalle det SSE fra begynnelsen fordi det unngår forvirring når du går til undersøkelsen IMO ). Vis dem deretter en visuell fremstilling av varianspartisjoneringen, f.eks. en stor firkantet fargekodet slik at du kan se hvordan SST er laget av SSB og SSW. Deretter kan grafer som ligner på Tals eller EDi bli nyttige, men jeg er enig med EDi i at skalaen skal være SS i stedet for MS for pedagogiske formål når jeg først forklarer ting.

Martin Van der Linden

2014-02-21 00:59:37 UTC

view on stackexchange narkive permalink

Her er noen representasjoner av situasjoner der en ANOVA vil konkludere med et annet passformnivå mellom $ Y $ og $ X $.

enter image description here

ⓘ

Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 2.0-lisensen den distribueres under.

about - legalese