Spørsmål:
Hvor robust er de uavhengige prøvenes t-test når fordelingen av prøvene ikke er normal?
Archaeopteryx
2012-10-09 05:29:25 UTC
view on stackexchange narkive permalink

Jeg har lest at t -testen er "rimelig robust" når fordelingen av prøvene avviker fra normaliteten. Selvfølgelig er det samplingsfordelingen av forskjellene som er viktige. Jeg har data for to grupper. En av gruppene er sterkt skjev på den avhengige variabelen. Prøvestørrelsen er ganske liten for begge gruppene (n = 33 i den ene og 45 i den andre). Skal jeg anta at t -testen under disse forholdene vil være robust mot brudd på normalitetsforutsetningen?

"Selvfølgelig er det samplingsfordelingen av forskjellene som er viktige" - Forskjeller i hva?Jeg var fristet til å redigere dette utenom spørsmålet, da jeg frykter at det er misvisende for fremtidige lesere (og tangensielt for hovedpoenget).Min første tanke var at det var en feil referanse til en * parret * * t * -test, der vi antar at forskjellene mellom parene er normale, men det gjelder ikke i en uavhengig prøvetest.Vi har ikke engang par å skille!Kanskje "forskjell i midlene" er ment?Resten av Q vurderer normaliteten til de to prøvene, ikke noen forskjeller.
Spørsmålet om hvor robust * t * -testen er for slike brudd er et viktig og legitimt spørsmål.Men et relatert problem er at det ikke anbefales å se etter brudd på dataene dine, og bare * deretter * bestemme om du skal bruke en * t * -test eller en alternativ test.En slik flertrinnsprosedyre har usikre driftsegenskaper.Se denne tråden: [En prinsipiell metode for å velge mellom t-test eller ikke-parametrisk f.eks.Wilcoxon i små prøver] (http://stats.stackexchange.com/questions/121852/a-principled-method-for-choosing-between-t-test-or-non-parametric-e-g-wilcoxon)
Hva er en troverdig kilde?(Jeg antar at vi begge er enige om at det ikke er noe som heter en offisiell kilde).Ser vi på nivå-robusthet eller også kraft?Og hvis 'også makt' ... [hva slags alternativ snakker vi om] (http://stats.stackexchange.com/questions/71302/power-of-a-mann-whitney-test-compared-to-at-test / 71305 # 71305)?
@Glen_b Beklager, den "offisielle kildene" -meldingsmeldingen er tydeligvis mer for StackOverflow!Jeg føler bare at denne tråden er praktisk viktig (pluss ganske høy trafikk og dårlig på Wikipedia) for å fortjene noen sitater.Den "kanoniske svaret" -premien ville være upassende, slik Peter Floms svar viser tydelig.Jeg får en følelse av at det er en "felles kunnskap" om dette emnet - hvis jeg hadde blitt spurt om dette Q, ville listen min se ut som [Dallals] (http://www.jerrydallal.com/LHSP/STUDENT.HTM) (Jeg vil ha lagt til kurtosis, men ikke våget at lik prøvestørrelse beskytter mot generell ikke-normalitet)
@Glen_b Ditt svar bryter en lignende vene, så det ser ut til at det er noen grunnleggende punkter som er allment kjent / akseptert.Min grad dekket antagelser, men ikke konsekvenser av brudd: Min kunnskap er hentet fra forskjellige kilder, biter og bobs spredt rundt ("statistikk for psykologer" -type bøker kan være mer oppmerksomme på konsekvenser enn mange statistiske teoritekster) - ellers hadde jeg lagt utet svar ikke en dusør!Hvis noen kjenner til et anstendig sammendrag på en side i en god lærebok, ville det gjort meg bra.Hvis det er et par papirer med simuleringsresultater, er det også greit.Alt fremtidige lesere kan henvise til og sitere.
Jeg tenker på å legge ut et svar som forklarer hvorfor det er lite sannsynlig at et virkelig tilfredsstillende svar kommer ut - det vil si at hvis du får et som du høres ut som om du er ute etter, vil det sannsynligvis ha noen feil.
@Glen_b Det virker for meg (1) tommelfingerregler er av * veldig * begrenset bruk;(2) hvis noen virkelig bryr seg om virkningen av et bestemt brudd, simuler det;(3) hvis du er så bekymret for brudd, bør du seriøst vurdere et alternativ til * t * -testing uansett (forutsatt at dette er dine egne data / analyse: bildet er annerledes hvis du ser på andres skrivingog lurer på i hvilken grad de kan være gyldige).Men jeg regner også med at mulige bivirkninger av antagelsesbrudd for de vanligste statistiske testene er i kategorien "alle som jobber med data burde vite".
@Glen_b Ditt eksisterende svar dekker vanlige tommelfingerregler, * og * hekker dem tungt (ingen vil bli villedet til å tro at de kan "bevise" at en * t * -test er gyldig) - virker en god tilnærming for meg.De er ikke helt ubrukelige: hvis du leser en artikkel med en * t * -test til tross for histogrammer med motsatte skjevheter, kan den ringe alarmklokker.Å vite * p * -verdier kan bli sterkt påvirket av antagelsesbrudd kan avverge "tillit til CLT for å gjøre det hele bedre" syndrom ("n> 30, så det er OK!").Hvis det er verdt å nevne disse effektene, er det sannsynligvis verdt å referere til dem.Jeg tror sitater vil gi leserne mye verdi.
[Dette spørsmålet om skjevhet og kurtose i ANOVA] (http://stats.stackexchange.com/questions/131171/departure-from-normality-assumption-in-anova-is-kurtosis-or-skewness-more-impor) ernært knyttet til denne, siden de uavhengige prøvene * t * -testen egentlig er en enveis ANOVA med to grupper.
Fem svar:
Peter Flom
2012-10-09 05:36:14 UTC
view on stackexchange narkive permalink

Spørsmål om robusthet er veldig vanskelig å svare godt på - fordi antagelsene kan bli brutt på så mange måter, og på hver måte i ulik grad. Simuleringsarbeid kan bare prøve en veldig liten del av de mulige bruddene.

Gitt databehandlingstilstanden, tror jeg det ofte er verdt tiden å kjøre både en parametrisk og en ikke -parametrisk test, hvis begge er tilgjengelige. Du kan deretter sammenligne resultatene.

Hvis du virkelig er ambisiøs, kan du til og med gjøre en permutasjonstest.

Hva om Alan Turing hadde gjort jobben sin før Ronald Fisher gjorde sitt? :-).

Peter, du har inspirert meg til å skrive historisk fiksjon for å svare på akkurat det spørsmålet!
Glen_b
2012-10-09 05:55:32 UTC
view on stackexchange narkive permalink

@PeterFlom traff spikeren død med sin første setning.

Jeg prøver å gi en grov oppsummering av hvilke studier jeg har sett (hvis du vil ha lenker kan det være en stund):

Samlet sett er de to prøvene t-testen rimelig makt-robust til symmetrisk ikke-normalitet (den sanne type-I-feilraten påvirkes noe av kurtosis, kraften blir mest påvirket av det). / p>

Når de to prøvene er litt skjev i samme retning, er ikke den ensidige t-testen ikke lenger objektiv. T-statistikken er skjev motsatt av fordelingen, og har mye mer kraft hvis testen er i en retning enn om den er i den andre. Hvis de er skjev i motsatt retning, kan type I-feilfrekvensen påvirkes sterkt.

Tung skjevhet kan ha større innvirkning, men generelt sett moderat skjevhet med en tosidig test er ikke så ille hvis du ikke har noe imot testen din, i hovedsak å tildele mer av kraften til den ene retningen som den andre.

Kort sagt - den tosidede, to-prøven t-testen er rimelig robust mot slike ting hvis du tåler en viss innvirkning på signifikansnivået og noe mild forspenning.

Det er mange, mange måter for distribusjoner å være ikke-normale, men de er ikke dekkes ikke av disse kommentarene.

Jeg er ikke sikker på at det er riktig å si at det er rimelig kraft-robust! Det er rimelig nivå-robust, signifikansnivået vil være omtrent riktig, men for eksempel kan wilcoxon-tester ha mye høyere effekt for at alternativer som er rimelig nær normaliteten, er vanskelig å oppdage. Dette avhenger også av faktorer som om det er like mange observasjoner i hver gruppe: robusthet er mye mer skjøre i det ujevne tilfellet!
@kjetilbhalvorsen Studiene jeg har sett - inkludert noen simuleringer jeg har gjort selv (og jeg har ikke sett på noen på en god stund; du kan godt ha sett noe jeg ikke har), det meste av effekten av kraft være mest skyve nivået opp og ned (som ikke påvirket Wilcoxon). Gitt de generelt gode kraftegenskapene til Wilcoxon under disse omstendighetene (spesielt med tunge haler), er det nok å ha Wilcoxon-gevinst på kraft - hvis du justerer nivåene slik at de er like, overrasket det meg hvor godt t-ofte gjorde.
Wolfgang
2015-01-06 19:21:50 UTC
view on stackexchange narkive permalink

@PeterFlom har allerede nevnt at simuleringsstudier aldri kan dekke alle scenarier og muligheter og derfor ikke kan føre til et definitivt svar. Imidlertid synes jeg fortsatt det er nyttig å faktisk utforske et problem som dette ved å gjennomføre noen simuleringer (dette skjer tilfeldigvis akkurat den typen øvelse som jeg liker å bruke når jeg introduserer ideen om Monte Carlo-simuleringsstudier til studenter). Så la oss faktisk prøve dette. Jeg bruker R for dette.

Koden

  n1 <- 33n2 <- 45mu1 <- 0mu2 <- 0sd1 <- 1sd2 <- 1iters <- 100000p1 <- p2 <- p3 <- p4 <- p5 <- rep (NA, iters: for) x1 <- rnorm (n1, mu1, sd1) x2 <- rnorm (n2, mu2, sd2) p1 [i] <- t.test (x1, x2) $ p.verdi ### begge variablene skjevt til høyre x1 <- (rchisq (n1, df = 1) - 1) / sqrt (2) * sd1 + mu1 x2 <- (rchisq (n2, df = 1) - 1) / sqrt (2) * sd2 + mu2 p2 [i ] <- t.test (x1, x2) $ p.verdi ### begge variablene skjevt til venstre x1 <- -1 * (rchisq (n1, df = 1) - 1) / sqrt (2) * sd1 + mu1 x2 <- -1 * (rchisq (n2, df = 1) - 1) / sqrt (2) * sd2 + mu2 p3 [i] <- t.test (x1, x2) $ p.verdi ### først skjevt til venstre, andre skjevt til høyre x1 <- -1 * (rchisq (n1, df = 1) - 1) / sqrt (2) * sd1 + mu1 x2 <- (rchisq (n2, df = 1) - 1) / sqrt (2) * sd2 + mu2 p4 [i] <- t.test (x1, x2) $ p.verdi ### første skjevt til høyre, andre skjevt til venstre x1 <- (rchisq (n1, df = 1) - 1) / sqrt (2) * sd1 + mu1 x2 <- -1 * (rchisq (n2, df = 1) - 1) / sqrt (2) * sd2 + mu2 p5 [i] <- t.test (x1, x2) $ p .verdi} utskrift (rund ((gjelder (cbind (p1, p2, p3, p4, p5), 2, funksjon (p) betyr (p < = .05)), 3))  

Forklaring

  1. Først angir vi gruppestørrelsen ( n1 og n2 ), den sanne gruppen betyr ( mu1 og mu2 ), og de sanne standardavvikene ( sd1 og sd2).

  2. Så definere antall iterasjoner å kjøre og sette opp vektorer for å lagre p-verdiene i.

  3. Så simulerer jeg data under 5 scenarier:

    1. Begge distribusjonene er normale.
    2. Begge fordelingen er skjevt til høyre.
    3. Begge fordelingen er skjev til venstre.
    4. Den første fordelingen er skjev til den venstre, den andre til høyre.
    5. Den første fordelingen er skjev mot høyre, den andre til venstre.

    Merk at jeg bruker chi-kvadratiske fordelinger for å generere de skjevfordelingene. Med en grad av frihet er det sterkt skjev fordeling. Siden det sanne gjennomsnittet og variansen til en chi-kvadratfordeling med en grad av frihet er lik henholdsvis 1 og 2 ( se wikipedia), omskaler jeg disse fordelingene til først å ha gjennomsnitt 0 og standardavvik 1 og omskal dem deretter til ønsket ønsket gjennomsnitt og standardavvik (dette kan gjøres i ett trinn, men å gjøre det på denne måten kan være tydeligere).

  4. I hvert tilfelle, Jeg bruker t-testen (Welchs versjon - man kan selvsagt også vurdere Students versjon som antar like avvik i de to gruppene) og lagre p-verdien til vektorene som ble satt opp tidligere.

  5. Til slutt, når alle iterasjonene er fullført, beregner jeg for hver vektor hvor ofte p-verdien er lik eller under .05 (dvs. at testen er "signifikant"). Dette er den empiriske avvisningshastigheten.

Noen resultater

  1. Simulering nøyaktig som beskrevet ovenfor gir :

      p1 p2 p3 p4 p5 0,049 0,048 0,047 0,070 0,070  

    Så når skjevheten er i samme retning i begge gruppene, ser Type I-feilraten ut til å være ganske nær å være godt kontrollert (dvs. den er nær den nominelle $ \ alpha = .05 $). Når skjevheten er i motsatt retning, er det noe svak inflasjon i Type I-feilraten.

  2. Hvis vi endrer koden til mu1 <- .5 kode>, så får vi:

      p1 p2 p3 p4 p5 0.574 0.610 0.606 0.592 0.602  

    Så, i forhold til tilfellet der begge distribusjonene er normale ( som antatt av testen), ser kraften ut til å være litt høyere når skjevheten er i samme retning! Hvis du blir overrasket over dette, kan det være lurt å kjøre dette på nytt noen ganger (selvfølgelig, hver gang du får litt forskjellige resultater), men mønsteret vil forbli.

    Merk at vi må være forsiktige med å tolke de empiriske kraftverdiene under de to scenariene der skjevheten er i motsatt retning, siden Type I-feilfrekvensen ikke er helt nominell (som et ekstremt tilfelle, antar at jeg alltid avviser uansett hva dataene viser; da vil jeg alltid ha en test med maksimal kraft, men selvfølgelig har testen også en ganske oppblåst type I-feilrate.

Man kan begynne å utforske en rekke verdier for mu1 kode> (og mu2 - men det som virkelig betyr noe er forskjellen mellom de to) og, enda viktigere, begynn å endre de sanne standardavvikene til de to gruppene (dvs. sd1 og sd2 ) og spesielt gjør dem ulik. Jeg holdt meg også til prøvestørrelsene nevnt av OP, men det kunne selvfølgelig også justeres. Og skjevhet kunne selvfølgelig ha mange andre former enn det vi ser i en chi-kvadratfordeling med en grad av frihet. Jeg synes fortsatt det er nyttig å nærme seg ting til tross for at det ikke kan gi et definitivt svar.

Siden vi har en rekke robuste semi-parametriske metoder i dag, hvorfor er denne diskusjonen så verdt?
(+1) Jeg tror det kan ha vært verdt å ta med tilfelle der en prøve ble hentet fra en skjev populasjon, og den andre ikke var, da dette var hva OP mente kan skje med dataene deres.Men det er hyggelig å se et svar med eksplisitt kode.(En liten generalisering vil faktisk tillate en leser å undersøke hvor godt robuste metoder sammenlignes med den tradisjonelle t-testen, som er en nyttig pedagogisk øvelse hvis du prøver å lære noen farene ved å bruke en test hvis antagelser er blitt brutt ...)
Anthony
2015-01-07 02:58:20 UTC
view on stackexchange narkive permalink

I din situasjon vil t-testen sannsynligvis være robust når det gjelder type I feilrate, men ikke Type II feilrate. Du vil sannsynligvis oppnå mer kraft gjennom enten a) en Kruskal-Wallis-test, eller b) en normaliserende transformasjon før en t-test.

Jeg baserer denne konklusjonen på to Monte Carlo-studier. I den første ( Khan & Rayner, 2003) ble skjevhet og kurtose indirekte manipulert via parametrene til g-og-k distribusjonsfamilien, og den resulterende kraften ble undersøkt. Det er viktig at Kruskal-Wallis-testens kraft ble mindre skadet av ikke-normalitet, spesielt for n> = 15.

Noen få forbehold / kvalifikasjoner om denne studien: Makt ble ofte skadet av høy kurtose, men det var mindre påvirket av skjevhet. Ved første øyekast kan dette mønsteret virke mindre relevant for situasjonen din, gitt at du bemerket et problem med skjev, ikke kurtose. Imidlertid satser jeg på at overflødig kurtose også er ekstrem i ditt tilfelle. Husk at overflødig kurtose vil være minst like høy som skjev ^ 2 - 2. (La overflødig kurtose være det 4. standardiserte øyeblikket minus 3, slik at overflødig kurtosis = 0 for en normalfordeling.) Merk deg også at Khan og Rayner ( 2003) undersøkte ANOVAer med 3 grupper, men resultatene deres vil sannsynligvis generalisere til en t-test med to prøver.

En annen relevant studie ( Beasley, Erikson, & Allison, 2009) undersøkte både type I- og type II-feil med forskjellige ikke-normale fordelinger, for eksempel en Chi-squared (1) og Weibull (1, .5). For prøvestørrelser på minst 25 kontrollerte t-testen tilstrekkelig Type I-feilrate på eller under det nominelle alfa-nivået. Effekten var imidlertid høyest med enten en Kruskal-Wallis-test eller med en rangbasert invers normal transformasjon (Blom-score) påført før t-testen. Beasley og kolleger argumenterte generelt mot den normaliserende tilnærmingen, men det bør bemerkes at den normaliserende tilnærmingen kontrollerte Type I-feilraten for n> = 25, og dens kraft oversteg noen ganger litt den for Kruskal-Wallis-testen. Det vil si at den normaliserende tilnærmingen virker lovende for din situasjon. Se tabell 1 og 4 i artikkelen for detaljer.

Referanser:

Khan, A., & Rayner, GD (2003). Robusthet til ikke-normalitet av vanlige tester for plasseringsproblemet med mange eksempler. Journal of Applied Mathematics and Decision Sciences, 7 , 187-206.

Beasley, TM, Erickson, S., & Allison, DB (2009). Rangbaserte inverse normale transformasjoner blir i økende grad brukt, men er de fortjent? Behavioral Genetics, 39 , 580-595.

$ \ text {(overflødig) kurtosis} \ geq \ text {skew} ^ 2 -2 $ gjelder for en populasjon;stemmer det også for estimater fra et utvalg?
Det virker som et spørsmål som er verdig sin egen tråd.Din bekymring er kanskje at overflødig kurtose vil være partisk nedad i små prøver?Selvfølgelig var det også tilfelle i simuleringsstudiene ovenfor, og kurtosis forårsaket fortsatt lav effekt i t-testen i de situasjonene.Spørsmålet ditt peker på en mer generell begrensning av de fleste Monte Carlo-studier: konklusjoner er ofte basert på populasjonsegenskaper, egenskaper som den anvendte forskeren ikke kan observere.Det ville være mer nyttig å være i stand til å forutsi relativ kraft basert på prøveforskjevelse, kurtose, etc.
Jeg har lagt ut et eget spørsmål om dette problemet: http://stats.stackexchange.com/questions/133247/relationship-between-skew-and-kurtosis-in-sample
Mensen
2015-01-06 16:17:57 UTC
view on stackexchange narkive permalink

Først og fremst, hvis du antar at fordelingen av de to prøvene er forskjellig, må du sørge for at du bruker Welchs versjon av t-testen som antar ulik avvik mellom gruppene. Dette vil i det minste forsøke å redegjøre for noen av forskjellene som oppstår på grunn av fordelingen.

Hvis vi ser på formelen for Welchs t-test:

$$ t = {\ overline {X} _1 - \ overline {X} _2 \ over s _ {\ overline {X} _1 - \ overline {X} _2}} $$

hvor $ s _ {\ overline {X } _1 - \ overline {X} _2} $ er

$$ s _ {\ overline {X} _1 - \ overline {X} _2} = \ sqrt {{s_1 ^ 2 \ over n_1} + {s_2 ^ 2 \ over n_2}} $$

vi kan se at hver gang det er en s vi vet at det tas hensyn til avviket. La oss forestille oss at de to avvikene faktisk er de samme, men den ene er skjev, noe som fører til et annet variansestimat. Hvis dette estimatet av variansen faktisk ikke er representativ for dataene dine på grunn av skjevhet, vil den faktisk forspenningseffekten i hovedsak være kvadratroten til den forspenningen delt på antall datapunkter som brukes til å beregne den. Dermed dempes effekten av dårlige variansestimatorer litt av kvadratroten og en høyere n, og det er sannsynligvis grunnen til at konsensus er at den forblir en robust test.

Det andre problemet med skjev fordeling er at gjennomsnittlig beregning også vil bli påvirket, og dette er sannsynligvis der de virkelige problemene med testforutsetningsbrudd er siden midlene er relativt følsomme for skjevhet. Og robustheten til testen kan bestemmes omtrent ved å beregne forskjellen i gjennomsnitt, sammenlignet med forskjellen i medianer (som en idé). Kanskje du til og med kan prøve å erstatte middelforskjellen med forskjellen i medianer i t-testen som et mer robust mål (jeg er sikker på at noen har diskutert dette, men jeg kunne ikke finne noe på google raskt nok til å koble til).

Jeg vil også foreslå å kjøre en permutasjonstest hvis alt du gjør er en t-test. Permutasjonstesten er en nøyaktig test, uavhengig av distribusjonsforutsetninger. Viktigst, permutasjonstester og t-test vil føre til identiske resultater hvis forutsetningene for den parametriske testen blir oppfylt. Derfor kan robusthetsmålene du søker være 1 - forskjellen mellom permutasjons- og t-testens p-verdier, hvor en score på 1 innebærer perfekt robusthet og 0 innebærer ikke robust i det hele tatt.



Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...