Spørsmål:
Hva er noen eksempler på anakronistisk praksis i statistikk?
Francis
2016-06-18 10:42:29 UTC
view on stackexchange narkive permalink

Jeg refererer til praksis som fremdeles opprettholder deres tilstedeværelse, selv om problemene (vanligvis beregning) de ble designet for å takle, for det meste er løst.

For eksempel ble Yates 'kontinuitetskorreksjon oppfunnet for å tilnærme Fishers eksakte test med $ \ chi ^ 2 $ test, men det er ikke lenger praktisk siden programvare nå kan håndtere Fishers test selv med store prøver (jeg vetdette er kanskje ikke et godt eksempel på "å opprettholde sin tilstedeværelse", siden lærebøker, som Agrestis Categorical Data Analysis , ofte erkjenner at Yates 'rettelse "ikke lenger er nødvendig").

Hva er noen andre eksempler på slik praksis?

Jeg er faktisk ikke så sikker på at chi-squared-testen ble gjort foreldet av tilgjengeligheten av datakraft for å utføre Fishers eksakte test, f.eks.er marginalene dine virkelig faste?[Se dette svaret på et annet spørsmål] (http://stats.stackexchange.com/a/153048/22228) av @gung, for eksempel.(Jeg er ganske sikker på at vi har en tråd som diskuterer problemet mer detaljert, men jeg finner det ikke, ettersom vi har mange spørsmål "om jeg bruker chi-kvadrat eller bør jeg bruke Fishers eksakte test" -spørsmål som dukker opp nårJeg søker!)
@Silverfish: Jeg mente ikke $ \ chi ^ 2 $ ble gjort foreldet, bare Yates 'rettelse var.Jeg tror studier har vist at Yates 'korreksjon er for konservativ når marginene ikke er faste.Michael Habers artikkel [* The Continuity Correction and Statistical Testing *] (http://www.jstor.org/stable/1402597) ga en gjennomgang.
@Silverfish, dette er sannsynligvis det du leter etter: [Gitt kraften til datamaskiner i disse dager, er det noen gang en grunn til å gjøre en chi-squared test i stedet for Fishers eksakte test?] (Http://stats.stackexchange.com/q/ 14226 /)
bruker du OLS i stedet for LAD?
Merk at anakronistisk praksis i noen tilfeller kan være lærerik for studentene for å bedre forstå et bestemt konsept.
@PatrickT: Jeg har ** mange ** problemer med å kalle OLS anakronistisk.Visst, det er spesielle tilfeller når LAD er klart overlegen ... men det samme kan sies i den andre retningen.
@CliffAB, Faktisk anakronistisk er sterk.Jeg hadde i tankene at beregningsbekvemmeligheten av linjæriteten til OLS er det som skiller den fra alternativer som LAD som uten tvil er mer intuitive og mer robuste, men som til nylig var et beregningsrosl.Mer av en bemerkning i forbifarten da.
Ti svar:
Nick Cox
2016-06-18 13:55:46 UTC
view on stackexchange narkive permalink

Det kan sterkt diskuteres at bruken av terskelverdienivåer som $ P = 0,05 $ eller $ P = 0,01 $ er en historisk bakrus fra en periode da de fleste forskere var avhengige av tidligere beregnede tabeller med kritiske verdier. Nå vil god programvare gi $ P $ -verdier direkte. Faktisk, god programvare lar deg tilpasse analysen din og ikke avhenge av læreboktester.

Dette er omstridt om bare fordi noen betydningsprøvingsproblemer krever beslutninger, som i kvalitetskontroll der det er nødvendig å ta imot eller avvise en batch, etterfulgt av en handling på begge måter. Men selv der bør terskelene som skal brukes, vokse ut av en risikoanalyse, ikke avhenge av tradisjon. Og ofte i vitenskapene er analyse av kvantitative indikasjoner mer hensiktsmessig enn avgjørelser: å tenke kvantitativt innebærer oppmerksomhet mot størrelser på $ P $ -verdier og ikke bare til en grov dikotomi, signifikant versus ikke signifikant.

Jeg vil markere at jeg her berører et intrikat og kontroversielt spørsmål som er fokus for hele bøker og sannsynligvis tusenvis av papirer, men det virker som et godt eksempel for denne tråden.

Flott eksempel!For referanse er denne tråden verdt å nevne: [Når det gjelder p-verdier, hvorfor 1% og 5%?Hvorfor ikke 6% eller 10%?] (Http://stats.stackexchange.com/questions/55691/regarding-p-values-why-1-and-5-why-not-6-or-10)
Disse prosentene påvirker også konfidensintervaller og ikke bare $ p $ -verdier.
@ J. M. Jeg er 95% trygg på at du har rett, selv om jeg ikke er 99% trygg.
Egentlig er jeg ikke sikker på at dette er et godt eksempel.Selv om det er sant at det er mye lettere å teste ting på $ \ alpha = 0.038561 $ enn det pleide, har jeg aldri sett et godt argument for hvorfor du * vil *, utenfor spesielle tilfeller (dvs. kvalitetskontroll), derJeg vet ikke at vilkårlige signifikansnivåer fortsatt brukes.
@CliffAB Jeg tror ikke hovedpoenget med en nøyaktig P-verdi er at du da bestemmer at den utgjør det kritiske nivået du vil ta for en beslutning.Jeg antyder absolutt ikke eller går inn for det.En del av argumentet her er ikke bare at 0,05 og 0,01 i beste fall er konvensjonelle nivåer, men at tester gir en måte å vurdere bevisstyrken mot en nullhypotese i stedet for å ta en binær beslutning.I praksis brukes 0,05 og 0,01 nivåer veldig sterkt på mange felt.
@Nick Cox Og ikke glem 0,1-nivået for den avslappede, myke publikum.
@NickCox: antyder du at en p-verdi ** kunne ** ha blitt brukt som bare et bevismål, snarere enn et verktøy for å ta en binær beslutning?Det er faktisk veldig interessant idé og vil sannsynligvis bidra til å redusere antall ikke-statistikere som gjør konklusjoner som får statistikerens hode til å eksplodere ...
Ja, men det har vært den viktigste forsvarlige bruken av P-verdier helt siden de ble oppfunnet.Jeg tror jeg bare kanaliserer et veldig vanlig syn.For eksempel la Fisher vekt på hvordan det var viktig å ikke gjøre vitenskapelige vurderinger på grunnlag av individuelle tester.
Vel, jeg deler absolutt synet på hva en p-verdi er bra for.Jeg trodde aldri vi ikke ville ha alle problemene vi har i dag med dem hvis bare Neyman, Pearson, etc. hadde tilgang til en moderne bærbar PC ...
Jeg tror ikke bedre programvare løser alle problemene her.Det er altfor lett å stille feil spørsmål selv med utmerket programvare.Jeg prøver ikke å oppsummere pluss og minus ved å teste i ett CV-svar.
@NickCox: bedre programvare løser absolutt ikke alle problemene: vi har fortsatt dem :).Jeg refererte virkelig til den første setningen din i svaret.
Cliff AB
2016-06-19 00:57:57 UTC
view on stackexchange narkive permalink

En metode som jeg tror mange besøkende på dette nettstedet vil være enig med meg i er trinnvis regresjon.Det er fortsatt gjort hele tiden, men du trenger ikke å søke langt etter eksperter på dette nettstedet og sier beklager bruken.En metode som LASSO er mye foretrukket.

HA !!Du anbefaler å erstatte en anakronisme (trinnvis regresjon) med neste generasjons anakronisme (LASSO), som er en anakronisme i sin egen tid, hvis tilhengere ennå ikke er klar over det.Se http://stats.stackexchange.com/questions/162861/how-to-cross-validate-stepwise-logistic-regression/162935#162935.
@MarkL.Stone: Hei mann, i det minste er det 20 år i riktig retning.Jeg er ikke så kjent med disse metodene, så jeg måtte lese om dem før jeg kunne gi dem min godkjennelse.
Etter å ha lest artikkelen raskt, er jeg litt nølende med å bestemme at LASSO er offisielt utdatert, selv om det helt klart ikke alltid er det optimale valget.Kanskje om 5 år vil jeg være mer komfortabel med å kalle LASSO foreldet.
For et par år siden kåret Larry Wasserman i sin nå nedlagte * NormalDeviate * -blogg Lasso til et av de viktigste bidragene til statistikk det siste tiåret.
@Mark Takk for Bertsimas et al.henvisning.Det er et fint papir, men jeg ser ingen bevis presentert der for at $ \ ell_0 $ regularisering vil fungere bedre enn $ \ ell_1 $ + $ \ ell_2 $ elastisk netto i praksis.Finnes det slike bevis?Hva får deg til å tro at lasso er en anakronisme, og den beste delmengden er en vei å gå?
@amoeba: Jeg tror Mark viser til praksisen med å bruke LASSO som et verktøy for best subset regresjon.For eksempel husker jeg vagt at jeg har lest noen som først har diskutert LASSO, og deretter ommontert en ikke-straffet modell ved hjelp av regresjonsparametrene som ikke er null.Beste delmengderegresjon kan være en mer direkte måte å gjøre dette på (men som du sier, er det ikke klart at dette er en god idé selv om det er det analytikeren * vil * gjøre).
... og papiret presenterer minst * en * situasjon (dvs. simulering under visse parametere) der den klart utfører LASSO, selv om jeg tror vi alle vet nøyaktig hvor seriøst vi skal ta slike resultater av seg selv.
Arne Jonas Warnke
2016-06-18 15:44:07 UTC
view on stackexchange narkive permalink

Min oppfatning er at det i det minste i (anvendt) økonometri er mer og mer normen å bruke den robuste eller empiriske kovariansmatrisen i stedet for den "anakronistiske praksisen" med å stole (asymptotisk) på riktig spesifikasjon av kovariansmatrisen . Dette er selvfølgelig ikke uten kontrovers: se noen av svarene jeg lenket her på CrossValidated, men det er absolutt en klar trend.

Eksempler inkluderer heteroscedasticity-robust standardfeil (Eicker-Huber-White standardfeil). Noen forskere som Angrist og Pischke anbefaler tilsynelatende alltid å bruke heteroscedasticity-robust standardfeil i stedet for "anakronistisk" prosedyre for å bruke normal standardfeil som standard og sjekke om antagelsen $ E [uu '] = \ sigma ^ 2 I_n $ er berettiget.

Andre eksempler inkluderer paneldata, Imbens og Wooldridge skriver for eksempel i sine forelesningsglass argumenterer mot å bruke tilfeldige effekter varians kovariansematrise (implisitt antar at en feilspesifisering i varianskomponenten som standard ):

Fullstendig robust slutning er tilgjengelig og bør vanligvis brukes. (Merk: Den vanlige RE-variansmatrisen, som bare avhenger av $ \ sigma_c ^ 2 $ og $ \ sigma_u ^ 2 $, trenger ikke å spesifiseres riktig! Det er fortsatt fornuftig å bruke den til estimering, men gjøre slutningen robust.)

Ved å bruke generaliserte lineære modeller (for distribusjoner som tilhører den eksponensielle familien), anbefales det ofte å alltid bruke den såkalte sandwichestimatoren i stedet for å stole på riktige distribusjonsforutsetninger (den anakronistiske praksisen her) : se for eksempel dette svaret eller Cameron som refererer til telledata fordi estimering av pseudomaksimum sannsynlighet kan være ganske fleksibel i tilfelle feilspesifisering (f.eks. bruker Poisson hvis negativ binomial ville være riktig).

Slike [hvite] standardfeilkorreksjoner må gjøres for Poisson-regresjon, da de kan gjøre en mye større forskjell enn lignende heteroskedastiske korreksjoner for OLS.

Greene skriver i sinlærebok i kapittel 14 (tilgjengelig på nettstedet hans) for eksempel med en kritisk merknad og går mer i detalj om fordeler og ulemper ved denne praksisen:

Det er en trend igjeldende litteratur for å beregne denne [sandwich] estimatoren rutinemessig, uavhengig av sannsynlighetsfunksjonen. * [...] * Vi understreker nok en gang at sandwichestimatoren i seg selv ikke nødvendigvis har noen dyd hvis sannsynlighetsfunksjonen erfeil angitt, og de andre betingelsene for M-estimatoren er ikke oppfylt.

Interessant, men spørsmålet er hva som er anakronistisk, ikke hva som nå blir stadig mer standard, så svaret må inverteres.
Hei Nick, takk for kommentaren din (og redigeringene dine), jeg endret teksten for å markere hva som er den anakronistiske praksisen, jeg håper den blir litt tydeligere.Jeg inverterte ikke hele teksten, siden tidligere praksis er i nærheten av å gjøre noe spesielt med standardfeilen.
I noen tilfeller er det ikke naturlig og ikke mulig å bruke robuste alternativer, si tidsserier.Så jeg tror det ikke blir "mer populært", men bare "mer populært i noen områder".
Cliff AB
2016-06-19 01:24:45 UTC
view on stackexchange narkive permalink

En metode som unødvendig brukes hele tiden er Bonferroni-korreksjonen til p-verdier.Mens flere sammenligninger er et så stort problem som det noen gang var, er Bonferroni-korreksjonen i det vesentlige foreldet for p-verdier: for enhver situasjon der Bonferroni-korreksjonen er gyldig, er også Holm-Bonferroni, som vil ha strengere kraftalternativ hvis $ m > 1 $, hvor $ m $ er antall hypoteser som er testet (likhet med $ m = 1 $).

Jeg tror årsaken til vedvarenheten av Bonferroni-korreksjonen er den enkle mentale bruken (dvs. p = 0,004 med $ m = 30 $ justeres enkelt til 0,12, mens Holm-Bonferroni krever sortering av p-verdier).

Kom hit for å legge ut dette.Også: er ikke overbevist om at det er noen situasjon der FWER ville være å foretrekke fremfor de enda nyere FDR-metodene (på grunn av skalerbarhet og tilpasningsevne).
gung - Reinstate Monica
2016-06-20 05:43:49 UTC
view on stackexchange narkive permalink

De fleste anakronistiske fremgangsmåter skyldes sannsynligvis måten statistikk blir undervist på og det faktum at analyser drives av et stort antall mennesker som bare har tatt et par grunnleggende klasser. Vi underviser ofte i et sett med standard statistiske ideer og prosedyrer fordi de danner en logisk sekvens av økende konseptuell raffinement som gir mening pedagogisk (jf. Hvordan kan vi noen gang kjenne populasjonsvariansen?). Jeg er selv skyldig i dette: Jeg underviser av og til i statistikk 101 og 102, og jeg sier hele tiden: 'Det er en bedre måte å gjøre dette på, men det er utenfor omfanget av denne klassen'. For de studentene som ikke går videre enn den innledende sekvensen (nesten alle), sitter de igjen med grunnleggende, men avløste, strategier.

  1. For et statistikkeksempel 101 er sannsynligvis den vanligste anakronistiske praksisen å teste noe antagelse og deretter kjøre en tradisjonell statistisk analyse fordi testen ikke var signifikant. En mer moderne / avansert / forsvarlig tilnærming ville være å bruke en metode som er robust for den antakelsen fra starten. Noen referanser for mer informasjon:

  2. For eksempler på statistikk 102 er et hvilket som helst antall modelleringsmetoder blitt utdaterte:

    • Transformering av $ Y $ for å oppnå normalitet av restprodukter for å få pålitelige $ p $ -verdier kontra bootstrapping.
    • Transformere $ Y $ for å oppnå homoscedasticitet i stedet for å bruke en sandwichestimator osv.
    • Bruk av et polynom av høyere orden for å fange krumning mot kubiske splines.
    • Evaluering av modeller beregnet på prediksjon ved hjelp av $ p $ -verdier og godhet av tilpasningsberegninger som $ R ^ 2 $ i stedet for kryssvalidering.
    • Med gjentatte måledata, kategorisering av en kontinuerlig variabel slik at rmANOVA kan brukes eller gjennomsnitt av flere målinger kontra bruk av en lineær blandet modell.
    • Etc.

Poenget i alle disse tilfellene er at folk gjør det som ble undervist først i en innføringskurs fordi de rett og slett ikke kjenner til mer avanserte og passende metoder.

pteetor
2018-04-08 01:07:04 UTC
view on stackexchange narkive permalink

Betale lisensavgifter for statistiske programvaresystemer av høy kvalitet.#R

Jeremias K
2016-06-18 20:09:21 UTC
view on stackexchange narkive permalink

Et veldig interessant eksempel er enhetsrotest i økonometrikk.Selv om det er mange valg tilgjengelige for å teste mot eller for en enhetsrot i lagpolynomet i en tidsserie (f.eks. (Augmented) Dickey Fuller Test eller KPSS-testen), kan problemet omgåes fullstendig når man bruker Bayesian-analyse..Sims påpekte dette i sin provoserende artikkel med tittelen Understanding Unit Rooters: A Helicopter Tour fra 1991.

Enhetens rotprøver er fortsatt gyldige og brukes i økonometri.Mens jeg personlig ville tilskrive dette mest til at folk var motvillige til å tilpasse seg Bayesiansk praksis, forsvarer mange konservative økonometrikere utøvelsen av enhetsrotester ved å si at et bayesisk syn på verden strider mot forutsetningen for økonometrisk forskning.(Det vil si at økonomer tenker på verden som et sted med faste parametere, ikke tilfeldige parametere som styres av noe hyperparameter.)

Jeg vil være interessert i en kort diskusjon om hvordan Bayesian praksis omgår disse testene.Med andre ord, hvordan vil du argumentere for dette kravet?
Jeg må innrømme at det har gått en stund siden jeg leste avisen, men hovedpoenget er at man kan bruke standard t-verdier ved å bruke en flat prior for den bayesiske analysen av en tidsserie.
Peter Phillips, i oppfølgingspapirer til den du siterer, gir grunner til å adoptere en Jeffreys ', noe som gjør at Bayesian-analysen igjen ser nærmere sammen med den hyppige.Se https://onlinelibrary.wiley.com/doi/abs/10.1002/jae.3950060411
Alexis
2018-05-24 20:07:32 UTC
view on stackexchange narkive permalink

Taking / gjennomføring av tosidige tester for forskjell uten samtidig testing for ekvivalens i hyppigheten av hypotesetesting er en dyp forpliktelse til bekreftelsesforstyrrelse.

Det er en viss nyanse ved at en passende kraftanalyse med gjennomtenkt definisjon av effektstørrelse kan beskytte mot dette og gi mer eller mindre samme slags slutninger, men (a) effektanalyser blir så ofte ignorert i presentasjonen av funn, og (b) Jeg har aldri sett en effektanalyse for for eksempel hver koeffisient estimert for hver variabel i en multippel regresjon, men det er greit å gjøre det for kombinerte tester for forskjell og tester forekvivalens (dvs. relevansstester).

Alex. C-L - Reinstate Monica
2019-08-29 20:18:04 UTC
view on stackexchange narkive permalink

Bruker du en negativ binomial modell i stedet for en (robust) Poisson-modell for å identifisere en parameter av interesse i en tellingsvariabel, bare fordi det er overdispersjon?

Se som referanse: https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

Beviset for at Poisson er mer robust når det gjelder faste effekter er ganske nylig, ettersom det er gjort referert til: Wooldridge, JM, "Distribusjonsfri estimering av noen ikke-lineære paneldatamodeller," Journal of Econometrics 90 (1999), 77–97.

Mike Hunter
2016-06-18 17:25:35 UTC
view on stackexchange narkive permalink

Her er noen anakronismer:

  • Den neoplatoniske antagelsen om at det er en enkelt, "sann" populasjon der ute i den teoretiske eteren som er evig, fast og urokkelig mot hvilken våre ufullkomne eksempler kan evalueres, gjør lite for å fremme læring og kunnskap.

  • Reduksjonismen som ligger i mandater som Occams barberhøvel er inkonsistent med tiden. ELLER kan oppsummeres som: "Blant konkurrerende hypoteser, bør den som har færrest antagelser velges." Alternativene inkluderer Epicurus ' Principle of Multiple Explanations , som grovt sier: "Hvis mer enn en teori er konsistent med dataene, beholder du dem alle." > Hele fagfellevurderingssystemet trenger desperat en revisjon.

* Rediger *

  • Med enorme data som inneholder titalls millioner funksjoner, er det ikke lenger behov for en variabel valgfase.

  • I tillegg er inferensiell statistikk meningsløs.

Kommentarer er ikke for utvidet diskusjon;denne samtalen er blitt [flyttet til chat] (http://chat.stackexchange.com/rooms/41406/discussion-on-answer-by-djohnson-what-are-some-examples-of-anachronistic-practic).


Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...