Jeg vil at tankene dine om forskjellene mellom kryssvalidering og bootstrapping skal estimere prediksjonsfeilen.
Fungerer man bedre for små datasettstørrelser eller store datasett?
Jeg vil at tankene dine om forskjellene mellom kryssvalidering og bootstrapping skal estimere prediksjonsfeilen.
Fungerer man bedre for små datasettstørrelser eller store datasett?
Det kommer ned på avvik og skjevhet (som vanlig). CV har en tendens til å være mindre partisk, men K-fold CV har ganske stor avvik. På den annen side har bootstrapping en tendens til å redusere variansen drastisk, men gir mer partiske resultater (de pleier å være pessimistiske). Andre bootstrapping-metoder er tilpasset for å håndtere bootstrap-skjevheten (for eksempel 632 og 632+-reglene).
To andre tilnærminger vil være "Monte Carlo CV", aka "leave-group-out CV" som gjør mange tilfeldige delinger av dataene (som mini-trening og testdelinger). Variansen er veldig lav for denne metoden, og forspenningen er ikke så dårlig hvis prosentandelen av data i hold-out er lav. Gjentatt CV gjør også K-fold flere ganger og gjennomsnittet av resultatene som ligner på vanlig K-fold. Jeg er mest delvis på dette siden det holder den lave forspenningen og reduserer avviket.
For store utvalgstørrelser blir avviksproblemene mindre viktige og beregningsdelen er mer av problemer. Jeg vil fortsatt holde meg ved gjentatt CV for små og store utvalgstørrelser.
Noen relevante undersøkelser er nedenfor (spesielt Kim og Molinaro).
Bengio, Y., & Grandvalet, Y. (2005). Bias i estimering av variansen av k-kors-validering. Statistisk modellering og analyse for komplekse dataproblemer, 75–95.
Braga-Neto, U. M. (2004). Er kryssvalidering gyldig for mikroprøveklassifisering med liten prøve Bioinformatikk, 20 (3), 374–380. doi: 10.1093 / bioinformatics / btg419
Efron, B. (1983). Estimere feilfrekvensen til en prediksjonsregel: forbedring av kryssvalidering. Journal of the American Statistical Association, 316–331.
Efron, B., & Tibshirani, R. (1997). Forbedringer på kryssvalidering: The. 632+ bootstrap-metode. Journal of the American Statistical Association, 548–560.
Furlanello, C., Merler, S., Chemini, C., & Rizzoli, A. (1997). En anvendelse av bootstrap 632+ -regelen på økologiske data. WIRN 97.
Jiang, W., & Simon, R. (2007). En sammenligning av bootstrap-metoder og en justert bootstrap-tilnærming for å estimere prediksjonsfeilen i mikroarray-klassifisering. Statistics inMedicine, 26 (29), 5320-5334.
Jonathan, P., Krzanowski, W., & McCarthy, W. (2000). Om bruk av kryssvalidering for å vurdere ytelse i multivariat prediksjon. Statistikk og databehandling, 10 (3), 209–229.
Kim, J.-H. (2009). Estimering av klassifiseringsfeilrate: Gjentatt kryssvalidering, gjentatt hold-out og bootstrap. Beregningsstatistikk og dataanalyse, 53 (11), 3735–3745. doi: 10.1016 / j.csda.2009.04.009
Kohavi, R. (1995). En studie av kryssvalidering og bootstrap for nøyaktighetsestimering og modellvalg. International Joint Conference on Artificial Intelligence, 14, 1137–1145.
Martin, J., & Hirschberg, D. (1996). Liten prøvestatistikk for klassifiseringsfeilrater I: Error ratemålinger.
Molinaro, A. M. (2005). Beregning av prediksjonsfeil: en sammenligning av metoder for prøvetaking. Bioinformatikk, 21 (15), 3301–3307. doi: 10.1093 / bioinformatics / bti499
Sauerbrei, W., & Schumacher1, M. (2000). Bootstrap og kryssvalidering for å vurdere kompleksiteten til datadrevne regresjonsmodeller. Medisinsk dataanalyse, 26–28.
Tibshirani, RJ, & Tibshirani, R. (2009). En skjevhetskorrigering for minimum feilrate i kryssvalidering. Arxiv fortrykk arXiv: 0908.2904.
@Frank Harrell har gjort mye arbeid med dette spørsmålet. Jeg vet ikke om spesifikke referanser.
Men jeg ser heller på de to teknikkene som for forskjellige formål. Kryssvalidering er et godt verktøy når du bestemmer deg for modellen - det hjelper deg å unngå å lure deg selv til å tro at du har en god modell når du faktisk overmonterer.
Når modellen din er løst, bruk deretter bootstrap gir mer mening (for meg i det minste).
Det er en introduksjon til disse konseptene (pluss permutasjonstester) ved å bruke R på http://www.burns-stat.com/pages/ Veileder / bootstrap_resampling.html
Min forståelse er at bootstrapping er en måte å kvantifisere usikkerheten i modellen din mens kryssvalidering brukes til modellvalg og måling av prediktiv nøyaktighet.
En forskjell er at kryssvalidering, som jackknife, bruker alle datapunktene dine, mens bootstrapping, som sampler dataene dine tilfeldig, kanskje ikke treffer alle poengene.
Du kan bootstrap så lenge du vil ha, noe som betyr en større prøve, som skal hjelpe til med mindre prøver.
Gjennomsnittet for kryssvalidering eller jackknife vil være det samme som prøvene, mens gjennomsnittet for bootstrap er svært usannsynlig å være det samme som gjennomsnittet for prøven.
Som kryssvalidering og knivvekt alle prøvepunktene likt, bør de ha et mindre (men muligens feil) konfidensintervall enn bootstrap.
Dette er to teknikker for prøvetaking:
I kryssvalidering deler vi dataene tilfeldig i kfold, og det hjelper med overmontering, men denne tilnærmingen har sin ulempe.Siden den bruker tilfeldige prøver, gir noen eksempler store feil.For å minimere CV har teknikker, men det er ikke så kraftig med klassifiseringsproblemer.Bootstrap hjelper i dette, det forbedrer feilen fra sin egen prøvesjekk .. for detaljer, se ..
https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf