Jeg vet at utføring av hyperparameterjustering utenfor kryssvalidering kan føre til forutinntatte høye estimater av ekstern gyldighet, fordi datasettet du bruker til å måle ytelse er det samme du brukte for å stille inn funksjonene. p> Det jeg lurer på er hvor ille et problem dette er . Jeg kan forstå hvordan det ville være veldig dårlig for funksjonsvalg, siden dette gir deg et stort antall parametere å stille inn. Men hva om du bruker noe som LASSO (som bare har en parameter, reguleringsstyrken) eller en tilfeldig skog uten funksjonsvalg (som kan ha noen få parametere, men ikke noe så dramatisk som å legge til / slippe støyfunksjoner)?
I disse scenariene, hvor dårlig optimistisk kunne du forvente at estimatet ditt for treningsfeil skulle være?
Jeg vil sette pris på all informasjon om dette - case studies, papers, anecdata, etc. Thanks. !
EDIT: For å avklare snakker jeg ikke om å estimere modellytelse på treningsdata (dvs. ikke bruke kryssvalidering i det hele tatt). Med "tuning av hyperparameter utenfor kryssvalidering" mener jeg bare å bruke kryssvalidering for å estimere ytelsen til hver enkelt modell, men ikke inkludert en ytre, andre kryssvalidering løkke for å korrigere for overmontering i hyperparameter-innstillingsprosedyren (forskjellig fra overmontering under treningsprosedyren). Se f.eks. svaret her.