Hva er den svake siden av beslutningstrær?

Spørsmål:

Łukasz Lew

2010-08-05 15:42:44 UTC

view on stackexchange narkive permalink

Beslutningstrær ser ut til å være en veldig forståelig maskinlæringsmetode. Når den er opprettet, kan den lett inspiseres av et menneske, noe som er en stor fordel i noen applikasjoner.

Hva er de praktiske svake sidene ved beslutningstrær?

Fire svar:

Simon Byrne

2010-08-05 17:08:24 UTC

view on stackexchange narkive permalink

Her er et par jeg kan tenke meg:

De kan være ekstremt følsomme for små forstyrrelser i dataene: en liten endring kan resultere i et drastisk annet tre.
De kan lett overdrive. Dette kan negeres ved valideringsmetoder og beskjæring, men dette er et grått område.
De kan ha problemer utenom prøven (dette er relatert til at de ikke er glatte).

Noen av disse er relatert til problemet med multikollinearitet: når to variabler begge forklarer det samme, vil et beslutningstreet grådig velge det beste, mens mange andre metoder vil bruke dem begge. Ensemblemetoder som tilfeldige skoger kan negere dette til en viss grad, men du mister forståelsen.

Det største problemet, fra mitt synspunkt i det minste, er imidlertid mangelen på et prinsipielt sannsynlig rammeverk . Mange andre metoder har ting som konfidensintervaller, posterior fordeling osv., Som gir oss en ide om hvor god en modell er. Et beslutningstreet er til syvende og sist en ad hoc-heuristikk, som fremdeles kan være veldig nyttig (de er utmerket for å finne kilder til feil i databehandling), men det er fare for at folk behandler utdata som "den" riktige modellen (fra min erfaring, dette skjer mye i markedsføring).

Fra et ML-synspunkt kan trær testes på samme måte som alle andre klassifikatorer (CV for eksempel). Likevel viser det heller at tung overfit skjedde ;-) Også RF unnslipper multikollinearitet ikke fordi det er ensemble, men fordi trærne er suboptimale.

For et sannsynlig rammeverk for beslutningstrær, se DTREE (url: http://www.datamining.monash.edu.au/software/dtree/index.shtml) som er basert på papiret "Wallace CS & Patrick JD,` Coding Decision Trees ', Machine Learning, 11, 1993, pp7-22 ".

Er det heller ikke mulig å få CI (for spådommer) ved hjelp av bootstrapping?

@Simon Byrne, jeg har et spørsmål angående din kommentar "Men det største problemet, fra mitt synspunkt i det minste, er mangelen på et prinsipielt sannsynlig rammeverk". Tilgi min uvitenhet, men kan du peke meg på noen praktiske prinsipielle sannsynlighetsrammer (spesielt i sammenheng med klassifisering). Jeg er veldig interessert i denne begrensningen av beslutningstrær.

@AmV, ett eksempel ville være logistisk regresjon: vi kan bruke det faktum at hver observasjon kommer fra et binomium for å oppnå tillit / troverdige intervaller og kontrollere forutsetningene til modellen.

Rob Hyndman

2010-08-05 16:58:42 UTC

view on stackexchange narkive permalink

En ulempe er at alle termer antas å samhandle. Det vil si at du ikke kan ha to forklarende variabler som oppfører seg uavhengig. Hver variabel i treet blir tvunget til å samhandle med hver variabel lenger opp i treet. Dette er ekstremt ineffektivt hvis det er variabler som ikke har noen eller svake interaksjoner.

Jeg lurer på om dette er en praktisk begrensning - for en variabel som bare påvirker klassifiseringen svakt, er intuisjonen min at Tree sannsynligvis ikke vil splitte på den variabelen (dvs. det kommer ikke til å være en node) som igjen betyr det er usynlig så langt klassifiseringen av beslutningstreet går.

Jeg snakker om svake interaksjoner, ikke svake effekter på klassifisering. En interaksjon er et forhold mellom to av prediktorvariablene.

Dette kan være ineffektivt, men trestruktur kan takle det.

Derfor sa jeg ineffektivt snarere enn partisk eller feil. Hvis du har masse data, betyr det ikke så mye. Men hvis du passer et tre til noen få hundre observasjoner, kan antatte interaksjoner redusere den prediktive nøyaktigheten.

Bli enige; Jeg ville bare fremheve det. Likevel tror jeg at reduksjon av prediktiv nøyaktighet kan fjernes ved å bruke riktig trening; i fylogenetikk reduseres det lignende problemet (grådighet) ved Monte Carlo-skanning av mulig trearom for å finne maksimal sannsynlighet - jeg vet ikke er det en lignende tilnærming i statistikk, sannsynligvis var ingen plaget av dette problemet til slike utstrekning.

doug

2010-08-05 17:47:46 UTC

view on stackexchange narkive permalink

Svaret mitt er rettet mot CART (C 4.5 / C 5-implementeringene), men jeg tror ikke er begrenset til det. Min gjetning er at dette er hva OP har i tankene - det er vanligvis hva noen mener når de sier "Beslutningstreet."

Begrensninger av beslutningstrær :

Lav ytelse

Med "ytelse" mener jeg ikke oppløsning, men utførelseshastighet . Grunnen til at det er dårlig er at du må 'tegne treet' hver gang du ønsker å oppdatere CART-modellen din - data klassifisert av et allerede trent tre, som du deretter vil legge til i treet (dvs. bruke som et treningsdatapunkt) krever at du starter fra over - treningsinstanser kan ikke legges til trinnvis, slik de kan for de fleste andre overvåkede læringsalgoritmer. Den beste måten å si dette på er kanskje at Decision Trees ikke kan trenes i online-modus, heller bare i batch-modus. Åpenbart vil du ikke merke denne begrensningen hvis du ikke oppdaterer klassifisereren din, men da forventer jeg at du ser et fall i oppløsningen.

Dette er viktig fordi for eksempel for flerlagsoppfatninger, når den først er trent, kan den begynne å klassifisere data; at data også kan brukes til å 'tune' den allerede trente klassifisereren, men med beslutningstrær, må du omskole med hele datasettet (originale data brukt i trening pluss eventuelle nye forekomster).

Dårlig oppløsning på data med komplekse forhold mellom variablene

Beslutningstrær klassifiseres ved trinnvis vurdering av et datapunkt av ukjent klasse, en node om gangen, fra rotnode og slutter med en terminalnode. Og ved hver node er det bare to muligheter (venstre-høyre), derfor er det noen variabelt forhold som beslutningstrær bare ikke kan lære.

Praktisk begrenset til klassifisering sterk>

Beslutningstrær fungerer best når de blir opplært til å tilordne et datapunkt til en klasse - helst en av bare noen få mulige klasser. Jeg tror ikke jeg noen gang har hatt noen suksess med å bruke et beslutningstre i regresjonsmodus (dvs. kontinuerlig produksjon, for eksempel pris eller forventet levetidsinntekt). Dette er ikke en formell eller iboende begrensning, men en praktisk begrensning. Mesteparten av tiden blir beslutningstrær brukt til å forutsi faktorer eller diskrete resultater.

Dårlig oppløsning med kontinuerlige forventningsvariabler

Igjen er det i prinsippet ok å ha uavhengige variabler som "nedlastingstid" eller "antall dager siden forrige online kjøp "- bare endre splittingskriteriet til varians (det er vanligvis Informasjonsentropi eller Gini Impurity for diskrete variabler), men etter min erfaring fungerer beslutningstrær sjelden bra i dette tilfellet. Unntak er tilfeller som "studentens alder" som ser kontinuerlig ut, men i praksis er verdiområdet ganske lite (spesielt hvis de blir rapportert som heltall).

+1 for den gode samtalen om ytelsesvinkelen, som vanligvis ikke får nok spill.Jeg har sett Decision Trees komme i ytelsesproblemer på flere programvareplattformer designet for store datasett (for eksempel SQL Server), i det minste sammenlignet med andre data mining-metoder.Dette er bortsett fra hele omskolingsproblemet du tok opp.Det ser ut til å forverres i tilfeller der overmontering oppstår (selv om det kan sies om mange andre gruvealgoritmer).

gung - Reinstate Monica

2012-06-29 04:27:55 UTC

view on stackexchange narkive permalink

There are good answers here, but I am surprised that one thing has not been emphasized. CART does not make any distributional assumptions about the data, particularly the response variable. In contrast, OLS regression (for continuous response variables) and logistic regression (for certain categorical response variables), for example, do make strong assumptions; specifically, OLS regression assumes the response is conditionally normally distributed, and logistic assumes the response is binomial or multinomial.

CART's lack of such assumptions is a double-edged sword. When those assumptions are not warranted, this gives the approach a relative advantage. On the other hand, when those assumptions hold, more information can be extracted from the data by taking those facts into account. That is, standard regression methods can be more informative than CART when the assumptions are true.

ⓘ

Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 2.0-lisensen den distribueres under.

about - legalese