Kan enkel lineær regresjon gjøres uten å bruke plott og lineær algebra?

Parham Doustdar

2016-04-01 17:48:17 UTC

view on stackexchange narkive permalink

Jeg er helt blind og kommer fra programmeringsbakgrunn.

Det jeg prøver å gjøre er å lære maskinlæring, og for å gjøre dette må jeg først lære om lineær regresjon. Alle forklaringene på Internett jeg finner om dette emnet, plotter dataene først. Jeg ser etter en praktisk forklaring på lineær regresjon som ikke er avhengig av grafer og diagrammer.

Her er min forståelse av målet med enkel lineær regresjon:

Enkel lineær regresjon er prøver å finne formelen som når du gir X til den, vil gi deg den nærmeste estimeringen av Y.

Så, som jeg forstår det , hva som må gjøres er å sammenligne prediktoren (for eksempel arealet til et hus i kvadratmeter) med den uavhengige variabelen (prisen). I mitt eksempel kan du sannsynligvis lage en ikke-visuell måte å få den beste formelen for å beregne prisen på et hus fra området. For eksempel, kanskje du vil få området og prisen på 1000 hus i et nabolag, og dele prisen til området? Resultatet (i det minste i Iran, der jeg bor) ville ha en veldig ubetydelig avvik. Så du vil sannsynligvis få noe sånt som dette:

Pris = 2333 Rials * Husets område

Selvfølgelig vil du da måtte gå gjennom alle de 1000 husene i datasettet ditt, legg området i formelen over, sammenlign estimatet med den virkelige prisen, kvadrat resultatene (antar at for å forhindre at avvik avbryter hverandre) og deretter få et tall, så fortsett å spille rundt med 2333 for å redusere feilene.

Dette er selvfølgelig brute force-alternativet hvor det sannsynligvis vil ta aldre å beregne feilene og komme til det beste alternativet, men du ser du hva jeg sier? Jeg sa ikke noe om en graf eller en linje eller punkter på et plot eller den beste måten å tilpasse en linje til dine eksisterende data.

Så hvorfor trenger du et spredningsdiagram og lineær algebra for dette? Er det ikke en ikke-visuell måte?

For det første, har jeg rett i antagelsene mine? Hvis ikke, vil jeg gjerne bli korrigert. Hvorvidt det er en måte å komme på formelen uten å leke med lineær algebra?

Jeg ville virkelig satt pris på det hvis jeg kunne få et eksempel med forklaringen, slik at jeg kan gjøre det sammen med teksten for å teste min forståelse.

Men har du romlig fantasi som kan ta over visjonen?Hvis ja, antar jeg at en scatterplot kan forestilles på en eller annen måte.Jeg tviler på at essensen av regresjon bare kan fanges av proposisjonell tenkning (som verbal).

Hva er din mattebakgrunn?Wikipedia-siden kalt [Simple Linear Regression] (https://en.m.wikipedia.org/wiki/Simple_linear_regression) er stort sett tekst, og har det jeg synes er en rimelig klar beskrivelse i første avsnitt.Hvordan sammenlignes den artikkelen med detaljnivået du leter etter?

Gi meg beskjed hvis svaret som tilbys er på noen måte det du var ute etter.Hvis det er utenfor målet, vil jeg gjerne slette det.

Jeg leter etter konseptuelle, ikke-matematiske forklaringer.Selv om jeg har studert matematikk på universitetet, har det meste aldri sett seg fast på grunn av den samme grunnen til at jeg ikke forstår lineær regresjon.Det jeg ikke forstår er grunnen til å bruke plott og linjer for denne typen estimering.Det er veldig rart at man trenger å tegne et spredningsdiagram for å finne ut den nærmeste formelen som når du gir 'x' til den, ville spytte ut 'y'.Jeg vil gjerne vite hvorfor ting gjøres slik de er.Det er greit hvis spredningsdiagrammer brukes til presentasjonsformål, men er det alt?

@Antoni Parellada Beklager.Spørsmålet mitt var ikke klart, og jeg endte med å kaste bort tiden din.Spørsmålet mitt er mer grunnleggende - hvorfor?Hvorfor et spredningsdiagram?Hvorfor kan vi ikke bare se på mønsteret på en annen måte?Jeg antok at spredningsplott er en * valgfri * gimmick

Jeg redigerte spørsmålet mitt for å gi mer sammenheng.Gjør dette ting tydeligere?

Jeg fortsetter å tenke på det, se om jeg kan komme opp, men rett utenfor balltre, tenk på regresjon som å løse en ligning som ikke har noen løsning.Alle datapunktene blir forutsagt feil av regressoren din (området i huset).Du leter etter en ligning som gjør feilene dine så tålelige som mulig.

@Antoni Parellada Takk!Jeg forstår hva du sier.Det jeg ikke forstår er hvorfor man trenger å bruke en tomt til dette.Dette er noe som helt avhenger av tall.Vi ser etter formelen som har minst feil ved estimering av 'Y' fra 'X'.Jeg forstår det perfekt.Det jeg vil forstå er hvordan jeg kommer frem til svaret uten å bruke lineær algebra.Jeg gjetter at det er * en * av måtene å finne svaret på, men definitivt ikke den eneste.

utmerket spørsmål, vi må tenke mer på å forklare konseptene våre for mennesker med nedsatt funksjonsevne

Du trenger ikke bruke en tomt.Faktisk, for flere lineære regresjoner (regresjon med mange prediktorer) kan du ikke plotte et $ p + 1 $ dimensjonalt rom.Imidlertid fungerer den lineære algebra fortsatt.Alle lineære algebraformler involvert i lineær regresjon kan reduseres til operasjoner på enkle skalartall.Du vil bare ikke gjøre det på den måten for hånd hvis du verdsetter sunn fornuft.

Utfordringen er heller ikke egentlig å forstå modellen, men å tilpasse modellen til dataene (dvs. å finne ut at 2333 er den beste koeffisienten).

Gradient nedstigning ville fungere.OLS gir deg imidlertid en effektiv 1-iterasjonsalgoritme for å finne de beste objektive MSE-koeffisientene.

"ikke avhengig av grafer og plott."- Det kan hende du fortsatt trenger å plotte ting for å kontrollere om det er følsomt.slå opp Anscombes kvartett, for eksempel.

@J.M.så vi må finne måter å se etter følsomhet uten plott.det er for mye å se på tomtene.

mer tenker jeg mer på dette spørsmålet. Jeg innser hvor lite vi vet om blinde menneskers tilnærming til å lære matte og statistikk.Jeg trodde ikke engang hvordan de ville lese HTML-siden med LaTeX-formler.

Takk alle sammen.Alle svarene hjalp meg til å forstå hva dette handler om.Jeg skulle ønske jeg kunne godta dem alle.Det minste jeg kan gjøre er imidlertid å oppstemme dem alle.Takk skal du ha.

Et spørsmål om formatering: er LaTeX-formler som $ (x_2, y_2) $ kompatible med skjermlesemetoden du bruker?Foretrekker du at formler skrives ut, som `(x_2, y_2)`?

Det er ikke kompatibelt, i og med at jeg ikke blir fortalt at `2 'er et overskrift, abonnement eller noe annet, og jeg må gjette.Imidlertid løser jeg det i StackExchange ved å klikke på rediger og se markdown-koden.Men å skrive ting ut gjør det mye lettere.

Som programvareingeniør som har hovedfag i matematikk, har du helt rett: konseptuelt er de visuelle elementene i alle matematiske felt alltid (eller nesten alltid) bare "valgfrie gimmicks", som du sier.Dette er ideelt sett alle matematikere og matematikelever, plassert eller ikke, bør lære!Jeg beklager at professorene dine ikke var mer nyttige i denne forbindelse.(Forresten, jeg kom hit fra blogginnlegget ditt "Tools of a Blind Programmer", som jeg elsket. Takk for at du skrev det!)