Spørsmål:
Kan enkel lineær regresjon gjøres uten å bruke plott og lineær algebra?
Parham Doustdar
2016-04-01 17:48:17 UTC
view on stackexchange narkive permalink

Jeg er helt blind og kommer fra programmeringsbakgrunn.

Det jeg prøver å gjøre er å lære maskinlæring, og for å gjøre dette må jeg først lære om lineær regresjon. Alle forklaringene på Internett jeg finner om dette emnet, plotter dataene først. Jeg ser etter en praktisk forklaring på lineær regresjon som ikke er avhengig av grafer og diagrammer.

Her er min forståelse av målet med enkel lineær regresjon:

Enkel lineær regresjon er prøver å finne formelen som når du gir X til den, vil gi deg den nærmeste estimeringen av Y.

Så, som jeg forstår det , hva som må gjøres er å sammenligne prediktoren (for eksempel arealet til et hus i kvadratmeter) med den uavhengige variabelen (prisen). I mitt eksempel kan du sannsynligvis lage en ikke-visuell måte å få den beste formelen for å beregne prisen på et hus fra området. For eksempel, kanskje du vil få området og prisen på 1000 hus i et nabolag, og dele prisen til området? Resultatet (i det minste i Iran, der jeg bor) ville ha en veldig ubetydelig avvik. Så du vil sannsynligvis få noe sånt som dette:

Pris = 2333 Rials * Husets område

Selvfølgelig vil du da måtte gå gjennom alle de 1000 husene i datasettet ditt, legg området i formelen over, sammenlign estimatet med den virkelige prisen, kvadrat resultatene (antar at for å forhindre at avvik avbryter hverandre) og deretter få et tall, så fortsett å spille rundt med 2333 for å redusere feilene.

Dette er selvfølgelig brute force-alternativet hvor det sannsynligvis vil ta aldre å beregne feilene og komme til det beste alternativet, men du ser du hva jeg sier? Jeg sa ikke noe om en graf eller en linje eller punkter på et plot eller den beste måten å tilpasse en linje til dine eksisterende data.

Så hvorfor trenger du et spredningsdiagram og lineær algebra for dette? Er det ikke en ikke-visuell måte?

For det første, har jeg rett i antagelsene mine? Hvis ikke, vil jeg gjerne bli korrigert. Hvorvidt det er en måte å komme på formelen uten å leke med lineær algebra?

Jeg ville virkelig satt pris på det hvis jeg kunne få et eksempel med forklaringen, slik at jeg kan gjøre det sammen med teksten for å teste min forståelse.

Men har du romlig fantasi som kan ta over visjonen?Hvis ja, antar jeg at en scatterplot kan forestilles på en eller annen måte.Jeg tviler på at essensen av regresjon bare kan fanges av proposisjonell tenkning (som verbal).
Hva er din mattebakgrunn?Wikipedia-siden kalt [Simple Linear Regression] (https://en.m.wikipedia.org/wiki/Simple_linear_regression) er stort sett tekst, og har det jeg synes er en rimelig klar beskrivelse i første avsnitt.Hvordan sammenlignes den artikkelen med detaljnivået du leter etter?
Gi meg beskjed hvis svaret som tilbys er på noen måte det du var ute etter.Hvis det er utenfor målet, vil jeg gjerne slette det.
Jeg leter etter konseptuelle, ikke-matematiske forklaringer.Selv om jeg har studert matematikk på universitetet, har det meste aldri sett seg fast på grunn av den samme grunnen til at jeg ikke forstår lineær regresjon.Det jeg ikke forstår er grunnen til å bruke plott og linjer for denne typen estimering.Det er veldig rart at man trenger å tegne et spredningsdiagram for å finne ut den nærmeste formelen som når du gir 'x' til den, ville spytte ut 'y'.Jeg vil gjerne vite hvorfor ting gjøres slik de er.Det er greit hvis spredningsdiagrammer brukes til presentasjonsformål, men er det alt?
@Antoni Parellada Beklager.Spørsmålet mitt var ikke klart, og jeg endte med å kaste bort tiden din.Spørsmålet mitt er mer grunnleggende - hvorfor?Hvorfor et spredningsdiagram?Hvorfor kan vi ikke bare se på mønsteret på en annen måte?Jeg antok at spredningsplott er en * valgfri * gimmick
Jeg redigerte spørsmålet mitt for å gi mer sammenheng.Gjør dette ting tydeligere?
Jeg fortsetter å tenke på det, se om jeg kan komme opp, men rett utenfor balltre, tenk på regresjon som å løse en ligning som ikke har noen løsning.Alle datapunktene blir forutsagt feil av regressoren din (området i huset).Du leter etter en ligning som gjør feilene dine så tålelige som mulig.
@Antoni Parellada Takk!Jeg forstår hva du sier.Det jeg ikke forstår er hvorfor man trenger å bruke en tomt til dette.Dette er noe som helt avhenger av tall.Vi ser etter formelen som har minst feil ved estimering av 'Y' fra 'X'.Jeg forstår det perfekt.Det jeg vil forstå er hvordan jeg kommer frem til svaret uten å bruke lineær algebra.Jeg gjetter at det er * en * av måtene å finne svaret på, men definitivt ikke den eneste.
utmerket spørsmål, vi må tenke mer på å forklare konseptene våre for mennesker med nedsatt funksjonsevne
Du trenger ikke bruke en tomt.Faktisk, for flere lineære regresjoner (regresjon med mange prediktorer) kan du ikke plotte et $ p + 1 $ dimensjonalt rom.Imidlertid fungerer den lineære algebra fortsatt.Alle lineære algebraformler involvert i lineær regresjon kan reduseres til operasjoner på enkle skalartall.Du vil bare ikke gjøre det på den måten for hånd hvis du verdsetter sunn fornuft.
Utfordringen er heller ikke egentlig å forstå modellen, men å tilpasse modellen til dataene (dvs. å finne ut at 2333 er den beste koeffisienten).
Gradient nedstigning ville fungere.OLS gir deg imidlertid en effektiv 1-iterasjonsalgoritme for å finne de beste objektive MSE-koeffisientene.
"ikke avhengig av grafer og plott."- Det kan hende du fortsatt trenger å plotte ting for å kontrollere om det er følsomt.slå opp Anscombes kvartett, for eksempel.
@J.M.så vi må finne måter å se etter følsomhet uten plott.det er for mye å se på tomtene.
mer tenker jeg mer på dette spørsmålet. Jeg innser hvor lite vi vet om blinde menneskers tilnærming til å lære matte og statistikk.Jeg trodde ikke engang hvordan de ville lese HTML-siden med LaTeX-formler.
Takk alle sammen.Alle svarene hjalp meg til å forstå hva dette handler om.Jeg skulle ønske jeg kunne godta dem alle.Det minste jeg kan gjøre er imidlertid å oppstemme dem alle.Takk skal du ha.
Et spørsmål om formatering: er LaTeX-formler som $ (x_2, y_2) $ kompatible med skjermlesemetoden du bruker?Foretrekker du at formler skrives ut, som `(x_2, y_2)`?
Det er ikke kompatibelt, i og med at jeg ikke blir fortalt at `2 'er et overskrift, abonnement eller noe annet, og jeg må gjette.Imidlertid løser jeg det i StackExchange ved å klikke på rediger og se markdown-koden.Men å skrive ting ut gjør det mye lettere.
Som programvareingeniør som har hovedfag i matematikk, har du helt rett: konseptuelt er de visuelle elementene i alle matematiske felt alltid (eller nesten alltid) bare "valgfrie gimmicks", som du sier.Dette er ideelt sett alle matematikere og matematikelever, plassert eller ikke, bør lære!Jeg beklager at professorene dine ikke var mer nyttige i denne forbindelse.(Forresten, jeg kom hit fra blogginnlegget ditt "Tools of a Blind Programmer", som jeg elsket. Takk for at du skrev det!)
Elleve svar:
Chris Rackauckas
2016-04-02 11:55:36 UTC
view on stackexchange narkive permalink

Ja, det er det. Du må fortsette å leke med 2333 til du finner den rette som minimerer feilen. Men det er en matematisk måte å finne den "rette" på. La oss kalle nummeret $ \ beta $. $ E $, summen av de kvadrerte feilene (SSE) er en funksjon av $ \ beta $ siden for hvert valg av $ \ beta $ kan beregne beløpet hvert estimat er av, kvadratere det og summere dem sammen.

Hvilken $ \ beta $ minimerer den totale summen av de kvadratiske feilene? Dette er bare et kalkulasjonsproblem. Ta derivatet av $ E $ med $ \ beta $ og sett det lik null. Dette gir en ligning for $ \ beta $. Sjekk at det andre derivatet er positivt for å vite at det er et minimium. Dermed får du en ligning for $ \ beta $ som minimerer feilen.

Hvis du utleder den på denne måten, vil du få $ \ beta $ som en summering. Hvis du skriver ut den lineære algebraformen til estimatet, vil du se at dette er det samme.

Rediger: Her er en lenke til noen notater med denne typen avledning. matematikk blir litt rotete, men det er bare et kalkulasjonsproblem.

HERREGUD.Endelig!En ikke-lineær-algebra måte å beregne dette på.Konseptene du snakker om i svaret ditt er over hodet på meg, men jeg vil definitivt se på derivater i et forsøk på å forstå denne tankegangen bedre.
Jeg koblet til noen notater som forklarer det på et ganske elementært nivå.Jeg tror ethvert svar vil trenge kalkulus fordi måten du løser problemer som "finn minimum $ E (\ beta) $" er å ta et derivat og sette det lik null.Intuitivt er dette bare å si at minimum (eller maksimum) for en bakke vil være der bakken er flat (siden skråningen er høyest langs siden av bakken!).Derivat = skråning.Så i områder som endrer $ \ beta $ begynner å forårsake liten endring i $ E $, er du nær minimum (eller maksimum. Du må sørge for at det ikke er et maksimum!).
Denne ideen bringer deg deretter til maskinlæring.En av de grunnleggende metodene i maskinlæring er gradvis anstendig.Det betyr i utgangspunktet "følg skråningen".Hvis du fortsetter å la ballen rulle i retning der bakken er brattest, vil du slå et minimum.Så gradient anstendig metode er å gjøre nettopp dette: finn ut hvilken måte å endre $ \ beta $ som får feilen til å reduseres mest og gå den veien!
For minste kvadraters regresjon trenger du ikke å gjøre anstendig gradient siden du kan løse en ligning som er svaret, men dette gir en god måte å forstå hva maskinlæring er.Det koker ned til å velge en måte å måle feil på, og deretter finne en måte å minimere feilligningen på.Resultatet er den "beste" estimeringsligningen som læres via dataene.Jeg håper det hjelper deg på veien mot maskinlæring!
EdM
2016-04-01 19:52:16 UTC
view on stackexchange narkive permalink

Din forståelse er nær, men trenger noe utvidelse: Enkel lineær regresjon prøver å finne formelen som når du gir X til den, vil gi deg den nærmeste estimeringen av Y basert på en lineær sammenheng mellom X og Y.

Ditt eksempel av boligprisene, når det utvides litt, viser hvorfor du ender med spredningsplott og lignende. For det første fungerer det bare ikke å dele prisen på området i andre tilfeller, som landpriser i hjembyen min, hvor forskrifter om bygging betyr at det bare å eie en parsell hvor du kan bygge et hus har en høy verdi. Så landpriser er ikke bare proporsjonale med arealer. Hver økning av pakkeområdet kan gi den samme økningen i pakkeverdi, men hvis du gikk helt ned til en (mytisk) pakke med 0 område, vil det fortsatt være en tilhørende tilsynelatende pris som representerer verdien av å bare eie en parsell jord som er godkjent for bygging.

Det er fortsatt et lineært forhold mellom areal og verdi, men det er et avskjære i forholdet, som representerer verdien av å bare eie en pakke. Det som gjør dette likevel til et lineært forhold er at endring i verdi per enhet endring i område, skråningen eller regresjonskoeffisienten, alltid er samme uansett størrelsen på areal eller verdi.

Så si at du allerede kjenner på en eller annen måte både skjæringspunktet og skråningen som relaterer pakkeområder til verdi, og du sammenligner verdiene fra den lineære relasjonen til de faktiske verdiene representert av nylige salg. Du vil oppdage at de forutsagte og faktiske verdiene sjelden eller noen gang sammenfaller. Disse avvikene representerer feilene i modellen din, og resulterer i en spredning av verdier rundt det forutsagte forholdet. Du får et spredningsdiagram av poeng gruppert rundt det forventede rette forholdet mellom område og verdi.

I de fleste praktiske eksempler kjenner du ikke allerede skjæringspunktet og skråningen, så du må prøve å estimere dem ut fra dataene. Det er det lineær regresjon prøver å gjøre.

Det kan være bedre å tenke på lineær regresjon og relatert modellering fra perspektivet til estimering av maksimal sannsynlighet, som er et søk etter det bestemte parameterverdier i modellen din som gjør dataene mest sannsynlige. Det ligner på "brute-force" tilnærmingen du foreslår i spørsmålet ditt, men med et noe annet mål på hva du prøver å optimalisere. Med moderne databehandlingsmetoder og intelligent utforming av søkemønsteret kan det gjøres ganske raskt.

Estimering av maksimal sannsynlighet kan konseptualiseres på måter som ikke krever et grafisk diagram og ligner på måten du synes allerede å tenke. Når det gjelder lineær regresjon, gir både standard regresjon med minste kvadrat og maksimal sannsynlighet de samme estimatene for avskjæring og helning.

Å tenke når det gjelder maksimal sannsynlighet har den ekstra fordelen at den strekker seg bedre til andre situasjoner der det er ikke strengt lineære forhold. Et godt eksempel er logistisk regresjon der du prøver å estimere sannsynligheten for at en hendelse skal skje basert på prediktorvariabler. Dette kan oppnås med maksimal sannsynlighet, men i motsetning til standard lineær regresjon er det ingen enkel ligning som produserer skjæringspunktet og skråner i logistisk regresjon.

Jeg trodde at '' lineær '' i '' lineær regresjon '' betydde '' lineær i parametrene '', så du kan ha $ x ^ 2 $ som en uavhengig variabel, men koeffisienten til hver uavhengige variabel må vises i enlineær måte?
@fcop du har rett.Jeg begynte med eksemplet fra OP, som utgjorde en proporsjonalitet mellom verdier og områder.Jeg pleier å tenke på de _transformerte_ verdiene til originale prediktorvariabler som de faktiske uavhengige variablene i regresjonen når transformasjoner som krefter eller logger brukes.Jeg tror det ender i praksis som mest en forskjell i terminologi, selv om det er forskjeller i implisitte feilmodeller.
Jeg ser poenget ditt, uansett, det var et godt svar (+1)
Joe_74
2016-04-01 19:41:46 UTC
view on stackexchange narkive permalink

Først og fremst komplimentene mine. Det er vanskelig for alle å slite med statistikk (jeg er lege, så du kan gjette hvor vanskelig det er for meg) ...

Jeg kan ikke foreslå en visuell forklaring på lineær regresjon , men noe veldig nært: en taktil forklaring til lineær regresjon .

Tenk deg at du kommer inn i et rom fra en dør. Rommet er mer eller mindre en firkantet form, og døren er nede i venstre hjørne. Du ønsker å komme til neste rom, hvis dør du forventer vil være i øvre høyre hjørne, mer eller mindre. Tenk deg at du ikke kan fortelle nøyaktig hvor naboen er (noensinne!), Men det er noen mennesker spredt i rommet, og de kan fortelle deg hva som skulle gå. De kan heller ikke se, men de kan fortelle deg hva som er i nærheten av dem. Den siste veien du vil ta for å nå nabohuset, ledet av dette folket, er analog med en regresjonslinje, som minimerer avstanden mellom disse menneskene og bringer deg mot døren, nær (hvis ikke på) riktig vei.

(+1) Jeg liker eksemplet ditt veldig godt, og det er morsomt at vi ved et rent tilfeldighet brukte veldig lignende illustrasjoner for dette problemet!
"Rommet er mer eller mindre en firkant i form" - hva er firkantet for blinde mennesker?Med denne setningen fikk du oss tilbake dit vi skulle begynne med.
Jeg er ikke enig.La dem gå 10 fot i en retning, så la dem snu 90 ° (for eksempel et armspann) og la dem gå igjen 10 fot.Det er en firkant hvis du ikke kan se ordentlig.
@GiuseppeBiondi-Zoccai, Hvis jeg bygger en trykkmodell i kammeret på temperaturen, hvorfor trenger jeg å ta opp firkanter og linjer og andre romlige konsepter?Det er sikkert praktisk hvis du ikke er blind, men for en blind person bringer disse romlige analogiene ikke noe til bordet for det aktuelle problemet, de kompliserer bare utstillingen
Igjen, jeg er høflig uenig ... min antagelse har alltid vært at blinde mennesker har spesielt utviklet taktile romlige ferdigheter.Uansett, ethvert eksempel som fungerer er bra, og jo mer desto bedre.
Tim
2016-04-01 19:58:59 UTC
view on stackexchange narkive permalink

Fint eksempel som kan hjelpe deg med spørsmålet ditt, ble gitt av Andrew Gelman og David K. Park (2012). La oss holde oss til eksemplet ditt med å forutsi prisen på huset $ Y $ gitt området $ X $. For dette bruker vi enkel lineær regresjonsmodell

$$ Y = \ beta_0 + \ beta_1 X + \ varepsilon $$

For enkelhets skyld, la oss glemme skjæringen $ \ beta_0 $, kan du sjekke denne tråden for å lære hvorfor er det viktig. Disse dataene kan visualiseres på et spredningsdiagram. Hva er scatterplot? Tenk deg todimensjonalt rom (det kan være et rom), datapunktene er "spredt" rundt stedet, hvor verdiene til begge variablene markerer deres $ y $ -aksis- og $ x $ -akseposisjoner. Det du allerede vet, er at det på en eller annen måte oversettes til den lineære regresjonsmodellen.

For å gjøre det klart, kan vi forenkle dette eksemplet enda mer - slik Gelman og Park gjorde. Forenklingen de foreslo er å dele $ X $ -variabelen, dvs. husets område, i tre grupper: "små", "mellomstore" og "store" hus (de beskriver hvordan man tar en slik beslutning optimalt, men dette er av mindre betydning). Deretter beregner du gjennomsnittsstørrelsen på "lite" hus og gjennomsnittlig størrelse på "stort" hus. Beregn også gjennomsnittsprisen på "lite" hus og "stort". Nå, reduser dataene dine til to punkter - midtpunktene til skyene av datapunkter for små og store hus spredt i rommet, og fjern alle datapunktene om "mellomstore" hus. Du sitter igjen med to punkter i et todimensjonalt rom. Regresjonslinje er linjen som forbinder punktene - du kan tenke på det som en retning fra ett punkt til et annet. skråningen $ \ beta_1 $ på denne linjen forteller oss om mengden forandring mellom små og store hus i prisene.

Det samme skjer når vi har flere punkter, spredt rundt i rommet: regresjonslinjen finner veien ved å minimere den kvadratiske avstanden til hvert punkt. Så linjen går nøyaktig gjennom sentrum av skyen av punkter spredt i rommet. I stedet for å koble sammen to punkter, kan du tenke på det som å koble ubegrenset antall slike sentrale punkter.


Gelman, A., & Park, D. K. (2012). Splitte en prediktor i øvre kvartal eller tredje og nedre kvartal eller tredje. Den amerikanske statistikeren, 62 (4), 1-8.

butte
2016-04-02 03:07:01 UTC
view on stackexchange narkive permalink

Det korte svaret er ja. Hvilken linje går best gjennom midten av alle punkter som består av hele eller bare overflaten til et fly eller spyd? Tegn det; i hodet eller på et bilde. Du leter etter og på den ensomme linjen hvor hvert punkt (av interesse, enten du plotter dem eller ikke) som vil bidra til totalt minst (mellom poeng) avvik fra den linjen. Hvis du gjør det med øye, implisitt av sunn fornuft, vil du tilnærme (bemerkelsesverdig bra) et matematisk beregnet resultat. For det er det formler som plager øyet og kanskje ikke gir sunn fornuft. I lignende formaliserte problemer innen ingeniørfag og naturvitenskap inviterer spredene fremdeles til en foreløpig vurdering av øynene, men på disse arenaene skal man komme med en "test" -sannsynlighet for at en linje er linjen. Det går utfor derfra. Imidlertid prøver du tilsynelatende å lære en maskin å dimensjonere (i virkeligheten) metene og grensene til (a) en stor hage og (b) spredt husdyr inne i den. Hvis du gir maskinen din det som tilsvarer et bilde (grafisk, algebraisk) av eiendommen og beboerne, skal den kunne finne ut (midtlinjen som deler bloben pent i to, beregnet utstikker til en linje) hva du vil at den skal gjøre. Enhver anstendig statistikkbok (be lærere eller professorer om å nevne mer enn én) bør stave ut både hele poenget med lineær regresjon, og hvordan du gjør det i de enkleste tilfellene (alt fra tilfeller som ikke er enkle). Et antall kringler senere får du det ned.


I re: Silverfishs kommentar til innlegget mitt supra (det virker ingen enkel måte annet enn dette å legge til kommentar til den kommentaren), ja, OP er blind, lærer maskinlæring og ba om praktisk uten plott eller grafer, men Jeg antar at han er i stand til å skille "visualisering" fra "visjon", visualiserer og har virkelige bilder i hodet, og har en grunnleggende ide om all slags fysisk i gjenstander verden rundt seg (hus, blant andre), så han kan fortsatt "tegne" både matematisk så vel som ellers i hodet på ham, og kan sannsynligvis sette en god fremtoning av 2D og 3D på papir. Et bredt utvalg av bøker og andre tekster er tilgjengelig i dag i fysisk blindeskrift så vel som i elektronisk stemme på ens egen datamaskin (som fora, ordbøker osv.), Og mange skoler for blinde har ganske komplette læreplaner. I stedet for fly eller spyd, ville ikke sofa eller stokk nødvendigvis være det mest passende, og statistiske tekster er sannsynligvis tilgjengelige. Han er mindre bekymret for hvordan maskiner kan lære å tegne og tegne eller beregne regresjon, og deretter for hvordan maskiner kan lære å gjøre noe tilsvarende (og mer grunnleggende) for å forstå regresjon (om en maskin kan vise den, reagere på den, følge unngå det, eller hva som helst). Den essensielle drivkraften (for blinde så vel som for seende studenter) er fortsatt hvordan man kan visualisere hva som kan være ikke-visuelt (for eksempel begrepet linearitet i stedet for eksempel på en tegnet linje, siden før Euklid og Pythagoras), og hvordan man visualiserer grunnleggende formål med en spesiell type linearitet (regresjon, hvis grunnleggende poeng er best egnet til minst avvik, siden tidlig i matematikk og statistikk). En lineprinter's Fortran-produksjon av regresjon er knapt "visuell" til mentalt assimilert, men selv det grunnleggende poenget med regresjon er imaginært (en linje som ikke er der før den er laget for et formål).

Kanskje jeg misforstår dette svaret, men "tegne det, i hodet eller på et bilde" ser ut til å savne poenget med spørsmålet: det opprinnelige spørsmålet stilles av noen som er helt blind, og derfor leter etter en ikke-visuell måte å nærme seg regresjon på.
@Silverfish-svaret (for lenge til en kommentar) er redigert i svaret ovenfor
Takk.Jeg syntes nedstemningen var litt tøff (det var ikke meg), men noen av språkvalget i dette svaret var uheldig (f.eks. Er det flere referanser til å gjøre ting "med øye").Likevel kan jeg forstå hvorfor du ønsker å skille mellom visuell oppfatning og hva som kan visualiseres gjennom "mind's eye".
Jeg kan visualisere ting i tankene mine.Det er bare det at jeg ikke bruker de samme måtene å visualisere på.Det handler ikke om å ikke bruke 'tegn' eller 'visualiser'.Det handler bare om å bruke konseptet til å utlede visualiseringen, snarere enn omvendt.Jeg har funnet ut at dette skjer mange steder i matematikken.For å forklare et vanskelig emne, brukes vanligvis former og bilder, i stedet for å relatere beregningen til begreper som eleven ville vite fra det virkelige liv.
Glen_b
2016-04-04 10:42:50 UTC
view on stackexchange narkive permalink

Årsaken til at tomter er universelt brukt til å innføre enkel regresjon - et svar som er spådd av en enkelt prediktor - er at de hjelper forståelsen.

Imidlertid tror jeg at jeg kan gi noe av smaken som kan hjelpe til med å forstå hva som skjer. I dette vil jeg mest fokusere på å prøve å formidle noe av den forståelsen de gir, noe som kan hjelpe med noen av de andre aspektene du vanligvis vil møte når du leser om regresjon. Så dette svaret vil hovedsakelig håndtere et bestemt aspekt av innlegget ditt.

Se for deg at du sitter foran et stort rektangulært bord, for eksempel et vanlig kontorbord, det ene med et langt armspenn (kanskje 1,8 meter), med kanskje halvparten så bredt.

Du sitter foran bordet i vanlig posisjon, midt på den ene langsiden. På dette bordet har et stort antall negler (med ganske glatte hoder) blitt hamret inn i toppflaten slik at hver stikker opp litt (nok til å føle hvor de er, og nok til å binde en streng til dem eller feste et gummistrikk ).

Disse neglene er i varierende avstand fra kanten av skrivebordet, på en slik måte at de mot den ene enden (si den venstre enden) vanligvis er nærmere kanten av skrivebordet og når du beveger deg mot i den andre enden har neglehodene en tendens til å være lenger borte fra kanten.

Tenk deg videre at det ville være nyttig å ha en følelse av hvor langt neglene i gjennomsnitt er fra kanten din i en hvilken som helst posisjon langs kanten.

Velg et sted langs kanten av skrivebordet og legg hånden der, strekk deg så fremover rett over bordet, og dra hånden forsiktig direkte mot deg, så bort igjen, og flytt hånden frem og tilbake over spikerhodene. Du støter på flere titalls støt fra disse neglene - de som ligger innenfor den smale bredden på hånden din (når den beveger seg rett bort fra kanten din, i konstant avstand fra venstre ende av skrivebordet), en seksjon eller stripe, omtrent ti centimeter bred .

Ideen er å finne ut en gjennomsnittlig avstand til en spiker fra kanten av pulten i den lille delen. Intuitivt er det bare midten av støtene vi treffer, men hvis vi målte hver avstand til en spiker i den håndbrede delen av skrivebordet, kunne vi enkelt beregne gjennomsnittene.

For eksempel kan vi bruke en T-firkant hvis hode glir langs kanten av pulten og hvis skaft går mot den andre siden av pulten, men like over pulten slik at vi ikke treffer neglene når den glir mot venstre eller høyre - når vi passerer en gitt spiker, kan vi få avstanden langs skaftet på T-firkanten.

Så ved en progresjon av steder langs kanten vår gjentar vi denne øvelsen med å finne alle neglene i en håndbreddestrip som løper mot og bort fra oss og finner deres gjennomsnittlige avstand unna. Kanskje deler vi pulten opp i striper med håndbredden langs kanten vår (slik at alle negler opptrer i nøyaktig en stripe).

Tenk deg at det var si 21 slike striper, den første i venstre kant og sist i høyre kant. Midlene kommer lenger bort fra bordkanten når vi går over stripene.

Disse midlene danner en enkel ikke-parametrisk regresjonsestimator av forventningen til y (vår avstand bort) gitt x (avstand langs kanten vår fra venstre ende), det vil si E (y | x). Nærmere bestemt er dette en innbundet ikke-parametrisk regresjonsestimator, også kalt regressogram

Hvis disse stripene betyr økt regelmessig - det vil si at gjennomsnittet vanligvis økte med omtrent samme mengde per stripe som vi beveget oss over stripene - så kunne vi bedre estimere vår regresjonsfunksjon ved å anta at den forventede verdien av y var en lineær funksjon av x - dvs. at den forventede verdien av y gitt x var en konstant pluss et multiplum av x. Her representerer konstanten hvor neglene pleier å være når vi på x er null (ofte kan vi plassere dette ytterst til venstre, men det trenger ikke å være), og det spesielle multiplumet av x er hvor raskt gjennomsnittet endres når vi beveger oss en centimeter (si) til høyre.

Men hvordan finner vi en slik lineær funksjon?

Tenk deg at vi sløyfer ett gummibånd over hvert spikerhode, og fest hver til en lang tynn pinne som ligger rett over skrivebordet, oppå neglene, slik at den ligger et sted nær "midten" av hver stripe vi hadde vært for.

Vi fester båndene på en slik måte at de bare strekker seg i retning mot og bort fra oss (ikke til venstre eller høyre) - til venstre for seg selv vil de trekke for å gjøre sin retningsretning på en rett vinkel med pinnen, men her forhindrer vi det, slik at retningen deres strekker seg bare i retningene mot eller bort fra kanten av pulten. Nå lar vi pinnen legge seg når båndene trekker den mot hver spiker, med fjernere negler (med mer strukne gummibånd) som trekker tilsvarende hardere enn negler nær pinnen.

Deretter kombineres resultatet av alle bånd som trekker i pinnen vil være (ideelt sett i det minste) å trekke pinnen for å minimere summen av kvadratiske lengder av de strukne gummibåndene; i den retningen rett over bordet vil avstanden fra kanten av bordet til pinnen i en gitt x-posisjon være vårt estimat av den forventede verdien av y gitt x.

Dette er egentlig et lineært regresjonsestimat .

Tenk deg at i stedet for negler har vi mange frukter (som små epler kanskje) hengende fra et stort tre, og vi ønsker å finne den gjennomsnittlige avstanden for frukt over bakken, siden den varierer med posisjonen på bakken. Tenk deg at i dette tilfellet blir høydene over bakken større når vi går fremover og litt større når vi beveger oss til høyre, igjen på en vanlig måte, så hvert trinn fremover endrer vanligvis gjennomsnittshøyden med omtrent samme mengde, og hvert trinn til høyre vil også endre gjennomsnittet med en tilnærmet konstant mengde (men denne trinn-høyre mengden av endring i gjennomsnitt er forskjellig fra stigende fremover mengden av endring).

Hvis vi minimerer summen av kvadratiske vertikale avstander fra fruktene til et tynt flatt ark (kanskje et tynt ark med veldig stiv plast) for å finne ut hvordan gjennomsnittshøyden endres når vi beveger oss fremover eller går til høyre, det vil være en lineær regresjon med to prediktorer - et multiplum regresjon.

Dette er de eneste to tilfellene som plott kan hjelpe med å forstå (de kan raskt vise det jeg nettopp beskrev, men forhåpentligvis vet du at du har et grunnlag for å konseptualisere de samme ideene). Utover de enkleste to sakene, sitter vi bare igjen med matematikken.

Ta nå huspriseksempelet ditt; du kan representere hvert huss område med en avstand langs kanten av pulten - representer den største husstørrelsen som en posisjon nær høyre kant, hver annen husstørrelse vil være en posisjon lenger til venstre der et visst antall centimeter vil representere noen antall kvadratmeter. Nå representerer avstanden bort salgspris. Representer det dyreste huset som en bestemt avstand nær den lengste kanten av pulten (som alltid, kanten lengst fra stolen din), og hver centimeter som flyttes bort, vil representere et antall Rials.

For tiden kan du forestille deg at vi valgte representasjonen slik at den venstre kanten av pulten tilsvarer et husareal på null og den nærmeste kanten til en huspris på 0. Vi setter inn en spiker for hvert hus.

Vi vil sannsynligvis ikke ha noen negler nær den venstre enden av kanten (de kan være mest mot høyre og borte fra oss) fordi dette ikke nødvendigvis er et godt valg av skala, men ditt valg av en ikke-avskjæringsmodell gjør dette til en bedre måte å diskutere det på.

Nå, i din modell, tvinger du pinnen til å passere gjennom en sløyfestreng i venstre hjørne av skrivebordets nærmeste kant - og tvinger den tilpassede modellen har pris null for område null, noe som kan virke naturlig - men forestill deg om det er noen ganske konstante komponenter av pris som påvirket hvert salg. Da ville det være fornuftig å ha skjæringspunktet forskjellig fra null.

I alle fall, med tillegg av den sløyfen, vil den samme gummibåndsøvelsen som før finne vårt minste kvadratestimat av linjen. / p>

Wow, takk for dette lange romlige svaret.Det forklarte mye.Takk.
Chris J
2016-04-02 10:07:58 UTC
view on stackexchange narkive permalink

Har du opplevd den slags brødrister du ofte får på hotell. Du legger brød på et transportbånd i den ene enden, og det kommer ut som skål i den andre. Dessverre, i brødristeren på dette billige hotellet, har ovnene alle flyttet til tilfeldige høyder og avstander fra inngangen til brødristeren. Du kan ikke bevege varmeovnene eller bøye banen til beltet (som er rett, forresten (det er her den lineære biten kommer inn), men du kan endre beltets HØYDE og TILT.

Gitt posisjonene til alle varmeapparatene, vil lineær regresjon fortelle deg riktig høyde og vinkel for å plassere beltet for å få mest mulig varme generelt. Dette er fordi lineær regresjon vil minimere den gjennomsnittlige avstanden mellom toast og varmeovner.

Min første feriejobb var å gjøre lineære regresjoner for hånd. Fyren som sa at du ikke vil gjøre det, er RIKTIG !!!

Vectornaut
2016-04-04 00:28:36 UTC
view on stackexchange narkive permalink

Min favorittforklaring på lineær regresjon er geometrisk, men ikke visuell. Den behandler datasettet som et enkelt punkt i et høydimensjonalt rom, i stedet for å bryte det opp i en sky av punkter i todimensjonalt rom.

Området $ a $ og pris $ p $ av et hus er et par tall, som du kan tenke på som koordinatene til et punkt $ (a, p) $ i todimensjonalt rom. Områdene $ a_1, \ ldots, a_ {1000} $ og priser $ p_1, \ ldots, p_ {1000} $ av tusen hus er tusen par tall, som du kan tenke på som koordinatene til et punkt $$ D = (a_1, \ ldots, a_ {1000}, p_1, \ ldots, p_ {1000}) $$ i to tusen dimensjonalt rom. For enkelhets skyld vil jeg kalle to tusen-dimensjonalt rom for "datarom". Datasettet $ D $ er et enkelt punkt i datarommet.

Hvis forholdet mellom område og pris var perfekt lineært, ville punktet $ D $ sitte i en veldig spesiell region av datarom, som jeg Jeg vil kalle det "lineære arket." Den består av punktene $$ M (\ rho, \ beta) = (a_1, \ ldots, a_ {1000}, \ rho a_1 + \ beta, \ ldots, \ rho a_ {1000} + \ beta). $$ Tallene $ \ rho $ og $ \ beta $ har lov til å variere, men $ a_1, \ ldots, a_ {1000} $ er faste til å være de samme områdene som vises i datasettet ditt. Jeg kaller det lineære arket et "ark" fordi det er todimensjonalt: et punkt på det er spesifisert av de to koordinatene $ \ rho $ og $ \ beta $. Hvis du vil få en følelse av hvordan det lineære arket er formet, kan du forestille deg en tynn, rett ledning som er strukket over et tredimensjonalt rom. Det lineære arket er slik: det er helt flatt, og dimensjonen er veldig lav sammenlignet med dimensjonen til rommet det sitter inne.

I et ekte nabolag vil forholdet mellom område og pris ikke være helt lineært, så poenget $ D $ vil ikke sitte nøyaktig på det lineære arket. Imidlertid kan det sitte veldig nær det lineære arket. Målet med lineær regresjon er å finne punktet $ M (\ rho, \ beta) $ på det lineære arket som ligger nærmest datapunktet $ D $. Dette punktet er den beste lineære modellen for dataene.

Ved å bruke den pythagoriske teoremet kan du finne ut at kvadratet på avstanden mellom $ D $ og $ M (\ rho, \ beta) $ er $ $ [p_1 - (\ rho a_1 + \ beta)] ^ 2 + \ ldots + [p_ {1000} - (\ rho a_ {1000} + \ beta)] ^ 2. $$ Med andre ord, avstanden mellom datapunkt og modellpunktet er modellens totale kvadratfeil! Å minimere den totale kvadratiske feilen til en modell er det samme som å minimere avstanden mellom modellen og dataene i datarommet.

Som Chris Rackauckas påpekte, gir kalkulator en veldig praktisk måte å finne koordinatene $ \ rho $ og $ \ beta $ som minimerer avstanden mellom $ D $ og $ M (\ rho, \ beta) $.

Chris K
2016-04-06 02:11:29 UTC
view on stackexchange narkive permalink

@Chris Rackauckas og @ EDMs svar er riktig. Det er mange måter å nærme seg enkel lineær regresjon som ikke krever plotting eller visuelle forklaringer av vanlig estimering av minste kvadrat, og de gir veldig solide forklaringer på hva som faktisk skjer når du kjører OLS.

Jeg kan legge til at ved å bruke spredningsplotter som et instruksjonsverktøy for å lære noen form for ny modelleringsprosedyre, enten det er parametrisk modell fra old school, avanserte maskinlærings ting eller bayesiske algoritmer, kan grafer bidra til å redusere tiden det tar å lære hva en bestemt algoritme gjør.

Tegning er også veldig viktig for utforskende dataanalyse når du først begynner å jobbe med et nytt datasett. Jeg har hatt situasjoner der jeg samlet mye data, utarbeidet teorien, nøye planla ut modellen min, og deretter kjørte den, bare for å ende opp med resultater som egentlig ikke hadde noen prediktiv kraft. Å planlegge bivariate forhold kan ta ut noe av gjetningen: i ditt eksempel er det mulig at boligprisen er lineært relatert til området, men kanskje forholdet ikke er lineært. Scatterplots hjelper deg med å bestemme om du trenger ordre med høyere ordre i regresjonen, eller om du vil bruke en annen metode enn lineær regresjon, eller om du vil bruke en slags ikke-parametrisk metode.

ctd2015
2016-04-22 16:14:01 UTC
view on stackexchange narkive permalink

Google for Anscombe Quartet.

Den viser 4 datasett som ved numerisk inspeksjon ikke viser stor forskjell.

Men når du lager et visuelt spredningsdiagram, blir forskjellene dramatisk synlig.

Det gir en ganske klar oversikt over hvorfor du alltid skal plotte dataene dine, regresjon eller ingen regresjon :-)

Diego
2016-04-02 07:20:39 UTC
view on stackexchange narkive permalink

Vi ønsker å ha en løsning som minimerer forskjellen mellom de forutsagte og faktiske verdiene.

Vi antar at $ y = bx + a $ dvs. det er et lineært forhold.

Vi bryr oss ikke om forskjellen mellom forutsagt og faktisk $ y $ er positiv eller negativ antar at distribusjon av feil på $ y $ har visse egenskaper.

Hvis vi antar at fordelingen av feil er normalt distribuert, viser det seg at det er en analytisk løsning på dette minimeringsproblemet. Summen av kvadrater av forskjeller er den beste verdien for å minimere for best mulig passform. Men det kreves normalt ikke normalitet.

Det er egentlig ikke så mye mer.

Den geometriske tolkningen kommer til nytte fordi summen av kvadrater har tolkningen i form av summen av avstandene til punktene på spredningsplottet fra $ y = bx + a $ -linjen. Og menneskets øye er veldig flink til å tilnærme linjen som tilsvarer best passform. Så det var praktisk før vi hadde datamaskiner for å finne passformen raskt.

I dag er det mer som en forståelseshjelp, men det er ikke nødvendig å virkelig forstå lineær regresjon.

EDIT : erstattet normal antagelse om feil med en riktig, men mindre kortfattet liste. Normalitet var nødvendig for å ha en analytisk løsning og kan antas i mange praktiske tilfeller, og i så fall er summen av kvadrater ikke bare optimal for den lineære estimatoren og maksimerer sannsynligheten også.

Hvis ytterligere antas normaliteten av feilfordeling holder da Sum av kvadrater er optimal blant både lineære og ikke-lineære estimatorer og maksimerer sannsynligheten.

Normal fordeling antakelse er ikke nødvendig for noe du har beskrevet
Sjekk denne forklaringen http://stats.stackexchange.com/a/1516/98469
Koblingen har ingenting med svaret ditt å gjøre.Hvis du utvidet til små prøveegenskaper eller MLE, kan du hente normalfordelingsforutsetningen, men slik det står, trenger ikke OLS-beskrivelsen i svaret ditt normalfordeling.Faktisk tFor å minimere summen av kvadrater trenger du ikke distribusjon eller statistikk i det hele tatt.Det er ren algebra.
Poenget handler om hvorfor vi minimerer summen av firkanter og ikke noen annen beregning.Ikke om hvordan man minimerer summen av firkanter.
Å minimere kvadratsummen har ingenting med normalfordeling å gjøre.Det er bare tapsfunksjonen din.Eventuell annen feilfordeling kan brukes med denne tapsfunksjonen.Du trenger distribusjonene i visse tilfeller, f.eks.hvis du vil gjøre slutninger om parameterverdier i små eksempler osv. Selv i dette tilfellet kan du bruke andre distribusjoner, jeg er ikke sikker på hvorfor du sitter fast på normal.
"... den sentrale grensenusikkerhet og minste kvadratparametertilpasning) kan avledes analytisk i eksplisitt form når de relevante variablene er normalt fordelt ... og minste kvadrater ... som er optimale for normalt distribuerte variabler blir ofte svært upålitelige [for andre distribusjoner]. https://en.wikipedia.org/wiki/Normal_distribution
omg, i stedet for å peke på irrelevante kilder og sitere irrelevant faktum, hvorfor ser du ikke bare på antagelsene til OLS?Det er et veldig kjent faktum at minste kvadrater ikke krever normalitet av feil, det er mange tråder på SE som diskuterer det.normalitet skader ikke, men det kreves ikke.f.eks.se på [her] (https://en.wikipedia.org/wiki/Ordinary_least_squares)
fra lenken din: OLS-estimatoren er konsistent når regressorene er eksogene, og det ikke er noen perfekt multikollinearitet, og optimale i klassen av lineære upartiske estimatorer når feilene er homoscedastiske og seriekorrelerte.Under disse forholdene gir metoden for OLS minimumsvarians gjennomsnittlig upartisk estimering når feilene har endelige avvik.Under den ekstra antagelsen at feilene er normalt distribuert, er OLS den maksimale sannsynlighetsestimatoren.
Hvorfor limte du ikke inn neste setning fra lenken min?"Denne antagelsen er ikke nødvendig for gyldigheten av OLS-metoden."Dette prøver jeg å fortelle deg: det kreves ikke.Det hjelper med noen ting, men ikke for det som er i svaret ditt.Jeg foreslår at du sletter svaret ditt, btw.
La oss [fortsette denne diskusjonen i chat] (http://chat.stackexchange.com/rooms/37983/discussion-between-diego-and-aksakal).


Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...