Årsaken til at tomter er universelt brukt til å innføre enkel regresjon - et svar som er spådd av en enkelt prediktor - er at de hjelper forståelsen.
Imidlertid tror jeg at jeg kan gi noe av smaken som kan hjelpe til med å forstå hva som skjer. I dette vil jeg mest fokusere på å prøve å formidle noe av den forståelsen de gir, noe som kan hjelpe med noen av de andre aspektene du vanligvis vil møte når du leser om regresjon. Så dette svaret vil hovedsakelig håndtere et bestemt aspekt av innlegget ditt.
Se for deg at du sitter foran et stort rektangulært bord, for eksempel et vanlig kontorbord, det ene med et langt armspenn (kanskje 1,8 meter), med kanskje halvparten så bredt.
Du sitter foran bordet i vanlig posisjon, midt på den ene langsiden. På dette bordet har et stort antall negler (med ganske glatte hoder) blitt hamret inn i toppflaten slik at hver stikker opp litt (nok til å føle hvor de er, og nok til å binde en streng til dem eller feste et gummistrikk ).
Disse neglene er i varierende avstand fra kanten av skrivebordet, på en slik måte at de mot den ene enden (si den venstre enden) vanligvis er nærmere kanten av skrivebordet og når du beveger deg mot i den andre enden har neglehodene en tendens til å være lenger borte fra kanten.
Tenk deg videre at det ville være nyttig å ha en følelse av hvor langt neglene i gjennomsnitt er fra kanten din i en hvilken som helst posisjon langs kanten.
Velg et sted langs kanten av skrivebordet og legg hånden der, strekk deg så fremover rett over bordet, og dra hånden forsiktig direkte mot deg, så bort igjen, og flytt hånden frem og tilbake over spikerhodene. Du støter på flere titalls støt fra disse neglene - de som ligger innenfor den smale bredden på hånden din (når den beveger seg rett bort fra kanten din, i konstant avstand fra venstre ende av skrivebordet), en seksjon eller stripe, omtrent ti centimeter bred .
Ideen er å finne ut en gjennomsnittlig avstand til en spiker fra kanten av pulten i den lille delen. Intuitivt er det bare midten av støtene vi treffer, men hvis vi målte hver avstand til en spiker i den håndbrede delen av skrivebordet, kunne vi enkelt beregne gjennomsnittene.
For eksempel kan vi bruke en T-firkant hvis hode glir langs kanten av pulten og hvis skaft går mot den andre siden av pulten, men like over pulten slik at vi ikke treffer neglene når den glir mot venstre eller høyre - når vi passerer en gitt spiker, kan vi få avstanden langs skaftet på T-firkanten.
Så ved en progresjon av steder langs kanten vår gjentar vi denne øvelsen med å finne alle neglene i en håndbreddestrip som løper mot og bort fra oss og finner deres gjennomsnittlige avstand unna. Kanskje deler vi pulten opp i striper med håndbredden langs kanten vår (slik at alle negler opptrer i nøyaktig en stripe).
Tenk deg at det var si 21 slike striper, den første i venstre kant og sist i høyre kant. Midlene kommer lenger bort fra bordkanten når vi går over stripene.
Disse midlene danner en enkel ikke-parametrisk regresjonsestimator av forventningen til y (vår avstand bort) gitt x (avstand langs kanten vår fra venstre ende), det vil si E (y | x). Nærmere bestemt er dette en innbundet ikke-parametrisk regresjonsestimator, også kalt regressogram
Hvis disse stripene betyr økt regelmessig - det vil si at gjennomsnittet vanligvis økte med omtrent samme mengde per stripe som vi beveget oss over stripene - så kunne vi bedre estimere vår regresjonsfunksjon ved å anta at den forventede verdien av y var en lineær funksjon av x - dvs. at den forventede verdien av y gitt x var en konstant pluss et multiplum av x. Her representerer konstanten hvor neglene pleier å være når vi på x er null (ofte kan vi plassere dette ytterst til venstre, men det trenger ikke å være), og det spesielle multiplumet av x er hvor raskt gjennomsnittet endres når vi beveger oss en centimeter (si) til høyre.
Men hvordan finner vi en slik lineær funksjon?
Tenk deg at vi sløyfer ett gummibånd over hvert spikerhode, og fest hver til en lang tynn pinne som ligger rett over skrivebordet, oppå neglene, slik at den ligger et sted nær "midten" av hver stripe vi hadde vært for.
Vi fester båndene på en slik måte at de bare strekker seg i retning mot og bort fra oss (ikke til venstre eller høyre) - til venstre for seg selv vil de trekke for å gjøre sin retningsretning på en rett vinkel med pinnen, men her forhindrer vi det, slik at retningen deres strekker seg bare i retningene mot eller bort fra kanten av pulten. Nå lar vi pinnen legge seg når båndene trekker den mot hver spiker, med fjernere negler (med mer strukne gummibånd) som trekker tilsvarende hardere enn negler nær pinnen.
Deretter kombineres resultatet av alle bånd som trekker i pinnen vil være (ideelt sett i det minste) å trekke pinnen for å minimere summen av kvadratiske lengder av de strukne gummibåndene; i den retningen rett over bordet vil avstanden fra kanten av bordet til pinnen i en gitt x-posisjon være vårt estimat av den forventede verdien av y gitt x.
Dette er egentlig et lineært regresjonsestimat .
Tenk deg at i stedet for negler har vi mange frukter (som små epler kanskje) hengende fra et stort tre, og vi ønsker å finne den gjennomsnittlige avstanden for frukt over bakken, siden den varierer med posisjonen på bakken. Tenk deg at i dette tilfellet blir høydene over bakken større når vi går fremover og litt større når vi beveger oss til høyre, igjen på en vanlig måte, så hvert trinn fremover endrer vanligvis gjennomsnittshøyden med omtrent samme mengde, og hvert trinn til høyre vil også endre gjennomsnittet med en tilnærmet konstant mengde (men denne trinn-høyre mengden av endring i gjennomsnitt er forskjellig fra stigende fremover mengden av endring).
Hvis vi minimerer summen av kvadratiske vertikale avstander fra fruktene til et tynt flatt ark (kanskje et tynt ark med veldig stiv plast) for å finne ut hvordan gjennomsnittshøyden endres når vi beveger oss fremover eller går til høyre, det vil være en lineær regresjon med to prediktorer - et multiplum regresjon.
Dette er de eneste to tilfellene som plott kan hjelpe med å forstå (de kan raskt vise det jeg nettopp beskrev, men forhåpentligvis vet du at du har et grunnlag for å konseptualisere de samme ideene). Utover de enkleste to sakene, sitter vi bare igjen med matematikken.
Ta nå huspriseksempelet ditt; du kan representere hvert huss område med en avstand langs kanten av pulten - representer den største husstørrelsen som en posisjon nær høyre kant, hver annen husstørrelse vil være en posisjon lenger til venstre der et visst antall centimeter vil representere noen antall kvadratmeter. Nå representerer avstanden bort salgspris. Representer det dyreste huset som en bestemt avstand nær den lengste kanten av pulten (som alltid, kanten lengst fra stolen din), og hver centimeter som flyttes bort, vil representere et antall Rials.
For tiden kan du forestille deg at vi valgte representasjonen slik at den venstre kanten av pulten tilsvarer et husareal på null og den nærmeste kanten til en huspris på 0. Vi setter inn en spiker for hvert hus.
Vi vil sannsynligvis ikke ha noen negler nær den venstre enden av kanten (de kan være mest mot høyre og borte fra oss) fordi dette ikke nødvendigvis er et godt valg av skala, men ditt valg av en ikke-avskjæringsmodell gjør dette til en bedre måte å diskutere det på.
Nå, i din modell, tvinger du pinnen til å passere gjennom en sløyfestreng i venstre hjørne av skrivebordets nærmeste kant - og tvinger den tilpassede modellen har pris null for område null, noe som kan virke naturlig - men forestill deg om det er noen ganske konstante komponenter av pris som påvirket hvert salg. Da ville det være fornuftig å ha skjæringspunktet forskjellig fra null.
I alle fall, med tillegg av den sløyfen, vil den samme gummibåndsøvelsen som før finne vårt minste kvadratestimat av linjen. / p>