Er det noen fordel med SVD fremfor PCA?

Spørsmål:

Er det noen fordel med SVD fremfor PCA?

Baz

2014-10-23 16:39:57 UTC

view on stackexchange narkive permalink

Jeg vet hvordan jeg skal beregne PCA og SVD matematisk, og jeg vet at begge kan brukes på regresjon med lineære minste kvadrater.

Den viktigste fordelen med SVD synes matematisk å være at den kan brukes på ikke- -kvadratmatriser.

Begge fokuserer på nedbrytningen av $ X ^ \ top X $ matrise. Annet enn fordelen med SVD nevnt, er det noen ekstra fordeler eller innsikt som gis ved å bruke SVD fremfor PCA?

Jeg ser virkelig etter intuisjonen i stedet for noen matematiske forskjeller.

Spørsmålet er uklart.Først nevner du OLS-regresjon.Det forsvinner deretter.Deretter kan ikke "fordel ... SVD over PCA" - svd og PCA sammenlignes som en matematisk operasjon og dataanalysemetode.Kan spørsmålet ditt være noe om [måter å gjøre PCA på (http://stats.stackexchange.com/q/79043/3277)?Eller hva spør du?

Beklager at jeg er uklar.Jeg har estimater av ryggtypene som er avledet ved hjelp av PCA og den andre ved hjelp av SVD.Det er forskjeller i måten modellene er satt opp, det vil si betingelsene i den tidligere informasjonen de bruker.Men de er skrevet av samme forfatter.Jeg prøver å forstå forskjellene mellom dem og prøvde å finne ut hvorfor han ville bruke PCA vs SVD som grunnlag for analysen.Kanskje det var vilkårlig, men hvis jeg kan forstå fordeler og ulemper, vil det hjelpe.Så langt ser det ut til at SVD bare er en måte å gjøre PCA som har en tendens til å være mer numerisk stabil.

Det er greit, men jeg lurte bare på om bruk av SVD også gir ytterligere økonometrisk innsikt / intuisjon om problemet.

Hvis du vil ha spesifikt fokus på økonometri, tror jeg du må stave ut det i spørsmålet og forklare hvorfor.Jeg kan ikke se at en diskusjon av SVD og PCA, som uansett er ganske forskjellige slags dyr, er annerledes for økonometri enn for noen annen gren av statistikk.

@Baz: ** "Så langt ser det ut til at SVD bare er en måte å gjøre PCA som har en tendens til å være mer numerisk stabil" ** - [i denne sammenheng] er det helt riktig, ja.

Motsatt spørsmål: [Er det noen situasjon der PCA presterer bedre enn SVD?] (Http://stats.stackexchange.com/questions/202036)

To svar:

purple51

2014-10-23 17:51:38 UTC

view on stackexchange narkive permalink

Som @ttnphns og @ nick-cox sa, SVD er en numerisk metode og PCA er en analysetilnærming (som minste kvadrat). Du kan gjøre PCA ved hjelp av SVD, eller du kan gjøre PCA med egennedbrytning av $ X ^ TX $ (eller $ XX ^ T $), eller du kan gjøre PCA ved å bruke mange andre metoder, akkurat som du kan løse minste kvadrater med et dusin forskjellige algoritmer som Newtons metode eller gradientnedstigning eller SVD osv.

Så det er ingen "fordel" med SVD fremfor PCA fordi det er som å spørre om Newtons metode er bedre enn minste kvadrat: de to er ikke sammenlignbare.

Fint eksempel på hvordan et kortfattet, kort svar fortsatt kan komme til hjertet av et spørsmål.

Wow, 8 upvotes for dette svaret og 0 upvotes for det originale spørsmålet.Dette gir ikke mye mening.Hvis du stemmer opp svaret, bør du også vurdere å stemme spørsmålet!

@amoeba Spørsmålet til meg er forvirret.Svaret gjør det klart hva forvirringen er.Jeg synes det er en god forklaring på stemmeforskjeller.

For å være mer pedantisk, er SVD ikke en numerisk metode i seg selv, det er en lineær algebraoperasjon, som kan implementeres ved hjelp av spesifikke numeriske metoder som involverer ting som husholdningstransformasjoner ...

Likevel er fordelen med (når man utleder hovedkomponenter via) SVD en numerisk fordel: mer presisjon.Se for eksempel Jolliffe (2002).Kanskje den

Stefan Savev

2015-07-20 18:57:22 UTC

view on stackexchange narkive permalink

Spørsmålet er virkelig å spørre om du skal gjøre Z-score normalisering av kolonnene før du bruker SVD. Dette er fordi PCA er transformasjonen ovenfor fulgt av SVD. Noen ganger er det ganske skadelig å gjøre normaliseringen. Hvis dataene dine for eksempel er (transformerte) ordtall som er positive, er det definitivt skadelig å trekke gjennomsnittet. Dette fordi nuller som representerer fraværet av et ord i et dokument, blir kartlagt til negative tall med høy størrelse. Ved lineære problemer bør den høyere størrelsen brukes til å representere området der funksjonene dine er mest følsomme. Å dele med standardavviket er også skadelig for denne typen data.

Dette er et interessant eksempel, men jeg mener det heller burde tilhøre en annen tråd.PCA kan definitivt gjøres uten z-scoring, så jeg er uenig i den første setningen din: det er ikke hva dette spørsmålet "virkelig stiller".

PCA og SVD er de samme hvis du ignorerer å trekke midlene (dette er Z-scoring jeg nevnte, noen ganger gir folk PCA med å dele med stdev).Så jeg er uenig i at du kan gjøre PCA uten å trekke midlene.Du kan også gjøre PCA på matriser som ikke er kvadratiske.

ⓘ

Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.

about - legalese

Loading...