Spørsmål:
Hva sier omvendt av kovariansmatrise om data? (Intuitivt)
Arya
2013-10-22 17:00:54 UTC
view on stackexchange narkive permalink

Jeg er nysgjerrig på arten av $ \ Sigma ^ {- 1} $. Kan noen fortelle noe intuitivt om "Hva sier $ \ Sigma ^ {- 1} $ om data?"

Rediger:

Takk for svarene

Etter tar noen flotte kurs, vil jeg legge til noen poeng:

  1. Det er mål på informasjon, dvs. $ x ^ T \ Sigma ^ {- 1} x $ er mengden informasjon langs retningen $ x $.
  2. Dualitet: Siden $ \ Sigma $ er positiv, er det også $ \ Sigma ^ {- 1} $, så de er prikkproduktnormer , mer presist er de to normer for hverandre, så vi kan utlede Fenchel dual for det regulariserte minste kvadratproblemet, og gjøre maksimering av dobbelt problem. Vi kan velge en av dem, avhengig av betingelsen.
  3. Hilbert-mellomrom: Kolonner (og rader) på $ \ Sigma ^ {- 1} $ og $ \ Sigma $ span det samme rommet. Så det er ikke noen fordel (annen at når en av disse matrisene er dårlig betinget) mellom representasjon med $ \ Sigma ^ {- 1} $ eller $ \ Sigma $
  4. Bayesian Statistics: norm for $ \ Sigma ^ {- 1} $ spiller en viktig rolle i den bayesiske statistikken. Dvs. den bestemte hvor mye informasjon vi har tidligere, for eksempel når kovarians av tidligere tetthet er som $ \ | \ Sigma ^ {- 1} \ | \ rightarrow 0 $ har vi ikke-informativ (eller sannsynligvis Jeffreys tidligere)
  5. Frequentist Statistics: Det er nært knyttet til Fisher-informasjon ved bruk av Cramér – Rao-bundet. Faktisk er fiskerinformasjonsmatrise (ytre produkt av gradient av log-sannsynlighet med seg selv) Cramér – Rao bundet den, dvs. $ \ Sigma ^ {- 1} \ preceq \ mathcal {F} $ (wrt positiv halvdefinert kjegle, iewrt konsentrasjon ellipsoider). Så når $ \ Sigma ^ {- 1} = \ mathcal {F} $ er maksimal sannsynlighetsestimator effektiv, dvs. maksimal informasjon finnes i dataene, så hyppig regime er optimalt. I enklere ord, for noen sannsynlighetsfunksjoner (merk at funksjonell form for sannsynligheten rent avhenger av den sannsynlighetsmodellen som angivelig genererte data, også kalt generativ modell), er maksimal sannsynlighet effektiv og konsekvent estimator, regler som en sjef. (beklager at du har overdrevet det)
Jeg tror PCA plukker opp egenvektor med store egenverdier i stedet for små egenverdier.
(3) Er feil, fordi det tilsvarer å hevde at kolonnene til $ \ Sigma ^ {- 1} $ er $ $ Sigma $ (opp til en permutasjon), som bare gjelder for identitetsmatrisen.
To svar:
Ray Koopman
2013-10-22 22:57:31 UTC
view on stackexchange narkive permalink

Ved å bruke overskrift for å betegne elementene i det inverse, er $ 1 / \ sigma ^ {ii} $ variansen til komponenten av variabelen $ i $ som ikke er korrelert med $ p-1 $ andre variabler, og $ - \ sigma ^ {ij} / \ sqrt {\ sigma ^ {ii} \ sigma ^ {jj}} $ er den delvise korrelasjonen av variablene $ i $ og $ j $, og kontrollerer for $ p-2 $ andre variabler.

prop
2013-10-22 18:42:11 UTC
view on stackexchange narkive permalink

Det er et mål på presisjon akkurat som $ \ Sigma $ er et mål på spredning.

Mer utførlig er $ \ Sigma $ et mål på hvordan variablene er spredt rundt gjennomsnittet (de diagonale elementene) og hvordan de samvarierer med andre variabler (de diagonale) elementene. Jo mer spredning jo lenger fra hverandre er de fra gjennomsnittet og jo mer de varierer (i absolutt verdi) med de andre variablene, desto sterkere er tendensen for dem å 'bevege seg sammen' (i samme eller motsatt retning avhengig av tegn på kovariansen).

På samme måte er $ \ Sigma ^ {- 1} $ et mål på hvor tett gruppert variablene er rundt gjennomsnittet (de diagonale elementene) og i hvilken grad de ikke varierer sammen med de andre variabler (de diagonale elementene). Jo høyere det diagonale elementet er, jo strammere er variabelen gruppert rundt gjennomsnittet. Tolkningen av de diagonale elementene er mer subtil, og jeg henviser til de andre svarene for den tolkningen.

Et sterkt mot-eksempel til din siste uttalelse om diagonale elementer i $ \ Sigma ^ {- 1} $ er gitt av det enkleste ikke-private eksemplet i to dimensjoner, $ \ Sigma ^ {- 1} = \ left (\ begin { array} {cc} \ frac {1} {1- \ rho ^ 2} & - \ frac {\ rho} {1- \ rho ^ 2} \\ - \ frac {\ rho} {1- \ rho ^ 2 } & \ frac {1} {1- \ rho ^ 2} \\\ end {array} \ right). $ De større off-diagonale verdiene tilsvarer * mer * ekstreme verdier av korrelasjonskoeffisienten $ \ rho, $ som er det motsatte av det du ser ut til å si.
@whuber Høyre. Jeg burde kvitte meg med det 'absolutte' ordet i siste setning. Takk
Takk, men det kurerer fortsatt ikke problemet: forholdet du hevder mellom de omvendte elementene til det inverse og ko-variasjonen eksisterer ikke.
@whuber Jeg tror det gjør det. I eksempelet ditt er de diagonale elementene negative. Derfor, når $ \ rho $ øker, reduseres de diagonale elementene. Du kan sjekke dette ved å merke deg følgende: for $ \ rho = 0 $ er det diagonale elementet $ 0 $; når $ \ rho $ nærmer seg $ 1 $ de diagonale elementene nærmer seg $ - \ infty $ og derivatet av det off-diagonale elementet med hensyn til $ \ rho $ er negativt.
Mine off-diagonale elementer er positive når $ \ rho \ lt 0. $
Jeg ser ikke motsetningen angående de diagonale elementene når ρ <0.Når ρ nærmer seg -1, blir X og Y mer anit-korrelert, og presisjonsverdien nærmer seg ∞, noe som betyr at de IKKE blir forskjellige, har jeg rett?
Ok, så kan det være et dumt spørsmål, er spredning (hvor langt befolkningen er fra det) og covary (hvordan en populasjon øker når andre øker) to "konseptuelt" forskjellige ting kodet av "samme formel"?Med andre ord i tankene mine, hvis jeg tenker på "spredning", er den helt forskjellig fra "kovarians", så er de to forskjellige eller like?


Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...