Spørsmål:
Korrelasjoner med uordnede kategoriske variabler
Clément F
2014-07-15 17:18:27 UTC
view on stackexchange narkive permalink

Jeg har en dataramme med mange observasjoner og mange variabler. Noen av dem er kategoriske (ikke ordnet) og andre er numeriske.

Jeg ser etter sammenhenger mellom disse variablene. Jeg har kunnet beregne korrelasjon for numeriske variabler (Spearmans korrelasjon), men:

  • Jeg vet ikke hvordan jeg skal måle sammenhengen mellom uordnede kategoriske variabler.
  • Jeg vet ikke vet ikke hvordan du skal måle sammenhengen mellom uordnede kategoriske variabler og numeriske variabler.

Vet noen hvordan dette kan gjøres? I så fall er det R-funksjoner som implementerer disse metodene?

http://stats.stackexchange.com/q/119835/3277;http://stats.stackexchange.com/q/73065/3277;http://stats.stackexchange.com/q/103253/3277.
Seks svar:
gung - Reinstate Monica
2014-08-21 00:40:27 UTC
view on stackexchange narkive permalink

Det kommer an på hvilken følelse av en korrelasjon du vil ha. Når du kjører den prototypiske Pearson's produktmomentkorrelasjon, får du et mål på styrken av tilknytning og du får en test av betydningen av den assosiasjonen. Mer typisk er imidlertid signifikansetest og mål på effektstørrelse forskjellige.

Betydningstester:

Effektstørrelse (tilknytningsstyrke):

En veldig grundig forklaring av den kontinuerlige vs. nominelle saken finner du her: [Korrelasjon mellom en nominell (IV) og en kontinuerlig (DV) variabel] (http://stats.stackexchange.com/a/124618/).
I tilfellet binært mot intervall er det [punkt-biseriell korrelasjon] (https://en.wikipedia.org/wiki/Point-biserial_correlation_coefficient).
Hva ville være et bedre alternativ til chi-squared-testen for store prøver?
@WaldirLeoncio, "bedre" i hvilken forstand?Hva er galt med chi-squared hvis du vil ha en test av uavhengighet?Hva utgjør et "stort utvalg" for deg?
Vel, fra det jeg har lest og opplevd, når for eksempel størrelsen er i titusenvis, for eksempel, til og med små avvik fra de forventede frekvensene - si noe som en visuell analyse vil anse som irrelevant - ofte resultere i veldig små $ \venstre (10 ^ {- 16} \ høyre) $ p-verdier.
@WaldirLeoncio, ja, men hvis null er sant, vil $ p $ være $ <. 05 $ bare $ 5 \% $ av tiden.Det er slik det skal fungere.Hvis du vil vite størrelsen på effekten samt en test av null, kan det være lurt å beregne Cramer's V sammen med chi-squared-testen.
Som @gung påpekte, [Korrelasjon mellom en nominell (IV) og en kontinuerlig (DV) variabel] (http://stats.stackexchange.com/questions/119835/correlation-between-a-nominal-iv-and-a-kontinuerlig-dv-variabel / 124618 # 124618) er en utmerket lenke for hvordan korrelasjon for blandede variabler kan gjøres.`Hmisc :: rcorr` gjør dette vakkert, og vi kan sjekke det (for en blandet variabel dataramme) som følger:` as.data.frame (rcorr (as.matrix (data_frame), type = "pearson") $ P) `$ \: $ `som.data.frame (rcorr (as.matrix (data_frame), type =" pearson ") $ r)`
@gung, læreren min fortalte meg `bruk L, C, Lambda når Nominal vs. Nominal` men du sa bruk` chisq.test.`?
@kittygirl, Jeg vet ikke hva `L, C, Lambda` er (for nominell vs nominell, eller noe annet).Jeg sier å bruke en chi-squared test for å teste for en sammenheng mellom to nominelle variabler, som du sier og kan se ovenfor.
-1
For en R-implementering som beregner assosiasjonsstyrken for nominell vs nominell med en skjevhetskorrigert Cramer's V, numerisk vs numerisk med Spearman (standard) eller Pearson-korrelasjon, og nominell vs numerisk med ANOVA se https://stackoverflow.com/a/ 56485520/590437
DSea
2014-07-15 21:01:15 UTC
view on stackexchange narkive permalink

Jeg har sett følgende cheatsheet lenket før:

https://stats.idre.ucla.edu/other/mult-pkg/whatstat/

Det kan være nyttig for deg. Den har til og med lenker til spesifikke R-biblioteker.

Problemet med dette cheatsheetet er at det bare gjelder kategoriske / ordinære / intervallvariabler. Det jeg leter etter er en metode som lar meg bruke både numeriske og kategoriske uavhengige variabler.
Dan
2016-09-21 04:26:31 UTC
view on stackexchange narkive permalink

Hvis du vil ha en korrelasjonsmatrise med kategoriske variabler, kan du bruke følgende wrapper-funksjon (som krever "vcd" -pakken):

  catcorrm <- function (vars, dat) sapply (vars, function (y) sapply (vars, function (x) assocstats (table (dat [, x], dat [, y])) $ cramer))
 

Hvor:

vars er en strengvektor med kategoriske variabler du vil korrelere

dat er en data.frame som inneholder variablene

Resultatet er en matrise av Cramer's V.

kjetil b halvorsen
2014-07-15 19:20:19 UTC
view on stackexchange narkive permalink

Avhenger av hva du vil oppnå. La $ X $ være den kontinuerlige, numeriske variabelen og $ K $ den (uordnede) kategoriske variabelen. Da er en mulig tilnærming å tildele numeriske poeng $ t_i $ til hver av de mulige verdiene på $ K $, $ i = 1, \ prikker, p $. Et mulig kriterium er å maksimere korrelasjonen mellom $ X $ og score $ t_i $. Med bare en kontinuerlig og en kategorisk variabel, er dette kanskje ikke veldig nyttig, siden maksimal korrelasjon alltid vil være en (for å vise at, og finne noen slike score, er en øvelse i å bruke Lagrange-multiplikatorer! Med flere variabler prøver vi å finn kompromisspoeng for de kategoriske variablene, kanskje prøver å maksimere multipel korrelasjon $ R ^ 2 $. Da vil de individuelle korrelasjonene ikke mer (bortsett fra helt spesielle tilfeller!) være like.

En slik analyse kan være sett på som en generalisering av multippel korrespondanseanalyse, og er kjent under mange navn, slik som kanonisk korrelasjonsanalyse, homogenitetsanalyse og mange andre. En implementering i R er i homals -pakken (på CRAN). googling for noen av disse navnene vil gi et vell av informasjon, det er en komplett bok: Albert Gifi, "Ikke-lineær multivariat analyse". Lykke til!

(+1) Hvorfor bruke Lagrange-multiplikatorer?Bare bruk verdiene til den kontinuerlige variabelen for å score den kategoriske.Dette avslører også hvorfor maks korrelasjon ikke nødvendigvis er $ 1 $, noe som bare kan oppnås når hver kategori er paret med et uforanderlig verdisett for den kontinuerlige variabelen.
Jeg vil redigere for å ta hensyn til denne kommentaren.
Sohsum
2014-11-17 15:22:52 UTC
view on stackexchange narkive permalink

Jeg hadde et lignende problem, og jeg prøvde Chi-squared-Test som antydet, men jeg ble veldig forvirret når jeg vurderte P-verdiene mot NULL-hypotesen.

Jeg vil forklare hvordan jeg tolket kategoriske variabler. Jeg er ikke sikker på hvor relevant det er i ditt tilfelle. Jeg hadde svarvariabel Y og to predikatorvariabler X1 og X2 der X2 var en kategorisk variabel med to nivåer, sier 1 og 2. Jeg prøvde å passe en lineær modell

  ols = lm (Y ~ X1 + X2, data = mydata)  

Men jeg ønsket å forstå hvordan ulikt nivå på X2 passer til ligningen ovenfor. Jeg kom over en R-funksjon med ()

  av (mydata, X2, funksjon (x) sammendrag (lm (Y ~ X1, data = x)))  

Hva denne koden gjør er, den prøver å passe inn i Lineær modell for hvert nivå av X2. Dette ga meg all P-verdi og R-kvadrat, Reststandardfeil som jeg forstår og kan tolke.

Igjen er jeg ikke sikker på om dette er det du vil ha. Jeg sammenlignet liksom forskjellige verdier av X2 i å forutsi Y.

Da Silva Lionel
2016-06-15 21:16:43 UTC
view on stackexchange narkive permalink

For å måle koblingsstyrken mellom to kategoriske variabler vil jeg heller foreslå bruk av en kryssfane med chisquare stat

for å måle koblingsstyrken mellom en numerisk og en kategorisk variabel, kan du bruke en gjennomsnittsammenligning for å se om den endres betydelig fra en kategori til en annen

Velkommen til nettstedet, @DaSilvaLionel.Du kan legge merke til at bruk av chi-kvadrat-testen med to kategoriske variabler allerede er blitt foreslått ovenfor.


Denne spørsmålet ble automatisk oversatt fra engelsk.Det opprinnelige innholdet er tilgjengelig på stackexchange, som vi takker for cc by-sa 3.0-lisensen den distribueres under.
Loading...