Statistica: corso on line

Ecco il nostro corso on line gratuito di Statistica per principianti

Analisi bivariata - relazione tra 2 variabili (nominali e ordinali)

Finora abbiamo visto l’analisi monovariata, cioè abbiamo studiato le caratteristiche (media, varianza, distribuzione, ecc…) di un’unica variabile.

Adesso vedremo l’analisi bivariata, ovvero lo studio di eventuali relazioni tra due variabili aleatorie che possiamo chiamare X e Y, di cui una considerata “dipendente” e l’altra “indipendente” (come per qualsiasi funzione).

L’analisi bivariata mira innanzitutto a stabilire se esiste una qualche forma di relazione tra 2 variabili qualsiasi (X e Y) e poi, in caso di risposta positiva, a quantificare il grado di forza di questa relazione.

L’obiettivo è quindi di verificare l’esistenza di una variazione concomitante tra i valori delle variabili, altrimenti si conclude che le due variabili sono fra loro indipendenti: non c’è tra di esse una relazione di covariazione e causalità.

 

In particolare la relazione si dice:

Associazione se è tra variabili nominali

Cograduazione tra variabili ordinali

Correlazione tra variabili cardinali

Iniziamo con le formule delle Associazioni e Cograduazioni. Poi, nella lezione successiva, parleremo delle Correlazioni.


Ecco i principali procedimenti e le formule per valutare l’Associazione tra 2 variabili nominali.

Tavola di contingenza

Le Associazioni tra 2 variabili nominali sono studiate e presentate mediante la tavola di contingenza, che è una tabella o matrice a doppia entrata ottenuta riportando sui lati le modalità delle 2 variabili e nelle celle le frequenze corrispondenti fij

Esempio:

variabile Xj

Totali

Residenza

Nord

(Xi1)

Centro

(Xi2)

Sud ed isole

(Xi3)

variabile

Xi

Orientamento politico

Progressisti

(X1j)

10

(X11)

55

(X12)

95

(X13)

160

jX1j

Moderati

(X2j)

20

(X21)

15

(X22)

30

(X23)

65

jX2j

Liberali

(X3j)

30

(X31)

15

(X32)

45

(X33)

90

jX3j

Conservatori

(X4j)

40

(X41)

35

(X42)

55

(X43)

130

jX4j

Totali

100

iXi1

120

iXi2

225

iXi3

445

ijXij

fij = frequenza osservata alla riga i ed alla colonna j

Le frequenze possono essere assolute, percentualizzate e/o cumulate.

La regola vuole che si percentualizzi all’interno della variabile “indipendente”, quindi sul totale di riga o di colonna di questa variabile. Infatti, ai fini dell’analisi della relazione fra 2 variabili nominali, scegliere fra le percentuali di riga e quelle di colonna non è indifferente: esiste una scelta esatta ed una errata. Il criterio di scelta corretto è il seguente:

  • si sceglie la percentuale di colonna quando si vuole analizzare l’influenza che la variabile posta in colonna ha sulla variabile di riga
  • si sceglie la percentuale di riga quando si vuole analizzare l’influenza che la variabile posta in riga ha sulla variabile di colonna

 

Indice di differenza percentuale (idp)

L’idp si utilizza per interpretare meglio l’andamento del fenomeno.

Si calcola facendo la differenza fra 2 modalità della tabella per tutta la riga (o per tutta la colonna), eventualmente aggregando i dati della riga interessata (o della colonna), oppure facendo la differenza tra i valori positivi e quelli negativi (sempre per la stessa riga o colonna).

Nella tabella sopra riportata ad esempio si potrebbero aggregare i dati per colonna fra centrosinistra e centrodestra (sommando le prime 2 righe e le ultime 2, cosi d’avere due soli valori numerici sui quali fare la differenza).

Si otterrebbe la seguente sequenza di valori andando da nord a sud:
idp = 40 +20 +25

che mostra un andamento del voto a favore del centrosinistra man mano che si scende verso sud, come si può vedere dal segno negativo (voto prevalente al  centrodestra) che si trasforma in valori positivi crescenti (voti al centrosinistra).

 

Chi quadrato (tabulato)

fo = frequenza osservata; fa = frequenza attesa (nell’ipotesi H0)

Gradi di libertà (g.l.) =

Si usa per N>100 e per celle con frequenza>= 5

Se χ2 calcolato è maggiore di χ2 tabulato si respinge l’ipotesi nulla H0 (di indipendenza fra variabili) e si accetta l’ipotesi alternativa H1 di esistenza di una relazione.

Il chi quadrato sostanzialmente ci dice se c’è una dipendenza tra le 2 variabili, le statistiche che seguono di dicono invece quant’è la “forza” di questa dipendenza.

 

Chi quadrato di una tabella 2 x 2

con:

 

a

b

c

d

“a”, “b”, “c” e “d” = frequenze assolute della tabella 2 x 2

 

Phi

Questo indice rimedia ad un difetto di χ2, cioè al fatto che per tale ultima statistica il numero dei casi delle 2 tabelle della relazione deve essere lo stesso. Quando non lo è si può utilizzare Φ, il quale non è altro che il chi quadrato normalizzato dividendolo per il numero dei casi N (previa estrazione della radice quadrata).

La statistica Φ varia da 0 (zero) in su.

 

Phi di una tabella 2 x 2

con:

“a”, “b”, “c” e “d” = frequenze assolute della tabella 2 x 2

Varia da un minimo di -1 ad un max di +1

Nel caso della tabella 2 x 2 (o comunque di almeno una variabile con 2 sole modalità) si ha:

Φ = V (di Cramer)

ma anche:

Φ = r (di Pearson).

 

Differenza fra proporzioni (tabella 2 x 2)

E’ la semplice differenza fra le proporzioni di una colonna.

Varia da un minimo di -1 ad un max di +1

Se è uguale a 0 (zero) non c’è relazione tra le variabili.

La differenza dell’altra colonna ha lo stesso valore assoluto ma è di segno opposto.

Questo indice coincide con il Coefficiente b di Regressione (v. lezione seguente).

 

Q di Yule (tabella 2 x 2)

La Q di Yule è la più antica misura di relazione. Essa varia, come Φ, da un minimo di -1 ad un max di +1, assumendo valore 0 quando c’è assenza di relazione.

Questa statistica rappresenta il modello classico degli indici di forza della relazione tra 2 variabili, perchè al numeratore c’è il “prodotto incrociato” della tabella (c.d. cross product), cioè il prodotto delle frequenze della diagonale principale meno il prodotto delle frequenze della diagonale secondaria (ad – bc), mentre al denominatore c’è una formula di normalizzazione.

 

V di Cramer

k = minore tra numero di righe e numero di colonne

N*(k -1) = valore max di χ2

La V di Cramer varia da un minimo di 0 (indipendenza) ad un max di 1 (associazione perfetta).

 

C di Pearson o Coefficiente di Contingenza

Trattasi di un altro indice che misura la forza della relazione tra 2 variabili.

Esso varia tra 0 (zero) ed un limite superiore che dipende dalla dimensione della tabella, ma che in genere non raggiunge il valore di 1.

 

Odds Ratio (tabella 2 x 2: variabile dicotomica)

in cui:

Il passaggio dalla proporzione alla probabilità è il seguente:

da

a

Pertanto, con la nostra consueta tabella 2 x 2:

 

a

b

c

d

“a”, “b”, “c” e “d” = frequenze assolute della tabella 2 x 2

avremo semplicemente:

in cui:

p = probabilità favorevole

(1-p) = probabilità contraria

ω = odds o rapporto di probabilità

Questi ratios sono utilizzati nel gioco d’azzardo, dove:

ω = rapporto tra la vincita ed importo scommesso


Ecco ora una formula per valutare la relazione tra variabili ordinali (Cograduazione).

Gamma di Goodman

P = numero coppie concordanti (quelle per le quali x ed y sono, in un caso, entrambi maggiori o minori di un altro caso).

Q = numero coppie discordanti (quelle per le quali x cresce ed y cala, o viceversa, rispetto ad un altro caso).

Varia da un minimo di -1 (perfetta relazione positiva) ad un max di +1 (perfetta relazione negativa).

Nel caso l’indice sia uguale a 0 (zero) c’è assenza di relazione.

 

Autore: Steve Round

Condividi questo articolo su

Invia commento

Il tuo indirizzo email non sarà pubblicato.