Statistica: corso on line

Ecco il nostro corso on line gratuito di Statistica per principianti

Indici di concentrazione, distanza e forma

Esistono particolari indicatori della variabilità che prendono il nome di:

  • indici di concentrazione
  • indici di distanza (o di dissimilarità), chiamati anche “misure di disuguaglianza
  • indici di forma

Tutti questi indici si riferiscono a variabili di tipo cardinale.

Gli indici di concentrazione misurano, come dice il termine, la maggiore o minore concentrazione delle osservazioni di un fenomeno, ovvero l’addensamento in pochi casi dell’ammontare complessivo di un carattere.

Gli indici di distanza quantificano invece la distanza non tra i valori e la media, ma tra i valori stessi: sono quindi una misura di disuguaglianza.

Gli indici di forma esprimono invece la forma che assume un fenomeno. Più precisamente essi misurano l’asimmetria del fenomeno, cioè l’assenza di specularità, e la sua curtosi, ovvero l’altezza della curva al suo massimo, riferita alle osservazioni riportate in un grafico, nonché la lunghezza delle code dello stesso grafico.

Anticipando infatti ciò che sarà detto più avanti nel nostro Corso, quando si tratterà della distribuzione di variabili continue, è importante sapere che la stragrande maggioranza delle rilevazioni di un fenomeno qualsiasi si distribuisce graficamente secondo il seguente grafico (preso da Wikipedia) detto “di Gauss” o “a campana” o della distribuzione normale o, ancora, degli “errori accidentali”:

Nella rappresentazione grafica sopra riportata il punto di ordinata più alto indica la media (M) del fenomeno. Come è possibile vedere, la frequenza delle osservazioni del fenomeno si addensa quasi interamente intorno alla media. Le code sono invece le parti estreme del fenomeno osservato, poste sia a sinistra e sia a destra, ovvero le osservazioni rilevate lontane dalla media ed in particolare quelle che stanno oltre i due punti di flesso della curva, corrispondenti ai punti sull’asse delle ascisse della deviazione standard. Più precisamente: (M–σ) a sinistra e (M+σ) a destra.

L’indice di curtosi ci dice appunto quanto è alta la curva al suo massimo e quanto sono “schiacciate” le code, come mostrato in figura dalle diverse curve di vario colore.

 

Vediamo ora questi particolari indici di variabilità uno ad uno.


Per quanto rigurda gli indici di concentrazione, i principali sono quelli di seguito descritti.

Rapporto di concentrazione di Gini

pi = frequenza cumulata del numero di casi

qi = frequenza cumulata dei valori osservati

dove, se N è sufficientemente grande, il fattore di correzione può essere omesso, perchè il rapporto tende ad uno (→ 1).

La formula sopra riportata è esprimibile anche dalle seguenti altre equivalenti formule:

Il coefficiente di Gini varia da 0 (in caso di equidistribuzione dei valori) a 1 (max concentrazione).

Il Rapporto di Gini (G) è il risultato della frazione (Area di Concentrazione/Area di max Concentrazione), frazione rappresentata dal grafico di Lorenz che vedremo subito appresso.

 

Curva di Lorenz

La curva di Lorenza ha un’evidenza grafica sul piano cartesiano, ottenuta riportando sugli assi rispettivamente “pi” e “qi” che significano rispettivamente:

pi = frequenza cumulata del numero di casi

qi = frequenza cumulata dei valori osservati

Si utilizza solo per variabili relative a quantità possedute che possono trasferirsi da un soggetto all’altro (ad es. i redditi pro-capite).

L’evidenza grafica può essere così rappresentata (da Wikipedia):

La curva di Lorenz è “compresa” tra la perfetta disuguaglianza (accade quando la curva di Lorenz in rosso si avvicina, man mano, verso il basso a destra) e la linea di perfetta uguaglianza, cioè la bisettrice, raffigurata nell’immagine dalla linea verde con angolazione di 45°. In altre parole, più la Curva di Lorenz, in rosso, si avvicina alla bisettrice, in verde, più c’è uguaglianza e quindi meno concentrazione. Più va verso il basso a destra e più c’è concentrazione del fenomeno osservato.

 

Indice di Herfindahl

Qi = grandezze del fenomeno osservato

L’indice varia da 0 (mancanza di concentrazione) ad 1 (massima concentrazione). Chiaramente se lo si moltiplica per 100 si ottiene una percentuale del valore che varia da 0 a 100. Diciamo che per valori dell’indice maggiori di 1 (o di 100 se in %), le osservazioni del fenomeno si ritengono significativamente concentrate.

Ovviamente, anche per questo indice, le variabili di cui si calcola la concentrazione devono essere relative a quantità possedute che possono trasferirsi da un soggetto all’altro (ad es. i redditi pro-capite).

Le banche utilizzano l’indice di Herfindahl (H), per obbligo normativo, al fine di calcolare la concentrazione dei loro impieghi.


Gli indici di distanza (o di dissimilarità), chiamati pure misure di disuguaglianza, sono sostanzialmente quelli appresso indicati. Si ricorda che essi misurano la distanza non tra i valori osservati e la media ma tra i valori stessi.

Distanza Euclidea

È la distanza delle coppie di punti xij in uno spazio a n dimensioni.

 

Differenza media con ripetizione

Questo indice considera anche la differenza di un valore con se stesso, ovvero i casi i=j

 

Differenza media senza ripetizione

In questa formula invece non sono considerati i casi i=j


Vediamo adesso gli indici di forma, ricordando che essi misurano l’asimmetria, cioè l’assenza di specularità, e la curtosi, ovvero l’altezza al suo massimo della curva di distribuzione delle osservazioni, nonché la lunghezza delle code della stessa distribuzione.

Condizioni di asimmetria

Si ha Simmetria se M = Mediana = Moda

Si ha Asimmetria positiva se Mo < Me < M

Si ha Asimmetria negativa se M < Me < Mo

 

Indice di Asimmetria di Fisher

In cui i simboli della formula hanno i consueti significati (M = media; σ = deviazione standard).

L’indice varia da -∞ a +∞. Quello che conta è il segno algebrico:

se αF è negativo, allora l’asimmetria è negativa

se αF è uguale a 0 (zero), allora c’è simmetria

se αF è positivo, allora l’asimmetria è positiva

 

Figure di Curtosi

Curva normale = Mesocurtica

Curva con altezza più bassa e code più lunghe = Iponormale o Platicurtica

Curva con altezza più alta e code più corte = Ipernormale o Leptocurtica

 

Indice di Curtosi di Pearson

Se l’indice è maggiore di 3 la distribuzione è ipernormale.

Se l’indice è uguale a 3 è normale.

Se l’indice è inferiore a 3 è iponormale.

 

Indice di Curtosi di Fisher

Se l’indice è positivo la distribuzione è ipernormale.

Se l’indice è uguale a 0 è normale.

Se l’indice è negativo è iponormale.

Autore: Steve Round

Condividi questo articolo su

Invia commento

Il tuo indirizzo email non sarà pubblicato.