Statistica: corso on line

Ecco il nostro corso on line gratuito di Statistica per principianti

Distribuzione di variabili

Statistica inferenziale (o campionaria)

Le distribuzioni di variabili o distribuzioni statistiche sono la rappresentazione matematica – il modello – di come le caratteristiche di un fenomeno si distribuiscono nelle singole unità che compongono la popolazione studiata (o, come si dice, “l’universo” osservato).

In altre parole le distribuzioni sono importantissime perché permettono di avere, molto facilmente, un’idea attendibile (secondo vari livelli di probabilità) di quanto alcune particolari modalità di un carattere siano presenti nell’intera collettività.

Le distribuzioni statistiche assumono quindi un grande rilievo quando si ha a disposizione solo un campione (ovvero solo una parte, anche piccola numericamente) della popolazione da esaminare e si vuole ricostruire l’intero universo, ricavandone le principali grandezze (frequenza di una certa modalità, media, varianza, ecc…).

Siamo di conseguenza entrati nel mondo della Statistica campionaria o inferenziale.

Le distribuzioni di variabili si distinguono a seconda se esse si riferiscono a variabili numeriche discrete o continue. Vediamole quindi una per una ma separatamente, iniziando da quelle discrete.


La prima distribuzione statistica di variabili discrete è la Distribuzione binomiale.

 

Distribuzione binomiale (o di Bernoulli)

La distribuzione binomiale è la distribuzione di probabilità di una variabile discreta aleatoria con la quale si determina il numero di successi nei fenomeni in cui il risultato di ogni evento ha solo 2 esiti (ad es. testa o croce) ed è indipendente dagli altri. Inoltre le probabilità debbono rimanere costanti ad ogni evento.

x = variabile casuale

n = numero di prove

p = probabilità di successo

q = probabilità contraria

Ricordando che

La distribuzione binomiale ipotizza che ad ogni prova la probabilità rimanga costante (la pallina è rimessa nell’urna: estrazioni con ripetizione). Essa è lo sviluppo del binomio di Newton

La distribuzione di Bernoulli ha:

Interessante sapere che nella distribuzione binomiale è possibile calcolare facilmente la combinazione tipica (o più probabile) di un evento.

Infatti questo valore (x) è compreso tra:

ed ha una probabilità di verificarsi pari a:

 

Distribuzione di Poisson

La distribuzione di Poisson (o legge degli eventi rari) si utilizza quando, sapendo che in media si verifica un certo numero di eventi (m) in un certo lasso di tempo, si vuole determinare la probabilità del verificarsi di questi eventi successivamente e indipendentemente per lo stesso lasso di tempo.

m = np = numero successi

La distribuzione di Poisson non è altro che la Binomiale quando si fa tendere p a zero ed n ad infinito.

La distribuzione di Poisson ha:

 

Distribuzione ipergeometrica

È la distribuzione di probabilità di una variabile discreta aleatoria con la quale si determina il numero di successi nei fenomeni in cui il risultato di ogni evento ha solo 2 esiti (ad es. testa o croce) ed è dipendente dagli altri. Pertanto le probabilità non rimangono costanti ad ogni evento.

In altre parole la distribuzione ipergeometrica descrive la probabilità dell’estrazione di palline da un’urna senza reinserimento delle palline estratte, mentre la distribuzione Binomiale descrive la stessa probabilità con reinserimento delle palline estratte.

N = numero elementi

n = numero elementi presi (ad n ad n)

La distribuzione ipergeometrica ipotizza quindi che ad ogni prova la probabilità non rimanga costante (la pallina non è rimessa nell’urna: estrazioni senza ripetizione o in blocco).

Questa distribuzione diventa la Binomiale per N tendente ad infinito.

La distribuzione ipergeometrica ha:


Passiamo ora alle distribuzioni di variabili continue, iniziando con quella più importante di tutte.

Distribuzione normale (o gaussiana)

La distribuzione normale (o gaussiana, o degli errori accidentali, o “a campana”) è sicuramente la distribuzione statistica più importante, se non altro perché è la più frequente nella realtà, cioè quella che spiega maggiormente i fenomeni osservati.

Essa non dice altro che, se guardiamo i singoli eventi di un fenomeno qualsiasi, questi tendono a verificarsi con maggiore frequenza intorno alla media aritmetica della popolazione, mentre tendono ad essere meno frequenti man mano che ci si allontana dalla media, fino ad essere estremamente rari nelle “code”, a sinistra e destra, del grafico a campana che raffigura la distribuzione normale.La suddetta spiegazione della distribuzione normale o di Gauss fa sì che questa distribuzione sia molto utile in statistica campionaria, perché può essere facilmente utilizzata per risalire dalle caratteristiche del campione a quelle dell’universo di appartenenza, ad es. per sapere se un determinato evento del campione fa parte del fenomeno osservato e con quale probabilità, oppure per sapere se la media riscontrata nel campione è la stessa della popolazione o comunque se essa è compresa probabilisticamente in un certo insieme di valori detto “intervallo di confidenza”.

Si veda la lezione successiva del nostro Corso di Statistica per approfondire i test puntuali ed intervallari delle ipotesi resi possibili soprattutto dalle diverse “letture” della distribuzione normale.

Inoltre la distribuzione gaussiana ha l’immenso vantaggio di poter essere utilizzata anche per quelle variabili che non si distribuiscono in modo normale e ciò in virtù del teorema del limite centrale di cui tratteremo nella prossima lezione, alla pagina seguente del nostro Corso.

in cui:

m = media

σ2 = varianza

La distribuzione normale deriva dalla Binomiale con p (la probabilità di successo nella binomiale) costante ed n che tende ad infinito.

La distribuzione normale ha:

Media = m

Varianza = σ2

Un’importantissima elaborazione della distribuzione normale è la famosa Distribuzione normale standardizzata, che si ottiene facilmente dalla normale gaussiana trasformando la variabile casuale in questo modo:

Con la suddetta semplice trasformazione, la nuova funzione della distribuzione normale standardizzata diventa la seguente:

Questa “evoluzione” della gaussiana presenta il grande vantaggio che i suoi valori possono essere facilmente tabulati per le varie grandezze di z, così da calcolarne rapidamente le probabilità per qualunque intervallo della variabile z.

I valori delle diverse probabilità (anche detti livelli di significatività) per ogni valore tabulato z, corrispondenti all’area tratteggiata nell’immagine del grafico della distribuzione normale, sono ad esempio riportati nella tabella del nostro articolo sull’argomento.

La distribuzione normale standardizzata ha:

Media = 0

Varianza = 1

 

Distribuzione t di Student

Questa distribuzione e le seguenti spiegano come si ripartiscono le frequenze delle variabili casuali nei casi (molto meno frequenti della gaussiana) in cui queste non seguano la distribuzione normale.

Y = è una funzione di Ѵ

Ѵ = numero gradi di libertà

La distribuzione t di Student è tabulata (il valore della funzione lo si trova nelle tavole), così da conoscerne le probabilità in un certo intervallo.

Essa coincide con la distribuzione normale quando Ѵ = ∞

La t di Student ha:

Media = 0 per Ѵ>1

Varianza = per Ѵ>2

 

Distribuzione Chi-quadrato χ2

Ѵ = numero gradi di libertà

Y = variabili casuali normali standardizzate e indipendenti

La distribuzione del Chi-quadrato è generata dalla somma dei quadrati di un numero ν di variabili casuali normali indipendenti.

Al crescere di n la distribuzione tende alla distribuzione normale.

Anch’essa è tabulata, così da conoscerne le probabilità in un certo intervallo.

La distribuzione di χ2 ha:

Media = Ѵ

Varianza = 2Ѵ

 

Distribuzione F di Fisher-Snedecor

Y1 = χ12

Y2 = χ22

Ѵ1 = numero gradi libertà di χ12

Ѵ2 = numero gradi di libertà di χ22

Trattasi del l rapporto di 2 variabili casuali chi-quadrato indipendenti tra loro e divise per i rispettivi gradi di libertà.

Anch’essa è tabulata, così è possibile conoscerne le probabilità in un certo intervallo.

La distribuzione F ha:

Media = per Ѵ2>2

Varianza = per Ѵ2>4

Autore: Steve Round

Condividi questo articolo su

Invia commento

Il tuo indirizzo email non sarà pubblicato.