Statistica: corso on line

Ecco il nostro corso on line gratuito di Statistica per principianti

Test sui campioni

Grazie alle proprietà delle distribuzioni di variabili casuali è possibile, in statistica inferenziale, verificare molte ipotesi osservate sui campioni.

Cioè si possono facilmente stimare, avendo riscontrato dei parametri su un campione, le caratteristiche della popolazione di appartenenza del campione, sia pure con un certo livello di probabilità.

Ad esempio è possibile, avendo ottenuto dal campione una media m, verificare l’ipotesi che quel campione sia stato estratto da un universo con media M.

Se infatti otteniamo che M è diverso da m, ma all’interno di una differenza – chiamata intervallo di confidenza – caratterizzata da un livello probabilistico di soglia non significativo, possiamo attribuire al caso la differenza tra le due medie (quella del campione e quella dell’universo) ed affermare che l’ipotesi è vera, cioè che il campione è stato effettivamente estratto da una popolazione con media M.

Altrimenti, nel caso la differenza sia considerata probabilisticamente oltre la soglia di significatività, rigettiamo l’ipotesi di partenza ed affermiamo che il campione non proviene da una popolazione con media M.

Per verificare le ipotesi dunque dobbiamo innanzitutto scegliere una soglia di significatività sotto il profilo probabilistico, oltre la quale regna una regione critica o regione di rifiuto, cioè l’insieme dei valori della statistica che portano a rifiutare l’ipotesi di nullità H0 (o ipotesi di differenza nulla). L’ipotesi H0 è quella in cui μ = μ0 contro l’ipotesi alternativa H1 in cui μ ≠ μ0 , dove μ è il valore cercato mente μ0 è un determinato valore attribuito all’universo di appartenenza del campione (ipotesi).

Diciamo subito che in genere si prende come soglia standard di significatività il limite del 95% (forse perché ad esso corrisponde un valore tabulato a cifra tonda della distribuzione normale standardizzata: 1,96), cui ovviamente corrisponde una regione critica o di rifiuto pari al 5%. Pertanto se otteniamo dal campione valori diversi da quelli cercati ma che rientrano in un 95% di probabilità di scostamento, attribuiamo al caso la differenza ed accettiamo l’ipotesi H0 per la quale è comunque μ = μ0. Si tenga però sempre presente (ed è importante perché a volte anche gli statistici se ne dimenticano) che facendo questa scelta si sbaglia probabilisticamente 5 volte su 100, un numero di casi contrari – appartenenti alla regione critica – conosciuto in economia finanziaria come la zona del “cigno nero”.

Quanto sopra descritto, ad esempio, non è altro che quello che fanno le società specializzate nei sondaggi quando stimano le percentuali di voto di ciascun partito in previsione di una tornata elettorale. La famosa “forchetta” dei voti dei partiti, entro la quale si piazzerà la percentuale di voto finale, altro non è che l’intervallo di confidenza entro una certa soglia di probabilità di cui abbiamo parlato sopra.

 

Per capire meglio la verifica delle ipotesi dobbiamo però spiegare meglio alcuni argomenti, a cominciare dalla distribuzione delle medie campionarie.

Distribuzione delle medie campionarie

La media della distribuzione di medie del campione è:

media campione = Media della popolazione

La varianza invece è uguale:

Varianza campionamento bernoulliano =

Varianza campionamento in blocco =

in cui:

σ2 = varianza della popolazione

n = numero elementi del campione

N = numero elementi della popolazione

La deviazione standard del campionamento più frequente (bernoulliano) è quindi:

Deviazione standard campionamento bernoulliano =

Per le proporzioni abbiamo invece la seguente media, varianza e deviazione standard (campionamento bernoulliano), rispettivamente:

media = p

Varianza =

Deviazione standard =

in cui p, q ed n hanno il solito significato:

p = probabilità a favore

q = (1-p) = probabilità contro

n = numero elementi del campione

 

Teorema del limite centrale

Il teorema del limite centrale è importantissimo in statistica perché permette, in sostanza, di trattare come appartenenti alla distribuzione normale anche i campioni dei fenomeni che si distribuiscono diversamente. Esso afferma infatti quanto segue:

Dato un universo qualsiasi con media = m e varianza = σ2, la distribuzione delle medie campionarie è normale al crescere della numerosità n del campione.

Pertanto, come detto sopra, la distribuzione delle medie campionarie ha:

media = m

Varianza =

Deviazione standard =

Quindi la statistica:

si distribuisce come una variabile casuale normale standardizzata per n tendente all’infinito.

In pratica si usa la tabulazione della variabile casuale normale standardizzata quando n>30, ponendo la varianza dell’universo σ uguale a quella del campione S.

 

Test sulla media

Se la varianza del campione è nota, la statistica da utilizzare è:

che si distribuisce, se ipotesi nulla vera, come una variabile casuale normale standardizzata.

Se la varianza del campione non è nota, la statistica da utilizzare è:

dove:

S = varianza del campione (stimata da quella della popolazione)

che si distribuisce, se ipotesi nulla vera, come una variabile casuale t di Student con Ѵ = n-1 gradi di libertà.

 

Intervallo di confidenza

Se la varianza del campione è nota, l’intervallo ha i seguenti limiti:

a sinistra, e

a destra, dove:

m = media

za = valore della variabile casuale normale standard tabulato per il livello di significatività a

Se la varianza del campione non è nota, l’intervallo ha i seguenti limiti:

a sinistra, e

a destra, dove:

S = varianza stimata dal campione

ta valore della variabile casuale t di Student tabulato per il livello di significatività a

 

Numerosità del campione

La numerosità minima del campione è espressa, in funzione dell’intervallo per le medie, dalla seguente formula:

con:

za = valore tabulato per il livello a

I = intervallo di confidenza

La stessa formula, espressa però in funzione dell’errore di campionamento per le medie, è la seguente:

con:

za = valore tabulato per il livello a

e = errore di campionamento

Invece per le proporzioni abbiamo, in funzione dell’errore di campionamento, la formula:

con:

p = proporzione a favore

q = (1-p) = proporzione contraria

La max variabilità si ha con:

p=q=0,50

e pertanto, dato il valore tabulato (za), si può calcolare (n) solo in funzione dell’errore (e) o dell’intervallo (I), tenendo presente che (I=2e) e che la varianza è (pq), il cui valore max è 0,25.

Per maggior precisione, è necessario usare il fattore di correzione per popolazione finita: quando n>5% di N.

 

Errore di campionamento

Errore per le medie:

Errore per le proporzioni:

dove:

 = fattore di correzione per popolazione finita, da usare quando

Autore: Steve Round

Condividi questo articolo su

Invia commento

Il tuo indirizzo email non sarà pubblicato.