La tecnica del campionamento è la procedura attraverso la quale si estrae da un insieme di unità, costituenti la popolazione, un numero ridotto di casi detto campione.
Tale scelta è operata con criteri in grado da inferire sull’intera popolazione i risultati ottenuti dal campione.
Il metodo scientifico del campionamento è studiato dal ramo della statistica chiamato appunto teoria dei campioni o statistica inferenziale.
In altre parole, con la tecnica del campionamento se si trova che su un campione una variabile (per es. il colore azzurro degli occhi) compare il 5% di volte, allora si può stimare che anche nell’universo o popolazione dal quale esso è tratto (per es. tra gli abitanti di una certa regione geografica) si presenterà la stessa percentuale della variabile oggetto di studio, e ciò con la sicurezza di avere una data probabilità di successo.
Però, affinché dal campione siano tratte informazioni attendibili sulle caratteristiche dell’universo, è fondamentale che il campione sia di tipo probabilistico.
Campione probabilistico
Il campione probabilistico nasce negli USA, ad opera degli istituti operanti nel campo dei sondaggi d’opinione.
Come data storica di nascita può assumersi il 1936, anno durante il quale un’imponente ricerca campionaria tesa a predire il vincitore delle elezioni presidenziali americane fallì clamorosamente il successivo risultato delle consultazioni.
Solo allora si passò dalla prassi dei semplici sondaggi, senza metodo scientifico, alle inchieste campionarie fondate su solide basi statistiche, perché si capì che più che il numero dei casi inclusi nel campione è importante la rappresentatività dello stesso.
Rappresentatività che in quell’occasione venne falsata dall’errore di copertura (le liste della popolazione non erano complete) e dall’errore di non-risposta (chi rispose al questionario non era uguale a chi non rispose).
Inoltre, un altro importantissimo errore dei sondaggi è quello di campionamento, quest’ultimo esattamente misurabile da un punto di vista matematico.
Definiamo ora precisamente cos’è un campione probabilistico ed in quali occasioni ci troviamo di fronte ad esso e non (come spesso accade) ad un campione privo dei requisiti essenziali per risalire alle ricercate caratteristiche della popolazione di provenienza.
Un campione si dice probabilistico quando ogni unità che lo compone viene estratta con una probabilità conosciuta e diversa da zero.
Ecco di seguito le principali procedure con le quali si ottengono campioni di tipo probabilistico, tenendo presente quindi che i risultati dei sondaggi in cui i campioni non sono formati mediante l’applicazione di tali procedure sono sempre da prendere con le dovute cautele.
-
Campionamento casuale semplice
Abbiamo questo campione quando tutte le unità della popolazione hanno la stessa probabilità di essere incluse nel campione. Ciò equivale all’estrazione delle palline dall’urna. In realtà tale campione è puramente ipotetico, perché presuppone il possesso della lista completa dei membri della popolazione, spesso indisponibile.
-
Campionamento sistematico
Fornisce sempre un campione casuale semplice e da questo differisce esclusivamente per la tecnica d’estrazione del campione. Si estrae infatti un soggetto ogni tanti soggetti di un dato intervallo e quindi se N è la popolazione si sceglie un’unità ogni k = N/n soggetti (k è pertanto l’intervallo di campionamento). E’ preferibile al campionamento casuale semplice perché permette l’estrazione anche quando non si ha la lista della popolazione e non si conosce N. Un esempio di questa tecnica sono gli exit polls.
-
Campionamento stratificato
Se il fenomeno studiato presenta grande variabilità, per non dover necessariamente lavorare su un campione numeroso, si può usare questa tecnica, che consiste nel dividere la popolazione in strati il più possibile omogenei ed estraendo, con un procedimento casuale semplice, un campione da ogni strato. Successivamente si uniscono i campioni dei singoli strati per formare il campione complessivo.
-
Campionamento a stadi
Si opera con questa tecnica quando non si possiede la lista della popolazione e questa è fortemente dispersa sul territorio, rendendo complicato raggiungere le unità del campione. La popolazione è in questo caso suddivisa su più livelli gerarchicamente ordinati, dai quali viene estratto il campione con un procedimento ad imbuto, partendo cioè dalle unità primarie per poi passare alle unità secondarie. Altri tipi di campionamento probabilistico sono una variante di quello a stadi.
Abbiamo detto che gli errori che si possono compiere nelle indagini con campione probabilistico sono prevalentemente i seguenti:
- errore di copertura
- errore di non-risposta
- errore di campionamento
Tra di essi l’unico esattamente quantificabile è quello di campionamento e ciò porta spesso a identificare il possibile errore complessivo dell’indagine esclusivamente con questo errore, trascurando gli altri.
Pertanto, una volta inclusa nei calcoli la possibile forchetta derivante dalla considerazione del valore in più/meno dell’errore di campionamento, si è portati a credere che il risultato da prevedere sia completamente predeterminato: non bisogna mai cadere in questa trappola, perché ci sono sempre gli errori di copertura e di non-risposta a falsare le predizioni e quindi, non essendo tali errori misurabili, possiamo dire, senza paura di essere contraddetti, che nessuna rilevazione campionaria fornisce un risultato sicuro al 100%.
Errore di copertura
Il grande problema consiste nel fatto che spesso non si possiede la lista della popolazione, per cui non è possibile avere un campione probabilistico, in quanto non è possibile assegnare a tutte le unità della popolazione una probabilità nota di essere estratte. Questo è vero soprattutto quando nel nostro Paese si deve operare, non con l’intera popolazione, che si conosce (liste anagrafiche ed elettorali), ma con segmenti di questa (p.es. disoccupati, giovani, commercianti, etc…). Né si può applicare un campionamento sistematico, non essendo il segmento studiato situato all’interno di un locale da cui estrarre i soggetti secondo un dato intervallo.
Errore di non-risposta
L’errore di non-risposta è causato:
- dal mancato raggiungimento dei soggetti
- dal rifiuto a rispondere
Il primo è un problema di costi, il secondo è un problema grave, perché si hanno fondati motivi per ritenere che chi non risponde è diverso da chi risponde, in quanto si tratta spesso di soggetti anziani e di bassa istruzione.
L’esempio classico è fornito dalle indagini eseguite per telefono, che ignorano per definizione il pensiero di coloro che non posseggono linee telefoniche. Né si può sostituire costoro con altri, perché i non possessori di telefono esprimono un’opinione che difficilmente può riscontrarsi nei soggetti della middle-class che li sostituiscono e quindi l’opinione degli individui privi di telefono continuerà ad essere sottostimata e mal rappresentata nei sondaggi.
Errore di campionamento
L’errore di campionamento è facilmente misurabile, vediamo come.
Definiamo innanzitutto le variabili che entrano nel calcolo:
N è l’ampiezza della popolazione;
X,Y, Z, etc… sono le variabili;
i valori che queste assumono atti a descrivere la loro distribuzione complessiva o le loro relazioni sono i parametri, che possono essere una media, una proporzione o un coefficiente di correlazione;
n è l’ampiezza del campione;
il parametro della popolazione ricercato studiando la media comporta necessariamente una stima sulla base di un livello di fiducia (p.es. il 95%), consistente nella fissazione di un intervallo di confidenza nel quale si colloca il valore statistico della popolazione.
L’errore di campionamento può essere rappresentato così:
V = v + e
parametro stima errore di
della popolazione campione campionamento
(incognito)
Nel caso di un campione probabilistico ed in particolare di un campionamento casuale semplice, in cui il parametro da studiare sia una media, l’errore è dato da:
e = z * s/√n * √(1-f)
dove
z = coefficiente legato al livello di fiducia, che nel caso del 95% è = 1,96
s = deviazione standard campionaria
n = ampiezza del campione
(1-f) = fattore di correzione per popolazioni finite, dove f = n/N (frazione di campionamento)
Quindi l’errore è tanto più grande:
- quanto più grande è il livello di fiducia
- quanto più elevata è la variabilità della variabile studiata
- quanto minore è l’ampiezza del campione
Notiamo che nel caso di popolazione infinita o molto più grande del campione (diciamo quando si ha un campione inferiore al 5% della popolazione), il fattore di correzione (1-f) è trascurabile e pertanto N neanche interviene nella formula dell’errore di campionamento. E’ infatti l’ampiezza del campione (n) più che la frazione di campionamento (n/N) a determinare l’entità dell’errore.
Nel caso il parametro da stimare non sia una media ma una proporzione, come nel caso di variabili categoriali, la formula dell’errore sarà:
e = z * √[pq/(n-1)] * √(1-f)
dove
p = proporzione nel campione della variabile in esame
q = 1-p
Si noti che per le variabili categoriali la deviazione standard è k = N/n
Ampiezza del campione
Il problema della numerosità del campione è il primo problema che si pone il ricercatore.
Si può calcolare l’ampiezza del campione sostituendo alla “e” della formula precedente l’errore che si è disposti ad accettare e risolvendo la suddetta equazione rispetto a n.
Avremo così (trascurando il fattore di correzione per campioni inferiori al 5% della popolazione, cioè n/N<0,05):
n = [(z * s)/e]2 per le medie n = (z2 * pq)/e2 per le proporzioni
Quindi l’ampiezza del campione è direttamente proporzionale:
- al livello di fiducia desiderato (z)
- alla variabilità del fenomeno (s) o (pq)
ed inversamente proporzionale:
- all’errore che si è disposti ad accettare (o direttamente proporzionale alla precisione voluta)
Tutto ciò vale nello studio di una sola variabile, quando si studiano più variabili il ricercatore applicherà le formule di cui sopra separatamente per ciascuna variabile e prendere poi l’ampiezza del campione (n) più elevata fra quelle trovate. Nel caso di proporzioni la questione si semplifica, perché la dispersione misurata da √pq assume il valore massimo quando p = q = 0,50. Per cui se si calcola l’ampiezza del campione nel caso di dispersione più sfavorevole (più elevata), lo stesso campione a maggior ragione potrà essere utilizzato per tutti gli altri casi.
In questo modo se poniamo un livello di fiducia costante e pari al 95%, possiamo calcolare la numerosità del campione per tutte le popolazioni e per diversi valori di errore assoluto (p.es. 1%, 2% o 5%).
Si vede da questo calcolo che, con un errore desiderato del 5%, il campione dovrà essere almeno di 400 unità, indipendentemente dall’ampiezza della popolazione.
Si ricordi però che quanto si è detto vale solo per un campione casuale semplice, che equivale a dire di avere sempre la lista completa della popolazione dal quale il campione è prelevato, qualunque sia questa popolazione, anche quando essa coincide con quella mondiale. E’ chiaro dunque che si tratta di un discorso puramente ipotetico.
0 commenti