Come capire se i nostri dati sono “normali”
Con la Statistica possiamo capire se i numeri che stiamo leggendo possono dirsi “normali”

da | 2 Gen 2024 | Statistica e matematica | 0 commenti

Ciao a tutti, amanti della matematica e della statistica!

Oggi ci immergeremo nel fantastico mondo delle distribuzioni statistiche e impareremo a capire se i nostri dati sono sulla strada giusta o se sono troppo lontani da quello che si dovrebbe aspettare per essere “veri”.

In altre parole, in questo articolo vi spiegherò come fare a capire se i numeri che ci troviamo di fronte (di un bilancio aziendale, di una dichiarazione dei redditi, di un’estrazione al lotto, ecc.) sono sostanzialmente veri, perché si avvicinano ai numeri che mi aspetterei di trovare nel documento in cui appaiono, oppure sono presumibilmente falsi, perché si allontanano in modo significativo dai dati che mi aspettavo di trovare.

Prendetevi dunque 5 minuti di tempo per un viaggio emozionante attraverso la valutazione delle frequenze e delle aspettative.

La Scena: abbiamo Frequenze e Aspettative

Immaginiamo di avere un insieme di dati, magari una serie di lanci di un dado oppure i dati numerici del bilancio aziendale. Non importa se sono numeri casuali, come quelli del lotto, o sono invece specifici di un certo documento, come ad es. i valori di una dichiarazione dei redditi.

Vogliamo vedere se le frequenze con cui escono i numeri corrispondono a quello che ci aspettiamo. In parole povere, vogliamo capire se i nostri dati sono “normali” o se c’è qualcosa di strano che merita la nostra attenzione.

Passo 1: la Distribuzione Giusta

Per iniziare, dobbiamo scegliere la distribuzione statistica giusta per il nostro caso. Se abbiamo a che fare con eventi casuali come il dado, spesso optiamo per la distribuzione di Poisson o la distribuzione binomiale, a seconda del contesto.

Nell’esempio del dado pertanto mi aspetterei che ad ogni lancio ciascun numero avesse 1/6 (16,67%) di probabilità di uscire. Ma anche nel caso di un bilancio aziendale, di una dichiarazione dei redditi oppure dei voti di una tornata elettorale esiste una specifica distribuzione delle frequenze: quella delle “prime cifre” elaborata dal matematico Benford (vedi ns. articolo sulle frequenze di Benford).

Passo 2: calcolare le Frequenze Attese

Ora, calcoliamo le frequenze attese per ciascun risultato possibile. Se il dado è onesto, ogni numero avrà la stessa probabilità di uscire. Ad esempio, se lanciamo un dado a sei facce, ogni faccia dovrebbe avere una probabilità del 16.67% di uscire. Nel caso dei documenti contabili o di altri valori non casuali, fate invece riferimento alla distribuzione delle frequenze delle “prime cifre”.

Tenete presente che in qualsiasi tabella a doppia entrata è sempre possibile calcolare le frequenze attese (ovvero le frequenze che ci aspetteremmo se la variabile in colonna fosse indipendente da quella posta sulle righe o viceversa). Basta fare questo calcolo per ciascun valore della tabella:

dove:

  • fa = Ei = frequenza attesa
  • frequenza marginale riga = somma dei valori per riga
  • frequenza marginale colonna = somma dei valori per colonna
  • frequenza totale tabella = numero complessivo dei casi (n. celle della tabella)

Passo 3: verificare le Distanze con il Test di Chi-Quadro

È il momento di confrontare le frequenze osservate con quelle attese. Utilizziamo il test del chi-quadro, uno strumento magico nella cassetta degli attrezzi statistici. In poche parole, il chi-quadro ci dirà se le differenze tra i dati osservati e quelli attesi sono casuali o se c’è qualcosa che non va.

Il test del chi-quadro si basa su un confronto tra le frequenze osservate e quelle attese attraverso una formula complessa, ma non preoccupatevi, non dobbiamo fare i maghi della matematica qui. Il risultato del test ci darà un valore numerico chiamato “statistica del chi-quadro”.

In ogni caso, per chi non ha paura delle formule il test del chi-quadro è il seguente:

dove:

  • χ2 è la statistica del chi-quadro.
  • Oi​ sono le frequenze osservate per ciascuna categoria o classe.
  • Ei​ sono le frequenze attese per ciascuna categoria o classe.

In questa formula, stiamo calcolando la somma di tutte le differenze tra le frequenze osservate e attese, ognuna al quadrato, divise per le frequenze attese. Questo ci dà un valore che possiamo confrontare con la tavola del chi-quadro per determinare la significatività delle differenze.

Passo 4: interpretazione dei Risultati

Ora, dobbiamo confrontare il nostro valore di chi-quadro con una tabella di riferimento chiamata “tavola del chi-quadro”.

Se il nostro valore è significativamente grande, potremmo avere un motivo per sospettare che il nostro dado non sia del tutto onesto o che i numeri del documento contabile non siano completamente veri. Al contrario, se è nel range delle probabilità casuali, possiamo rilassarci e continuare a fidarci del nostro amato dado o dei dati contabili che abbiamo di fronte.

Conclusione: navigare tra i Numeri con Sicurezza

Ecco fatto! Ora abbiamo acquisito un piccolo arsenale di strumenti statistici per esplorare e capire se i nostri dati sono in linea con le aspettative.

Ricordate, la statistica può sembrare un po’ intimidatoria, ma con un po’ di pratica e un pizzico di curiosità, possiamo padroneggiare l’arte di navigare tra i numeri con sicurezza.

Spero che questo viaggio nel mondo della statistica vi sia stato utile. Continuate ad esplorare, continuate ad imparare con Studiamo.it e che i vostri dati siano sempre “normali”!

0 commenti

Invia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Share This