Software per scoprire i documenti falsi
Un utile programma per sapere se i dati di un qualsiasi documento sono veri o falsi

da | 27 Ago 2008 | Curiosità e tempo libero | 1 commento

Sembra incredibile, ma il programma che potete scaricare gratuitamente in questa pagina permette di scoprire l’eventuale falsità dei valori numerici contenuti in qualsiasi documento: dichiarazione fiscale, bilancio aziendale, relazione contabile, sondaggio elettorale, resoconto gestionale, business plan, ecc…

Detta così sembrerebbe una delle tante baggianate che si leggono sul web, invece, credetemi, il programma proposto si basa su un serissimo algoritmo matematico: negli USA un software del genere (ovviamente molto più elaborato di quello che ho sviluppato io) è utilizzato con successo per scovare gli evasori fiscali.

Ma andiamo con ordine e cerchiamo di capire il sottile meccanismo matematico che c’è sotto.

Dovete sapere che se si prendono dei numeri qualsiasi appartenenti ad un certo insieme di dati (popolazione di un territorio, votanti alle elezioni, quantità statistiche di un censimento, quotazione delle azioni in borsa, ecc…), le prime cifre (da 1 a 9) di questi numeri – per es. la cifra 3 del numero 3.015 o la cifra 8 del n. 825.730 – non si distribuiscono casualmente (cioè con una frequenza bene o male equiripartita tra le varie modalità/cifre), come ci si potrebbe aspettare, bensì secondo una diversa distribuzione in cui i numeri più bassi si riscontrano molto più frequentemente di quelli più alti. In particolare il numero 1 come prima cifra dei numeri rilevati si registra nel 30,10% dei casi, contro un misero 4,58% della cifra 9.

Chiaramente i numeri dai quali si traggono le prime cifre devono essere legati tra loro da una qualche forma d’appartenenza ad un fenomeno della realtà (p.es. i matrimoni nei vari anni in un determinato Comune) e non devono essere il risultato della pura sorte (come p.es. le prime cifre dei numeri del lotto), altrimenti la distribuzione è necessariamente casuale e quindi equiripartita per infiniti casi (secondo la legge delle probabilità). Inoltre, non deve esserci un motivo che escluda di fatto una o più cifre dal novero dei numeri presi in considerazione: ciò elimina per esempio la possibilità di considerare i numeri di telefonia fissa, perché nelle diverse zone territoriali iniziano tutti con la stessa cifra e pertanto le altre sono materialmente escluse (ad es. nella provincia di Roma iniziano tutti con 9, tolto ovviamente lo 06).

Il primo ad accorgersi di questo fatto è stato nel 1881 un certo Newcomb, matematico ed astronomo. Però solo più tardi, nel 1938, il fisico Frank Benford ha formalizzato tale principio matematico, verificandolo definitivamente e calcolando sulla base di esso le percentuali esatte di distribuzione delle 9 cifre (da 1 a 9) con cui i numeri possono cominciare (lo zero infatti si esclude perché un numero intero non può iniziare con zero).

Ecco le sue frequenze:

Cifra iniziale

1

2

3

4

5

6

7

8

9

Percentuale

30,10%

17,61%

12,49%

9,69%

7,92%

6,69

5,80%

5,12%

4,58%

Da quel momento la distribuzione numerica anzidetta è entrata nella storia della matematica con il nome di “legge delle prime cifre di Benford”.

Provate anche voi a prendere dei numeri (appartenenti ad una certa realtà) ed a calcolare per essi la frequenza delle prime cifre (c’è Excel che facilita di molto il compito con le sue funzionalità). Io l’ho fatto con diversi raggruppamenti di numeri ed il risultato è sorprendente: la frequenza delle prime cifre da 1 a 9 è sempre molto vicina alla distribuzione di Benford, ovvero, più correttamente, lo scostamento probabilistico rispetto alla legge di Benford non è significativo.

In particolare, per scrivere questo articolo, ho testato la distribuzione di Benford sul totale delle forze lavoro di sesso maschile distinte per Regione di residenza (ho preso i dati dal sito dell’ISTAT) e ne è venuta fuori una distribuzione di cifre che, per quanto scarna (20 dati), è statisticamente molto simile a quella di Benford (con probabilità del 95%).

Ecco i dati (fonte ISTAT, anno 2006):

Forze lavoro maschili

(per Regioni – dati in migliaia)

Prime

cifre

Cifre

Distribuzione rilevata

Distribuzione di Benford

Freq. assoluta

Freq. relativa

Freq. assoluta

Freq. relativa

1.064

1

1

7

35,00%

6,02

30,10

32

3

2

3

15,00%

3,52

17,61

2.496

2

3

6

30,00%

2,50

12,49

263

2

4

1

5,00%

1,94

9,69

1.263

1

5

0

0,00%

1,58

7,92

304

3

6

0

0,00%

1,34

6,69

368

3

7

1

5,00%

1,16

5,80

1.086

1

8

2

10,00%

1,02

5,12

896

8

9

0

0,00%

0,92

4,58

205

2

N

20

100,00%

20,00

100,00

380

3

 

 

 

 

 

1.253

1

 

 

 

 

 

306

3

 

 

 

 

 

70

7

 

 

 

 

 

1.170

1

 

 

 

 

 

861

8

 

 

 

 

 

130

1

 

 

 

 

 

401

4

 

 

 

 

 

1.004

1

 

 

 

 

 

388

3

 

 

 

 

 

Chiarita la regola matematica (che sa molto di curiosità), c’è stato chi ha pensato bene di applicarla per scoprire i documenti contenenti dati numerici artefatti. Questa persona è Mark J. Nigrini, matematico statunitense, il quale, dopo aver letto nel 1989 il testo del 1938 di Frank Benford, ha proposto nel 1992 l’utilizzo della sua legge per controllare la credibilità delle dichiarazioni dei redditi.

Il ragionamento di Nigrini è molto semplice: se uno falsifica i dati di un documento, inserirà tali valori fittizi secondo un ordine casuale, allontanandosi così dalla legge di Benford. Pertanto, più la sequenza delle prime cifre di questi numeri presumibilmente manipolati si discosta da Benford (e si avvicina quindi alla distribuzione casuale), più è dubbia la veridicità dei dati analizzati.

Sulla scia di questo concetto ho provato anch’io, molto umilmente, a costruire un software in Excel in grado di verificare la veridicità o meno dei dati di qualsiasi documento contabile (per es. i valori di un Bilancio societario).

Ne è venuto fuori il programma che potete scaricare gratuitamente in fondo alla pagina in versione “thanksware”, ovvero è gradita una mail di ringraziamento 😉

Istruzioni per il programma

I dati da sottoporre a rilevazione possono essere inseriti nella grande griglia iniziale. Si tratta di una matrice di 20 x 20, che quindi può contenere fino a 400 dati. Questi ultimi devono essere rappresentati dalle prime cifre dei numeri analizzati, ovvero dalle cifre che vanno dall’1 al 9.

E’ possibile inserire le suddette cifre in qualsiasi ordine (orizzontale, verticale, ecc…), quindi anche lasciando alcune celle in bianco.

E’ pure possibile fare un comodo “copia ed incolla”, se si posseggono i dati numerici su file.

Va da sé che maggiore è il numero delle cifre inserite e più attendibile è il risultato.

Ultimato l’inserimento il programma fornisce i seguenti output:

  • la frequenza assoluta e relativa (in percentuale) dei dati nella griglia per tutte le 9 cifre, ovvero la distribuzione concreta rilevata
  • la frequenza assoluta e relativa dei dati nel caso fosse completamente rispettata la legge di Benford, ovvero la distribuzione di Benford
  • la frequenza assoluta e relativa della distribuzione casuale, cioè semplicemente la distribuzione in cui ciascuna modalità si presenta con frequenza assoluta pari a N/9 volte (con N=numero delle cifre e 9=n. delle modalità) e frequenza relativa uguale a 11,11%
  • il valore di un indice statistico [ il Chi quadrato ( χ2 ) ] che misura la “rilevanza” (più correttamente la “significatività”) dello scostamento dei dati inseriti rispetto sia alla distribuzione di Benford, sia a quella casuale. Cioè, in poche parole, ci dice statisticamente (con probabilità del 99%: la più usata) se tra i dati osservati e quelli delle altre due distribuzioni (di Benford e la casuale) c’è una differenza minima ed irrilevante oppure grande e significativa
  • al foglio di calcolo successivo, il grafico delle tre distribuzioni (rilevata, secondo Benford e causale), con l’aggiunta di una linea di tendenza espressiva della curva dei dati rilevati, così da poter vedere anche visivamente (oltre che con i valori statistici) se quest’ultima retta assomiglia di più alla distribuzione di Benford o alla variabile casuale (o a nessuna delle due: ciò che si verifica quando i dati non sono espressivi di uno scenario sufficientemente chiaro)

A questo punto possono verificarsi 4 possibilità, che costituiscono il giudizio cercato (visibile dopo l’inserimento di almeno 6 dati):

  • lo scostamento (sempre con probabilità 99%) dei dati da Benford è significativo, mentre quello dalla variabile casuale non lo è: abbiamo allora un semaforo rosso, perché è fortemente probabile una manipolazione (o non veridicità) dei dati analizzati
  • lo scostamento dei dati da Benford non è significativo, mentre quello dalla variabile casuale lo è: abbiamo allora un semaforo verde, perché è fortemente probabile la veridicità dei valori sottoposti a verifica
  • lo scostamento dei dati da Benford è significativo, ma lo è anche quello dalla variabile casuale: abbiamo allora un semaforo giallo, perché da un punto di vista matematico non si è in grado di dire niente  riguardo la veridicità o meno delle cifre inserite in griglia
  • ambedue gli scostamenti non sono statisticamente significativi: abbiamo ancora un semaforo giallo per l’impossibilità, anche qui, di fornire un giudizio sulla veridicità o meno dei dati inseriti

Per scaricare il programma (versione luglio 2010) è sufficiente un click – il software è in versione “thanksware” 😉 ovvero è gradita una mail di ringraziamento.

Anche se ho messo tutto il mio impegno nella realizzazione del suddetto programma, esso è comunque un prodotto del mio diletto e pertanto non querelate nessuno se risultano falsi i dati sottoposti a rilevazione. Mi esonero quindi da qualsiasi responsabilità per i danni che potrebbero derivare dall’uso del software.

1 commento

  1. Giuliano

    Sto seguendo un corso di formazione per le procedure amministrative e spero mi sia utile, comunque grazie.

    Rispondi

Invia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Share This