Statistica multivariata e cluster analisys applicata alla gestione dei dati archeologici

Una tesi di laurea sulla statistica multivariata e cluster analisys applicata alla gestione dei dati archeologici

Le analisi statistico - matematiche

Lo scopo della ricerca tende ad individuare i caratteri predominanti in un’ area precisa. In questa fase anche la scelta delle variabili da analizzare costituisce una tappa fondamentale: essa deve individuare gli elementi che caratterizzano nel miglior modo le unità di rilevazione e che, di conseguenza, hanno il potere di diversificare tra loro le unità, mettendone in luce, al tempo stesso, le eventuali affinità.

L’impiego del computer, nella fase di analisi, diventa molto importante perchè rende di gran lunga più veloce le operazioni e permette di raggiungere risultati difficilmente ottenibili tramite spogli e procedimenti manuali.

Le Statistiche Elementari

Le analisi statistiche elementari costituiscono la tappa preliminare per ogni successiva analisi più complessa, ma va ricordato che, mentre i metodi multivariati sono lo stadio esplicativo nell’ambito dell’analisi di un fenomeno, le statistiche elementari, invece, rappresentano lo stadio puramente descrittivo.

Un primo livello di analisi dei dati archeologici consiste nell’utilizzare degli attributi metrici e nominali come base per la determinazione di uno o più tipi, cioè l’entità progettuale e prodotto finito derivante dalla correlazione intenzionale dei diversi attributi, all’interno di un collettivo statistico costituito da una serie di materiali tra loro omogenei. Infatti, oltre l’ approccio intuitivo, per effettuare una ricognizione tipologica, esiste la possibilità di ottenere risultati quantitativamente esatti tramite l’applicazione di alcune statistiche elementari.

Le Analisi delle Frequenze

Lo scopo delle analisi delle frequenze è di evidenziare quante volte un determinato fenomeno, o un suo aspetto, si manifesta nell’ambito del collettivo statistico rilevato.

La frequenza assoluta indica il numero complessivo dei casi in cui una determinata variabile o una sua modalità si presentano nella totalità delle unità di rilevazione.

La frequenza relativa, espressa in percentuale, è data dal rapporto tra la frequenza assoluta ed il numero complessivo dei casi presi in esame. Queste percentuali permettono di avere una visione immediata della situazione riscontrata e di istituire confronti più rapidi rispetto a quelli ottenuti tramite l’esame dei valori assoluti.

Per quello che riguarda le rappresentazioni grafiche delle informazioni “quantizzate” relative a un carattere, con il fine pratico di evidenziarne la distribuzione delle frequenze, va detto che esistono diversi metodi grafici, tra questi possiamo citare:

  • Gli Istogrammi che servono a rappresentare graficamente la distribuzione delle frequenze nell’esame di una variabile continua, cioè un carattere quantitativo che può assumere come modalità tutti i valori dell’intervallo dei numeri reali positivi ( ad esempio l’altezza o la larghezza di un oggetto). Graficamente si tratta di un diagramma cartesiano su cui sono tracciati più rettangoli adiacenti, ad intervalli costanti ( Passo di frequenza ), la cui area indica la frequenza delle osservazioni rilevate che rientrano all’interno dell’ intervallo.
  • I poligoni di frequenza rappresentano graficamente in un sistema di assi cartesiani, l’andamento tra le variabili o le modalità e l’indice delle frequenze rilevate. Questo tipo di grafico permette il confronto, all’interno di un unico diagramma, tra situazioni riscontrate in diverse variabili omogenee.

Per evidenziare le caratteristiche essenziali della distribuzione di una variabile è possibile individuare dei valori di indice che ne sintetizzino l’andamento. Questi valori vengono chiamati medie. Nelle applicazioni la scelta di una media dipende dalla proprietà che la caratterizza in relazione anche alla natura della variabile; in particolare, le medie analitiche vengono calcolate attraverso operazioni algebriche sui valori della variabile che dovrà essere perciò di tipo quantitativo, mentre le medie di posizione, non utilizzando tali operazioni, possono essere determinate anche su variabili di tipo qualitativo.

Nel caso in cui la variabile sia quantitativa, la media più frequentemente utilizzata è la media aritmetica che è uguale alla somma dei valori diviso il loro numero.

Una media che può essere calcolata anche su variabili qualitative ordinabili, in maniera crescente o decrescente, è la mediana cioè il valore centrale di un insieme di valori ordinati, dove per valore centrale si intende quel valore che divide il collettivo in due parti di uguale numerosità.

La moda, invece, è una media di posizione che può essere calcolata per qualsiasi tipo di variabile, essa indica la modalità più frequente nel collettivo osservato, cioè il valore o l’intervallo con la massima frequenza riscontrata. Se rappresentiamo la distribuzione delle frequenze in termini grafici, mediante ad esempio un istogramma, la moda rappresenta il picco della distribuzione. In presenza di un solo picco la distribuzione si dice unimodale, invece, in presenza di due picchi, la distribuzione sarà bimodale. La presenza di due mode in una distribuzione può suggerire che il collettivo osservato non è composto da unità fra loro omogenee, bensì dall’insieme di due gruppi di unità distinti.

L’analisi dell’associazione tra due variabili: lo Scatter diagram

Qualora si voglia verificare l’esistenza o meno di una correlazione statisticamente significativa tra due attributi metrici, il metodo più diretto per la rappresentazione grafica e l’analisi dei dati è costituito dallo scatter diagram o ( nuvola di punti ).

Anche questo diagramma si avvale del sistema cartesiano, ma a differenza di quanto notato per gli istogrammi, sia sull’asse delle ascisse sia su quello delle ordinate, sono rispettivamente rappresentati i valori relativi ad una variabile continua (ad esempio l’altezza e la larghezza). Le osservazioni fatte su una serie di oggetti producono sul piano cartesiano un insieme di punti, ognuno dei quali corrisponde ad una unità di rilevazione.

L’interpretazione di questo insieme di punti può tendere verso due diversi tipi di informazione: per primo la distribuzione dei punti evidenzia le relazioni esistenti tra le diverse unità di osservazione permettendo di raggrupparle in classi dimensionali; in secondo luogo, l’intero campione di punti può permettere di stabilire le relazioni esistenti tra le due variabili a secondo della loro distribuzione tra gli assi, se questa distribuzione mostra sostanzialmente tutti i punti allineati su di una retta, detta retta di regressione, potremmo stabilire una correlazione abbastanza precisa tra le variabili. Naturalmente, più i punti sono sparsi nel piano, più grande è l’incertezza sui parametri della retta di regressione e minore è la correlazione tra le variabili analizzate.

Autore: Gero Marsala

Condividi questo articolo su

1 Commento

Invia commento

Il tuo indirizzo email non sarà pubblicato.