Statistica multivariata e cluster analisys applicata alla gestione dei dati archeologici

Una tesi di laurea sulla statistica multivariata e cluster analisys applicata alla gestione dei dati archeologici

L'acquisizione dei dati

Una banca dati, cioè un archivio di dati registrati nella memoria del computer, permette una rapida ed efficiente gestione delle informazioni facilitandone la verifica, le correzioni e le aggiunte. La costruzione di una banca dati richiede in primo luogo la scelta delle informazioni da registrare, ed in particolare la costituzione di un lessico e di una sintassi tali da essere accettate dal sistema di trattamento automatico scelto per la gestione ed il recupero dei dati.

La definizione dei dati da archiviare, di norma, rispecchia criteri di omogeneità basati su informazioni che vengono distinte in “intrinseche”, cioè specifiche dell’oggetto preso in esame quali le dimensioni, le tecniche di esecuzione, ed “estrinseche”, cioè contestuali e relazionali quali la descrizione degli aspetti anagrafici, il luogo di rinvenimento, lo stato di conservazione e la datazione.

I due diversi tipi di informazioni coesistono all’interno della banca dati permettendo di creare una raccolta di dati completa, e razionalmente strutturata, facilitando la successiva comparazione dei dati archiviati. Un aspetto molto importante in fase di data entry, cioè il momento di immisione dei dati nel computer, è la definizione di un linguaggio, il più idoneo possibile, da usare come base per l’applicazione dei metodi informatici. Se in archeologia viene utilizzato un linguaggio “naturale”, dove è frequente la disomogeneità dei moduli descrittivi, comunemente usato per descrivere nelle pubblicazioni archeologiche le vestigia materiali ed artistiche, ed, un linguaggio ” scientifico” con il quale si indica la terminologia specialistica usata dagli archeologi, l’introduzione di un linguaggio “documentario” cioè un sistema di codifica delle informazioni ( che può essere di tipo numerico, alfanumerico o alfabetico ) , risulta molto importante ai fini della trattazione in esame.

Tale sistema si presenta sotto forma di un vocabolario “controllato” che, data l’agilità e l’omogeneità degli elementi, permette una facile immissione e gestione dei dati nel computer . All’ interno di ogni unità di osservazione rilevata ed esaminata presente nella banca dati, troviamo quindi degli attributi convenzionalmente distinti in due categorie: attributi metrici ( misurabili quantitativamente ) come ad esempio la lunghezza, l’ altezza , lo spessore, il peso o il volume ed attributi nominali ( caratteri qualitativi non misurabili ) come ad esempio la forma, la decorazione, lo stato di conservazione; si tratta, quindi, di caratteri che non possono essere “misurati” nel senso stretto del termine.

Mentre gli attributi metrici sono facilmente trattabili nelle analisi statistico-matematiche, gli attributi nominali, invece, necessitano di una codificazione, cioè bisogna applicare un metodo che trasformi dei caratteri qualitativi in variabili che possano essere comparate. Per questo motivo considereremo gli attributi come variabili ed assegneremo ai valori degli attributi un codice. Le variabili, secondo il metodo usato nelle scienze statistiche, possono essere classificate in livelli:

  • Variabili nominali, sono variabili i cui valori non hanno nessun tipodi ordine e relazione;a d esempio se consideriamo come variabile il materiale, ed ai diversi tipi di materiale assegniamo un valore, tra i valori non esiste nessun rapporto di distanza misurabile e nessun ordine discendente o ascendente.Es.
Nome Variabile
Valore
MATERIALE
1 = Bronzo2 = Ferro3 = Selce

 

  • Variabili Ordinali, sono variabili i cui valori formano una sequenza ma non hanno una distanza tra essi misurabile;a d esempio se consideriamo come variabile lo stato di conservazione delle unità rilevate ed assegniamo un valore al giudizio espresso, i valori avranno un ordine ed una correlazione ma non una distanza misurabile.Es.
Nome Variabile
Valore
STATO DICONSERVAZIONE
1 = Scarso2 = Suff.3 = Buono

Una variabile nominale dicotomica , cioé che presenta la possibilità di due soli valori ( es. le variabili di presenza\assenza ), è da considerarsi come variabile ordinale.

  • Variabili di Intervalli, sono variabili i cui valori formano una sequenza con una distanza fissa misurabile;ad esempio se consideriamo come variabile la datazione , i valori delle varie unità, le date, avranno un ordine ascendente o discendente ed una distanza misurabile.
  • Variabili di Rapporto, sono variabili i cui valori presentano una distanza fissa da un punto assegnato, cioè è possibile misurare l’intervallo tra il valore dell’unità rilevata ed un punto fisso, da noi stabilito, comune a tutte le unità rilevate.La codificazione degli attributi in variabili permette di trasformare uno o più variabili originali, creando così nuove variabili utilizzabili nelle analisi statistico-matematiche. Alcuni tipi di variabili trasformate sono:
    • Variabili di gruppi, i valori di una variabile possono essere raggruppati creando così una nuova variabile;ad esempio se consideriamo la variabile DATAZIONE, possiamo raggrupparne i valori secondo un certo intervallo, creando , in questo modo, una nuova variabile che chiamaremo PERIODO.
    • Variabili di Rapporti, il rapporto tra i valori di due variabili esprimono una nuova variabile;ad esempio se calcoliamo il rapporto dei valori delle variabili ALTEZZA e LARGHEZZA, i nuovi valori, che possono essere espressi anche in percentuale,creano una nuova variabile.

La seguente Tabella riassume il procedimento da eseguire per la codifica dei dati.

ARCHEOLOGIA
STATISTICA
INFORMATICA
Archivio Collettivo Statistico Banca Dati
Unità di Rilevazione Individuo Record
Attributi Metrici Variabili di Intervallo Campo Numerico
Attributi Nominali Variabili nominaliVariabili Ordinali Campo Alfanumerico
Caratteri Valori Valori

Autore: Gero Marsala

Condividi questo articolo su

1 Commento

Invia commento

Il tuo indirizzo email non sarà pubblicato.