Research Projects

Chronological corpora and statistical analysis of chronological textual data

Tipologia finanziamento Istituzionale

Ambito disciplinare Sociologia

Ente Finanziatore ATENEO - Attività di Ricerca Istituzionali (EX 60%)

Data avvio: 30 September 2013

Data termine: 30 September 2016

Durata:

Abstract:

Data la storia di una parola, rappresentata dalle sue apparizioni nel corso del tempo, sembra di grande interesse trovare metodi in grado di riconoscere la "forma" di questa storia. Più in generale, data la storia di un insieme di parole che costituiscono un corpus cronologico di grandi dimensioni, sembra interessante riconoscere nell'insieme degli andamenti temporali quelli prototipici (es. neologismi, parole scomparse, parole in espansione, parole in disuso, ecc.) e raggruppare parole che nel tempo hanno sperimentato andamenti simili.
Il progetto si propone di individuare nuovi metodi quantitativi per verificare in corpora cronologici di riferimento le dinamiche temporali di insiemi di parole di interesse per la ricerca storico-linguistica.
In molte applicazioni dell'analisi dei dati testuali i corpora oggetto di studio sono composti da testi organizzati in ordine cronologico e la scansione temporale è cruciale per l'analisi storica del lessico. Casi tipici si possono incontrare nel dominio della storia della lingua (es. studi del lessico di una lingua basati sull'analisi di grandi corpora di opere scritte, prevalentemente letterarie) o in quello della storia dei concetti scientifici (es. studi di un lessico specialistico basati sull'analisi di grandi corpora di letteratura scientifica) o in quello dell'uso di parole chiave in ambito politico-sociale (es. studi del lessico di figure istituzionali basati su raccolte di discorsi).
In un approccio tradizionale di tipo bag-of-words le informazioni sul lessico si basano sulla presenza/assenza e, più in generale, sulla frequenza delle parole all'interno dei testi (o dei sub-corpora che li includono). La serie di frequenze, espressa in termini di numero di occorrenze della parola per testo, per anno, per secolo, ecc., è solo una delle possibili rappresentazioni dell'evoluzione temporale di una parola e tra gli scopi di questo progetto c'è sia lo studio di nuovi indicatori quantitativi (es. frequenze normalizzate, numero di testi o text-chunks che contengono la parola, frequenze calcolate con metodi di ricampionamento) sia l'obiettivo di andare oltre il classico approccio basato sulle frequenze.
Il progetto si occuperà delle misure quantitative più adeguate allo studio dell'evoluzione temporale delle parole, tenendo conto di
- forme di rappresentazione delle traiettorie basate sulla frequenza in una prospettiva classica bag-of-words;
- possibilità di sostituire le parole con altre unità testuali di livello inferiore (n-grams) e superiore (multiwords, n-word-grams, L-motifs, F-motifs, ecc.).
Inoltre, si concentrerà sul problema di normalizzazione delle misure quantitative, con particolare riferimento al problema di costruzione di indicatori basati sulla frequenza e ai problemi di controllo dell'effetto delle dimensioni dei subcorpora nel corso del tempo (solo parzialmente risolvibili nella fase di costituzione dei corpora).