DtmVic / Lebart

Ricerca: i campi principali

Quadro generale

Le ricerche si fondano sui metodi d'Analisi Statistica dei dati qualitativi e testuali. I lavori realizzati rientrano nell'ambito del trattamento statistico e informatico di vaste raccolte di dati individuali, dei quali le inchieste socio-economiche rappresentano spesso il dominio principale. Questi trattamenti si collocano sia a monte di una modellizzazione di tipo econometrico, sia in quei contesti d'applicazione dove questa sia esclusa o prematura (ad esempio nel caso di dati testuali o di consistenti batterie di variabili qualitative). Questi lavori si fondano simultaneamente sulla messa a punto di nuovi strumenti, la validazione degli strumenti stessi, lo studio critico del loro utilizzo, e infine sull'esplorazione di nuovi contesti di indagine.

1 - Analisi dei dati testuali

Trattamenti statistici dei testi e raccolte di dati misti, numerici e testuali. Applicazioni ai trattamenti delle risposte a domande aperte in ambito socio-economico. E' indicato per il trattamento statistico di un testo, di un corpora composto da più testi e comunque di insiemi di dati, numerici e testuali assieme. Per i questionari è principalmente indicato il trattamento delle risposte a domande aperte in diversi tipi di indagini (socio-economiche, sociologiche, psicologiche, altre)

2 - Metodologia del campione indagini nel campo delle scienze sociali e economia

Tecniche d'indagine nelle scienze sociali. Controllo della qualità dell'informazione. Indici sui non-rispondenti e rispondenti in indagini a campione probabilistico o in quota. Tecniche di abbinamento statistico, indagine innesto, attribuzione, imputazione di valori mancanti. Strategia di trattamento dei dati di indagine.

3 - Strutture a priori in analisi dei dati

Trattamento delle strutture a priori nelle analisi esploratorie (dati spaziali, longitudinali, meta-informazione). Tali strutture a priori potrebbero essere delle strutture a posteriori, ottenute a partire da una precedente fase di analisi effettuata sullo stesso insieme di dati (dati esito delle conoscenze acquisite sui dati stessi).
Analisi di contiguità e metodi derivati.
Classificazione (clustering) in presenza di vincoli.

4 - Inference in ambito multidimensionale

validità dei risultati (caso di metodi fattoriali), le valutazioni di tecniche di visualizzazione: inferenza classica, tecniche di ricampionamento (bootstrap, partial bootstrap, total bootstrap, bootstrap per variabili, cross-validazione). Problemi inferenziali, validità/validazione dei risultati: inferenze classiche, tecniche di ricampionamento (boostrap, bootstrap parziale, boostrap su variabili, validazione incrociata).

5 - Programmi d'analisi dei dati qualitativi e testuali

L'attuazione operativa dei metodi statistici multidimensionali, nel quadro della ricerca, ha richiesto lo sviluppo di software dedicati. Il programma SPAD (L. Lebart, A. Morineau) inizialmente è stato sviluppato i un quadro associativo e nello spirito dei programmi accademici fino al 1987 (pubblicazione dei codici sorgente). Dopo questa data, alcune interfacce di questo programma sono state sviluppate da una società privata e il programma SPAD è diventato un prodotto commerciale. L'implementazione dei nostri lavori viene realizzata attualmente nel quadro di un laboratorio del programma DtmVic (Estrazione di Dati e Testo: Visualizzazione, Inferenza, Classificazione) che resta un prodotto accademico al servizio di tesisti e ricercatori.

Grazie a Francesca Dolcetti !

Attività

Software DtmVic

Python (linguaggio)