|
Lebart Ludovic / DtmVic Directeur de recherches C.N.R.S. (R) |
|
O tema da pesquisa é "Métodos de Análise Estatística de dados qualitativos e textuais". Os trabalhos realizados revelam a metodologia do tratamento estatístico e computacional a partir de grande coleta de dados individuais, cujos arquivos de levantamentos socio-econômicos fornecem o domínio da aplicação principal. Estes processamentos se dão, em geral, tanto na reunião da modelagem do tipo econométrico, quanto nos domínios de investigação que pode ser excludente ou prematura (dados textuais, baterias de variáveis qualitativas importantes, por exemplo). Estes trabalhos tratam ainda da criação e validação de novas ferramentas, bem como do estudo crítico de sua utilização e da exploração de novos domínios de investigação.
Tratamentos estatísticos de textos e coleta de dados mistos numéricos/textuais. Aplicações para o tratamento de respostas às questões abertas das enquetes socio-econômicas.
As técnicas de enquetes socio-econômicas. O controle da qualidade da informação. As ausências de respostas, os cruzamentos de arquivo. Estratégias de processamento.
A consideração de estruturas a priori nas análises investigatórias (dados espaciais, longitudinais, meta-informação) e estruturas a posteriori, obtidas através do conhecimento adquirido sobre os próprios dados. Análises de contiguidade e mé todos derivados. Classificação com restrições.
Problemas envolvendo inferências, validade dos resultados: inferências clássicas, técnicas de re-amostragem (bootstrap, bootstrap parcial, bootstrap sobre variáveis, validação cruzada)
A colocação em prática de métodos estatísticos multidimensionais no caso de arquivos de enquetes provocou o desenvolvimento de programas dedicados. No início, o programa SPAD (L. Lebart, A. Morineau) foi desenvolvido a partir de um contexto associativo (lei de 1901: CESIA) e no espírito dos programas acadêmicos (publicações de códigos fonte) até 1987. Desde então, as interfaces deste programa foram desenvolvidas por uma empresa privada (CISIA) e o programa SPAD tornou-se um produto comercial. A implementação de nossos trabalhos tem sido feita atualmente usando o conceito de fábrica de software DtmVic (Data and Text Mining : Visualização, Inferência, Classificação), que continua um produto acadêmico, voltado para alunos de pós-graduação e pesquisadores.