Chargement du fichier compressé de codes et de données [dossier: "ADT_py"]
Les codes de ces deux fonctions et leurs contextes d'utilisation constituent des exemples pédagogiques du livre Analyse des Données Textuelles (L. Lebart, B. Pincemin, C. Poudat), Presse de l'Université du Québec, 2019.
Le langage de programmation Python, dont la première version remonte à Guido van Rossum en 1989, est l'outil polyvalent attendu par les chercheurs travaillant sur des textes. Tout en étant facile d'accès, ce langage open source fournit une sorte de synthèse entre les langages de script tels que Perl et les langages orientés objet classiques tels que C ++ ou Java. L'utilisateur peut télécharger Python (et pour plus de confort, son interface IDLE) à l'adresse https://www.python.org et apprendre de manière interactive en utilisant les boutons d'aide disponibles.
Les programmes suivants supposent évidemment que le lecteur a une certaine connaissance des notions de base du langage. Celles-ci peuvent être acquises de manière interactive en consultant par exemple l’aide téléchargée avec Python (boutons: Aide, puis Didacticiel de l’interface IDLE), ou bien, à titre d'exemple, Cours Python de Thierry Lecroq .
Les cartes de référence de base suivantes pourraient être utiles (comme résumé sommaire ) :
Exemple 1 de carte de référence Python:
Memento_Limsi
Exemple 2 de carte de référence Python:
Memento_Poznan
Une multitude de livres / manuels d'apprentissage de Python sont disponibles sur le Web.
1- Calcul et impression d'un tableau lexical (mots X textes)
2- Calcul et impression d'une concordance à partir d'une série de textes
Il s'agit simplement de pénétrer, grâce au langage Python, dans la boîte noire d’une fonctionnalité banale disponible dans la plupart des logiciels statistiques d’analyse de texte.
De toute évidence, le code pourrait être beaucoup plus compact, mais peut-être moins lisible.Commandes pour l'interpréteur Python (IDLE par exemple)
#------------------------------------- import os # module os os.chdir("c:/ADT_py") # nom du dossier contenant programme et données # dans la racine"c:/" pour cet exemple chemin = "poem.txt" # nom du fichier de textes (même dossier) import table_lex_E # programmes: table_lex_E.py # (même dossier) from table_lex_E import * # fonctions d'importation #------------------------------------- tablex(chemin, 2) # exécute la fonction tablex() # incluse dans le fichier: table_lex_E.py # (avec: seuil = 2: valeur par défaut du seuil de fréquence). #-------------------------------------
Le petit fichier de test de données «poem.txt» est fourni dans le dossier ADT_py.
[Textes en format DtmVic : séparateurs de textes: “****” (début de ligne) suivis de 4 blancs et du titre du texte.
Fin de texte : “====”début de ligne)].
**** LAMARTINE voilà les feuilles sans sève, qui tombent sur le gazon voilà le vent qui s'élève, et gémit dans le vallon voilà l'errante hirondelle, qui rase du bout de l'aile, l'eau dormante des marais... voilà l'enfant des chaumières, qui glane sur la bruyère, le bois tombé des forêts... **** GAUTIER l'automne va finir, au milieu du ciel terne, dans un cercle blafard et livide que cerne un nuage plombe, le soleil dort. du fond des étangs remplis d'eau monte un brouillard qui fond collines, champs, hameaux dans une même teinte. sur les carreaux la pluie en larges gouttes tinte. **** VERLAINE les sanglots longs des violons de l'automne blessent mon coeur d’une langueur monotone. tout suffocant et blême, quand sonne l'heure, je me souviens des jours anciens et je pleure. **** BRUGNOT l'herbe se fane dans les près, les jours de soleil sont passés les feuilles jaunes et pourprées jonchent les sentiers effacés. le voilà donc mon bel automne. **** BAUDELAIRE bientôt nous plongerons dans les froides ténèbres adieu, vive clarté de nos étés trop courts. j'entends déjà tomber avec des chocs funèbres le bois retentissant sur le pavé des cours. =====
Ce mini-corpus est uniquement destiné à vérifier le bon fonctionnement du code. Le même code fournira la table lexicale du corpus ÉTAT DE L'UNION (corpus environ 2000 fois plus grand) en quelques secondes (dans ce dernier cas, il est prudent de commencer avec un seuil de fréquence minimum de 200 pour les mots). Le tableau ci-dessous est l'image du fichier "tablexfile.txt" produit par la fonction tablex ().
Table lexicale croisant mots et poèmes
LAMARTI GAUTIER VERLAIN BRUGNOT BAUDELA automne 0 1 1 1 0 bois 1 0 0 0 1 d 0 1 1 0 0 dans 1 2 0 1 1 de 1 0 1 1 1 des 3 1 2 0 2 du 1 2 0 0 0 eau 1 1 0 0 0 et 1 1 2 1 0 feuilles 1 0 0 1 0 fond 0 2 0 0 0 je 0 0 2 0 0 jours 0 0 1 1 0 l 4 1 2 1 0 la 1 1 0 0 0 le 4 1 0 1 2 les 1 1 1 4 1 mon 0 0 1 1 0 qui 4 1 0 0 0 soleil 0 1 0 1 0 sur 2 1 0 0 1 un 0 3 0 0 0 une 0 1 1 0 0 voilà 4 0 0 1 0
Commandes pour l'interpréteur Python (IDLE par exemple)
#------------------------------------- import os # module os os.chdir("c:/ADT_py") # nom du dossier contenant programme et données # dans la racine"c:/" pour cet exemple chemin = " SOTU_40_08.txt " # nom du fichier de textes (même dossier) # (discours: STATE OF THE UNION des présidents 41 à 44) import concord_E # fichier-programme: concord_E.py (même dossier) from concord_E import * # appel des fonctions de concord_E.py #------------------------------------- cible = “dream” # cible = le mot "dream" conco (chemin, cible) # exécute la fonction conco() incluse dans : concord_E.py #-------------------------------------Le tableau ci-dessous est l'image du fichier "concordance.txt" produit par la fonction conco ().
Table de concordance [KWIC] pour le mot "dream"
**** ----------- 41BUSH 17825 families achieve the dream of home ownership. but make no 17898 your living rooms, hold fast to your dreams because ultimately America's 17942 t century. our nation is the enduring dream of every immigrant 17961 he future we can make for ourselves. but dreams alone won't 18095 uture, every kid is the same: full of dreams, ready to take on the world 18104 on on a new century, your century, on dreams we cannot see, on the destiny 18324 have the bad dreams children once had in decad 18408 real estate. for those Americans who dream of buying a first **** ----------- 42CLINTON 18569 enter it having secured the American dream for ourselves and for future 18620 billion to make the dream of enterprise zones real, we 18897 ation, and a fair shot at the American dream, they will do extraordinary 18904 working, the American dream has been slipping away. in 199 19286 on a mission: to restore the American dream for all our people and to mak 19494 n entrepreneurs are living the American dream. if we want it to stay that 19714 promise of this country, the enduring dream from that first and most-sacr 19734 ions: first, how do we make the American dream of opportunity for all a reali 19768 our individual dreams must be realized by our co 19961 resources, and even dreams. bosnia and we stood up for p 20204 ll cultures. this will no longer be a dream, but a necessity. and over 20672 me here to work for their own American dreams. let's keep our cities going 21129 union of our founders' dreams. we are now, at the end o 21144 he more perfect union of our founders' dreams. 21167 nt, America again has the confidence to dream big dreams. but we must not 21168 complacency. we will be judged by the dreams and deeds we pass on to ou 21231 their test scores. to make the American dream achievable for all, we must ma 21532 we remain a new nation. as long as our dreams outweigh our memories, **** ----------- 43BUSH 21683 d in the way of families achieving their dreams. the surplus is not the 22540 not punish, the efforts and dreams of entrepreneurs. small bu 22769 we live in the country where the biggest dreams are born. 22770 the abolition of slavery was only a dream until it was fulfilled. the 22771 fall of imperial communism was only a dream until, one day, it was accomp 22772 our generation has dreams of its own, and we also go 22776 founding ideals and carried on a noble dream. tonight we are comforted by 22797 dom's cause. far from being a hopeless dream, the advance of freedom 23027 raise their sights and achieve their dreams. a hopeful society comes to t 23196 blood and bodies to put an end to your dreams, and what is coming is even 23397 ountry, there are boys and girls with dreams and a decent education **** ----------- 44OBAMA 23645 you built your dreams upon that’s now hanging by a 23902 he most power or celebrity, but from the dreams and aspirations of 24004 when an entrepreneur takes a chance on a dream, or a worker decides its time 24273 ertain; to do what it took to keep the dream of this nation alive for their 24286 this moment to start anew, to carry the dream forward,