Voilà. C’est dit.
C’était mon cri de désespoir il y a quelques semaines, quand j’ai commencé à structurer un corpus d’articles de presse que je dois analyser.
Making-of.
Pour un travail de recherche, je dois analyser le discours de certains titres de la presse quotidienne nationale sur un objet précis.
Bien.
Je me pose des tas de questions sur la méthodologie, à la fois de constitution de corpus et d’analyse ensuite, je passe un temps infini à retourner les hypothèses et la problématique du projet pour construire une démarche cohérente, je confronte mes idées à mes encadrants, pour gagner un peu en assurance avant de faire le grand saut.
Bref, allez, je me lance, même pas peur.
J’ai mes critères de recherche, je sais comment délimiter mon corpus, yapuka.
Hop, j’accède à la base de données documentaire qui contient tout ce dont j’ai besoin. J’interroge, j’affine ma stratégie, je finis par obtenir exactement ce que je veux.
Enfin, quand je dis obtenir… Je les vois, là, sur mon écran, youpi.
Mais comment je peux récupérer tout ça ?
Alors, déjà, pas tout d’un coup. Non, faut pas déconner non plus, ce serait trop simple. Je ne peux obtenir les articles qui m’intéressent que par groupes de 50 items. C’est pas grave, j’ai plein de temps devant moi, je ne suis pas du tout pressée (moi ? jamais !).
Allez, on y va.
Dans quel format puis-je rassembler mes articles de presse ? Comme je suis dans une base de données documentaire, je me dis, bêtement, il doit y avoir des formats (j’entends : structurés) de sortie, évidemment. Le principe de la base de données documentaire, c’est qu’à chaque document (ici : article de presse) correspond une description structurée dans des champs comme par exemple le titre, la date, la source, l’auteur… Non ?
Peut-être, sans doute, on ne sait pas, mais quoi qu’il en soit, il y a 2 formats proposés : HTML et PDF. Hein ? Oui, des formats de mise en page/impression. Chouette ! On va s’amuser. Et on a quoi comme options, sinon ? Grand luxe : texte intégral ou juste les données descriptives.
Ah, on va peut-être pouvoir s’en tirer avec les données descriptives.
En fait, non, pas du tout.
Pourquoi ? Parce qu’il n’y a aucun systématisme dans la description des données (normal, c’est du HTML, mais sait-on jamais, on aurait pu avoir des id (= dénomination) pour les balises, soyons fous). Donc on ne peut pas repérer et isoler chaque donnée automatiquement.
Ce n’est pas tout. Les données ne sont pas normées. Exemple ? L’auteur. Parfois écrit sous la forme « prénom nom », parfois « nom prénom », parfois les initiales, quand le nom de l’auteur a été relevé, parce que pas toujours, en fait.
Je ne vous parle pas du format des dates, ça va me déprimer.
J’ai 400 articles à analyser, aucun moyen de décrire proprement, automatiquement, exhaustivement mon corpus d’articles.
Or, figurez-vous, il existe des personnes sur terre dont le métier est justement de réfléchir à tout ça, de « documenter » correctement l’information, et je vous le donne dans le mille, comment les nomme-t-on ? Des documentalistes.
Je sais, c’est dingue.
Épilogue.
Je n’ai toujours pas commencé mon analyse. Étonnant, non ?
Et puis j’ai eu la bonne idée de vouloir tester Iramuteq sur mon corpus.
Après plusieurs jours de jonglage pour apprivoiser la bête, j’arrive enfin à lancer les outils sur mon corpus, yes !
Tiens, bizarre, le verbe UNIR semble avoir beaucoup d’occurrences, je n’avais pas remarqué (oui parce que à force, avant même d’avoir analysé quoi que ce soit, je commence à connaître mes 400 articles par coeur).
Je vérifie où il se trouve dans les articles…
Ah, ok.
Ne pas désespérer. Tout va bien.
Vu l’objet de ma recherche, il est beaucoup question des États-Unis et du Royaume-Uni dans mes articles. Voui.
Résultat : je suis présentement en train d’enrichir le dictionnaire des expressions en français d’Iramuteq avec tous les termes comportant un tiret, se trouvant dans mes 400 articles, mais ne figurant pas encore dans ce dictionnaire.
#ilovemyjob 😉
HORREUR !! Mais quelle base as-tu donc interrogée ?…
He he…
Je ne l’ai pas citée dans le billet parce qu’après tout peu importe, ce n’était pas ce qui m’intéressait 🙂
C’est la seule base presse, parmi celles auxquelles j’accède, qui contient les articles du Monde en texte intégral : Europress
For the record, comme on dit…
J’ai tout juste terminé l’enrichissement du dictionnaire d’expressions en français : 3495 tirets inspectés et vérifiés dans mon corpus, 204 expressions ajoutées dans le dico ^^