J’ai contribué à un chapitre d’ouvrage qui est sorti fin 2016 (oui, la voilà, l’ironie)… à propos de l’impensé numérique.
Ce chapitre examine les discours de presse portés sur la carte d’identité informatisée, puis sur le passeport biométrique, et les compare, les deux corpus étant traités avec deux méthodes différentes d’analyse discursive.
Devinez comment j’ai analysé ceux portés sur le passeport biométrique ? Voui, Iramuteq, what else?
Au delà de ce chapitre, l’ouvrage est le premier tome (#teasing) d’une série s’attachant à l’impensé numérique et dirigée par Pascal Robert. Donc si vous avez tout suivi, un second tome ne devrait pas tarder…
Après la narration de mes aventures dans ma découverte d’Iramuteq, ce blog reçoit régulièrement la visite de lecteurs qui semblent rechercher quelques informations pratiques sur ce logiciel. En témoignent le nombre de commentaires que ce billet a suscité : c’est le plus « populaire » à ce jour 😉 J’ai d’ailleurs encore récemment échangé avec une utilisatrice d’Iramuteq par ce biais. Alors je me suis dit : bon, ok, tu as partagé ton « mode d’emploi » pour l’avant-analyse, et si tu partageais, cette fois, sur l’après ? Car l’outil est impressionnant, il fournit quantité d’informations, de calculs, de représentations graphiques, mais comment interpréter tout cela quand on n’est pas vraiment spécialiste du domaine ? [Vous me direz, si on n’est pas suffisamment calé sur la question, il vaut peut-être mieux ne pas utiliser ce type de logiciel, et je ne suis pas loin de le penser, tant la facilité avec laquelle on obtient des « résultats » est vertigineuse et déconcertante.] Les calculs sont lancés, des résultats sont affichés, le tout en quelques secondes. Et maintenant, on fait quoi ? Loin d’être experte, je vous propose simplement ci-dessous une petite liste de références d’ouvrages et d’articles qui m’ont été très utiles pour comprendre ce qui se passait (en gros) lors des calculs, et donc pour m’orienter dans l’interprétation des informations que j’avais sous les yeux. Si vous connaissez d’autres sources utiles, n’hésitez pas à m’en faire part dans les commentaires, je les ajouterai volontiers.
Bien entendu, dès le début de mon apprentissage, j’ai d’abord utilisé la documentation qui est disponible sur le site web du logiciel. Je vous recommande également, dès le début, de vous abonner à la liste de diffusion qui est consacrée au support. On ne reçoit pas un gros volume de messages, mais c’est instructif de les lire au fur et à mesure, car on apprend aussi par ce biais, au travers des réponses apportées.
Toujours à propos du site web consacré au logiciel, une page qui n’existait pas encore quand je l’ai utilisé et qui me paraît bien utile : il s’agit d’études publiées qui se sont appuyées sur Iramuteq.
Enfin, donc, les références qui m’ont été fort utiles :
Fénelon, J.-P. (1981). Qu’est-ce que l’analyse des données ? Paris : Lefonen. Un ouvrage que j’ai emprunté en bibliothèque et qui a l’avantage de présenter les choses pour des « non mathématiciens ». Il va dans le détail, et permet de bien comprendre « ce qui se passe » au niveau des différents calculs effectués. Il donne des clés essentielles pour l’interprétation, il m’a beaucoup aidée pour les AFC notamment. Un lien utile pour le trouver en bibliothèque : http://www.sudoc.fr/022282033
Kalampalikis, N. (2003). L’apport de la méthode Alceste dans l’analyse des représentations sociales. Dans J.-C. Abric (dir.), Méthodes d’étude des représentations sociales (p. 147‑163). Paris : Erès. Un chapitre d’ouvrage qui donne des clés d’interprétation sur la classification obtenue d’après le corpus analysé, en s’appuyant pas à pas sur un exemple concret.
Lebart, L. et Salem, A. (1994). Statistique textuelle. Paris : Dunod. Un ouvrage complet sur le sujet, avec notamment un glossaire, ce qui est bien pratique pour comprendre le domaine. Le texte intégral est téléchargeable à cette adresse : http://ses-perso.telecom-paristech.fr/lebart/ST.html
Mange, J. et Marchand, P. (2007). Oui ou non à la Constitution européenne. L’éloquence du forum. Mots, (83), 121‑137. Un article très détaillé, qui m’a fourni des pistes pour l’interprétation des AFC et pour l’utilisation du chi2 signé des modalités par classes (dans mon cas). Le texte intégral est disponible à cette adresse : http://mots.revues.org/952
Reinert, M. (2002). Alceste : Un logiciel d’aide pour l’analyse de discours. Notice simplifiée de la version de base commune aux versions 4.x. Ce n’est pas Iramuteq, certes. Cela dit ce logiciel permettant d’effectuer une analyse fondée sur la méthode Alceste, la lecture du manuel d’utilisation d’Alceste est éclairante sur pas mal de points. Le texte intégral est téléchargeable à cette adresse :
En épilogue dans un précédent billet, j’évoquais mes débuts avec Iramuteq et l’ajout d’un peu plus de 200 expressions dans son dictionnaire pour pouvoir le faire tourner.
Finalement, j’ai fait bien plus qu’ajouter des expressions, et il m’a fallu plusieurs semaines avant de pouvoir enfin examiner une classification cohérente de mon corpus.
Du coup, je me suis dit : et si je me faisais un petit mode d’emploi, pour la prochaine fois ? Histoire de ne pas perdre trop de temps avec un nouveau corpus.
Puis, j’ai pensé : bah, peut-être que d’autres seraient intéressés, qui sait ?
Alors voilà non pas comment je m’y suis pris, parce que j’ai un peu navigué à vue, mais comment je m’y prendrais la prochaine fois dans un contexte similaire.
Soyons précis tout d’abord, quel est le contexte ?
Je travaille en environnement Mac. J’utilise la version 0,7 alpha 2 du 22/12/2014 d’Iramuteq, qui est l’acronyme d’Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires. Le logiciel est libre GNU GPL, il est développé au sein du Lerass. Mon corpus est constitué d’une sélection d’articles de presse nationale quotidienne issus de la base Europress.
1 – Récupérer les articles depuis Europress
Dans cette base, il est possible de télécharger 4 fichiers différents pour chaque groupe de 50 articles : une liste des articles, aux formats PDF et HTML, le texte intégral des articles, aux formats PDF et HTML. Les 4 sont utiles, à différentes étapes, donc ça vaut le coup de prendre le temps de tous les récupérer.
Une fois tous ces fichiers récupérés, créer un répertoire spécifique pour Iramuteq, si possible directement à la racine du disque, ou pas trop loin, pour ne pas créer un chemin d’accès trop long. Coller uniquement les fichiers HTML du texte intégral des articles (donc autant de fichiers que de groupes de 50 articles) dans ce répertoire. Dans Iramuteq, choisir importer depuis Europress, désigner le répertoire en question, valider.
Hop, on obtient en retour, dans ce même répertoire, un fichier texte « corpus.txt » qui reprend tous les articles dans un format compréhensible par Iramuteq. C’est à dire que les variables « source », « date », « année et mois », et « année » sont déjà créées avec leurs modalités renseignées pour chaque article. Quand on en a 400, c’est toujours ça de pris !
Problème : les auteurs ne sont pas isolés dans une variable, certains intitulés sont repris en source, mais qui ne sont pas pertinents (pour moi) comme « quotidien deuxième édition ». De plus, j’aimerais pouvoir isoler le titre du corps de l’article.
2 – Structurer le corpus
Ouvrir le corpus dans OpenOffice (qui conservera le jeu de caractère d’origine, UTF8, sinon c’est la panique) et patiemment, article par article : ajouter la variable *auteur et sa modalité (« nom de l’auteur », sinon, quand il n’y en a pas : « non », pour pouvoir isoler les articles non signés), couper chaque article en 2 thématiques (-*titre et -*corps), supprimer les sources non pertinentes (si nécessaire), supprimer les termes « de notre correspondant », « Illustration(s) », les crédits photos, c’est à dire tout ce qui ne sera pas nécessaire pour l’analyse et qui risque de créer de fortes occurrences dans les statistiques, et enfin, passer le correcteur orthographique pour déceler les espaces en trop ou en moins, les tirets qui coupent les mots en 2 (oui, oui), bref toutes les scories dont on se passerait bien et qui empêchent Iramuteq de reconnaître un mot.
3 – Ajouter les expressions non connues dans le dictionnaire d’Iramuteq
Là, c’est spécifique Mac : le fichier est caché. Si, si. Un outil bien utile dans ces cas-là : Onyx. A son ouverture, annuler les 2 premières boîtes de dialogue (vérifications des disques). Dans le menu « Paramètres », onglet « Finder », cocher la case « Afficher les fichiers et dossiers cachés ». Attention, tous les fichiers et dossiers cachés seront visibles, mais si on n’y touche pas tout va bien 😉 . Les dictionnaires sont dans le répertoire « .iramuteq » sous votre nom d’utilisateur Mac. Dupliquer « expression_fr.txt » et « lexique_fr.txt » pour conserver les originaux. Les renommer. Prudence est mère de sûreté…
Ouvrir le corpus structuré dans OpenOffice et lancer une magnifique recherche, sans pleurer en voyant le nombre d’occurrences s’afficher : tous les tirets. Ah ben oui, y a pas, faut passer par là. Ouvrir le dictionnaire des expressions en vis-à-vis (tiens, une expression), toujours dans OpenOffice, mais dans le tableur, et pour chaque expression trouvée dans le corpus, vérifier si elle existe dans le dictionnaire.
Pour chaque expression non trouvée, l’ajouter en fin de fichier : première colonne = expression telle que trouvée dans le corpus, deuxième colonne = expression telle qu’elle doit être transformée, colonnes suivantes : nature, genre, nombre. Les autres colonnes peuvent rester vides.
Une fois toutes vos expressions ajoutées, sélectionner les lignes correspondantes (elles sont à la fin du fichier, remember), les copier et les coller dans une nouvelle feuille. Supprimer la première colonne, copier la seconde colonne pour la coller à la place de la première (donc, oui, deux colonnes sont identiques). Ouvrir le fichier lexique_fr_txt dans OpenOffice, dans un tableur, copier et coller, en fin de fichier, les lignes figurant dans la nouvelle feuille précédemment créée. Sélectionner la colonne qui contient la catégorie grammaticale et passer tout en caractères minuscules. Trier chacun des 2 fichiers expression_fr.txt et lexique_fr.txt par ordre alphabétique de la première colonne. Enregistrer. Yes ! Les expressions sont ajoutées et seront prises en compte par Iramuteq.
4 – Ouvrir le corpus dans Iramuteq
Tada !!! ça y est, on est fin prêt, on se frotte les mains, on y va ! Ouvrir le corpus et lancer les statistiques. Ouvrir le fichier des formes actives (répertoireducorpus\corpus_corpus_1\corpus_stat_1\formes_actives.csv) dans OpenOffice (tableur) et filtrer sur la colonne C = nr (non reconnu). Pleurer. Ne pas s’arracher les cheveux. Pourquoi ? Parce qu’on va trouver plein de mots non lemmatisés. Don’t panic ! Tout va bien se passer. Se resservir un gros mug de thé. Que vois-je ? Oh, voilà déjà 2 formes d’un même mot, « état », qui lui, est bien lemmatisé mais seulement quand il a son accent… Et oui ! Des tas de surprises bien sympathiques !
Soit corriger dans le corpus, soit ajouter dans le lexique ou dans les expressions (et donc le lexique ensuite) tout ce qu’on trouve de suspect dans les formes actives non reconnues.
5 – Ajouter les expressions sans tirets
Dans Iramuteq, cette fois, dans les statistiques du corpus, chercher dans les formes actives celles qui semblent pouvoir être une partie d’une expression sans tirets. Hein ? Par exemple, le mot « code » tout seul est-il intéressant pour l’analyse qu’on veut faire ? Un doute ? Clic droit sur la forme, concordancier : on voit le mot dans le corpus et donc dans son environnement. Peut-être serait-il intéressant d’ajouter les expressions « code pénal », « code d’accès », « code confidentiel » ? On commence ici à rentrer dans l’analyse donc tout dépend du travail de recherche. J’ai par exemple ajouté, parce que ça avait un sens dans mon cas, l’expression « base_de_données ». Le mot carte également : carte d’identité, carte grise, carte bleue, carte à puce ?
6 – Se lancer dans Iramuteq
Cette fois, c’est bon. Le corpus est nickel, les expressions et le lexique sont parfaits, tout va bien. On peut se jeter à corps perdu (tiens, encore une expression) dans les statistiques et les classifications, tester les 3 modes, comparer les classes obtenues et le pourcentage de segments de texte classés.
Au total, j’ai ajouté 612 formes dans le lexique, dont 330 expressions… Compter quelques semaines de boulot quand même… Mais pour quel résultat ! De belles classes bien pertinentes ! De quoi aborder l’analyse le cœur léger 😉
C’était mon cri de désespoir il y a quelques semaines, quand j’ai commencé à structurer un corpus d’articles de presse que je dois analyser.
Making-of. Pour un travail de recherche, je dois analyser le discours de certains titres de la presse quotidienne nationale sur un objet précis. Bien. Je me pose des tas de questions sur la méthodologie, à la fois de constitution de corpus et d’analyse ensuite, je passe un temps infini à retourner les hypothèses et la problématique du projet pour construire une démarche cohérente, je confronte mes idées à mes encadrants, pour gagner un peu en assurance avant de faire le grand saut. Bref, allez, je me lance, même pas peur. J’ai mes critères de recherche, je sais comment délimiter mon corpus, yapuka. Hop, j’accède à la base de données documentaire qui contient tout ce dont j’ai besoin. J’interroge, j’affine ma stratégie, je finis par obtenir exactement ce que je veux. Enfin, quand je dis obtenir… Je les vois, là, sur mon écran, youpi. Mais comment je peux récupérer tout ça ? Alors, déjà, pas tout d’un coup. Non, faut pas déconner non plus, ce serait trop simple. Je ne peux obtenir les articles qui m’intéressent que par groupes de 50 items. C’est pas grave, j’ai plein de temps devant moi, je ne suis pas du tout pressée (moi ? jamais !). Allez, on y va. Dans quel format puis-je rassembler mes articles de presse ? Comme je suis dans une base de données documentaire, je me dis, bêtement, il doit y avoir des formats (j’entends : structurés) de sortie, évidemment. Le principe de la base de données documentaire, c’est qu’à chaque document (ici : article de presse) correspond une description structurée dans des champs comme par exemple le titre, la date, la source, l’auteur… Non ? Peut-être, sans doute, on ne sait pas, mais quoi qu’il en soit, il y a 2 formats proposés : HTML et PDF. Hein ? Oui, des formats de mise en page/impression. Chouette ! On va s’amuser. Et on a quoi comme options, sinon ? Grand luxe : texte intégral ou juste les données descriptives. Ah, on va peut-être pouvoir s’en tirer avec les données descriptives. En fait, non, pas du tout. Pourquoi ? Parce qu’il n’y a aucun systématisme dans la description des données (normal, c’est du HTML, mais sait-on jamais, on aurait pu avoir des id (= dénomination) pour les balises, soyons fous). Donc on ne peut pas repérer et isoler chaque donnée automatiquement. Ce n’est pas tout. Les données ne sont pas normées. Exemple ? L’auteur. Parfois écrit sous la forme « prénom nom », parfois « nom prénom », parfois les initiales, quand le nom de l’auteur a été relevé, parce que pas toujours, en fait. Je ne vous parle pas du format des dates, ça va me déprimer. J’ai 400 articles à analyser, aucun moyen de décrire proprement, automatiquement, exhaustivement mon corpus d’articles.
Or, figurez-vous, il existe des personnes sur terre dont le métier est justement de réfléchir à tout ça, de « documenter » correctement l’information, et je vous le donne dans le mille, comment les nomme-t-on ? Des documentalistes.
Je sais, c’est dingue.
Épilogue. Je n’ai toujours pas commencé mon analyse. Étonnant, non ?
Et puis j’ai eu la bonne idée de vouloir tester Iramuteq sur mon corpus. Après plusieurs jours de jonglage pour apprivoiser la bête, j’arrive enfin à lancer les outils sur mon corpus, yes ! Tiens, bizarre, le verbe UNIR semble avoir beaucoup d’occurrences, je n’avais pas remarqué (oui parce que à force, avant même d’avoir analysé quoi que ce soit, je commence à connaître mes 400 articles par coeur). Je vérifie où il se trouve dans les articles… Ah, ok. Ne pas désespérer. Tout va bien. Vu l’objet de ma recherche, il est beaucoup question des États-Unis et du Royaume-Uni dans mes articles. Voui. Résultat : je suis présentement en train d’enrichir le dictionnaire des expressions en français d’Iramuteq avec tous les termes comportant un tiret, se trouvant dans mes 400 articles, mais ne figurant pas encore dans ce dictionnaire.
Un réseau, en dehors de toute discipline particulière, a des propriétésintrinsèques, sur lesquelles différentes conceptions théoriques se sont basées (ou se basent) pour développer leur propre modèle.
En effet, quel que soit le champ scientifique empruntant à ce terme, le réseau est caractérisé par son aspect de maillage, tissage de nœuds plus ou moins équivalent reliés point à point, ses qualités d’ouverture, d’extension et de souplesse ainsi que sa capacité et à enserrer solidement, et à évoluer en permanence. Ces propriétés caractéristiques confèrent à la figure du réseau une efficacité illustrative, ce qui lui vaut d’être exploitée dans de nombreux domaines, très divers, notamment dans des théories économiques qui voient dans l’organisation en réseau un modèle prometteur.
Pierre Musso, dans son ouvrage de critique des réseaux (Musso, 2003), évoque en particulier la philosophie des réseaux développée par Claude-Henri de Saint-Simon au début du dix-neuvième siècle, dont la vision prend appui sur les innovations techniques pour élaborer une doctrine socio-économique. Le développement de grands travaux, c’est à dire de réseaux, serait libérateur, pour Saint-Simon, car ceux-ci pourvoiraient en emplois et en bénéfices industriels. Pour Musso, l’idéologie des réseaux prend racine dans cette philosophie de Saint-Simon, qui aurait ensuite évolué vers un fonctionnement de type sectaire, où les disciples du saint-simonisme s’attribuent un rôle apostolique.
Manuel Castells développe également le modèle d’une économie fondée sur la figure du réseau (Castells, 1998). Il constate que le réseau est sous-jacent à la structure de base de la société actuelle. Dans son ouvrage, Castells décrit l’émergence d’une société informationnelle où ce qu’il nomme l’« informationnalisme » serait une sorte de capitalisme informationnel dans lequel l’information serait la matièrepremière des innovationsfutures.
Pour Castells, il s’agit d’un mode récent de développement des sociétés, auquel est associée la nouvelle structure sociale que représente l’entreprise en réseau. Ce fonctionnement serait efficace du fait même de l’organisation des entreprises en réseau, qui favorise l’activité de traitement du savoir, l’une des caractéristiques de l’informationnalisme, car « les organisations qui réussissent sont celles qui peuvent générer du savoir et traiter l’information, s’adapter à la géométrie variable de l’économie globale, être assez souples pour changer leurs moyens aussi vite que leurs objectifs évoluent, sous l’impact des rapides transformations culturelles, technologiques et institutionnelles ; et innover, l’innovation devenant l’arme clé de la concurrence. » (Castells, 1998 : 208).
Ces deux modèles théoriques relient le bénéfice financier au développement technique qui suit la forme du réseau et hérite ainsi de ses propriétés.
Boltanski et Chiapello, dans l’aperçu qu’ils donnent de la multiplication des travaux sur les réseaux, indiquent qu’ « il n’est pas la peine d’insister, tant cela va de soi, sur la façon dont le développement considérable des dispositifs techniques de communication et de transport, a pu stimuler l’imagination connexionniste. » (Boltanski et Chiapello, 1999 : 227). Dans la littérature de management des années 1990 qu’ils ont étudiée, la référence au réseau est associée à ses qualités d’ouverture et d’extension, contrairement à la littérature de management des années 1960 qui, le peu de fois où elle utilise le vocable, fait plutôt référence aux mailles d’un réseau contenant et contraignant, tel un filet de pêche.
On le voit avec ces trois références, l’image du réseau est récurrente dans la sphère économique et entrepreneuriale pour représenter des valeurs positives et innovantes de gouvernance d’entreprise et de management des salariés.
______ BOLTANSKI, Luc et CHIAPELLO, Ève, 1999. Le nouvel esprit du capitalisme. Paris : Gallimard. CASTELLS, Manuel, 1998. La société en réseaux. Paris : Fayard. MUSSO, Pierre, 2003. Critique des réseaux. Paris : Presses universitaires de France.
Lancée avec enthousiasme dans mon tout nouveau job (aka « ma thèse ») j’ai entrepris de faire le point sur les outils que j’utilisais dans mon quotidien professionnel, afin de vérifier s’ils étaient bien adaptés à cette nouvelle activité et trouver le cas échéant une nouvelle organisation.
Au final, mis à part le remplacement de Mendeley par Zotero, je n’ai rien modifié de mes processus informationnels. Peut-être par résistance à l’idée de changer d’habitudes, sans doute également par peur de perdre trop de temps dans les tests, récupération d’infos, basculement d’un outil à l’autre, etc.
Alors, qu’est-ce que j’utilise au quotidien ? Pourquoi ?
Tout part de ma veille. Sur les productions ou événements scientifiques qui pourraient m’intéresser, sur mon objet de recherche et sur le contexte élargi dans lequel il se situe.
La base de cette veille est constituée de mes flux RSS (plusieurs centaines, regroupés thématiquement). Ceux-ci sont désormais gérés via Feedly. Cependant je n’utilise jamais l’interface de Feedly pour prendre connaissance des nouvelles publications dans mes flux. Si je suis sur un terminal mobile, je les lis grâce à Newsify, si je suis sur un ordinateur, j’utilise ReadKit.
Lorsqu’une info issue de mes flux RSS m’intéresse au-delà de sa simple lecture, je la mets de côté, à partir de ces deux outils, de différentes manières : soit (cas le plus fréquent) je la sauvegarde dans Evernote, soit je l’enregistre directement dans Zotero.
J’ai tenté une organisation dans Evernote, mais le seul carnet que j’utilise vraiment est un carnet temporaire dans lequel je stocke tout ce que je mets de côté.
Je retourne ensuite régulièrement dans Evernote pour faire l’inventaire de toutes ces informations amassées. Dans le cas où elles peuvent m’être utiles en tant que références dans mon travail de thèse, alors je retourne sur leur source et je l’enregistre correctement dans Zotero. Lorsqu’il s’agit plutôt d’une source d’information à laquelle je peux avoir besoin de me référer, je l’enregistre en signet dans Diigo.
Autre pivot dans ma gestion d’information : Twitter. Il est à la fois un support de diffusion, un moyen d’échange et une source de découverte. Depuis mes lecteurs de flux RSS ou depuis mes navigateurs web je publie les infos qui me semblent intéressantes à partager. Par ailleurs, à partir de mes listes Twitter, comme la liste recherche par exemple, que je regarde régulièrement, j’obtiens des informations que je n’ai pas vues dans mes flux RSS et qui peuvent me conduire vers de nouvelles sources à ajouter dans ceux-ci. Au cas où, je mémorise tous les liens que je publie soit directement soit en re-publiant un utilisateur Twitter, grâce à Packrati.us, qui offre de bonnes fonctionnalités d’enregistrement de signets.
Et vous, comment organisez-vous la gestion de vos activités informationnelles ?