Ce billet répond donc à un commentaire de jb ingold sur le billet précédent :
Pourrais tu nous détailler un peu le bricolage dans wordle.
En fait un peu comme je l'expliquais dans le deuxième post je crois, c'est surtout dans mon éditeur de texte que le travail se passe pour l'instant, c'est très artisanal:
1 - Je copie le corpus original.
2 - Je le nettoie de toutes les scories du types noms de commentateur, dates, lien pour répondre etc.
3 - Je soumet ça à TextStats qui me donne ces fameux chiffres sur les formes différentes etc...
4 - Textstat me donne également les formes les plus fréquentes que je suis certain de pouvoir évacuer à tous les coups (de,le,ce...)
A propos en parlant de nettoyage du texte, il s'agit en fait de remplacement.
Ainsi pour éliminer "de" il faudra bien penser en fait à rechercher " de " avec un espace avant et un espace après afin de ne pas éliminer les "de" de début, fin, ou milieu de mot. C'est une erreur que j'ai fait au début.
5 - Le plus gros du nettoyage étant fait je soumet le texte à wordle avec un nombre de mots affiché élevé (150 par défaut) qui me permet de visualiser ce que j'ai pu rater à l'étape 4
6 - Je restreint ensuite petit à petit le nombre de mots recherchés en éliminant au fur et à mesure (en faisant des aller et retour entre worlde et traitement de texte) les mots fréquents mais qui me paraissent sémantiquement faibles.
C'est une étape forcément subjective et empirique dans l'état actuel des choses.
7 - Je m'amuse avec les options de présentation, les polices etc pour aboutir à une présentation dont j'espère aussi qu'elle a du sens par elle même.
Un des objectifs sera d'automatiser tout cela à terme, mais pour l'instant cette procédure manuelle (et un peu fastidieuse il faut l'avouer) me permettra d'élaborer un outil je l'espère adapté.
Si mes lecteurs veulent s'essayer à ma méthode en l'enrichissant etc. Je serai ravi de montrer leurs créations ici !