lundi 30 juin 2008

Méthode manuelle

Un blog sur les commentaires qui blogue selon ses propres commentaires, c'est bien ça le web 2.0, non ? :)

Ce billet répond donc à un commentaire de jb ingold sur le billet précédent :

Pourrais tu nous détailler un peu le bricolage dans wordle.

En fait un peu comme je l'expliquais dans le deuxième post je crois, c'est surtout dans mon éditeur de texte que le travail se passe pour l'instant, c'est très artisanal:

1 - Je copie le corpus original.

2 - Je le nettoie de toutes les scories du types noms de commentateur, dates, lien pour répondre etc.

3 - Je soumet ça à TextStats qui me donne ces fameux chiffres sur les formes différentes etc...

4 - Textstat me donne également les formes les plus fréquentes que je suis certain de pouvoir évacuer à tous les coups (de,le,ce...)

A propos en parlant de nettoyage du texte, il s'agit en fait de remplacement.

Ainsi pour éliminer "de" il faudra bien penser en fait à rechercher " de " avec un espace avant et un espace après afin de ne pas éliminer les "de" de début, fin, ou milieu de mot. C'est une erreur que j'ai fait au début.


5 - Le plus gros du nettoyage étant fait je soumet le texte à wordle avec un nombre de mots affiché élevé (150 par défaut) qui me permet de visualiser ce que j'ai pu rater à l'étape 4

6 - Je restreint ensuite petit à petit le nombre de mots recherchés en éliminant au fur et à mesure (en faisant des aller et retour entre worlde et traitement de texte) les mots fréquents mais qui me paraissent sémantiquement faibles.

C'est une étape forcément subjective et empirique dans l'état actuel des choses.

7 - Je m'amuse avec les options de présentation, les polices etc pour aboutir à une présentation dont j'espère aussi qu'elle a du sens par elle même.

Un des objectifs sera d'automatiser tout cela à terme, mais pour l'instant cette procédure manuelle (et un peu fastidieuse il faut l'avouer) me permettra d'élaborer un outil je l'espère adapté.

Si mes lecteurs veulent s'essayer à ma méthode en l'enrichissant etc. Je serai ravi de montrer leurs créations ici !

vendredi 27 juin 2008

27 juin 2008


Les commentaires de l'article du bien public "Nuit de violences dans l'Hérault et l'Aude"


Les commentaires de l'article de libération "Manif des viticulteurs : une «tentative d'homicide» sur des gendarmes, selon MAM"


Vous l'avez remarqué, encore une innovation aujourd'hui, suivant l'excellent conseil de Julien de ils.sont.là ce sont les commentaires de deux journaux qui sont comparés, les deux articles traitant sensiblement du même sujet.

Le choix de l'article a été simple puisque il était le seul parmi les plus commentés du Bien Public a avoir son équivalent dans Libé...

Allez un peu de stats !

Bien PublicLibération
Formes distinctes340810
Nombre de mots5562793
Taux de répétition1.633.45

Comparer deux corpus de tailles si différentes rend difficile l'analyse...

On pourra constater toutefois que dans les commentaires du Bien Public précédemment étudiés, le "taux de répétition" reste relativement stable et fort différent de celui des commentaires de l'article de Libé étudié :

Tableau des commentaires du Bien public précédemment étudiés


Date des commentairesFormes distinctesNombre de motsTaux de répétition
19/06/08107524142.24
20/06/0899022312.25
23/06/0873215082.06
26/06/08102924292.36

Il faudra répéter cette analyse pour voir si le BP reste stable autour de 2.20 et si Libé va lui continuer à avoisiner les 3...

Une supposition empirique simple est que le niveau orthographique des lecteurs du bien-public est si faible qu'ils créent un nombre important de formes distinctes et conséquemment un faible taux de répétition



mercredi 25 juin 2008

25 juin 20008



Une fois n'est pas coutume aujourd'hui les commentaires d'un seul article, dans lesquels on découvrira par exemple les ...

alcolos-drogués-fainéants-délinquants qui contribuent à faire du Grand Dijon une vaste poudrière de haine & de violence.




Avec 2366 mots différents pour 1018 formes différentes c'est une véritable avalanche de commentaires qui s'est abattue sur l'article en question...


Ps : qu'est ce que le code généré par blogger est crade....

Ps 2 : tant qu'à changer l'ordinaire de ce blog, une chouette photo (cliquable) en sus.

lundi 23 juin 2008

23 juin 2008


Pas de commentaires aujourd'hui, juste la petite statistique (désormais habituelle ;) )

732 mots ou formes de mots différents dans l'ensemble des commentaires analysés (total de de 1508 mots).


Les articles commentés du jour :
  • « Les handicapés vivent dans la pauvreté »
  • Rebsamen signera la contribution Royal
  • Défense de la BA 102 :
  • Les salariés d'Intermarché
  • Pédophilie sur Internet : 44 suspects mis en examen
  • Carla Bruni-Sarkozy
  • Treize ans pour un père violeur
  • « Travailler dans le consensus »
  • J. Chirac ne participera pas aux cérémonies du 14 juillet
  • J.-P. Morel : « Le tramway… plutôt »

vendredi 20 juin 2008

20 juin 2008



Aujourd'hui un phénomène amusant avec un thème qui écrase tous les autres .

Autre surprise on ne trouve plus aujourd'hui que 990 mots ou formes de mots différents (contre 1075 hier) soit une baisse de 7.91% ce qui est quasiment parfaitement corrélé avec le nombre totale de mots 2231 (contre 2414 hier) soit une baisse de 7.58% .

De façon intuitive j'ai l'impression que cette richesse du vocabulaire a tendance à augmenter avec la quantité de matériel étudiée mais que le rythme de cette augmentation doit peu à peu diminuer, à l'image de la courbe d'une racine carrée.


( image libre de droit en provenance de wikipedia )

Ceci dit est sans doute trop tôt pour en tirer une conclusion mais après tout c'est ce qui constitue le sel de ma démarche empirique :)

Les articles les plus commentés du jour :
  • Ces enfants qui tyrannisent les parents
  • Banqueroute familiale et ménagère
  • La zone industrielle
  • D'accord pour la construction d'un second EPR
  • Beaune : l'itinéraire de Samuel interpelle
  • Serge Dassault
  • Avenir du traité de Lisbonne : les 27 prennent leur temps
  • « Pour l'instant, les recherches ont été faites sur trop peu d'années »
  • Voitures incendiées : les victimes seront indemnisées
  • « Unanimité politique »

jeudi 19 juin 2008

19 juin 2008



Grâce à textstat on peut constater qu'il y a 1075 mots ou formes de mots différents dans l'ensemble des commentaires analysés (total de de 2414 mots)

A titre d'info, pour se rendre compte de l'ordre de grandeur : les fréquences d'apparition des 5 mots qui reviennent le plus souvent (en excluant les pronoms etc comme d'habitude)

Famille : 6 occurrences (soit 0.25% du total)
Politique : 5 occurrences (soit 0.21 % du total)
Samuel : 5 occurrences (soit 0.21 % du total)
Canal : 5 occurrences (soit 0.21 % du total)
Domenech : 5 occurrences (soit 0.21 % du total)

Je n'ai pas encore une précise de ce qu'on peut dégager de ces chiffres mais je pense qu'il va y avoir des choses à en tirer ;)

Avant mon nettoyage le tiercé de tête des mots est en fait:

  1. de avec 126 apparitions
  2. le avec 54 apparitions
  3. la avec 49 apparitions

La liste des articles commentés, on remarquera que certains étaient déjà présents hier.

  • La division syndicale
  • Beaune : la police utilise tous les moyens pour retrouver Samuel
  • BA 102 : un combat qui mérite d'être mené
  • Zurich, morne plaine
  • « Pour une vraie vision du dossier tramway »
  • L'imprudence d'un conducteur jugée à la barre
  • Avenir du canal : manifestation à l'écluse 55
  • Les pemières décisions de la nouvelle majorité
  • Raymond Domenech :
  • La zone industrielle de Longvic reste bloquée

mercredi 18 juin 2008

18 juin 2008


Avec 60 mots affichés



Avec 30 mots affichés



Avec 10 mots affichés


Outre la fréquence d'apparition des mots il me semble utile de voir le contexte de leur usage et donc les titres des articles commentés :
  • Zurich, morne plaine
  • La division syndicale
  • Les pemières décisions de la nouvelle majorité
  • BA 102 : un combat qui mérite d'être mené
  • L'imprudence d'un conducteur jugée à la barre
  • Avenir du canal : manifestation à l'écluse 55
  • Beaune : la police utilise tous les moyens pour retrouver Samuel
  • Raymond Domenech :
  • « Pour une vraie vision du dossier tramway »
  • Grève, aujourd'hui contre la fin de la publicité

L'analyse est pour l'instant fort sommaire et wordle assez peu configurable, il faudra que je pense à me pencher du coté des outils qu'utilise Jean Veyronis...

Voici la liste temporaire des mots que j'exclus, liste à compléter et enrichir au fur et à mesure :
ne|c'est|on|n'a|leur|leurs|faire|cette|lui|n'est|que|st|crois|veux|faut|rien|que|j'ai
qu|qu'un|beaucoup|aurait