vendredi 27 juin 2008

27 juin 2008


Les commentaires de l'article du bien public "Nuit de violences dans l'Hérault et l'Aude"


Les commentaires de l'article de libération "Manif des viticulteurs : une «tentative d'homicide» sur des gendarmes, selon MAM"


Vous l'avez remarqué, encore une innovation aujourd'hui, suivant l'excellent conseil de Julien de ils.sont.là ce sont les commentaires de deux journaux qui sont comparés, les deux articles traitant sensiblement du même sujet.

Le choix de l'article a été simple puisque il était le seul parmi les plus commentés du Bien Public a avoir son équivalent dans Libé...

Allez un peu de stats !

Bien PublicLibération
Formes distinctes340810
Nombre de mots5562793
Taux de répétition1.633.45

Comparer deux corpus de tailles si différentes rend difficile l'analyse...

On pourra constater toutefois que dans les commentaires du Bien Public précédemment étudiés, le "taux de répétition" reste relativement stable et fort différent de celui des commentaires de l'article de Libé étudié :

Tableau des commentaires du Bien public précédemment étudiés


Date des commentairesFormes distinctesNombre de motsTaux de répétition
19/06/08107524142.24
20/06/0899022312.25
23/06/0873215082.06
26/06/08102924292.36

Il faudra répéter cette analyse pour voir si le BP reste stable autour de 2.20 et si Libé va lui continuer à avoisiner les 3...

Une supposition empirique simple est que le niveau orthographique des lecteurs du bien-public est si faible qu'ils créent un nombre important de formes distinctes et conséquemment un faible taux de répétition



5 commentaires:

Anonyme a dit…

Hello Jy,
Très intéressantes pistes ici.

Je ne te suis pas sur le deuxième tableau : c'est des stats sur libé ou sur le bien public ?

Est-ce que tu as vu les formes distinctes varier selon les sujet des articles ? (en gros, est-ce que certain articles poussent à utiliser les mêmes mots ?)

jb ingold a dit…

Trés intéressant. Je le signale sur l'atelier des médias de RFI.
http://atelier.rfi.fr/profiles/blog/show?id=1189413:BlogPost:27588&page=1#comment-1189413:Comment:27690

Hier, j'ai assisté à un barcamp sur TAL que j'ai trouvé trés intéressant.

Nicolas Montessuit disais que comparer le corpus de l'article et des commentaires pourrait être intéressant.

Qu'en pensez vous ?

j¤y a dit…

Julien> Tout d'abord encore merci pour tes commentaires et pistes à explorer.

J'ai rajouté une légende au dessus du tableau en question, il est vrai que ce n'était pas clair !

Quand à la question finale je pense avoir trop peu de recul pour pouvoir y répondre, et mes outils sont un peu légers pour ça pour l'instant, mais je creuse, j'explore...

jb ingold> Premièrement, merci pour le commentaire et l'article sur l'L'atelier des médias que je connaissais pas encore.

Effectivement le domaine du TAL est fascinant, même si c'est quelque chose que je découvre encore !

Et bien Nicolas Montessuit a eu une excellent idée, ce sera d'ailleurs l'objet de mon prochain article :)

jb ingold a dit…

Pourrais tu nous détailler un peu le bricolage dans wordle.

j¤y a dit…

Jb, j'ai répondu sous la forme d'un article :)