Quel indicateur choisir ? Fréquence relative ou absolue d’emploi d’un mot ?

Le présent billet de blog est le premier d’une série destinée à raconter mes aventures dans le monde de la fouille de données et de l’analyse textuelle automatique. Mon objectif (personnel) est d’explorer par la pratique les difficultés épistémologiques et méthodologiques rencontrées dans ce type d’exercice. Mais aussi de parvenir à déterminer des cas dans lesquels de tels outils sont bel et bien utiles.

Le terrain choisi pour cette expérience est l’analyse des courriels diffusés sur la liste de diffusion publique du groupe d’intérêt sur la vie privée du W3C (Privacy Internet Group – PING).

 

L’extraction de contenu de la mailing list publique du PING m’a permis d’obtenir un beau tableau avec, par mois (ou par e-mail d’expédition, selon le paramétrage de mon script), le nombre total de fois où un mot a été écrit :

Avec une formule insérée dans Calc, il n’est pas compliqué d’obtenir la fréquence d’utilisation d’un mot par mois (en fonction du total d’utilisation du mot par mois), puis de pouvoir ainsi tracer l’évolution de la fréquence d’utilisation d’un mot :

[Utile] Ce graphique fournit des informations intéressantes : en effet, il existe un pic important d’emploi du mot « IETF » par les auteurs de courriels envoyés sur la liste de diffusion du W3C PING en février 2014.

En regardant ce à quoi ce pic peut correspondre, on remarque qu’il y a eu des échanges de mail en février 2014 sur la mailing list du W3C PING à cette époque au sujet d’une réunion entre des membres du W3C PING et des gens de l’IETF :

La réunion a d’ailleurs eu lieu le 4 mars 2014, et d’autres mails, en mars, sont échangés, pour discuter du compte-rendu de cette réunion :

[Difficulté] Remarquons d’emblée qu’en mars 2014, le mot « IETF » est employé 21 fois, contre 12 fois en février 2014. Mais si son emploi augmente, la fréquence de ce mot par rapport au nombre total de mots contenus dans les e-mails échangés sur la mailing-list diminue entre février et mars en raison du nombre plus important de mails échangés en mars.

Choisir de calculer la fréquence relative d’emploi d’un mot permet d’éviter de montrer l’importance relative d’un thème. Ainsi, même si peu de mails ont été échangés sur l’IETF en février 2014, ce fut probablement le thème de discussion le plus important. Mais cet indicateur peut être trompeur, et donner l’impression d’une diminution en mars de l’importance du sujet, alors qu’au contraire en termes absolus le terme « IETF » connaît un pic d’utilisation.

De plus, d’autres pics d’utilisation en termes absolus sont masqués par un indicateur basé uniquement sur la fréquence d’utilisation du mot.

L’emploi des deux indicateurs côte-à-côte reste donc indispensable :

 

 

1 commentaire sur “Quel indicateur choisir ? Fréquence relative ou absolue d’emploi d’un mot ?”

  1. Ping : Encore une fois, corrélation != causalité – Blog

Laisser un commentaire