{"id":243,"date":"2017-11-27T19:27:31","date_gmt":"2017-11-27T18:27:31","guid":{"rendered":"http:\/\/www.julienrossi.com\/blog\/?p=243"},"modified":"2017-12-06T15:55:57","modified_gmt":"2017-12-06T14:55:57","slug":"detection-automatique-dunivers-lexicaux","status":"publish","type":"post","link":"https:\/\/www.julienrossi.com\/blog\/2017\/11\/27\/detection-automatique-dunivers-lexicaux\/","title":{"rendered":"D\u00e9tection automatique d&#8217;univers lexicaux ?"},"content":{"rendered":"<p><em>Ce billet de blog appartient \u00e0 une s\u00e9rie destin\u00e9e \u00e0 raconter mes aventures dans le monde de la fouille de donn\u00e9es et de l&#8217;analyse textuelle automatique. Mon objectif (personnel) est d&#8217;explorer par la pratique les difficult\u00e9s \u00e9pist\u00e9mologiques et m\u00e9thodologiques rencontr\u00e9es dans ce type d&#8217;exercice. Mais aussi de parvenir \u00e0 d\u00e9terminer des cas dans lesquels de tels outils sont bel et bien utiles.<\/em><\/p>\n<p>&nbsp;<\/p>\n<p>Peut-on automatiser la d\u00e9couverte de champs lexicaux \u00e0 partir de l&#8217;analyse du champ lexical de chaque participant \u00e0 une mailing-list ?<\/p>\n<p>L&#8217;id\u00e9e derri\u00e8re la question que je me suis pos\u00e9e hier \u00e9tait que chaque participant \u00e0 la mailing-list du W3C vient d&#8217;un milieu, s&#8217;int\u00e9resse \u00e0 un domaine particulier plut\u00f4t qu&#8217;un autre, qui font qu&#8217;il s&#8217;int\u00e9ressera plus sp\u00e9cifiquement \u00e0 un ou plusieurs sujets en particulier au d\u00e9triment d&#8217;autres. Ce qui devrait se refl\u00e9ter dans les mots qu&#8217;il emploie.<\/p>\n<p>Du coup, au lieu que ce soit moi qui d\u00e9finisse par avance des champs lexicaux li\u00e9s \u00e0 des th\u00e9matiques que j&#8217;identifie comme \u00e9tant s\u00e9par\u00e9es et comme correspondant \u00e0 des groupes d&#8217;acteurs s\u00e9par\u00e9s, je me suis dit qu&#8217;il serait amusant de tenter de voir si on ne pourrait pas demander \u00e0 l&#8217;ordinateur de rep\u00e9rer des groupes d&#8217;acteurs ayant usage d&#8217;un champ lexical commun, distinct de celui d&#8217;autres groupes d&#8217;acteurs participant \u00e0 la mailing-list \u00e9tudi\u00e9e.<\/p>\n<p>L&#8217;avantage d&#8217;une telle m\u00e9thode est de ne pas plaquer mes propres <em>a priori<\/em> sur ce que sont les diff\u00e9rentes th\u00e9matiques abord\u00e9es (et les mots s&#8217;y rattachant), mais de voir lesquelles se dessinent en pratique \u00e0 partir des traces qu&#8217;elles laissent dans les discussions.<\/p>\n<p>Soit alors un tableau indiquant combien de fois chaque personne utilise chacun des mots utilis\u00e9s au moins une fois sur la mailing-list public du Privacy Interest Group du W3C.<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-22-28.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-244\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-22-28.png\" alt=\"\" width=\"508\" height=\"384\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-22-28.png 508w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-22-28-300x227.png 300w\" sizes=\"auto, (max-width: 508px) 100vw, 508px\" \/><\/a><\/p>\n<p>Il est alors possible, gr\u00e2ce \u00e0 la librairie pour Python <a href=\"https:\/\/github.com\/amueller\/word_cloud\">wordcloud<\/a>, de g\u00e9n\u00e9rer automatiquement un nuage des mots les plus utilis\u00e9s pour chaque personne, comme celui-ci :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Ian-Jacobs.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-245\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Ian-Jacobs.png\" alt=\"\" width=\"400\" height=\"200\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Ian-Jacobs.png 400w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Ian-Jacobs-300x150.png 300w\" sizes=\"auto, (max-width: 400px) 100vw, 400px\" \/><\/a><\/p>\n<p>Ce nuage de mots correspond \u00e0 Ian Jacobs, qui, si l&#8217;on en croit <a href=\"https:\/\/www.w3.org\/People\/Jacobs\/\">le site web du W3C<\/a>, est depuis 2015 \u00ab Head of W3C Payments Activity \u00bb. Pas \u00e9tonnant, alors, que son nuage de mots mette en valeur la th\u00e9matique des paiements.<\/p>\n<p>Le nuage de mots de Simon Rice, qui travaille pour l&#8217;autorit\u00e9 britannique de protection des donn\u00e9es, contient les mots \u00ab commissioner \u00bb et \u00ab office \u00bb, contenus dans le terme \u00ab Information Commissioner&#8217;s Office \u00bb, qui est le nom de cette autorit\u00e9 :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Simon-Rice.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-246\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Simon-Rice.png\" alt=\"\" width=\"400\" height=\"200\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Simon-Rice.png 400w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Simon-Rice-300x150.png 300w\" sizes=\"auto, (max-width: 400px) 100vw, 400px\" \/><\/a><\/p>\n<p>Quant \u00e0 Vincent Toubiana, sp\u00e9cialis\u00e9 sur les questions de tracking, son nuage de mots montre l&#8217;importance qu&#8217;il accorde aux cookies et au travail du Tracking Protection Working Group du W3C :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/vtoubianafreefr.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-247\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/vtoubianafreefr.png\" alt=\"\" width=\"400\" height=\"200\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/vtoubianafreefr.png 400w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/vtoubianafreefr-300x150.png 300w\" sizes=\"auto, (max-width: 400px) 100vw, 400px\" \/><\/a><\/p>\n<p style=\"padding-left: 30px;\"><span style=\"color: #008000;\"><strong>[Utile]<\/strong><\/span> Les nuages de mots, outre leur aspect esth\u00e9tique, sont int\u00e9ressants pour visualiser rapidement le champ lexical utilis\u00e9 par la personne et d\u00e9tecter les th\u00e9matiques sur lesquelles elle se sp\u00e9cialise. De plus, ils permettent de visualiser rapidement les diff\u00e9rences entre le vocabulaire utilis\u00e9 par deux personnes.<\/p>\n<p>On pourrait donc imaginer qu&#8217;il existe des groupes de mots, des univers de th\u00e9matiques communs \u00e0 un groupe de personnes. Et si l&#8217;on pouvait d\u00e9tecter automatiquement qui a tendance \u00e0 utiliser les m\u00eames mots, peut-\u00eatre cela permettrait de cr\u00e9er une typologie d&#8217;acteurs. Qui parle ensemble de quoi sur la mailing-list \u00e9tudi\u00e9e ?<\/p>\n<p>Calculons donc le coefficient de corr\u00e9lation (R de Pearson) entre chaque liste de fr\u00e9quence d&#8217;utilisation des mots pour chaque personne. Cela donne quelque chose comme \u00e7a :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-36-13.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-248\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-36-13.png\" alt=\"\" width=\"652\" height=\"403\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-36-13.png 652w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-36-13-300x185.png 300w\" sizes=\"auto, (max-width: 652px) 100vw, 652px\" \/><\/a><\/p>\n<p>Une premi\u00e8re chose saute aux yeux : la corr\u00e9lation peut \u00eatre tr\u00e8s forte ! Et pour cause : les membres du W3C Privacy Interest Group ont, ensemble, employ\u00e9 9657 mots sur leur mailing-list public-privacy. La plupart sont des mots d&#8217;usage courant, dont l&#8217;emploi varie peu d&#8217;une personne \u00e0 l&#8217;autre.<\/p>\n<p style=\"padding-left: 30px;\"><span style=\"color: #800000;\"><strong>[Difficult\u00e9]<\/strong><\/span> \u00c0 ce stade, il aurait \u00e9t\u00e9 possible &#8211; et m\u00eame pr\u00e9f\u00e9rable &#8211; de limiter le calcul \u00e0 un nombre limit\u00e9 de mots signifiants. Mais s&#8217;il est facile de supprimer de la liste les signes de ponctuation et des mots comme les d\u00e9nominateurs et leurs pronoms, il existe \u00e9galement un grand nombre de mots dont il peut \u00eatre difficile de d\u00e9terminer \u00e0 l&#8217;avance s&#8217;il est signifiant ou pas (par exemple certains verbes), ou s&#8217;il est utilis\u00e9 par tout le monde ou bien uniquement un groupe restreint de personnes. De plus, une telle op\u00e9ration, \u00e0 la main, peut prendre beaucoup de temps. Pour l&#8217;instant, par manque de temps, je n&#8217;ai pas encore tent\u00e9 l&#8217;exp\u00e9rience.<\/p>\n<p>Mais m\u00eame avec le \u00ab bruit \u00bb g\u00e9n\u00e9r\u00e9 par le fait que les mots d&#8217;usage courant soient rest\u00e9s dans la base, nous voyons appara\u00eetre des usages divergents chez certaines personnes :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-54-56.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-254\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-54-56.png\" alt=\"\" width=\"728\" height=\"277\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-54-56.png 728w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-54-56-300x114.png 300w\" sizes=\"auto, (max-width: 728px) 100vw, 728px\" \/><\/a><\/p>\n<p style=\"padding-left: 30px;\"><span style=\"color: #000080;\"><strong>[Question \u00e0 traiter]<\/strong><span style=\"color: #000000;\"> : est-ce que ces faibles corr\u00e9lations entre les vocabulaires de certains usages est d\u00fb \u00e0 un vocabulaire r\u00e9ellement diff\u00e9rent, ou \u00e0 une diff\u00e9rence significative dans le volume de la participation de chacun, et donc dans le nombre de mots qui ont pu \u00eatre utilis\u00e9s en commun par chaque paire d&#8217;utilisateurs ? (Il faudrait pour cela ajouter des colonnes montrant le nombre total de mots pour chaque utilisateur, ce qui n&#8217;a pas \u00e9t\u00e9 fait pour l&#8217;instant par manque de temps)<\/span><\/span><\/p>\n<p>En modifiant un peu le fichier CSV produit par le script calculant les corr\u00e9lations, il est possible de l&#8217;importer dans Gephi, un logiciel permettant de visualiser des r\u00e9seaux. Ainsi, on explique \u00e0 Gephi que chaque couple de noms (dans l&#8217;image ci-dessus) correspond \u00e0 un lien entre deux n\u0153uds, la force de la relation \u00e9tant d\u00e9termin\u00e9e par le coefficient de corr\u00e9lation qui a \u00e9t\u00e9 calcul\u00e9 sur la base de la similitude du vocabulaire utilis\u00e9 par chaque utilisateur. Pour cela, il suffit simplement de modifier l&#8217;en-t\u00eate :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-45-15.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-249\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-45-15.png\" alt=\"\" width=\"716\" height=\"186\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-45-15.png 716w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-45-15-300x78.png 300w\" sizes=\"auto, (max-width: 716px) 100vw, 716px\" \/><\/a><\/p>\n<p>Puis de dire \u00e0 Gephi d&#8217;importer le fichier.<\/p>\n<p>&nbsp;<\/p>\n<p>Gephi d\u00e9tecte automatiquement la liste compl\u00e8te des noms (1 n\u0153ud par nom) :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-47-07.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-250\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-47-07.png\" alt=\"\" width=\"1231\" height=\"669\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-47-07.png 1231w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-47-07-300x163.png 300w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-47-07-768x417.png 768w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-47-07-1024x557.png 1024w\" sizes=\"auto, (max-width: 1231px) 100vw, 1231px\" \/><\/a><\/p>\n<p>Gephi permet de faire de nombreuses visualisations diff\u00e9rentes. Ici, la visualisation choisie est \u00ab Force Atlas \u00bb. Dans celle-ci, plus deux n\u0153uds ont un lien fort, plus ils seront proches, et vice-versa. L&#8217;id\u00e9e est ainsi de cartographier les groupes de gens ayant un vocabulaire similaire, mais distinct de celui des autres.<\/p>\n<p>Voil\u00e0 ce que donne cette visualisation cartographique dans Gephi :<\/p>\n<p>&nbsp;<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-50-39.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-251\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-50-39.png\" alt=\"\" width=\"483\" height=\"425\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-50-39.png 483w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-18-50-39-300x264.png 300w\" sizes=\"auto, (max-width: 483px) 100vw, 483px\" \/><\/a>On voit qu&#8217;il y a un grand groupe central, et quelques cas particuliers isol\u00e9s. L&#8217;un d&#8217;entre eux correspond ainsi tout seulement \u00e0 un utilisateur n&#8217;ayant r\u00e9dig\u00e9 qu&#8217;en fran\u00e7ais, alors que l&#8217;ensemble des discussions s&#8217;\u00e9taient d\u00e9roul\u00e9es en anglais. Il s&#8217;agit de \u00ab Workshop IHM \u00bb :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Workshop-IHM.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-252\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Workshop-IHM.png\" alt=\"\" width=\"400\" height=\"200\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Workshop-IHM.png 400w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Workshop-IHM-300x150.png 300w\" sizes=\"auto, (max-width: 400px) 100vw, 400px\" \/><\/a><\/p>\n<p>Il n&#8217;est donc pas possible de s\u00e9parer des groupes distincts d&#8217;utilisateurs de la mailing-list en fonction des mots qu&#8217;ils utilisent. Mais il y a bien des gens entre lesquels il existe une forte distance entre les th\u00e8mes qu&#8217;ils abordent, et qui se retrouvent \u00e0 des bordures oppos\u00e9es du cercle central observable sur la visualisation produite par Gephi.<\/p>\n<p>Prenons le cas de Prateek Mishra et de Robert Sanderson, identifi\u00e9s ci-dessous sur la cartographie \u00e9tablie par Gephi :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-19-08-31.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-258\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-19-08-31.png\" alt=\"\" width=\"521\" height=\"429\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-19-08-31.png 521w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-19-08-31-300x247.png 300w\" sizes=\"auto, (max-width: 521px) 100vw, 521px\" \/><\/a><\/p>\n<table>\n<tbody>\n<tr>\n<td><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Prateek-Mishra.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-256\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Prateek-Mishra.png\" alt=\"\" width=\"400\" height=\"200\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Prateek-Mishra.png 400w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Prateek-Mishra-300x150.png 300w\" sizes=\"auto, (max-width: 400px) 100vw, 400px\" \/><\/a><\/td>\n<td>\u00a0<a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Robert-Sanderson.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-259\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Robert-Sanderson.png\" alt=\"\" width=\"400\" height=\"200\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Robert-Sanderson.png 400w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Robert-Sanderson-300x150.png 300w\" sizes=\"auto, (max-width: 400px) 100vw, 400px\" \/><\/a><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Le probl\u00e8me, c&#8217;est que deux personnes proches dans la cartographie de Gephi pourront avoir des diff\u00e9rences importantes dans leurs nuages de mots. C&#8217;est le cas notamment de Wendy Seltzer et de Rigo Wenning. Ils sont proches, et il y a effectivement des similitudes dans leurs nuages de mots, mais aussi des diff\u00e9rences importantes, trop importantes pour des gens aussi proches sur la cartographie \u00e9tablie par Gephi sur la base des donn\u00e9es que nous lui avions fournies :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-19-13-32.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-263\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-19-13-32.png\" alt=\"\" width=\"495\" height=\"381\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-19-13-32.png 495w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-27-19-13-32-300x231.png 300w\" sizes=\"auto, (max-width: 495px) 100vw, 495px\" \/><\/a><\/p>\n<p>&nbsp;<\/p>\n<table>\n<tbody>\n<tr>\n<td><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Wendy-Seltzer.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-261\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Wendy-Seltzer.png\" alt=\"\" width=\"400\" height=\"200\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Wendy-Seltzer.png 400w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Wendy-Seltzer-300x150.png 300w\" sizes=\"auto, (max-width: 400px) 100vw, 400px\" \/><\/a><\/td>\n<td>\u00a0<a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Rigo-Wenning.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-262\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Rigo-Wenning.png\" alt=\"\" width=\"400\" height=\"200\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Rigo-Wenning.png 400w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Rigo-Wenning-300x150.png 300w\" sizes=\"auto, (max-width: 400px) 100vw, 400px\" \/><\/a><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Cela est probablement d\u00fb au bruit de l&#8217;ensemble des mots non-signifiants dont l&#8217;usage peut \u00eatre commun entre deux personnes m\u00eame s&#8217;ils abordent des th\u00e9matiques diff\u00e9rentes.<\/p>\n<p>&nbsp;<\/p>\n<p>Cette premi\u00e8re exploration de la question des champs lexicaux am\u00e8ne \u00e0 quelques premi\u00e8res r\u00e9flexions :<\/p>\n<ol>\n<li>Cr\u00e9er automatiquement des champs lexicaux \u00e0 partir de corpus de textes n\u00e9cessite, si cela est possible, des techniques et des quantit\u00e9s de texte \u00e0 analyser allant bien au-del\u00e0 de ce qui a \u00e9t\u00e9 pr\u00e9sent\u00e9 ici. En particulier, cela n\u00e9cessiterait un corpus bien plus important que celui qui, justement, m&#8217;int\u00e9resse dans mon \u00e9tude. Donc pour l&#8217;instant je devrai m&#8217;en passer ;<\/li>\n<li>Il semblerait, d&#8217;apr\u00e8s les noms que j&#8217;ai rep\u00e9r\u00e9s au centre de la cartographie g\u00e9n\u00e9r\u00e9e par Gephi, qu&#8217;en tout cas sans nettoyer la liste des mots analys\u00e9s de tous les mots non-signifiants, les personnes d\u00e9tect\u00e9es comme ayant un lexique proche sont avant tout des personnes qui sont les plus actives au sein du Privacy Interest Group. Mais cela est \u00e0 v\u00e9rifier en testant les donn\u00e9es quantitatives disponibles. Une possibilit\u00e9 pour v\u00e9rifier cela visuellement serait par exemple serait de demander \u00e0 Gephi de colorier en gris les noms des personnes les moins actives et en rouge le nom des personnes les plus actives (c&#8217;est-\u00e0-dire ayant envoy\u00e9 le plus d&#8217;e-mails ou \u00e9crit le plus de mots).<\/li>\n<li>Malgr\u00e9 tout, la comparaison de nuages de mots semble une piste solide int\u00e9ressante pour visualiser les centres d&#8217;int\u00e9r\u00eat de chaque participant \u00e0 la mailing-list public-privacy du Privacy Interest Group du W3C, qui a \u00e9t\u00e9 ici analys\u00e9e<\/li>\n<\/ol>\n<p>&nbsp;<\/p>\n<p style=\"text-align: center;\"><strong>Mise \u00e0 jour<\/strong><\/p>\n<p>&nbsp;<\/p>\n<p>La cartographie r\u00e9alis\u00e9e par Gephi de la proximit\u00e9 lexicale entre les contributeurs de la mailing-list a \u00e9t\u00e9 colori\u00e9e. Les n\u0153uds en jaune sont ceux qui repr\u00e9sentent les participants ayant la plus faible contribution, et ceux en rouge sont les participants les plus importants.<\/p>\n<p>Effectuer cette coloration de la carte permet de montrer qu&#8217;en \u00e9tablissant une carte rapprochant les utilisateurs ayant un usage lexical proche, sans s\u00e9lectionner les mots signifiants, en r\u00e9alit\u00e9, on ne fait que rapprocher sur la carte les plus gros contributeurs. En effet, un grand nombre de mots courants (&#8220;all&#8221;, &#8220;the&#8221;, &#8220;a&#8221;, &#8220;be&#8221;, &#8220;have&#8221;&#8230;) forment l&#8217;essentiel du vocabulaire quelle que soit la th\u00e9matique abord\u00e9e. Or, plus deux personnes communiquent, plus elles auront tendance \u00e0 les utiliser tous et \u00e0 une fr\u00e9quence finalement assez similaire.<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-12-06-15-50-25.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-269\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-12-06-15-50-25.png\" alt=\"\" width=\"683\" height=\"430\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-12-06-15-50-25.png 683w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-12-06-15-50-25-300x189.png 300w\" sizes=\"auto, (max-width: 683px) 100vw, 683px\" \/><\/a><\/p>\n<p>Une piste \u00e0 traiter serait de voir s&#8217;il est possible de r\u00e9duire cet effet en ne s\u00e9lectionnant qu&#8217;un certain type de mots (par exemple : en ne s\u00e9lectionnant que des noms communs).<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Ce billet de blog appartient \u00e0 une s\u00e9rie destin\u00e9e \u00e0 raconter mes aventures dans le monde de la fouille de donn\u00e9es et de l&#8217;analyse textuelle automatique. Mon objectif (personnel) est d&#8217;explorer par la pratique les difficult\u00e9s \u00e9pist\u00e9mologiques et m\u00e9thodologiques rencontr\u00e9es&#8230;<\/p>\n","protected":false},"author":1,"featured_media":256,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2],"tags":[7,8,9,4],"class_list":["post-243","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-voyages-au-pays-de-la-grosse-donnee","tag-analyse-textuelle","tag-big-data","tag-methodologie","tag-w3c"],"_links":{"self":[{"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/posts\/243","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/comments?post=243"}],"version-history":[{"count":6,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/posts\/243\/revisions"}],"predecessor-version":[{"id":265,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/posts\/243\/revisions\/265"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/media\/256"}],"wp:attachment":[{"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/media?parent=243"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/categories?post=243"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/tags?post=243"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}