{"id":209,"date":"2017-11-02T14:55:05","date_gmt":"2017-11-02T13:55:05","guid":{"rendered":"http:\/\/www.julienrossi.com\/blog\/?p=209"},"modified":"2017-11-02T14:55:05","modified_gmt":"2017-11-02T13:55:05","slug":"attention-au-temps","status":"publish","type":"post","link":"https:\/\/www.julienrossi.com\/blog\/2017\/11\/02\/attention-au-temps\/","title":{"rendered":"Attention au temps !"},"content":{"rendered":"<p><em>Ce billet de blog appartient \u00e0 une s\u00e9rie destin\u00e9e \u00e0 raconter mes aventures dans le monde de la fouille de donn\u00e9es et de l&#8217;analyse textuelle automatique. Mon objectif (personnel) est d&#8217;explorer par la pratique les difficult\u00e9s \u00e9pist\u00e9mologiques et m\u00e9thodologiques rencontr\u00e9es dans ce type d&#8217;exercice. Mais aussi de parvenir \u00e0 d\u00e9terminer des cas dans lesquels de tels outils sont bel et bien utiles.<\/em><\/p>\n<p>Dans <a href=\"http:\/\/www.julienrossi.com\/blog\/2017\/10\/26\/encore-une-fois-correlation-causalite\/\">un billet pr\u00e9c\u00e9dent<\/a>, il avait d\u00e9j\u00e0 \u00e9t\u00e9 question du fait que traiter une quantit\u00e9 volumineuse de donn\u00e9es peut prendre beaucoup de temps, ce qui oblig\u00e9 \u00e0 penser les scripts pour qu&#8217;ils soient les plus rapides possibles, et \u00e0 tester de temps en temps leur vitesse d&#8217;ex\u00e9cution sur des petits volumes.<\/p>\n<p>Cela s&#8217;av\u00e8re aussi juste lorsqu&#8217;il s&#8217;agit de r\u00e9cup\u00e9rer ces donn\u00e9es, surtout lorsqu&#8217;elles sont copi\u00e9es de pages web. Pour \u00e9viter de surcharger le serveur d&#8217;o\u00f9 les donn\u00e9es sont r\u00e9cup\u00e9r\u00e9es, et pour \u00e9viter de se faire passer pour un pirate tentant une attaque par d\u00e9ni de service, il faut attendre un certain temps entre chaque page charg\u00e9e :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-24-46.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-212\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-24-46.png\" alt=\"\" width=\"614\" height=\"22\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-24-46.png 614w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-24-46-300x11.png 300w\" sizes=\"auto, (max-width: 614px) 100vw, 614px\" \/><\/a><\/p>\n<p>Faire de la grosse donn\u00e9e est donc potentiellement chronophage, m\u00eame si cela d\u00e9pend bien s\u00fbr de la puissance de calcul que l&#8217;on a \u00e0 sa disposition.<\/p>\n<p>L&#8217;objectif du pr\u00e9sent billet n&#8217;est cependant pas de parler du temps que tout cela prend, mais de parler du temps, et plus pr\u00e9cis\u00e9ment de fuseaux horaires.<\/p>\n<p style=\"padding-left: 30px;\"><span style=\"color: #800000;\"><strong>[Pi\u00e8ge \u00e0 \u00e9viter]<\/strong><\/span> De la m\u00eame fa\u00e7on qu&#8217;il y a sur Internet une myriade de langues et d&#8217;alphabets, avec tous les probl\u00e8mes d&#8217;encodage que cela suppose et dont je n&#8217;ai pas encore parl\u00e9, il faut aussi parfois prendre en compte l&#8217;existence de plusieurs fuseaux horaires pour \u00e9viter des couacs.<\/p>\n<p>Pour mes travaux de recherche, j&#8217;ai t\u00e9l\u00e9charg\u00e9 les e-mails de <a href=\"https:\/\/lists.w3.org\/Archives\/Public\/public-tracking\/\">la liste de diffusion du Tracking Protection Working Group<\/a> du W3C. J&#8217;ai donc v\u00e9rifi\u00e9 que le nombre d&#8217;e-mails que j&#8217;avais t\u00e9l\u00e9charg\u00e9s correspondait bien au nombre d&#8217;e-mails mis en ligne sur le site web du W3C.<\/p>\n<p>Or, quelle ne fut pas ma surprise &#8211; un tantinet paniqu\u00e9e puisque je ne trouvais pas l&#8217;erreur dans le script &#8211; de voir que j&#8217;avais moins de mails t\u00e9l\u00e9charg\u00e9s sur mon ordinateur pour juin 2015 qu&#8217;il n&#8217;y en a sur le site du W3C !<\/p>\n<table>\n<tbody>\n<tr>\n<td><span style=\"text-decoration: underline;\">Sur mon ordinateur<\/span><\/td>\n<td>\u00a0<span style=\"text-decoration: underline;\">Sur le site du W3C<\/span><\/td>\n<\/tr>\n<tr>\n<td>\n<p><figure id=\"attachment_213\" aria-describedby=\"caption-attachment-213\" style=\"width: 236px\" class=\"wp-caption aligncenter\"><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-34-49.png\"><img loading=\"lazy\" decoding=\"async\" class=\"size-full wp-image-213\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-34-49.png\" alt=\"\" width=\"236\" height=\"99\" \/><\/a><figcaption id=\"caption-attachment-213\" class=\"wp-caption-text\">Deux mails ont \u00e9t\u00e9 envoy\u00e9s sur la liste de diffusion en juin 2015, selon mon script<\/figcaption><\/figure><\/td>\n<td>\n<p><figure id=\"attachment_217\" aria-describedby=\"caption-attachment-217\" style=\"width: 509px\" class=\"wp-caption aligncenter\"><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-44-06.png\"><img loading=\"lazy\" decoding=\"async\" class=\"wp-image-217 size-full\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-44-06.png\" alt=\"\" width=\"509\" height=\"229\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-44-06.png 509w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-44-06-300x135.png 300w\" sizes=\"auto, (max-width: 509px) 100vw, 509px\" \/><\/a><figcaption id=\"caption-attachment-217\" class=\"wp-caption-text\">Sur le site web du W3C, 3 e-mails sont indiqu\u00e9s comme ayant \u00e9t\u00e9 exp\u00e9di\u00e9s en juin 2015&#8230;<\/figcaption><\/figure><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>J&#8217;ai donc v\u00e9rifi\u00e9 que ce n&#8217;\u00e9tait pas le vilain site du W3C qui aurait bugg\u00e9 &#8230;<\/p>\n<p>Voici la liste des e-mails \u00e9chang\u00e9s en juin selon le W3C :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-46-08.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-218\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-46-08.png\" alt=\"\" width=\"1109\" height=\"95\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-46-08.png 1109w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-46-08-300x26.png 300w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-46-08-768x66.png 768w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-46-08-1024x88.png 1024w\" sizes=\"auto, (max-width: 1109px) 100vw, 1109px\" \/><\/a>A priori, il y a bien 3 mails \u00e9chang\u00e9s en juin.<\/p>\n<p>Mais&#8230; si on ouvre le mail \u00ab acknowledgements (was Re: Two week review prior) \u00bb indiqu\u00e9 comme ayant \u00e9t\u00e9 envoy\u00e9 le 1er juin, on se rend compte que s&#8217;il l&#8217;a bien \u00e9t\u00e9 selon le calcul du serveur du W3C (dont on ne sait pas sur quel fuseau horaire il est r\u00e9gl\u00e9), l&#8217;exp\u00e9diteur l&#8217;a envoy\u00e9 alors qu&#8217;il \u00e9tait, lui, encore au mois de mai, dans son fuseau horaire :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-48-16.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-219\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-48-16.png\" alt=\"\" width=\"767\" height=\"195\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-48-16.png 767w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-48-16-300x76.png 300w\" sizes=\"auto, (max-width: 767px) 100vw, 767px\" \/><\/a><\/p>\n<p>Comme mon script se base sur l&#8217;information surlign\u00e9e en vert ci-dessus, il est alors parfaitement logique qu&#8217;il l&#8217;ait rang\u00e9 au mois de mai &#8230; Il suffit alors de pr\u00e9ciser, en montrant le graphe d&#8217;activit\u00e9 par mois de ce groupe de travail qu&#8217;il est bas\u00e9 sur les dates indiqu\u00e9es en en-t\u00eate des mails et non sur celles indiqu\u00e9es par le syst\u00e8me d&#8217;archivage du W3C :<\/p>\n<p><a href=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-54-19.png\"><img loading=\"lazy\" decoding=\"async\" class=\"aligncenter size-full wp-image-220\" src=\"http:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-54-19.png\" alt=\"\" width=\"568\" height=\"324\" srcset=\"https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-54-19.png 568w, https:\/\/www.julienrossi.com\/blog\/wp-content\/uploads\/2017\/11\/Capture-du-2017-11-02-14-54-19-300x171.png 300w\" sizes=\"auto, (max-width: 568px) 100vw, 568px\" \/><\/a><\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Ce billet de blog appartient \u00e0 une s\u00e9rie destin\u00e9e \u00e0 raconter mes aventures dans le monde de la fouille de donn\u00e9es et de l&#8217;analyse textuelle automatique. Mon objectif (personnel) est d&#8217;explorer par la pratique les difficult\u00e9s \u00e9pist\u00e9mologiques et m\u00e9thodologiques rencontr\u00e9es&#8230;<\/p>\n","protected":false},"author":1,"featured_media":210,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2],"tags":[7,8,26,4],"class_list":["post-209","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-voyages-au-pays-de-la-grosse-donnee","tag-analyse-textuelle","tag-big-data","tag-temps","tag-w3c"],"_links":{"self":[{"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/posts\/209","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/comments?post=209"}],"version-history":[{"count":1,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/posts\/209\/revisions"}],"predecessor-version":[{"id":221,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/posts\/209\/revisions\/221"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/media\/210"}],"wp:attachment":[{"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/media?parent=209"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/categories?post=209"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.julienrossi.com\/blog\/wp-json\/wp\/v2\/tags?post=209"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}