Quand j'avais signalé, à l'occasion de la disparition soudaine du Blog de Bereno, que la Wayback machine, véritable mémoire du World-Wide Web, n'avait reçu aucune mise à jour depuis début avril 2005, cela n'a pas semblé émouvoir grand-monde, puisque personne n'a discuté ce point dans les commentaires du billet.

Quand j'ai signalé ici même, il y a 10 jours, que la Wayback machine venait de retomber en marche, j'ai fait un flop retentissant, avec la contre-performance d'un billet qui a obtenu exactement zéro commentaires. On voit que cela a passionné les foules !

Pourtant, ceci présente un intérêt immense : Ressort des limbes et de l'oubli tout le contenu du web entre avril 2005 et mai 2006 (la Wayback Machine présentant un délai de mise à jour "normal" de 6 mois).

Ceci réprésente par exemple la réapparition de 8 "nouvelles" indexations de la page d'accueil du blog de Garfieldd, jusqu'ici inédites, allant de juillet à fin septembre 2005. Et sans doute de bien davantage de "pages intérieures" que l'on pouvait penser perdues. Et également d'images comme celle-ci ou celle-là.[1]

Ceci représente également 10 indexations de la page d'accueil du "carnet d'un inspecteur du travail" de Bereno, de décembre 2005 à mai 2006, et de nouvelles apparaîtront prochainement, jusqu'à ce que la date de disparition de ce carnet soit atteinte, et que son historique soit complet, du moins tel qu'il a été archivé.
Nous avons de même quantité de pages intérieures du "carnet" de Bereno, incluant peut-être aussi des éléments graphiques et photographies qui n'ont pas été diffusés dans les archives de son blog disponibles par ailleurs.

Cette résurgence d'une masse d'information considérable, théoriquement à jamais disponible, présente donc un intérêt certain. Et aussi, dans certains cas, un risque potentiel.

Si vous voulez que votre propre site soit intégré dans la Wayback Machine, il faut et il suffit de demander au robot d'Alexa de venir le visiter.[2]

Je le fais personnellement souvent quand je publie une page susceptible d'être considérée comme particulièrement polémique, pour m'assurer qu'elle sera conservée même si je devais être contraint de la mettre hors-ligne, d'une part, et également pour pouvoir au besoin avoir un élément de preuve concernant sa date de première mise en ligne (La loi sur la presse de 1881 définissant un délai de 3 mois comme délai maximum après la publication d'un texte, durant lequel une plainte en diffamation ou injures est recevable, le recours étant prescrit passé ce délai de 3 mois...).

Rappelons également que si vous ne voulez pas que votre site, ou certaines de ses pages ou certains de ses éléments soient archivés par la Wayback Machine ou par d'autres robots, vous pouvez utilser un fichier robots.txt, tel que défini dans le robots exclusion protocol.

Je l'utilise moi-même pour interdire l'archivage des éléments graphiques, images et photographies de mon blog, car je ne tiens pas à ce que des photos de famille, entre autres, puissent être archivées et réutilisées en dehors de mon blog, et je ne souhaite pas non plus que de telles images soient indexées dans Google Images, etc... Tarquine devrait peut-être y penser aussi, par exemple...[3]

Signalons enfin que l'usage par la Wayback Machine du fichier robots.txt est "temps réel", c'est-à-dire qu'il empêche à la fois le robot d'Alexa de collecter certains éléments de votre site ou blog, mais qu'il empêche également la Wayback Machine de "livrer" certains éléments déjà archivés, mais dont le fichier robots.txt peut toujours, et a posteriori, interdire la consultation, puisque dès que quelqu'un demande à consulter une archive de votre site via la Wayback Machine, celle-ci tente de se procurer une version à jour de votre robots.txt, et tient compte des restrictions qu'il impose, si elle y parvient - si elle n'y parvient pas (i.e. le site n'existe plus), alors elle utilise la version la plus récente en sa possession.[4]

Ce sont quand même des choses qui sont bonnes à connaître...

Notes

[1] Eh oui, et c'est hébergé sur une archive publique pour aussi longtemps que durera l'Univers Connu...

[2] Notez en fait qu'il n'est pas forcément nécessaire de le demander, car il suffit que le robot d'Alexa ait trouvé votre site en suivant un lien depuis un autre site, comme n'importe quel autre moteur de recherche, pour que vous soyiez archivé avec ou sans votre consentement. le fait d'en faire la demande permet seulement d'être certain qu'un site ou une page donnée sera plus rapidement connu(e) du robot...

[3] Eh oui, et c'est hébergé sur une archive publique pour aussi longtemps que durera l'Univers Connu... (Bis)

[4] Je ne sais pas, par contre, si le robots.txt permet d'obtenir l'effacement a posteriori de certains éléments de l'archive. Je crois qu'en théorie oui, mais en pratique, j'en suis beaucoup moins sûr...