Ils sont morts, mais ils bandent encore !
Par Petaramesh le jeudi 23 novembre 2006, 17:13 - General - Lien permanent
Petit à petit, feu les blogs de Garfieldd et de Bereno émergent de la tombe, tels le zombie moyen...
Quand j'avais signalé, à l'occasion de la disparition soudaine du Blog de Bereno, que la Wayback machine, véritable mémoire du World-Wide Web, n'avait reçu aucune mise à jour depuis début avril 2005, cela n'a pas semblé émouvoir grand-monde, puisque personne n'a discuté ce point dans les commentaires du billet.
Quand j'ai signalé ici même, il y a 10 jours, que la Wayback machine venait de retomber en marche, j'ai fait un flop retentissant, avec la contre-performance d'un billet qui a obtenu exactement zéro commentaires. On voit que cela a passionné les foules !
Pourtant, ceci présente un intérêt immense : Ressort des limbes et de l'oubli tout le contenu du web entre avril 2005 et mai 2006 (la Wayback Machine présentant un délai de mise à jour "normal" de 6 mois).
Ceci réprésente par exemple la réapparition de 8 "nouvelles" indexations de la page d'accueil du blog de Garfieldd, jusqu'ici inédites, allant de juillet à fin septembre 2005. Et sans doute de bien davantage de "pages intérieures" que l'on pouvait penser perdues. Et également d'images comme celle-ci ou celle-là.[1]
Ceci représente également 10 indexations de la page d'accueil du "carnet d'un inspecteur du travail" de Bereno, de décembre 2005 à mai 2006, et de nouvelles apparaîtront prochainement, jusqu'à ce que la date de disparition de ce carnet soit atteinte, et que son historique soit complet, du moins tel qu'il a été archivé.
Nous avons de même quantité de pages intérieures du "carnet" de Bereno, incluant peut-être aussi des éléments graphiques et photographies qui n'ont pas été diffusés dans les archives de son blog disponibles par ailleurs.
Cette résurgence d'une masse d'information considérable, théoriquement à jamais disponible, présente donc un intérêt certain. Et aussi, dans certains cas, un risque potentiel.
Si vous voulez que votre propre site soit intégré dans la Wayback Machine, il faut et il suffit de demander au robot d'Alexa de venir le visiter.[2]
Je le fais personnellement souvent quand je publie une page susceptible d'être considérée comme particulièrement polémique, pour m'assurer qu'elle sera conservée même si je devais être contraint de la mettre hors-ligne, d'une part, et également pour pouvoir au besoin avoir un élément de preuve concernant sa date de première mise en ligne (La loi sur la presse de 1881 définissant un délai de 3 mois comme délai maximum après la publication d'un texte, durant lequel une plainte en diffamation ou injures est recevable, le recours étant prescrit passé ce délai de 3 mois...).
Rappelons également que si vous ne voulez pas que votre site, ou certaines de ses pages ou certains de ses éléments soient archivés par la Wayback Machine ou par d'autres robots, vous pouvez utilser un fichier robots.txt, tel que défini dans le robots exclusion protocol.
Je l'utilise moi-même pour interdire l'archivage des éléments graphiques, images et photographies de mon blog, car je ne tiens pas à ce que des photos de famille, entre autres, puissent être archivées et réutilisées en dehors de mon blog, et je ne souhaite pas non plus que de telles images soient indexées dans Google Images, etc... Tarquine devrait peut-être y penser aussi, par exemple...[3]
Signalons enfin que l'usage par la Wayback Machine du fichier robots.txt est "temps réel", c'est-à-dire qu'il empêche à la fois le robot d'Alexa de collecter certains éléments de votre site ou blog, mais qu'il empêche également la Wayback Machine de "livrer" certains éléments déjà archivés, mais dont le fichier robots.txt peut toujours, et a posteriori, interdire la consultation, puisque dès que quelqu'un demande à consulter une archive de votre site via la Wayback Machine, celle-ci tente de se procurer une version à jour de votre robots.txt, et tient compte des restrictions qu'il impose, si elle y parvient - si elle n'y parvient pas (i.e. le site n'existe plus), alors elle utilise la version la plus récente en sa possession.[4]
Ce sont quand même des choses qui sont bonnes à connaître...
- Archive du blog de Garfieldd - Page d'accueil
- Archive du blog de Garfieldd - Pages "intérieures"
- Archive du blog de Bereno - Page d'accueil
- Archive du blog de Bereno - Pages "intérieures"
- Archive de cet ashram - Page d'accueil
- Archive de cet ashram - Pages "intérieures"
Notes
[1] Eh oui, et c'est hébergé sur une archive publique pour aussi longtemps que durera l'Univers Connu...
[2] Notez en fait qu'il n'est pas forcément nécessaire de le demander, car il suffit que le robot d'Alexa ait trouvé votre site en suivant un lien depuis un autre site, comme n'importe quel autre moteur de recherche, pour que vous soyiez archivé avec ou sans votre consentement. le fait d'en faire la demande permet seulement d'être certain qu'un site ou une page donnée sera plus rapidement connu(e) du robot...
[3] Eh oui, et c'est hébergé sur une archive publique pour aussi longtemps que durera l'Univers Connu... (Bis)
[4] Je ne sais pas, par contre, si le robots.txt permet d'obtenir l'effacement a posteriori de certains éléments de l'archive. Je crois qu'en théorie oui, mais en pratique, j'en suis beaucoup moins sûr...










Commentaires
euhhhhhhhhhhhh ... c'est beau la modernité ... moi qui croyait que tout ça était le fait de millions de fées clochettes qui visitaient la toile ... pitan j'en apprends tous les jours, j'ai même appris que je pouvais faire une sauvegarde de mon bouzin avec un truc que j'avais même pô remarqué chez OB ... ( pasque chez eux y zont un bouzin anti aspirateur ...) ... j'en resterai de cul des fois ... m'enfin, me plaisait bien la fée clochette ...
En même temps, c'est difficile de commenter... A moins de vouloir être super-profond sur le sens du projet global de l'équipe de The Internet Archive ou de pouvoir être suffisament au point pour commenter sur tout ce qui a trait aux robots.
On va me demander pourquoi je l'ouvre alors. Bin, juste pour rassurer Swâmi (que la flûte du seigneur Krishna le berce à jamais) sur son audience qui dépasse les frontières de la vie et du temps.
"enchantée, moi c'est Céleste"
répondit-elle en souriant pour ne pas attirer l'attention sur le fait qu'elle n'avait absolument rien compris.
Wahouu ... Voilà qui est hyper intéressant. Merci Swâmi. Un besouce pour la peine.
@Céleste : Quoi toi pas comprendre, la belle ?
@Sophie, je t'envie!
@Swâmi mes compétences en matière de nouvelles technologie sont très limitées
je suis admirative
@Céleste Disons que les geekeries de Swâmi me rappellent le bon temps, c'est comme l'italien, j'ai pas tout oublié ... ;-)
Celeste, bienvenue au club des nullardes......Voui, en informatique, j'ai aussi un QI équivalent à celui d'un bulot trop cuit.....( les marques dirait que je suis atteinte de blonditude aigue, et pourtant je pratique le suicide capillaire depuis longtemps pour essayer de tromper l'ennemi!!! )
On dit Bezouce. C'est dans le Gard.
Et le blog que fait la police? il y est ?
@Yves :
Nan, il doit être encore en garde à vue. Il n'a pas encore été déféré
au parquetaux archives ;-)Mais euh... (participons au débat) qu'est-ce-qui empêche une autorité d'interdire la mise en ligne du contenu de la WM, ou de forcer les sites litigieux à inclure un fichier robots.txt en interdisant la visite ? (parano, moi ?)