Ce modeste ashram a passé l'après-midi à se faire dévorer tout cru (tremble aussi, Laflote !) par un robot s'identifiant comme : Mozilla/5.0 (compatible; heritrix/1.10.1 +http://bibnum.bnf.fr/robot/)

La page web indiquée m'apprend qu'il s'agit de la Bibliothèque Nationale de France, et que :

Cette opération de collecte est réalisée dans le cadre du dépôt légal d'Internet, institué par la Loi n°2006-961 du 1er août 2006 relative au droit d'auteur et aux droits voisins dans la société de l'information (titre IV).

la même page web indique aussi :

Le robot s'identifie avec un champ User-Agent commençant par "Mozilla/5.0 (compatible; archive.org_bot)", suivi d'informations complémentaires sur la version et les contacts. Il respecte les exclusions spécifiées dans le protocole robots.txt : http://www.robotstxt.org/wc/robots.html.

Or, la première chose que je constate c'est que leur robot ne respecte aucune interdiction, puisqu'il va tout droit aspirer des pages de gestion technique de ce brave Totor strictement interdites à tout robot par mon fichier robots.txt, et qu'il s'en fait joyeusement péter la panse... la deuxième chose que je constate est que l'UserAgent fourni par leur robot ne correspond pas exactement à ce que leur page web indique par ailleurs.

Et puis au fait, c'est quoi cette histoire de dépôt légal ô amis blogueurs et propriétaires de sites persos ? Allons voir le texte de loi...:

TITRE IV

DÉPÔT LÉGAL

Article 39

Le dernier alinéa de l'article L. 131-2 du code du patrimoine est remplacé par deux alinéas ainsi rédigés :

« Les logiciels et les bases de données sont soumis à l'obligation de dépôt légal dès lors qu'ils sont mis à disposition d'un public par la diffusion d'un support matériel, quelle que soit la nature de ce support.

« Sont également soumis au dépôt légal les signes, signaux, écrits, images, sons ou messages de toute nature faisant l'objet d'une communication au public par voie électronique. »

Ah ben v'là donc que nos sites web et blogs sont soumis au dépôt légal...

Article 41

(Blabla...)

II. - Après l'article L. 132-2 du même code, il est inséré un article L. 132-2-1 ainsi rédigé :

« Art. L. 132-2-1. - Les organismes dépositaires mentionnés à l'article L. 132-3 procèdent, conformément aux objectifs définis à l'article L. 131-1, auprès des personnes mentionnées au i de l'article L. 132-2, à la collecte des signes, signaux, écrits, images, sons ou messages de toute nature mis à la disposition du public ou de catégories de public.

« Ces organismes informent les personnes mentionnées au i de l'article L. 132-2 des procédures de collecte qu'ils mettent en oeuvre pour permettre l'accomplissement des obligations relatives au dépôt légal. Ils peuvent procéder eux-mêmes à cette collecte selon des procédures automatiques ou en déterminer les modalités en accord avec ces personnes. La mise en oeuvre d'un code ou d'une restriction d'accès par ces personnes ne peut faire obstacle à la collecte par les organismes dépositaires précités.

Ah, ben donc, ils viennent se servir eux-mêmes... Quant à informer, je ne dois pas être une personne mentionnée au i de l'article L. 132-2 parce que, pour l'information, ballon ! Si je ne lisais pas mes logs de temps à autre, l'information, tiens, fume !

Plus rigolote, la mise en oeuvre d'un code ou d'une restriction d'accès qui ne peut faire obstacle à la collecte. En gros, mon robots.txt, je peux me le mettre sur l'oreille pour le fumer plus tard, c'est ce que dit la loi... même si la B.N.F. dit le contraire...

« Les organismes chargés de la gestion des noms de domaine et le Conseil supérieur de l'audiovisuel sont autorisés à communiquer aux organismes dépositaires les données d'identification fournies par les personnes mentionnées au i de l'article L. 132-2.

Ah ben tiens, de plus en mieux...

« Les conditions de sélection et de consultation des informations collectées sont fixées par décret en Conseil d'Etat pris après avis de la Commission nationale de l'informatique et des libertés. »

Ça serait sûrement trop demander qu'on me prévienne de quoi t'est-ce qu'il retourne au juste... Ah oui : Nul n'est censé ignorer la Loi...

Bon, pour la suite du texte, c'est moins amusant... Alors copie ici tout de même du petit mail gentil que je viens d'adresser à la B.N.F.:

Objet: Mauvais comportement de votre robot
De: Swâmi Petaramesh <s...@p....org>
Date: Lun 27 août 2007 17:45
À: robot <à> bnf.fr
Priorité : Haute

Messieurs,

Votre robot-crawler dont l'User-Agent est : "Mozilla/5.0 (compatible; heritrix/1.10.1 +http://bibnum.bnf.fr/robot/)", depuis votre hôte athena4.bnf.fr, a passé une partie de l'après-midi à arpenter mon site web http://www.petaramesh.org.

Bien que votre page http://bibnum.bnf.fr/robot/ indique clairement « Il respecte les exclusions spécifiées dans le protocole robots.txt », j'ai pu constater le contraire : En effet, votre robot s'est mis à télécharger des pages situées sous le répertoire "/(suppprimé)" de mon site, pages contenant des graphes de gestion technique du système à usage privé, non destinées aux moteurs de recherche ou à l'archivage, et explicitement interdites à TOUT robot par mon fichier robots.txt

Toutefois, votre robot n'a pas tenu compte de cette interdiction et a continué imperturbablement d'aspirer ces pages.

J'ai donc été contraint de rediriger en interne votre robot sur des pages "pièges à robots au mauvais comportement" qui "bouclent à l'infini", et sont dûment mentionnées par leurs META tags comme ne devant pas être archivées par les robots, pas plus que les liens qu'elles contiennent ne doivent être suivis par eux.

Toutefois, votre robot continue à cet instant imperturbablement d'aspirer à l'infini ces pages "interdites aux robots" et dont le contenu sera également généré aléatoirement à l'infini.

Il serait donc souhaitable que vous y mettiez bon ordre.

Par ailleurs, bien que votre page indique que votre robot respecte le "robot exclusion protocol" - ce qu'il ne fait visiblement pas - elle n'indique pas quel "User-Agent" doit être spécifié dans le fichier robots.txt pour les règles que l'on souhaiterait destiner spécifiquement à votre robot - si tant est qu'il les respecte à l'avenir.

Enfin, et à titre indicatif, je vous remercie de me faire savoir si l'atterrissage de votre robot sur mon site est du aux hasards d'une exploration aléatoire/systématique du web, ou s'il a été causé par une demande spécifique.

Vous remerciant par avance.

Meilleures salutations.

--
Swâmi Petaramesh


Addendum 28/08/2007 08:11 : Comme je suis vraiment un brave type, si le robot de la BNF vous harcèle et accède, comme chez moi, à des pages d'administration ou de supervision de votre site web qui n'ont pas lieu d'être explorées par un robot ni archivées, et qui sont dûment interdites par votre fichier robots.txt (qu'ils prétendent respecter mais ignorent superbement, de fait, à ce jour...), vous pouvez aisément lui fermer la porte, en utilisant le mod_rewrite d'Apache, si votre hébergeur utilise Apache et qu'il autorise l'utilisation de mod_rewrite...

Pour ce faire, vous pouvez mettre dans votre fichier de configuration d'Apache, pour les répertoires à bannir, les instructions suivantes :

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/[0-9\.]+\s+\(compatible;\s+heritrix/[0-9\.]+\s+\+http://bibnum\.bnf\.fr/robot/\)
RewriteRule .* - [F]

...et il se mangera un définitif 403 - Forbidden en tentant d'accéder aux répertoires où il n'a pas à aller.

  • Si vous n'avez pas accès au fichier de configuration d'Apache, cas le plus fréquent avec un hébergeur, vous pouvez mettre cette série d'instructions dans le fichier .htaccess de chaque répertoire à protéger des intrusions. (Ça peut ne pas marcher si l'hébergeur ne le prend pas en charge, généralement pour des raisons de performances de leur serveur Web, mod_rewrite est un peu gourmand en ressources...)

Et, si vous êtes joueur, vous pouvez utiliser ça pour rediriger le robot vers un piège à robots malappris, histoire de démontrer l'intérêt pour les robots de respecter les règles établies...

(A cette heure, les trois [!] robots de la BNF qui continuent de me pomper à la vitesse maximale que mon piège à robots autorise, c'est-à-dire pas trop vite pour ne pas saturer mon serveur, se sont déjà goinfrés plus de 20.000 pages de bouse... Hahaha !... Mais c'est pas ma faute, à moi... C'est eux qui viendent hein ! Chacune de ces pages spécifie Robot pas venir ! Robot pas stocker ! Robot pas suivre les liens ! [1], mais ils continuent, les vilains... C'est eux qui viendent, c'est eux qui pompent, c'est eux qui violent les règles... Accessoirement, c'est eux qui me bouffent ma bande passante et mes ressources serveurs sans que je leur aie rien demandé... C'est eux qu'a commencé, m'sieur !)


Addendum nécessaire, 28/08/2007 20:44 : A la suite de ce petit incident - et après qu'il ait lu ce billet - j'ai été très rapidement contacté par un responsable de la section "dépôt légal" de la B.N.F., qui s'est montré fort aimable et courtois, et m'a donné tous les éclaircissements nécessaires à la compréhension du pourquoi du comment de ce qui s'est produit avec Nono le robot. Ce sont, ce me semble, des gens parfaitement fréquentables et de bonne volonté. L'incident est donc clos en ce qui me concerne, et leur robot n'est plus piégé en ce modeste ashram - je me contente désormais de lui interdire poliment l'accès aux répertoires dans lesquels je ne veux vraiment pas qu'il ne mette les pieds, en utilisant quelques RewriteRule .* - [F] tel que mentionné ci-dessus.

Notes

[1] <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">