Titre IV : Enfin une loi appliquée !
Par Petaramesh le lundi 27 août 2007, 18:09 - Politique infiniment dualiste - Lien permanent
...La tristement célèbre loi "DADVSI"...
Dépôt légal
, vous avez dit Dépôt légal
?
Ce modeste ashram a passé l'après-midi à se faire dévorer tout cru (tremble aussi, Laflote !) par un robot s'identifiant comme : Mozilla/5.0 (compatible; heritrix/1.10.1 +http://bibnum.bnf.fr/robot/)
La page web indiquée m'apprend qu'il s'agit de la Bibliothèque Nationale de France, et que :
Cette opération de collecte est réalisée dans le cadre du dépôt légal d'Internet, institué par la Loi n°2006-961 du 1er août 2006 relative au droit d'auteur et aux droits voisins dans la société de l'information (titre IV).
la même page web indique aussi :
Le robot s'identifie avec un champ User-Agent commençant par "Mozilla/5.0 (compatible; archive.org_bot)", suivi d'informations complémentaires sur la version et les contacts. Il respecte les exclusions spécifiées dans le protocole robots.txt : http://www.robotstxt.org/wc/robots.html.
Or, la première chose que je constate c'est que leur robot ne respecte aucune interdiction, puisqu'il va tout droit aspirer des pages de gestion technique de ce brave Totor strictement interdites à tout robot par mon fichier robots.txt, et qu'il s'en fait joyeusement péter la panse... la deuxième chose que je constate est que l'UserAgent fourni par leur robot ne correspond pas exactement à ce que leur page web indique par ailleurs.
Et puis au fait, c'est quoi cette histoire de dépôt légal
ô amis blogueurs et propriétaires de sites persos ? Allons voir le texte de loi...:
TITRE IV
DÉPÔT LÉGAL
Article 39
Le dernier alinéa de l'article L. 131-2 du code du patrimoine est remplacé par deux alinéas ainsi rédigés :
« Les logiciels et les bases de données sont soumis à l'obligation de dépôt légal dès lors qu'ils sont mis à disposition d'un public par la diffusion d'un support matériel, quelle que soit la nature de ce support.
« Sont également soumis au dépôt légal les signes, signaux, écrits, images, sons ou messages de toute nature faisant l'objet d'une communication au public par voie électronique. »
Ah ben v'là donc que nos sites web et blogs sont soumis au dépôt légal...
Article 41
(Blabla...)
II. - Après l'article L. 132-2 du même code, il est inséré un article L. 132-2-1 ainsi rédigé :
« Art. L. 132-2-1. - Les organismes dépositaires mentionnés à l'article L. 132-3 procèdent, conformément aux objectifs définis à l'article L. 131-1, auprès des personnes mentionnées au i de l'article L. 132-2, à la collecte des signes, signaux, écrits, images, sons ou messages de toute nature mis à la disposition du public ou de catégories de public.
« Ces organismes informent les personnes mentionnées au i de l'article L. 132-2 des procédures de collecte qu'ils mettent en oeuvre pour permettre l'accomplissement des obligations relatives au dépôt légal. Ils peuvent procéder eux-mêmes à cette collecte selon des procédures automatiques ou en déterminer les modalités en accord avec ces personnes. La mise en oeuvre d'un code ou d'une restriction d'accès par ces personnes ne peut faire obstacle à la collecte par les organismes dépositaires précités.
Ah, ben donc, ils viennent se servir eux-mêmes... Quant à informer
, je ne dois pas être une personne mentionnée au i de l'article L. 132-2
parce que, pour l'information, ballon ! Si je ne lisais pas mes logs de temps à autre, l'information, tiens, fume !
Plus rigolote, la mise en oeuvre d'un code ou d'une restriction d'accès
qui ne peut faire obstacle à la collecte
. En gros, mon robots.txt, je peux me le mettre sur l'oreille pour le fumer plus tard, c'est ce que dit la loi... même si la B.N.F. dit le contraire...
« Les organismes chargés de la gestion des noms de domaine et le Conseil supérieur de l'audiovisuel sont autorisés à communiquer aux organismes dépositaires les données d'identification fournies par les personnes mentionnées au i de l'article L. 132-2.
Ah ben tiens, de plus en mieux...
« Les conditions de sélection et de consultation des informations collectées sont fixées par décret en Conseil d'Etat pris après avis de la Commission nationale de l'informatique et des libertés. »
Ça serait sûrement trop demander qu'on me prévienne de quoi t'est-ce qu'il retourne au juste... Ah oui : Nul n'est censé ignorer la Loi
...
Bon, pour la suite du texte, c'est moins amusant... Alors copie ici tout de même du petit mail gentil que je viens d'adresser à la B.N.F.:
Objet: Mauvais comportement de votre robot
De: Swâmi Petaramesh <s...@p....org>
Date: Lun 27 août 2007 17:45
À: robot <à> bnf.fr
Priorité : HauteMessieurs,
Votre robot-crawler dont l'User-Agent est : "Mozilla/5.0 (compatible; heritrix/1.10.1 +http://bibnum.bnf.fr/robot/)", depuis votre hôte athena4.bnf.fr, a passé une partie de l'après-midi à arpenter mon site web http://www.petaramesh.org.
Bien que votre page http://bibnum.bnf.fr/robot/ indique clairement « Il respecte les exclusions spécifiées dans le protocole robots.txt », j'ai pu constater le contraire : En effet, votre robot s'est mis à télécharger des pages situées sous le répertoire "/(suppprimé)" de mon site, pages contenant des graphes de gestion technique du système à usage privé, non destinées aux moteurs de recherche ou à l'archivage, et explicitement interdites à TOUT robot par mon fichier robots.txt
Toutefois, votre robot n'a pas tenu compte de cette interdiction et a continué imperturbablement d'aspirer ces pages.
J'ai donc été contraint de rediriger en interne votre robot sur des pages "pièges à robots au mauvais comportement" qui "bouclent à l'infini", et sont dûment mentionnées par leurs META tags comme ne devant pas être archivées par les robots, pas plus que les liens qu'elles contiennent ne doivent être suivis par eux.
Toutefois, votre robot continue à cet instant imperturbablement d'aspirer à l'infini ces pages "interdites aux robots" et dont le contenu sera également généré aléatoirement à l'infini.
Il serait donc souhaitable que vous y mettiez bon ordre.
Par ailleurs, bien que votre page indique que votre robot respecte le "robot exclusion protocol" - ce qu'il ne fait visiblement pas - elle n'indique pas quel "User-Agent" doit être spécifié dans le fichier robots.txt pour les règles que l'on souhaiterait destiner spécifiquement à votre robot - si tant est qu'il les respecte à l'avenir.
Enfin, et à titre indicatif, je vous remercie de me faire savoir si l'atterrissage de votre robot sur mon site est du aux hasards d'une exploration aléatoire/systématique du web, ou s'il a été causé par une demande spécifique.
Vous remerciant par avance.
Meilleures salutations.
--
Swâmi Petaramesh
Addendum 28/08/2007 08:11 : Comme je suis vraiment un brave type, si le robot de la BNF vous harcèle et accède, comme chez moi, à des pages d'administration ou de supervision de votre site web qui n'ont pas lieu d'être explorées par un robot ni archivées, et qui sont dûment interdites par votre fichier robots.txt (qu'ils prétendent respecter mais ignorent superbement, de fait, à ce jour...), vous pouvez aisément lui fermer la porte, en utilisant le mod_rewrite d'Apache, si votre hébergeur utilise Apache et qu'il autorise l'utilisation de mod_rewrite...
Pour ce faire, vous pouvez mettre dans votre fichier de configuration d'Apache, pour les répertoires à bannir, les instructions suivantes :
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/[0-9\.]+\s+\(compatible;\s+heritrix/[0-9\.]+\s+\+http://bibnum\.bnf\.fr/robot/\)
RewriteRule .* - [F]
...et il se mangera un définitif
en tentant d'accéder aux répertoires où il n'a pas à aller.403 - Forbidden
- Si vous n'avez pas accès au fichier de configuration d'Apache, cas le plus fréquent avec un hébergeur, vous pouvez mettre cette série d'instructions dans le fichier
.htaccessde chaque répertoire à protéger des intrusions. (Ça peut ne pas marcher si l'hébergeur ne le prend pas en charge, généralement pour des raisons de performances de leur serveur Web, mod_rewrite est un peu gourmand en ressources...)
Et, si vous êtes joueur, vous pouvez utiliser ça pour rediriger le robot vers un piège à robots malappris, histoire de démontrer l'intérêt pour les robots de respecter les règles établies...
(A cette heure, les trois [!] robots de la BNF qui continuent de me pomper à la vitesse maximale que mon piège à robots autorise, c'est-à-dire pas trop vite pour ne pas saturer mon serveur, se sont déjà goinfrés plus de 20.000 pages de bouse... Hahaha !... Mais c'est pas ma faute, à moi... C'est eux qui viendent hein ! Chacune de ces pages spécifie Robot pas venir ! Robot pas stocker ! Robot pas suivre les liens ! [1]
, mais ils continuent, les vilains... C'est eux qui viendent, c'est eux qui pompent, c'est eux qui violent les règles... Accessoirement, c'est eux qui me bouffent ma bande passante et mes ressources serveurs sans que je leur aie rien demandé... C'est eux qu'a commencé, m'sieur !)
Addendum nécessaire, 28/08/2007 20:44 : A la suite de ce petit incident - et après qu'il ait lu ce billet - j'ai été très rapidement contacté par un responsable de la section "dépôt légal" de la B.N.F., qui s'est montré fort aimable et courtois, et m'a donné tous les éclaircissements nécessaires à la compréhension du pourquoi du comment de ce qui s'est produit avec Nono le robot. Ce sont, ce me semble, des gens parfaitement fréquentables et de bonne volonté. L'incident est donc clos en ce qui me concerne, et leur robot n'est plus piégé en ce modeste ashram - je me contente désormais de lui interdire poliment l'accès aux répertoires dans lesquels je ne veux vraiment pas qu'il ne mette les pieds, en utilisant quelques RewriteRule .* - [F] tel que mentionné ci-dessus.
Notes
[1] <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">









Commentaires
un peu comme si, au nom du dépot légal, la BNF allait piquer les plans de la rotative de l'imprimeur , non ?
Y'a pu de limites, mon pauvre ami...
(P.S.: Ton adresse IP est actuellement blacklistée chez spamhaus.org, ce qui explique que tes commentaires atterrisent, hélas, dans la file de modération...)
pfff bande d'enfoirés ... de blacklisteurs ...
qui en prime me dit que mon ip est pô sur leur liste
en même temps quand on lit ce genre d'interview on peut se dire que nous rentrons dans l'ère du grand ménage. Il est temps que les professionnels de la profession reprennent le pouvoir. Toi tu piques trop de temps de cerveau libre et ça, ce n'est pas bien.
@les marques : Elle y est, c'est justement ce que je te disais. Mais en cette ère de spam universel, les blacklists sont absolument nécessaires, et spamhaus.org fait en général plutôt bien son boulot...
@Sribeubeu :
Tiens, il est particulièrement gratiné, celui-là... Les mots me manquent, si je ne veux pas utiliser les gros... :-\
Après avoir lu ton billet, j'ai donné mes logs en pâture à grep.
Résultat, le dépôt légal est aussi passé par là. J'ai pas eu le temps de vérifier ce qu'il en est des infractions au robots.txt (j'ai tout chamboulé sur mes sites il y a peu, je ne sais même plus si j'ai des répertoires interdits :-/ ), mais en tout cas, bibnum avait l'air intéressé par un paquet de pages.
Dès que j'ai un peu de temps, je vais regarder ça en détail, et peut-être aussi leur donner de mes nouvelles...
Tu m'étonnes qu'il a faim, le pâbô robot... Va falloir que je lui monte un serveur pour lui tout seul ! Rien que depuis hier matin, et rien que sur petaramesh.org, il m'a pompé...
Vingt mille hits et des brouettes !
Mais là où ça devient rigolo, c'estque j'ai réussi à lui faire avaler...
4381 pages de la Sainte Farce toutes dûment flagguées
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">, donc, s'il en chope une indigestion, c'est sa faute, pas la mienne ;-)Et ce nombre de 4381 bonnes blagues (Il est con le robot ! Il est con !) sont un minimum minimorum, je me gaffe qu'il en a bien mangé le triple dans sa face, puisque maintenant, quelle que soit l'URL qu'il me demande (et donc, que je logue...) je lui sers de la bonne soupe :-D
...Et je l'ai vu en fin d'aprêm balancer des quantités astronomiques de requêtes vers mes diverses pages d'administration, pas franchement secrètes d'ailleurs, mais pas vraiment publiques non plus, raison pour laquelle elles sont flaguées "Robots, Ouste !
Mais pas de problème, Totor l'a dûment nourri ;-)
...Quand je pense au nombre d'entreprises qui laissent traîner des documents internes sur leur site web, vaguement protégés des robots par un banal
robots.txt, y'aura du procès dans l'air le jour où tout cela sera rendu public via des serveurs tiers... Puisqu'il semble que la BNF a plus ou moins des accointances avec archive.org, en tout cas ils utilisent leur robot et prétendent même utiliser le même UserAgent - ça m'emmernuie bien, ça, d'ailleurs... D'autant que d'habitude, archive.org est fréquentable... :-/Ça m'a tellement gavé que j'ai été porter le pet chez archive.org et que je l'ai balancé comme bug critique sur le bugtracker de l'équipe de dev du robot.
Ce sont en effet le genre de petits détails qui méritent d'être connus :-}
Ah, la France va encore briller internationalement par la grâce de Ma Pomme ! Merci qui ? ;-)
...En attendant, leur robot m'a maintenant bouffé plus de 5481 pages de la Sainte Farce... Je leur facture la bande passante ? ;-)
Chapeau archive.org, leur "Crawl Services Manager" m'a répondu dans le quart d'heure... que ce n'est pas leur faute (ça, je le savais déjà ;-)
"en même temps quand on lit ce genre d'interview"
Mais c'est qu'il dit que des conneries ce type (à part pour Wikipedia). Y a pas une plus grande proportion de "romans illisibles" sur Internet que dans les 700 et des poussières bouquins qui sortent pour cette "rentrée littéraire" avec laquelle on nous gonfle en ce moment. Y a pas plus d'analyses politiques superficielles sur Internet que sur France 2 ce matin où le porte parole du gouvernement affirmait que le paquet fiscal c'était vachement bien pour que les couples qui gagnent 1500€ à deux puissent être propriétaires de leur logement. Et y a pas plus de vidéos pitoyables sur Internet que parmi la douzaine de bouses, que l'on appelle "blockbusters de l'été", qui est sortie au cinoche ces deux derniers mois.
Ah ben voilà, ça y est, ils savent. les gens de la BNF ont lu ce petit article, et pour l'instant, leur robot-Shadok a cessé de me pomper tout mon Cosmogol... C'est bien gentil de leur part.
A la suite de ce billet, je viens de recevoir une réponse très courtoise de la part d'un des responsables de la BNF, qui n'avait apparemment pas reçu le mail que je cite ci-dessus.
J'ai répondu à son mail, et, sans trahir la correspondance privée, je reproduis ici un passage du mail que je viens de lui adresser en retour - comme ça, si jamais il devait ne pas lui parvenir non plus, il pourrait toujours en prendre connaissance ici-même :-}
(Citation de mon mail...)Il va de soi que le dépôt légal d'un univers essentiellement mouvant et composé de nombreuses publications personnelles comme Internet
est techniquement très différent de celui de publications écrites "figées" et éditées par des professionnels.
Vous devriez par exemple tenir compte du fait que des publications sur Internet peuvent avoir un caractère volontairement très temporaire, ou un
public volontairement restreint, ce qui n'existe pas dans le domaine de l'écrit imprimé, et archiver des sites ou des pages à vocation temporaire,
les rendant de ce fait permanents, peut aller à l'encontre des intentions de leur éditeur.
Il y a aussi des sites - comme celui de ma fille de 9 ans, par exemple - que l'on peut vouloir protéger des robots et moteurs de recherche parce
qu'ils peuvent accidentellement contenir des infos personnelles qui ne devraient pas y être, des photos de famille que l'on ne souhaite pas voir
archiver hors de tout contrôle... Ma fille de 9 ans tient son site pour sa douzaine de copines de classe, pas pour la Bibliothèque Nationale ou je ne
sais quel "dépôt légal". Hélas, le législateur connaît souvent bien peu les réalités du domaine qu'il prétend régir du jour au lendemain, alors
qu'on se passait si bien de lui... Pour des raisons commes celles-ci, les protocoles d'exclusion des robots ont été standardisés, et il est plus que
regrettable qu'un robot d'un site aussi respectable et officiel que la B.N.F. prenne la décision très contestable d'ignorer les limites qu'on lui
fixe.
Je ressens personnellement cela comme une forme de viol de l'espace privé.
Ensuite, Internet est bourré de robots "mal intentionnés", ceux des spammeurs notamment, qui ne respectent aucune interdiction mais vis-à-vis
desquels des mesures techniques existent, comme les pièges à robots dans lequel votre robot est tombé, du fait même de son choix d'ignorer la ligne
jaune... Mon site contient cachés ici et là, de manière permanente, des pièges à robots spammeurs. Volontairement ou pas, votre robot aurait fini
par y tomber du fait de son comportement.
De nombreux autres sites font de même pour les mêmes raisons.
Les sites web comportent enfin quasiment tous des "accès administrateur", dont au moins la porte d'entrée est "visible" pour un robot, même s'il ne
peut pas accéder plus loin. Si des auteurs de sites demandent aux robots de moteurs de recherche de ne pas archiver la page d'entrée de tel ou tel
outil d'administration, et si demain une faille de sécurité est découverte dans cet outil, avez-vous pensé au risque qu'un robot qui passe outre fait
courir à de tels sites du point de vue de la sécurité informatique ? Un "pirate" pourrait, d'une seule requête à un moteur de recherche, obtenir
la liste de milliers de "portes d'entrée" potentiellement vulnérables dès qu'une faille du système serait découverte ! Dans ce cas, il me semble que
le moteur de recherche ayant violé la ligne jaune serait directement responsable des conséquences qui pourraient découler d'un abus possible
des données collectées...
De même, de nombreuses entreprises laissent parfois traîner par erreur sur leur site web des documents internes n'ayant pas vocation à être publiés,
peut-être dans des répertoires qu'ils croient protégés des robots par "le protocole d'exclusion". Que faire si vous archivez les documents internes
d'une entreprise en violation délibérée de ce protocole ? Quelle responsabilité sera la vôtre ?
Internet comporte une sacrée palanquée de documents n'ayant pas "vocation à" atterrir dans les archives de la BNF, quel que soit l'usage ultérieur
qui puisse en être fait.
J'espère vous avoir fourni ici quelques explications de nature à vous éclairer un peu quant à la position des webmestres et leurs
préoccupations...
Commentaire presque superflu ;-) pour signaler qu'un petit addendum que je viens d'ajouter au pied de cet article, tout là-là-haut, et que tu auras donc, ô fidèle lecteur, mon semblable, mon frère, probablement loupé, clot cet incident de manière satisfaisante. Pouf, pouf.
ils te lisent vraiment on dirait, car ils ont changé le texte que tu cites, ils indiquent maintenant sur le lien que le robots.txt ne sert à rien :
la formulation fait froid dans le dos quand même... Sans compter qu'ils parlent du droit d'auteur et des droits voisins, mais se sont-ils rendus compte que l'archivage de données provenant d'un certain site c'est comme entériner le fait que ces données appartiennent à son auteur, bonjour les futurs procès ou la preuve de cet archivage sera utilisée contre les auteurs légitimes, si on va par là :/ ...
C'est vraiment le grand n'importenawak chez sarkoland en ce moment, comme halloween avec deux mois d'avance et le vomi pas tout à fait faux.
J'espère que quelqu'un aura eu la bonne idée d'archiver l'ancienne version ;-)
Bon, moi, j'archive à la main et sans robot, mais je ne suis qu'un pauvre amateur...
(Cliquouiller sur la belle image pour l'échelle 1:1...)
En plus, si j'en crois leur page, ils ont changé l'UserAgent de leur robot, me forçant à suivre le pas de danse en modifiant ma belle regexp...
RewriteCond %{HTTP_USER_AGENT} ^Mozilla/[0-9\.]+\s+\(compatible;\s+(heritrix/[0-9\.]+|bnf\.fr_bot;)\s\+http://bibnum\.bnf\.fr/robot/\)...etc.
Bon, si ça change trop souvent, je serai contraint de pondre de la regexp à large spectre, graoumpf, mais je préfère ancrer la regexp et la faire la plus précise possible pour des raisons de performances de mon pôvre petit Totor...
Moui, quoi qu'il en soit, et aussi bonnes que soient leur intentions pacifiques, le message a un léger petit côté orwellien sur les bords...
Suffit pas qu'on place son blog sous Licence CreativeCommons en autorisant donc explicitement l'archivage et la rediffusion de ses textes, suffit pas qu'on prenne soin de mettre un robots.txt spécifiquement conçu pour ouvrir large les portes à archive.org, faut encore que certains robots se croient permis pour je ne sais quelle scabreuse raison d'aller fureter là où on leur demande de ne pas aller...
C'est un peu comme si tu invites cordialement des amis à dîner, et qu'à peine débarqués chez toi, ils se livrent à une perquisition en règle de tes placards et de la chambre dont la porte est fermée...
Venant d'un organisme "respectable vieille dame" d'état, ça donne une drôle de sensation dans la moëlle épinière sur ce que devient notre belle société de «
LibertéCaméras,ÉgalitéSelon que vous serez puissant ou misérable,FraternitéC'est moi que j'ai le plus gros gourdin ».Hô les gens, oui, vous là, puisqu'effectivement je sais que vous me lisez et que vous êtes par ailleurs fort courtois, franchement, je vous le demande, est-ce bien raisonnable ?
Parce que Quand root pas content, lui toujours faire ainsi, hmmm...
En plus, Google est mon ami, tiens...
Maintenant, cette page sort preum's sur la requête Gougoule :
...c'est que ça va finir par se savoir, dans la blogobulle.
(Que sont ces grognements que j'entends sous ma table ? Ah, ce n'est que mon firewall qui piaffe ! Le pauvre, c'est vrai que ça fait longtemps que je ne lui ai pas donné de plage d'IPs à manger...)
Autant le fait qu'ils inscrivent une loi qui les arrange sur leur page ne me choque pas, autant par contre le fait qu'ils aient changé l'UserAgent me fait songer qu'ils ne sont peut être pas si bienveillants que cela, a défaut de ne pas être courtois... Pourquoi faire à part pour contrer tes protections toutes neuves ?
d'autant plus qu'ils sont dans l'illégalité si on relit le texte de loi, puisqu'on parle ici des fichiers portés à la connaissance du public plus ou moins restreint. Or, des fichiers de gestion technique qui ne sont pas en accès libre du public, c'est un accès tellement restreint qu'on pourrait l'appeller privé sans mauvaise foi, tout de même :-}
Làs, on dirait que ces messieurs de la Bnf ont du mal avec ce mot, privé, et ses implications !
(merci, Ô Guru, pour le petit revissage de balises dans mon précédent commentaire :) )
J'essaie de ne pas voir le mal partout, mais le petit démon en moi y prend un malin plaisir ;-)
Je ne pense pas qu'ils aient changé leur UserAgent pour contourner les dérisoires protections mises en place par ma petite personne - ce serait me donner bien trop d'importance - mais simplement pour éviter la (regrettable) confusion entre les collectes pratiquées par archive.org et leur robot Heritrix bien élevé d'une part, et les collectes pratiquées par la seule BNF, et leur version O.G.M. bnf.fr_bot mal élevée de ce même robot. Pour éviter qu'un mauvais coucheur comme ma pomme aille gueuler comme un veau chez archive.org et chez les développeurs d'Heritrix, ce que je ne me suis pas privé de faire, et qui la jette mal ;-)
Concernant la tristement célèbre loi DADVSI, je ne dirais pas quelle les arrange, mais plutôt qu'elle les missionne et, dans une certaine mesure, les contraint.
C'est encore une des lois qui fleurissent comme du chiendent ces temps-ci, renforçant l'emprise de l'état sur l'individu, et réduisant les droits du citoyen à se protéger des intrusions de l'état dans son domaine privé, le tout au plus grand avantage d'un secteur économique parasite et bouffi de thunes. Nos chers députés, comme d'hab', jouent contre le camp de ceux qui les ont élus - ça s'appelle de la forfaiture, si je ne m'abuse, mais bon, on est habitués, faut dire...
Les gougnaffiers qui ont rédigé cette loi devaient avoir pour idée que tout document présent sur un serveur web est nécessairement , ce qui n'est bien évidemment pas le cas.
Mais voilà, loi mal écrite, articles bâclés par des gugusses qui ne connaissent goutte au sujet sur lequel ils légifèrent... Paragraphes téléguidés par les intérêts particuliers de tel ou tel lobby, etc.
En pratique, la loi (de mes fesses) autorise effectivement la BNF à tenter de brute-forcer tout code, mot de passe, ou mesure de protection présent où que ce soit sur un site web pour s'emparer sauvagement de ce qui est derrière, et à ne pas tenir compte d'un fichier robots.txt qui est justement per se une forme de délimitation entre l'espace public et l'espace privé !
(J'espère quand même que dans les archives qu'ils conservent, ils flaguent de manière distinctive ce qu'ils ont honorablement collecté par rapport à ce que leur robot a volé...)
Si on colle de près à ce que dit la loi, la BNF serait probablement légalement en droit de violer par exemple l'accès à l'interface d'administration de ce site (si tant est qu'ils y parviennent) pour aller y pomper tout ce qui s'y trouve, y compris les adresses IP et mail de mes commentateurs par exemple, les commentaires que j'aurais pu retirer de l'espace public justement pour des raisons légales, ou les billets au "brouillon" et jamais publiés... Ou pourquoi pas entrer directement dans ma base de données SQL ou dans ma base LDAP pour lister tous les utilisateurs de mon système ? Une loi comme ça, ça enlève toutes limites à la connerie, mais on peut se faire des cheveux sur la manière dont un gouvernement encore un peu plus dictatorial que le nôtre pourrait l'utiliser...
Il est parfaitement envisageable qu'un procureur bien tordu plaide pour t'envoyer sur la paille humide des cachots parce que tu aurais refusé à la BNF l'accès web à ton interface d'administration protégée par un code, va savoir ? De nos jours, tout est possible, surtout l'absurde...
Quant à la BNF, puisqu'ils me lisent, ils sont évidemment les bienvenus pour clarifier ici leur position s'ils le souhaitent, et faire usage de tout "droit de réponse" qui leur semblera opportun en tapant dans la boîte-à-commentaires avec leurs petites mains pleines de doigts...
Je n'ai pas estimé très civil de publier le long mail explicatif qu'ils m'ont adressé et qui ne me semblait pas destiné à être porté tel quel "à la connaissance du public", mais il était en soi suffisamment intéressant pour mériter une plus large audience que ma seule petite boîte-aux-lettres...
N'empêche, si dans une telle situation ils se sentent un tout petit peu embarassés, c'est normal : il y a de quoi. Violer les robots.txt, c'est peut-être légal dans notre , mais c'est plutôt extrêmement mal vu dans le cybermonde et par le reste de l'humanité internaute. D'où pour eux, dilemme...
To robot, or not to robot, that is the question...
Cette collecte insensée de tout "signes, signaux, écrits, images, sons ou messages de toute nature" ressemble très fort à la collecte des rêves dans "Le palais des rêves" de Kadare.
Dans ce roman les rêveurs s'attirent parfois des ennuis, attention à ne pas bloguer de travers!
Le dépot légal est par ailleurs une institution française remarquable et je fais confiance à la bnf pour trouver rapidement un compromis et mettre au point leurs procédures. Visiblement là ils bossent dans l'urgence...
En effet, je me range à ton avis au sujet du UserAgent, c'est bien plus logique comme ça ( il faut croire qu'hier je manquais de sommeil :) )
Je cherchais un article passionnant du monde, indiquant la volonté affichée de la nouvelle présidence d'archiver " tout internet", pour pouvoir retrouver et réattribuer les responsabilités des propos et des contenus à leurs auteurs, même pour une parution de quelques secondes.
Je ne l'ai pas encore, mais en passant, je suis tombée sur ça : http://www.shedrupling.org/activist... la réponse de la dame de la Bnf est savoureuse : c'est quand même assez rigolo à la lumière de ton propre texte presque 10 ans plus tard :-} . Souvent les lois varient, bien fol est qui s'y fie ?
Remarque, maintenant, il a été servi !
ah, j'ai retrouvé l'article en question, mais hélas il est passé en version payante.
http://www.lemonde.fr/cgi-bin/ACHAT...
un éclairage sur le même article, mais sur un autre blog gratuit, tant que j'y suis :)
http://emmanueldetaillac.fr/article...