Trop con le robot !
Par Petaramesh le mardi 15 août 2006, 12:13 - Méchanceté gratuite - Lien permanent
Pour faire rire ceux que cela fera rire...
Tiens, y'a un (ou plusieurs) robot(s) très très idiot(s) provenant de 13 adresses IP différentes du réseau 208.66.195.0/24, et qui s'identifie par un User-agent : "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.0.3705; .NET CLR 1.1.4322)"...
...qui, depuis le début du mois d'août (et je n'ai pas regardé juillet...), m'a déjà gloupé 9552 pages de ceci en suivant à chaque fois comme un gros con les liens circulaires qui sont dedans. Ouarf !
Le benêt ignore superbement les tags <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> n'est-ce pas...
Si c'est un robot de spammeur, sa belle base de données va être rigolote en bout de course :-D
Mais quoi c'est-t-y que c'est ça, au fait ? C'est cela, oui...
Addendum 13:01 : Au fait, une fois, un type qui avait un robot qui avait passé le week-end à en bouffer au point de lui bourrer son disque, avait eu en plus le front de m'en faire le reproche par e-mail ! Je lui avais répondu à l'époque :
Cher Monsieur,
Vous ne m'avez pas demandé l'autorisation d'aspirer le contenu de mon site web avec votre robot, et je vous y ai encore moins autorisé. Vous en avez donc pris l'initiative sous votre seule responsabilité et à vos risques et périls.
Si votre robot ne respecte pas les systèmes de signalisation standard destinés aux robots, et tombe dans une boucle circulaire spécifiquement conçue pour éliminer les cons, ne vous en prenez-donc qu'à vous-même.Avec mes plus cordiales salutations.
Swâmi Petaramesh












Commentaires
lollllllllll je connaissez pas ....
Excellent, tres drole meme.
En meme temps si plusieurs robots (des programmes - donc beaucoup plus rapides a requeter un lien qu'un humain) se mettent dans une boucle recursive et sans fin sur ton serveur... ca bouffe ta bande passante non ? Reduisant celle-ci pour tes lecteurs assidus ;-)
De meme, du coup, j'imagine que tu filtres tes log apache de ce genre de requetes...
@Arno : le script exécute une instruction
sleep (2);lors de chaque requête, afin que ni la CPU ni la bande passante ne soient monopolisées par un robot trop boulimique...En matière de bande passante, les pages HTML générées sont extrêmement légères en comparaison de n'importe quelle page web ordinaire contenant la moindre image, dont l'impact est réduit.
Qu'ils sont bête ces mechants robots ;-)
Update 27/08 : Là, le pas beau robot en est arrivé à 24547 boucles dans wpoison.
Je crois que ça suffira comme ça : Il y aura passé un mois entier.
Alors maintenant, je règle le problème avec :
Ma chanson lui a pas plus, n'en parlons plus...