Honeypot spip?

Bonjour !

On parle pas mal ces derniers temps des problèmes causés par les crawlers IA qui ne respectent pas robots.txt et qui pourrissent nos statistiques de visites, mais aussi prennent de la bande passante, du temps de calcul etc.

Je me demandais si ce ne serait pas intéressant d’implémenter une solution de type « pot de miel » pour les mettre rapidement en liste noire. Mon idée un peu naïve ce serait une page qui serait indiquée comme à ne pas indexer sur robots.txt, et qui serait directement accessible depuis la page d’accueil (via un lien masqué). Toute IP prise à consulter cette page serait rajoutée à une blocklist…

Il semble qu’il y avait dans le temps un Projet Pot de Miel - SPIP-Contrib mais qui n’a pas tout à fait la même finalité.

D’autres idées ?

Bien cordialement,

Mathieu

L’idée est louable, mais j’ai bien peur que ça consomme trop de ressources. En effet, même en bloquant les IPs depuis le firewall de la machine ça peut poser des problèmes de dépassement de ressources. On aborde le sujet ici pour info Bilan d'étape de la résistance aux fringales des IA dégénérées : - *La recherche est réactivée* ,…

Lecture très intéressante (et un peu triste aussi :frowning: 463967 IP bloquées, la vache).

Bonjour

Il n’y a pas de bonnes pratiques …
Mais tu peux si tu gères ton infra t’appuyer sur

  • crowdsec
  • fail2ban
  • uribl en prenant un score assez haut ou d’autres listes comme spamhaus

Pour la partie IA, il y a des solutions comme

  • anubis
  • iocaine