J’ai un problème, depuis aujourd’hui, sur un serveur a priori dû au crawl intensif par des bots, notamment ceux utilisés pour l’entraînement de moteurs d’intelligence artificielle.
Ce trafic non sollicité sature les ressources de l’hébergement et entraine le crash de la base de données Mysql.
L’hébergeur relance le serveur MySQL mais ça saute sans arrêt.
L’hébergeur me conseille de les bloquer via le htaccess en indiquant :
RewriteCond %{HTTP_USER_AGENT} « (?i)(Amazonbot|BLEXBot|Barkrowler|DataForSeoBot|MJ12bot|DotBot|AhrefsBot|SemrushBot|SeekportBot|CCBot|Baiduspider|Yandex(Bot)?|Sogou|PetalBot|Bytespider|OAI-SearchBot|GPTBot|ChatGPT-User|PerplexityBot|ClaudeBot|CensysInspect|Go-http-client|python-requests|httpx|Apache-HttpClient|meta-externalagent) » [OR]
RewriteCond %{HTTP_USER_AGENT} ^\s*$ # UA vide
RewriteRule ^ - [R=429,L]
Oui, ces bots ne respectent rien et envoient des requêtes en masses sans aucun délai, ce qui peut faire tomber le serveur s’il n’a pas assez de ressources. Dans mon expérience de bénévolat chez un hébergeur associatif membre du collectif CHATONS, j’ai pu observer que 70% du traffic web de nos serveurs provenait des principaux bots d’IA, et il y a des bots bien plus sournois qui utilisent des user agent de visiteur humain, et parfois même en utilisant l’adresse IP de connexions de particuliers (voir le lien que je cite plus haut).
Non, certainement pas.
Peut-être, mais une chose est certaine, SPIP 4.1 n’est plus maintenu, il faut mettre à jour en 4.3 minimum
Tout d’abord merci pour ces explications
La mise à jour en spip 4.3 était prévue « hors saison »…
Il s’agit d’une instance chez Gandi, comment pourraient-ils le faire en amont ?
Est-ce que travailler apache avec le htaccess va provoquer des problèmes avec l’instance ?
Je leur ai demandé si changer la taille de l’instance pourrait améliorer ce problème de charge résultant des bots…
j’ai voulu suivre la demande de l’hébergeur mais le code fait planter le site quand je le rajoute dans le htaccess.
Est-ce que tu peux copier-coller de nouveau leur code ici, mais en le mettant dans une balise « code » ? En effet on le voit avec des caractères invalides mais c’est peut-être causé par le forum qui réécrit certaines parties de la requête