[SPIP Zone] Pagination et crawl par les bots

Bonjour,

Mon infogérant a détecté une charge CPU importante et constante sur un site.
Après investigation, c'était tous le temps des requêtes sur des pages ayant une pagination AJAX.

Quelques recherches plus loin, j'ai trouvé ceci :
http://www.thesempost.com/google-dont-ever-nofollow-your-own-internal-links/

Et la méthode pour éviter ça est de mettre les paramètres dans le robots.txt
https://stackoverflow.com/questions/9149782/ignore-urls-in-robot-txt-with-specific-parameters

Par exemple :
Disallow: /*?debut_articles_rubrique_par_date_inverse=*

Est-ce que d'autres ont constaté ça ?

--
RealET

Hop,

Le 21/02/2018 à 10:51, RealET a écrit :

Bonjour,

Mon infogérant a détecté une charge CPU importante et constante sur un site.
Après investigation, c'était tous le temps des requêtes sur des pages ayant une pagination AJAX.

Est-ce que d'autres ont constaté ça ?

Je n'ai jamais rencontré le problème, et on a déjà une directive qui indique au bots de parcourir les sites avec un délai raisonnable, cf :

Si jamais le bot en question ne tient pas compte de cette règle chez toi, il y a de grandes chances qu'il ne tiennent pas compte des règles supplémentaires que tu proposes.

En attendant, essaye déjà d'augmenter la valeur du Crawl-delay à 3 ou 5 pour voir si ça un effet.

++
b_b