je reçois un mail de la BNF (département du dépôt légal) qui m’indique que leur robot d’archivage est bloqué sur un site que je gère et l’archivage du site leur est impossible.
Or le fichier robots.txt est celui fourni par Spip sans modification. Donc, il ne devrait pas y avoir blocage…
Quand j’ai demandé un peu plus d’explications à mon interlocuteur de la BNF, il m’indique deux choses :
que la signature de leur robot est « Mozilla/5.0 (compatible; bnf.fr_bot; +https://www.bnf.fr/fr/capture-de-votre-site-web-par-le-robot-de-la-bnf) » et la présence du mot « bot » peut engendrer un blocage. Et je vois dans le code de Spip ici qu’il y a un test IS_BOT sur le mot « bot » justement.
Du coup, il pourrait y avoir un blocage du fait de ce test IS_BOT ? Et si oui, comment est-il possible d’autoriser le bnf.fr_bot et pas les autres ?
L’interlocuteur de la BNF me dit qu’il obtient un erreur 429 : est-ce lié simplement au blocage au point 1 ou bien que leur robot serait effectivement un peu trop agressif (trop de consultations en peu de temps) ?
Merci d’avance pour vos lumières car j’en manque sérieusement sur ce sujet.
salut
on à eu la même remarque de la part de la BNF concernant un site d’archives, ils sont gonflés, nous n’avons pas répondu.
no seulement ils numérisent comme des cochons, mais en plus ils demandent aux autres de leur refiler leur boulot.
à ta place, je me casserai pas la tête pour çà…
Par curiosité, quel est le contexte de la demande de la BNF ? Est-ce c’est eux qui décident tout seuls de ce qu’ils veulent archiver (genre tu reçois un mail de la BNF qui te dit « bonjour, on aimerait bien archiver votre site ») ? Ou bien on peut inscrire son URL pour archivage un peu comme sur archive.org ?
Le bot de la BNF nous avait posé des soucis sur des sites, notamment en gérant mal «les url base64 qui sont des images embed» ; c’était il y a 2 ans… mais on avait du bloquer temporairement leur ip… c’est peut être corrigé chez eux depuis.
Par ailleurs, lorsqu’un bot demande des pages de SPIP et que le serveur est déjà surchargé, SPIP retourne une réponse « 429 Too Many Requests », et c’est tout à fait normal (et ça se passe effectivement dans l’écran de sécurité actuellement).
Donc il est possible que leur bot soit trop agressif, ou qu’ils passent à un moment où il y a déjà une surcharge temporaire sur le site pour d’autres raisons…
Ce que j’ai fait de mon côté (et cela répond aussi au précédent message de @lagrenouille), j’ai ajouté un fichier ecran_securite_options.php pour surcharger le define IS_BOT_FRIEND avec la liste déjà définie + l’UA du bot de la BNF.
Et j’en ai profité pour lui suggérer que le service technique de la BNF prenne contact avec les dev de Spip, car, ai-je ajouté, « Spip est très présent dans le web francophone donc leur problème doit être très fréquent et qu’il serait tout à leur avantage de régler le problème une bonne fois pour toute. » (j’espère que cette réponse mi-figue mi-raisin ne posera de problème à personne )
Et la personne vient de me répondre : d’une part ma modif de l’écran de sécurité a permis à leur robot de collecter (c’est déjà ça de pris) et elle me confirme qu’elle fait passer le mot à son chef à plumes technique, croisons les doigts pour qu’ils vous contactent !