[Résolu] Blocage robot d'archivage BNF

bonjour,

je reçois un mail de la BNF (département du dépôt légal) qui m’indique que leur robot d’archivage est bloqué sur un site que je gère et l’archivage du site leur est impossible.

Or le fichier robots.txt est celui fourni par Spip sans modification. Donc, il ne devrait pas y avoir blocage…

Quand j’ai demandé un peu plus d’explications à mon interlocuteur de la BNF, il m’indique deux choses :

  1. que la signature de leur robot est « Mozilla/5.0 (compatible; bnf.fr_bot; +https://www.bnf.fr/fr/capture-de-votre-site-web-par-le-robot-de-la-bnf) » et la présence du mot « bot » peut engendrer un blocage. Et je vois dans le code de Spip ici qu’il y a un test IS_BOT sur le mot « bot » justement.
    Du coup, il pourrait y avoir un blocage du fait de ce test IS_BOT ? Et si oui, comment est-il possible d’autoriser le bnf.fr_bot et pas les autres ?

  2. L’interlocuteur de la BNF me dit qu’il obtient un erreur 429 : est-ce lié simplement au blocage au point 1 ou bien que leur robot serait effectivement un peu trop agressif (trop de consultations en peu de temps) ?

Merci d’avance pour vos lumières car j’en manque sérieusement sur ce sujet.

christophe

Bonjour

plutôt du coté de l’écran de sécurité ?

implode('|', array(
						// mots generiques
						'bot',

mais oui, j’ai bien l’impression que c’est là que ça se passe, je n’avais pas pensé à ce bon vieux écran de sécurité ! Merci @Natacha_Courcelles

salut
on à eu la même remarque de la part de la BNF concernant un site d’archives, ils sont gonflés, nous n’avons pas répondu.
no seulement ils numérisent comme des cochons, mais en plus ils demandent aux autres de leur refiler leur boulot.
à ta place, je me casserai pas la tête pour çà…

1 « J'aime »

Par curiosité, quel est le contexte de la demande de la BNF ? Est-ce c’est eux qui décident tout seuls de ce qu’ils veulent archiver (genre tu reçois un mail de la BNF qui te dit « bonjour, on aimerait bien archiver votre site ») ? Ou bien on peut inscrire son URL pour archivage un peu comme sur archive.org ?

Le bot de la BNF nous avait posé des soucis sur des sites, notamment en gérant mal «les url base64 qui sont des images embed» ; c’était il y a 2 ans… mais on avait du bloquer temporairement leur ip… c’est peut être corrigé chez eux depuis.

Par ailleurs, lorsqu’un bot demande des pages de SPIP et que le serveur est déjà surchargé, SPIP retourne une réponse « 429 Too Many Requests », et c’est tout à fait normal (et ça se passe effectivement dans l’écran de sécurité actuellement).

Donc il est possible que leur bot soit trop agressif, ou qu’ils passent à un moment où il y a déjà une surcharge temporaire sur le site pour d’autres raisons…

D’après le premier message reçu de la personne de la BNF, c’est eux qui font des choix, mais il reste toujours possible de leur proposer, voir ce lien

Merci pour tes précisions @marcimat

Ce que j’ai fait de mon côté (et cela répond aussi au précédent message de @lagrenouille), j’ai ajouté un fichier ecran_securite_options.php pour surcharger le define IS_BOT_FRIEND avec la liste déjà définie + l’UA du bot de la BNF.

Et j’en ai profité pour lui suggérer que le service technique de la BNF prenne contact avec les dev de Spip, car, ai-je ajouté, « Spip est très présent dans le web francophone donc leur problème doit être très fréquent et qu’il serait tout à leur avantage de régler le problème une bonne fois pour toute. » (j’espère que cette réponse mi-figue mi-raisin ne posera de problème à personne :wink: )

Et la personne vient de me répondre : d’une part ma modif de l’écran de sécurité a permis à leur robot de collecter (c’est déjà ça de pris) et elle me confirme qu’elle fait passer le mot à son chef à plumes technique, croisons les doigts pour qu’ils vous contactent !