Configurer la durée de mise en cache

JLuc · Novembre 4, 2025, 10:35

Il faudrait préciser sur la base de quoi tu t’exprimes.

Il y a 20 ans, le web était fréquenté en grande majorité par des humains, dont les intérêts étaient humains. Le cache était donc très efficace pour les articles appréciés des humains. Les articles jamais consultés… n’étaient jamais consultés et leur absence en cache ne posait problème à personne.

Aujourd’hui, 60 à 80% des visites viennent de robots et ceux ci ont très mauvais goût. Pire encore : ils ont pas de goût du tout : ils lisent tout sans choisir et sans préférence. Ce faisant ils saturent le cache et le rendent en partie inopérant.

Mais le cache marche bien a priori : ballade toi sur 2 ou 3 pages lambda de ton site. Puis, via FTP (et sans aller dans /ecrire ni recalculer de pages avec ?var_mode), retire dans config/connect.php le mot de passe qui permet la connexion à la BDD. Retourne sur les pages précédemment visitées : sont elles lisibles ? Remet le mot de passe ensuite

cerdic · Décembre 3, 2025, 1:59

Il me semble qu’historiquement, SPIP a été conçu comme ça. Et cela n’a sans doute pas été questionné par la suite : il est difficile de prévoir les besoins en données stockées en base :

A priori non, historiquement SPIP devrait servir les hits en cache sans se connecter à la base : le cache principal est cherché à partir de l’URL, sans requete en base, et si on le trouve on déroule les inclusions.

La multiplicité des inclusions avec env + l’utilisation de formulaires dynamiques peut rendre ça plus compliqué, surtout si on intègre les-dit formulaires dans les en-tete ou pied de page

cerdic · Décembre 3, 2025, 2:01

Mais la problématique soulevée par les hébergeurs est plutôt lié au surcroit de traffic de bots (et en particulier les bots aspirant tout pour nourrir les modèles d’IA) qui parcourent inlassablement toutes les URLs possibles et donc pas dans le cache.

Sans compter les cas assez fréquent de boucles infinies d’URL générées par des squelettes pas toujours au top sur ce point (ie un lien basé sur #SELF dans lequel on ajoute un argument sans trop de précaution, et à chaque affichage ça rallonge l’URL proposée)

arno · Décembre 3, 2025, 2:23

On a vu passer ça sur Seenthis, et je l’ai encore vu sur un autre site submergé par les appels de bots: des bots programmés de manière merdique qui ne comprennent pas <base href=''> et qui du coup fabriquent des milliers d’URL qui n’existent pas sur le site, parce que la structure «URL hiérarchique» les fait partir dans des délires absolus et des URL de plus en plus longues. Et comme ce sont des URL qui n’«existent» théoriquement pas sur le site, pour le coup il n’y a aucun cache sur ces URLs, donc charge encore pire. Possibilité ici: compter les slash dans l’URL appelée, et répondre illico avec une erreur quand le nombre est trop élevé (par contre risque de surblocage si nombre trop bas) – je l’ai fait sur un site qui ne tenait plus, ça a premis de reprendre le contrôle du serveur. Éventuellement renoncer à «URL hiérachisées», donc ne plus compter sur <base href>, et ainsi éviter de fabriquer ces milliers d’URL inexistantes parce que ces bots sont codés avec le cul (ça ne dit pas qu’ils ne passeront plus, mais ça sera moins pénible puisqu’ils aspireront moins de pages, et que ces pages auront certainement un cache dans SPIP).
Sinon sur un de mes sites, j’ai bloqué tout le bloc des IP des fournisseurs d’accès officiels chinois. Ça a fait un peu de bien pendant un moment. Effet annexe bienvenu: le compteur de visites a redonné des valeurs un peu cohérentes.
Sinon sinon, les hébergeurs se plaignent, alors qu’ils savent parfaitement d’où vient le problème, et qu’ils laissent les «petits» webmestres se démerder tout en leur envoyant des mails vaguement menaçants parce qu’il y a trop d’appels à la base de données.

cerdic · Décembre 3, 2025, 3:54

Chez nous on repère les bots débiles par leur incapacité à comprendre le base href et on flag leur IP immédiatement pour leur répondre ‹ fuck ›. Mais un jour ils vont corriger ça certainement…

Saidinou · Décembre 4, 2025, 10:32

Ils reviennent quelques jours plus tard avec des IP Pakistanaises ou de Singapour. J’ai le cas depuis plusieurs semaines.

arno · Février 13, 2026, 10:46

En désespoir de cause, j’ai passé deux sites extrêmement impactés derrière CloudFlare (en version gratuite), parce que j’étais vraiment en train de perdre le contrôle de ces sites. La semaine avant Noël, notamment, l’un des sites était perpétuellement dans les choux, des aspirations venues de partout et dans des proportions hallucinantes.

Une fois passé derrière Cloudflare, j’ai ajouté une règle de contrôle pour tout les traffic venu d’Asie (parce que comme indique Said, une fois qu’on a viré les IP chinoises, ça revient par Singapour), et illico le serveur est revenu sous contrôle (mais genre: la chute de «traffic» a été monstrueuse).

Je ne suis pas fana de faire passer tout le traffic par un service tiers (Cloudflare prétend est respectueux RGPD, mais bon, je suis pas totalement rassuré non plus), mais j’en étais arrivé à une situation totalement incontrôlable, avec un site quasiment inaccessible en permanence. (Et par ailleurs c’est la seule «solution» que me suggérais mon hébergeur Infomaniak quand je l’interrogeais sur l’accès à de contrôle type WAF – ou alors gérer moi-même totalement le serveur, mais ça je ne veux plus faire, c’est devenu trop la jungle je n’ai plus les compétences pour le faire dans l’environnement actuel du réseau.)

choucas · Février 13, 2026, 12:08

Bonjour,

Moi non plus
La loi US est extra territoriale :
Non seulement les entreprises américaines doivent fournir à la demande les renseignements sur les personnes individuelles ou morales quelle que soit leur situation géographique, mais en plus, cela concerne toute entité étrangère voulant commercer avec les USA qui est également tenue de s’y soumettre.

Tout les reste est de la gesticulation de la part de l’UE qui attribue des dérogations pour ne pas perdre la face…
Du fait du cloud act, les données sont donc accessibles aux USA, quel que soit leur emplacement mondial, les entreprises devant se soumettre à cette loi

La seule vraie solution est une entreprise non américaine n’ayant aucun lien commercial avec les USA (y compris les filiales).

Après, on fait ce qu’on peut avec ce qu’on a…
Clt