[Résolu] Site absent désindexé de Google

Gaston · Avril 20, 2025, 9:40

Bonjour à tous.tes, et joyeuses Pâques !
J’ai un souci avec un site pour un festival, on a toujours été en tête d-sur google, c’est un gros festival culturel qui existe depuis 9 ans, j’ai refait le site il y a un an (j’avais fait l’ancien site sous spip aussi), je suis en spip 4.4.3, mais je remarque qu’il a complètement disparu de google, j’ai corrigé une erreur dans le fichier sitemap.xml.html, un espace au début l’empechait d’etre visible.

J’utilise ensuite Google search consol, et quand je rentre d’importe qu’elle url pour demander une indexation, il me répond :

Disponibilité de la page : La page ne peut pas être indexée : Erreur serveur (5xx)

Le site en lien en cliqant ici https://weekendalest.com/

J’ai désactivé mes squelettes et mes plugins et j’ai le meme message alors que les pages sont accéssible…

Sur le même hébergement, j’ai plusieurs sous domaine, des différentes éditions précédentesqui sont eux bien indéxés… Je ne sais pas si cela vient de spip, ou de mon hébergement…

Merci si quelqu’un comprend ce qu’il se passe.

Gaston · Avril 20, 2025, 10:28

j’ai tentés avec l"'Ai de enregistré mes logs : (voici une partie)
213.180.203.19 weekendalest.com - [20/Apr/2025:00:00:40 +0200] « GET /robots.txt HTTP/1.1 » 429 130 « - » « Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) »
43.135.186.135 kiev.weekendalest.com - [20/Apr/2025:00:01:27 +0200] « GET /±Romain-Goupil-+ HTTP/1.1 » 200 1679 « - » « Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 »
47.128.41.227 varsovie.weekendalest.com - [20/Apr/2025:00:01:34 +0200] « GET /robots.txt HTTP/1.1 » 404 196 « - » « Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; spider-feedback@bytedance.com) »
87.250.224.214 weekendalest.com - [20/Apr/2025:00:02:40 +0200] « GET /robots.txt HTTP/1.1 » 429 130 « - » « Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) »
198.235.24.176 weekendalest.com - [20/Apr/2025:00:03:36 +0200] « GET / HTTP/1.1 » 200 14479 « - » « - »

Résumé de ce qu’on voit

Bots qui essaient de crawler :

YandexBot, SemrushBot, Bingbot, DotBot, Facebook (et d’autres).
Pas de trace visible de Googlebot ici (il est censé apparaître avec un User-Agent du genre :
"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)").

Presque toutes les requêtes vers /robots.txt retournent 429 :

Code 429 = Too Many Requests.
→ Cela signifie que le serveur rejette les requêtes des bots (probablement à cause d’une limitation côté hébergeur ou configuration).

Certains accès à des pages du site renvoient quand même 200 (OK), donc les pages en elles-mêmes sont accessibles.

Le problème vient du fichier robots.txt? Mais je comprends pas pourquoi spécifiquement pour ce site ?

Graphie · Avril 20, 2025, 10:29

Bonjour,

GoogleBot retourne une erreur 429 : Status 429 Too Many Requests.

Voir la discussion récente : [Résolu] Ecran de sécurité, Bing et autres GoogleBots... - #2 par b_b

Donc : define('_ECRAN_SECURITE_LOAD', 0);

Gaston · Avril 20, 2025, 10:44

Merci !

J’ai créer le fichier ecran_securite_options.php , et mis <?php
define(‹ _ECRAN_SECURITE_LOAD ›, 0);

Et Google search m’index mes pages.

quelques questions :

Mais faut-il s’attendre à le faire pour tout les sites ?
Le fichier est créé dans le dossier config, il ne sera pas supprimé après une mise a jour ?
Pourquoi ceci n’est pas corrigé par défaut dans la dernière version 4.4.3 ? (mon site était encore en 4.3.8 et je me suis dit qu’une mise à jour suffirait à régler ce souci )
** je viens de voir qu’un ticket en ce sens a été fait il y a 1 jour par [nicod]
Désactiver par défaut la restriction d'accès en fonction du load pour les bots (#14) · Tickets · spip-contrib-outils / securite · GitLab
Merci à lui.:;

En tout cas, je suis assez soulagé, sans comprendre pourquoi ce site en particulier…

Graphie · Avril 20, 2025, 11:10

Non.