Se protéger du moissonnage de données chatGPT

maathieu · Août 18, 2025, 8:18

Merci, c’est une ressource intéressante, même si perso je ne suis pas très fan de certaines solutions proposées (Anubis en particulier fait faire du calcul au client pour « prouver qu’il est humain », ce qui peut être considéré comme un maliciel).

JLuc · Août 18, 2025, 8:45

Il semble que les robots aient craqué Anubis
« It seems like the AI crawlers learned how to solve the Anubis challenges. Anubis is a tool hosted on our infrastructure that requires browsers to do some heavy computation before accessing Codeberg again. It really saved us tons of nerves over the past months, because it saved us from manually maintaining blocklists to having a working detection for « real browsers » and « AI crawlers ».

However, we can confirm that at least Huawei networks now send the challenge responses and they actually do seem to take a few seconds to actually compute the answers. It looks plausible, so we assume that AI crawlers leveled up their computing power to emulate more of real browser behaviour to bypass the diversity of challenges that platform enabled to avoid the bot army.
»
cf https://social.anoxinon.de/@Codeberg/115033790447125787

maathieu · Septembre 3, 2025, 2:15

J’ai vu passer ça aujourd’hui :

« Google is forcing content creators to give away their content to be used in its AI offerings in order to remain in Google Search. » ( Google critics think the search remedies ruling is a total whiff | The Verge).

en Français « Google force les créateurs de contenus à autoriser l’utilisation de leurs contenus pour l’entraînement d’IA s’ils souhaitent être visibles sur Google Search » - c’est dans le cadre du procès antitrust contre Google.

Sur mon site je ne bloque pas le robot Google, mais est-ce que quelqu’un a déjà fait l’expérience de mettre ceci :

User-agent: Google-Extended
Disallow: /

Et si oui, qu’est-ce que ça donne ?

choucas · Septembre 3, 2025, 7:32

Bonjour,

j’ai ça sur un vieux site de test, mais comme je ne sais pas ce qu’est google search et ce qu’on doit attendre…
Clt

maathieu · Septembre 4, 2025, 7:09

Il s’agit des résultats dans le moteur de recherche Google (par exemple quand tu tapes une requête sur google.fr).

choucas · Septembre 4, 2025, 8:30

Bonjour,
Dans la vie réelle, autour de moi, on dit simplement google, je croyais que c’était un nouveau moteur IA style chatgpt. (ah, les noobs)
Merci d’avoir pris le temps de me renseigner. Je me suis donc penché sur le sujet.

Donc, à mon grand étonnement, ce site bidon est référencé sur google qui passe régulièrement avec d’autres :

|Googlebot|114|3.91 Mo|24 Aoû 2025 - 13:45|
|Barkrowler|23|237.67 Ko|15 Aoû 2025 - 15:08|
|checker|5|56.79 Ko|21 Aoû 2025 - 13:24|
|survey|2|22.13 Ko|11 Aoû 2025 - 15:03|
|Unknown robot identified by bot*|1|11.06 Ko|12 Aoû 2025 - 01:15|

(l’ordre semble être du plus actif au moins actif)

Encore plus étonnant, sur google, il arrive parfois en 2ième position avant les sites d’entreprise, voire en première position (6ieme pour la même requête sur duckduckgo) avant tous les sites institutionnels.
Après, n’étant pas créateur de contenu, j’échappe peut être à la vindicte de google, ou alors, comme de nombreux robots, il s’assoit sur les instructions.

Précisions :

cette instruction est dans le robot.txt, j’ignore si c’est cet emplacement que vous attendiez
La dernière version de ce fichier date d’il y a 10 mois mais comme, j’avais détruit en totalité le www, je suis incapable de dire si l’instruction était antérieure.

Mise à jour :
ce qu’il y a dans le fichier au cas où ce serait mal programmé donc inefficace

User-Agent: *
Disallow:

# blocking search results to prevent search result spam
# Disallow: /?s=*
# Disallow: /search/*

# AI crawlers
User-agent: anthropic-ai
User-agent: Bytespider
User-agent: CCBot
User-agent: ChatGPT-User
User-agent: cohere-ai
User-Agent: FacebookBot
User-agent: Google-Extended
User-agent: GPTBot
User-agent: Omgilibot
Disallow: /

# Google Ads
User-agent: AdsBot-Google
User-agent: AdsBot-Google-Mobile
User-agent: Mediapartners-Google
Disallow: /

Clt

maathieu · Septembre 8, 2025, 8:02

Bonjour !

Ta ligne

User-Agent: *
Disallow:

devrait être placée en fin de fichier. Elle autorise en effet tous les robots à parcourir ton site. Robots.txt est interprété ligne par ligne, et dès qu’une ligne matche, l’interprétation s’arrête, donc la seconde partie de tes règles n’est pas utilisée.

choucas · Septembre 8, 2025, 1:53

Bonjour,
Comme quoi, j’ai bien fait de mettre le code, ce qui signifie par ailleurs que mon intervention ne te sert à rien…
Désolé pour le bruit

maathieu · Septembre 8, 2025, 2:07

Non non, au contraire - si tu fais la modif, ça permettra de savoir ce qu’il en est

choucas · Septembre 9, 2025, 7:39

Bonjour,
ce site étant déjà indexé, ne serait-il pas mieux que je mette en place un nouveau site ?
A vous de voir

maathieu · Septembre 9, 2025, 12:39

Hey. Bon en fait c’est moi qui me suis trompé, d’après la RFC, robots.txt est parcouru en entier par le robot, qui doit d’abord chercher s’il trouve son nom et ses instructions ; et ensuite s’il ne trouve pas son nom, il prend les instructions par défaut (*). Donc dans ton cas il semble bien qu’empêcher Google-Extended de parcourir ton site n’empêche pas son indexation. Tant mieux