Se protéger du moissonnage de données chatGPT

Bonjour tout le monde,

J’ai un ou deux sites qui ont récemment eu un pic de fréquentation assez important.
Je soupçonne donc un bot qui fait du moissonnage de données.

Sur l’un des sites, il y a un forum avec de vrais humains qui s’échangent des tuyaux depuis dix ans
Les modérateurs font un super travail d’animation.
Je trouve dommage que ce savoir et expertise soient pompés et privatisés par un bot.

Est que quelqu’un s’est penché sur la question et sur la façon dont on pourrait de protéger ? (via le serveur ? via le robots.txt ?)

Merci d’avance

Tu as un article sur le sujet assez fouillé ici : Comment bloquer le crawl de son site par ChatGPT et OpenAI

Et la documentation officielle d’OpenAI https://platform.openai.com/docs/gptbot

1 « J'aime »

Garder également un oeil sur le « Reservation Protocol » à l’initiative du W3C, en réponse à une directive européenne : TDM Reservation Protocol (TDMRep)

Je ne sais pas s’il est effectif à ce jour, mais à terme ça semble être la meilleure solution, plutôt que des instructions dans robots.txt (la liste des user-agents IA évolue sans cesse).

L’avantage du TDM est qu’il concerne tous les moissonneurs, pas uniquement les bots IA.
De plus ça permet de définir des règles granulairement, pour chaque contenu : « tels contenus du site peuvent être moissonnés par tout le monde », « tels autres uniquement à des fins de recherche », « tels autres uniquement contre rémunération », etc.

Concrètement si on veut tout « bloquer », on peut ajouter un fichier JSON dans .well-known ou bien des metas dans le HTML, ou bien directement dans les entêtes HTTP.

Enfin, tout cela reste au bon vouloir des moissonneurs, tout dépend s’ils respectent les instructions.

2 « J'aime »

J’ai mis les règles décrites par @RealET sur mon robots.txt, puis l’autre jour j’ai utilisé Bing Chat (l’IA assistant conversationnel de Microsoft) pour vérifier un truc et il m’a tranquillement sorti des informations directement sourcées depuis mon site… lol. Je me demande si je ne devrais pas aussi bloquer Bing.

Je pense que ca va être difficile de trouver une solution élégante là tout de suite, car c’est difficile de bloquer les crawlers un par un. L’idée du TDM Reservation Protocol est intéressante, même si j’avais des réserves au début car le groupe qui la construit comprend des personnes qui font du datamining et de l’IA. Le principe ce serait de définir à quelles fins le crawl automatisé est autorisé, plutôt que de le définir quels crawlers peuvent ou pas traverser le site (comme avec robots.txt). Au début j’avais l’impression qu’ils imaginaient un système compliqué exprès pour qu’il soit impossible à mettre en oeuvre et que du coup ça soit open bar, mais ils ont avancé sur leur proposition, pris en compte des remarques remontées par la communauté, et ça commence à devenir pas mal. Mais bon c’est encore loin d’être un standard, aucun crawler ne l’implémente… Et je trouve que ça reste bien compliqué…

J’ai aussi observé ça, je pense qu’on pourrait déjà commencer par mettre à jour la liste des bots repérés par SPIP, afin d’éviter que ceux-ci ne faussent les stats de visite cf #4909 - +Robot - spip - SPIP on GIT & #4493 - Ajouter des robots à l'écran de sécurité - spip - SPIP on GIT par exemple.

1 « J'aime »

Le mercredi 20 décembre 2023 à 11:09 +0000, erational via Discuter de
SPIP a écrit :

Bonjour tout le monde,

J’ai un ou deux sites qui ont récemment eu un pic de fréquentation
assez important.
Je soupçonne donc un bot qui fait du moissonnage de données.

Sur l’un des sites, il y a un forum avec de vrais humains qui
s’échangent des tuyaux depuis dix ans
Les modérateurs vont un super travail d’animation.
Je trouve dommage que ce savoir et expertise soient pompés et
privatisés par un bot.

Est que quelqu’un s’est penché sur la question et sur la façon dont
on pourrait de protéger ? (via le serveur ? via le robots.txt ?)

Merci d’avance

Bonjour,

Je constate 2 pics de visites - très forts, x3 par rapport au trafic
habituel - dans les stats SPIP pour les lundi 11/12 et mardi 12/12.

Je suis en train de « fouiller » les logs Apache par curiosité.

Est ce que les dates correspondent avec les pics que tu as constaté ?

Merci,

Eric

J’ai trouvé le « coupable » pour le 11/12. C’est une IP asiatique type « (…) et les 40 voleurs ».

Il s’agit peut-être d’une tentative de SPAM ou ?, en tout cas cette IP est listée ainsi sur https://check.spamhaus.org/listed/?searchterm :

" The machine using this IP is infected with malware that is emitting spam or is sharing a connection with an infected device.

As a result, this IP address is listed in the eXploits Blocklist (XBL)

Click on Show Details to see if you can request a delisting from this blocklist. This will also display any further information we have relating to this listing."

Cordialement,

Eric

@b_b les 2 tickets que tu cites sont fermés.

Mais au vu de Comment bloquer le crawl de son site par ChatGPT et OpenAI cité par @RealET , le user agent de chat gpt est Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) et celui des plugins est Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot donc a priori ils sont détectés comme bots par SPIP puisqu’il y a ‹ bot › dedans. Mais ça ne veut pas dire qu’ils sont bloqués.

Bonjour,

La plupart des outils de collecte de contenu des AI génératives … n’utilisent pas que le crawl direct. Ils utilisent également les données collectées par d’autres outils (archivage, autres outils de crawl …) mais aussi ceux collectés par le biais de certains navigateurs webs et leurs plugins.

Donc à priori, bloquer les bots d’openAI, bloquera ce moyen, mais pas les autres … Et, en bloquant ceux-ci, on empêche l’éventuel/hypothétique lien retour sur la source.

C’est un peu comparable à l’index Google, ne pas y être, protège le contenu, mais empêche sa découverte et la venue de visiteurs par ce biais …

Cordialement,

Eric

PS : merci pour l’info sur le repérage des bots par SPIP et la non incidence sur les stats si le user agent contient les bons mots. Je pense que certains « crawler AI » utilisent des user agents standards.

les 2 tickets que tu cites sont fermés.

Je les citais pour référence, le contenu de leurs commentaires permettant de comprendre où agir.

Tu as vérifié que ces users agent sont bien pris en compte lors du filtrage à l’aide de _IS_BOT ?

Je ne suis pas certain de comprendre ta question mais je viens de vérifier* qu’avec ces user agents, _IS_BOT vaut 1 (true), oui (comme tous les user agents ayant ‹ bot ›, ‹ crawler › ‹ spider ›, etc dans leur nom)
* avec un plugin agent user switcher de Firefox

Je suis tombé là dessus sur Mastodon :
Dark Visitors, A list of known AI agents on the internet

1 « J'aime »

Le jeudi 01 février 2024 à 08:56 +0000, b_b via Discuter de SPIP a
écrit :

Ça semble en lien avec cette discussion
Se protéger du moissonnage de données chatGPT
:wink:

Bonjour,

Je vais donc continuer sur le fil indiqué.

Pour test :

1 - robots.txt

J’ai mis en place : les mentions adéquates dans le fichiers
robots.txt.html pour ChatGPT et autres.

En effet, pour certains articles, Bing, reformule le snippet/résumé de
manière pas toujours heureuse : confusion des genres par exemple pour
les articles définis.

Quand c’est le cas, un clic sur la petite flèche à côté du titre de cet
article dans la page des résultats affiche une étiquette : « générer par
AI ».

2 - test de ai.txt

voir ici :

Ici, contrairement au fichier robots.txt, il est possible d’indiquer le
type de ressources utilisables ou pas : .js, .jpg, .mp4, .html …

3 - test de ce protocole : TDM Reservation Protocol (TDMRep)

J’ai utilisé la méthode « fichier TDM »

Un fichier tdmrep.json placé dans le dossier .well-known qui indique
que par défaut tout usage concernant le minage/fouille de données à des
fins d’entrainement LLM … est interdit (opt-out).

Mais aussi un second fichier - policy.json
TDM Reservation Protocol (TDMRep) - qui indique
qu’il est nécessaire d’obtenir un accord pour cet usage et que la porte
n’est pas complètement fermée - par exemple l’utilisation de
photographies pour entraîner un modèle à la manière d’une appli de
reconnaissance botanique …) .

Deux autres méthodes sont disponibles :
TDM Reservation Protocol (TDMRep) ,
TDM Reservation Protocol (TDMRep)

4 - J’ai indiqué cela dans la charte d’usage du site :

"En accord avec le droit européen (Directive Européenne sur le droit
d’auteur et les droits voisins dans le marché unique numérique), les
titulaires des droits sur les œuvres graphiques ou textuelles sont
tenus d’indiquer de manière électroniquement lisible si leur contenu ne
peut-être utilisé dans un but d’extraction des connaissances dans le
cadre de l’entraînement d’applications d’intelligence artificielle que
le cadre soit commercial ou non.

Pour les usages de data mining (TDM) exclusivement, nous avons donc
opté, pour le « opt-out », pas d’accord, sauf sur demande et autorisation
expressement signifiée. En cas de demande, les auteurs concernés seront
contactés par nous pour approbation."

Epilogue :

rem : en l’absence de l’implémentation de l’une de 3 méthodes de
TDM Reservation Protocol (TDMRep) il est considéré, dans le droit
européen - Titre II - Article 4 de la directive (
L_2019130FR.01009201.xml
) que le contenu est utilisable (commercialement ou pas) : opt-in par
défaut.

Je teste …

Cordialement,

Eric

PS : mes logs apache contiennent des demandes régulières du fichier tdmrep.json depuis l’été dernier.

1 « J'aime »

Bonjour @ericl , merci pour tes essais et ta recherche sur ces questions ! J’en étais resté au fait que le TDM n’était pas encore un standard… Si les robots commencent à l’utiliser, tant mieux.

Je ne savais pas que le droit européen avait consacré l’opt-out, c’est évidemment mieux pour les sociétés qui font de l’IA car ça limite leur risque juridique (en gros ça dit qu’en l’absence d’information sur le site mentionnant que le scraping est interdit, alors il est autorisé).

Je me demande comment va évoluer le web avec tout ça. Si je peux directement obtenir les informations que je veux avec ChatGPT, est-ce que je vais encore aller poser des questions à des gens sur des forums sur internet ? Est-ce qu’à terme ça ne risque pas d’assécher la participation des utilisateurs et de rendre le web encore moins vivant qu’il ne l’est à l’heure actuelle ?