Se protéger du moissonnage de données chatGPT

ericl · Février 1, 2024, 12:32

Le jeudi 01 février 2024 à 08:56 +0000, b_b via Discuter de SPIP a
écrit :

Ça semble en lien avec cette discussion
Se protéger du moissonnage de données chatGPT

Bonjour,

Je vais donc continuer sur le fil indiqué.

Pour test :

1 - robots.txt

J’ai mis en place : les mentions adéquates dans le fichiers
robots.txt.html pour ChatGPT et autres.

En effet, pour certains articles, Bing, reformule le snippet/résumé de
manière pas toujours heureuse : confusion des genres par exemple pour
les articles définis.

Quand c’est le cas, un clic sur la petite flèche à côté du titre de cet
article dans la page des résultats affiche une étiquette : « générer par
AI ».

2 - test de ai.txt

voir ici :

Ici, contrairement au fichier robots.txt, il est possible d’indiquer le
type de ressources utilisables ou pas : .js, .jpg, .mp4, .html …

3 - test de ce protocole : TDM Reservation Protocol (TDMRep)

J’ai utilisé la méthode « fichier TDM »

Un fichier tdmrep.json placé dans le dossier .well-known qui indique
que par défaut tout usage concernant le minage/fouille de données à des
fins d’entrainement LLM … est interdit (opt-out).

Mais aussi un second fichier - policy.json
TDM Reservation Protocol (TDMRep) - qui indique
qu’il est nécessaire d’obtenir un accord pour cet usage et que la porte
n’est pas complètement fermée - par exemple l’utilisation de
photographies pour entraîner un modèle à la manière d’une appli de
reconnaissance botanique …) .

Deux autres méthodes sont disponibles :
TDM Reservation Protocol (TDMRep) ,
TDM Reservation Protocol (TDMRep)

4 - J’ai indiqué cela dans la charte d’usage du site :

"En accord avec le droit européen (Directive Européenne sur le droit
d’auteur et les droits voisins dans le marché unique numérique), les
titulaires des droits sur les œuvres graphiques ou textuelles sont
tenus d’indiquer de manière électroniquement lisible si leur contenu ne
peut-être utilisé dans un but d’extraction des connaissances dans le
cadre de l’entraînement d’applications d’intelligence artificielle que
le cadre soit commercial ou non.

Pour les usages de data mining (TDM) exclusivement, nous avons donc
opté, pour le « opt-out », pas d’accord, sauf sur demande et autorisation
expressement signifiée. En cas de demande, les auteurs concernés seront
contactés par nous pour approbation."

Epilogue :

rem : en l’absence de l’implémentation de l’une de 3 méthodes de
TDM Reservation Protocol (TDMRep) il est considéré, dans le droit
européen - Titre II - Article 4 de la directive (
L_2019130FR.01009201.xml
) que le contenu est utilisable (commercialement ou pas) : opt-in par
défaut.

Je teste …

Cordialement,

Eric

PS : mes logs apache contiennent des demandes régulières du fichier tdmrep.json depuis l’été dernier.