L'import des archives a laissé des centaines d'email en clair, lisibles désormais par les robots de spam

Généralement les logiciels d’archivage de listes de discussion, comme le faisait Mail-Archive pour nos listes SPIP, mais aussi l’interface de Gmane (quand il y avait une interface de lecture) obfusquent TOUTES les adresses email trouvées, à commencer par les courantes dans les citations : Le 3 mai Machin <email> a écrit :

Mais ce n’est pas le cas de l’importation qui a eu lieu ici. Ce qui a pour conséquence d’avoir désormais des centaines d’adresses emails en clair, lisibles par les robots.

On peut en avoir un aperçu ici :

https://discuter.spip.net/search?q=mailto

J’ai fait cette recherche car j’ai moi-même reçu aujourd’hui un spam, qui citait un (très vieux) message d’une des listes. Et quand je l’ai cherché ici, une de mes anciennes adresses email était effectivement en clair dans une citation d’un des messages.

Du coup ping @loic est-ce qu’il y aurait une solution pour corriger cela ? C’est un peu tendancieux de se dire qu’il faudrait les corriger à la main quand on reçoit du spam au fur et à mesure qu’on le découvre, car vu le nombre ça parait impossible, et là concrètement on donne à manger à des robots un paquet d’adresses, et donc on provoque du spam chez potentiellement du monde. Du coup y a deux choses :

  1. comment faire là maintenant après coup, pour obfusquer au mieux le maximum
  2. c’est à garder en tête pour ton script d’import, pour que ça ne fasse pas pareil aux prochaines listes importées :slight_smile:
2 J'aime

C’est en effet un vrai problème et je ne l’avait pas vu. Je vais chercher dans https://meta.discourse.org/ voir s’il y a des discussions à ce sujet. Le coupable en l’occurrence est ce qui ingère les courriels: un module de discourse.

C’est pas la.

J’ai des choses sur le feu donc je ne vais pas creuser immédiatement mais pour éviter de perdre plus de temps j’ai posé la question ici:

La question vient d’être posée comme un nouveau sujet, avec l’espoir que cela suscitera plus d’intérêt. Je ne suis pas loin de penser que personne ne s’en est préoccupé jusque la mais je m’interroge sur le pourquoi.

La discussion a été fructueuse :tada: La conclusion n’est pas topissime mais au moins je suis assez certain qu’on a pas raté un truc évident par inattention (ouf). Ce qui me donne particulièrement confiance c’est le petit cœur ajouté par image qui fait autorité sur l’import d’archives.

L’idée est donc d’obfusquer tous les courriels identifés par une expression régulière en modifiant la base de donnée de discourse. Comme il s’agit d’un changement assez intrusif pourriez-vous en discuter et me donner votre accord (ou pas :smiley: ) ?

ping @administrateurs (test de ping de groupe au passage) :slight_smile:

1 J'aime

faut voir la gueule de l’expression regulière, histoire que les doubles arobase de saisies/affiche_si soient préseservé.s

Les détails sont la:

[0-9a-z._%+-]+@[a-z0-9.-]+\\.[a-z]{2,64}

ca m’a lair correct et ne devrait pas nous impacter nous.