L'import des archives a laissé des centaines d'email en clair, lisibles désormais par les robots de spam

rastapopoulos · Juin 10, 2021, 3:08

Généralement les logiciels d’archivage de listes de discussion, comme le faisait Mail-Archive pour nos listes SPIP, mais aussi l’interface de Gmane (quand il y avait une interface de lecture) obfusquent TOUTES les adresses email trouvées, à commencer par les courantes dans les citations : Le 3 mai Machin <email> a écrit :

Mais ce n’est pas le cas de l’importation qui a eu lieu ici. Ce qui a pour conséquence d’avoir désormais des centaines d’adresses emails en clair, lisibles par les robots.

On peut en avoir un aperçu ici :

https://discuter.spip.net/search?q=mailto

J’ai fait cette recherche car j’ai moi-même reçu aujourd’hui un spam, qui citait un (très vieux) message d’une des listes. Et quand je l’ai cherché ici, une de mes anciennes adresses email était effectivement en clair dans une citation d’un des messages.

Du coup ping @loic est-ce qu’il y aurait une solution pour corriger cela ? C’est un peu tendancieux de se dire qu’il faudrait les corriger à la main quand on reçoit du spam au fur et à mesure qu’on le découvre, car vu le nombre ça parait impossible, et là concrètement on donne à manger à des robots un paquet d’adresses, et donc on provoque du spam chez potentiellement du monde. Du coup y a deux choses :

comment faire là maintenant après coup, pour obfusquer au mieux le maximum
c’est à garder en tête pour ton script d’import, pour que ça ne fasse pas pareil aux prochaines listes importées

loic · Juin 10, 2021, 3:34

C’est en effet un vrai problème et je ne l’avait pas vu. Je vais chercher dans https://meta.discourse.org/ voir s’il y a des discussions à ce sujet. Le coupable en l’occurrence est ce qui ingère les courriels: un module de discourse.

loic · Juin 10, 2021, 3:39

github.com

discourse/discourse/blob/master/script/import_scripts/mbox/settings.yml

# Directory where all emails and mbox files are stored.
data_dir: /shared/import/data

# Regular expression for splitting emails in mbox files.
# Choose one of the following examples that works for you or add your own regular expression.
split_regex: "^From .+@.+"
#split_regex: "^From .+@example.com.+"

# Listserv files
#split_regex: "^========================================================================="

# When each file contains only one email
#split_regex: ""

# Prefer the HTML part of emails instead of the plain text part.
prefer_html: true

# The trust level of users created by the import script.
default_trust_level: 1

This file has been truncated. show original

C’est pas la.

loic · Juin 10, 2021, 3:46

J’ai des choses sur le feu donc je ne vais pas creuser immédiatement mais pour éviter de perdre plus de temps j’ai posé la question ici:

loic · Juin 11, 2021, 9:31

La question vient d’être posée comme un nouveau sujet, avec l’espoir que cela suscitera plus d’intérêt. Je ne suis pas loin de penser que personne ne s’en est préoccupé jusque la mais je m’interroge sur le pourquoi.

loic · Juin 12, 2021, 7:37

La discussion a été fructueuse La conclusion n’est pas topissime mais au moins je suis assez certain qu’on a pas raté un truc évident par inattention (ouf). Ce qui me donne particulièrement confiance c’est le petit cœur ajouté par qui fait autorité sur l’import d’archives.

L’idée est donc d’obfusquer tous les courriels identifés par une expression régulière en modifiant la base de donnée de discourse. Comme il s’agit d’un changement assez intrusif pourriez-vous en discuter et me donner votre accord (ou pas ) ?

rastapopoulos · Juin 12, 2021, 8:14

ping @administrateurs (test de ping de groupe au passage)

maieul · Juin 18, 2021, 6:59

faut voir la gueule de l’expression regulière, histoire que les doubles arobase de saisies/affiche_si soient préseservé.s

loic · Juin 18, 2021, 7:39

Les détails sont la:

[0-9a-z._%+-]+@[a-z0-9.-]+\\.[a-z]{2,64}

maieul · Juillet 8, 2021, 2:46

ca m’a lair correct et ne devrait pas nous impacter nous.