Pour une question de nettoyage de code, je me demandais : est-ce qu’il existe encore des sites SPIP récents, maintenus (à jour de SPIP) qui n’utilisent PAS le charset UTF-8 en base de données ?
Je veux bien faire un script qui prendrait la liste des sites ici Des sites sous SPIP - SPIP et qui regarderait pour chacun quel est le charset renvoyé en HTTP (est-ce qu’on peut estimer que c’est le même que celui de la base ?) et la version de Spip indiquée dans les meta de la page d’accueil, si ça peut aider ?
Je sais que c’est pas bien de faire des robots, mais là ce serait « pour la bonne cause »
Je pense que je peux trouver du temps demain pour faire ça. Si la liste de la page Des sites sous SPIP est déjà disponible au format CSV ça évitera l’étape de récupérer toutes les pages…
Cela signifierait supprimer environ les 2/3 de la liste (~12.000 sites référencés contre moins de 4.000 sites actifs pas forcément référencés dans la pétition). C’est à vous de voir …
Mais le sujet du topic, c’est lié à l’emploi d’un autre charset que UTF-8. . Vous faites un autre topic pour le ménage ?
Bon, j’ai pu lancer mon script. J’ai pris les sites les plus récents de la liste, et sur ceux qui sont sans aucun doute en Spip 4 (ils ont le <meta name=« generator » avec Spip 4 et ses dérivés dedans), 100% ont un charset utf-8. Si je prends aussi en compte les Spip plus anciens, il y en a encore 4 en iso-8859-1 et en cp1252.
Test réalisé sur environ 5000 urls les plus récentes prises depuis la page Des sites sous SPIP. Sur ces 5000, il y en a 500 qui sont à 100% sûr des Spip, 700 qui sont à 100% sûr pas des Spip, 1400 où le domaine n’existe plus (DNS Lookup failed), et le reste est zone grise…
(je peux mettre mon script en pj si ça intéresse quelqu’un)
Je me suis sans doute mal exprimé, mais nous avons déjà une liste de sites SPIP « vivants » à jour. Pour mémoire, le fonctionnement a été détaillé sur le blog et reste d’actualité. Le plus important à savoir étant que la pétition « Des sites sous SPIP » est toujours la source principale de cette liste.
En gros, sans jamais l’avoir nommé comme ça, la communauté dispose déjà d’un « bot » qui scanne tous les sites SPIP qu’on veut bien lui donner à analyser … (peut-être qu’un seul « bot » est suffisant ?)
Une PR sur univers_spip (voir lien plus haut) pour ajouter un champ SQL charset et le scan de l’entête http content-type ou d’un <meta http-equiv="="Content-Type" content="..." /> (parce que ça dépend du squelette sommaire.html du site et/ou de la version de spip …) dans les fonctions d’analyse fournirait l’info en moins de 24h à marcimat (qui à accès au serveur qui héberge le bot).
Après 18h30 environ de scan (c’est lent exprès parce que le serveur n’a pas que ça à faire), un peu plus de 63% des sites vérifiés ont donné leur charset.
Bilan : 2 charsets sont utilisés (je m’attendais à un troisième qui n’est toujours pas apparu)
UTF-8 sur 99.066% des sites,
ISO-8859-1 sur 0.934% des sites.
Les sites en ISO sont présents surtout sur des SPIP3.0 ou des SPIP3.2. On a 1 seul SPIP4.3 en ISO.
Résultat final dans la soirée ou demain matin, mais ça dit déjà des choses.