Question : existe-t-il encore des sites SPIP non UTF-8 ?

Bonjour à toutes & tous,

Pour une question de nettoyage de code, je me demandais : est-ce qu’il existe encore des sites SPIP récents, maintenus (à jour de SPIP) qui n’utilisent PAS le charset UTF-8 en base de données ?

@George peut être ? à tout hasard ?

Autrement dit, est-ce que cela a encore du sens de maintenir du code pour gérer d’autres charsets ?

Merci de vos réponses :wink:

Je veux bien faire un script qui prendrait la liste des sites ici Des sites sous SPIP - SPIP et qui regarderait pour chacun quel est le charset renvoyé en HTTP (est-ce qu’on peut estimer que c’est le même que celui de la base ?) et la version de Spip indiquée dans les meta de la page d’accueil, si ça peut aider ?

Je sais que c’est pas bien de faire des robots, mais là ce serait « pour la bonne cause » :slight_smile:

Je pense que je peux trouver du temps demain pour faire ça. Si la liste de la page Des sites sous SPIP est déjà disponible au format CSV ça évitera l’étape de récupérer toutes les pages…

cette liste contient plus de sites « morts » (très anciens, plus sous spip, …) que de sites « vivants ».

le plugin spip-galaxie / univers_spip · GitLab tourne 24h/24 mais ne recueille pas spécifiquement cette info.

cette liste contient plus de sites « morts » (très anciens, plus sous spip, …) que de sites « vivants ».

Ca peut être une bonne occasion de faire du ménage :slight_smile:

+1
Il y a quelques jolis sites récents, mais effectivement si ça pouvait nous dire lesquels ne sont plus en SPIP, ça permettrait de nettoyer :slight_smile:

Cela signifierait supprimer environ les 2/3 de la liste (~12.000 sites référencés contre moins de 4.000 sites actifs pas forcément référencés dans la pétition). C’est à vous de voir …

Mais le sujet du topic, c’est lié à l’emploi d’un autre charset que UTF-8. :slight_smile: . Vous faites un autre topic pour le ménage ?

Bon, j’ai pu lancer mon script. J’ai pris les sites les plus récents de la liste, et sur ceux qui sont sans aucun doute en Spip 4 (ils ont le <meta name=« generator » avec Spip 4 et ses dérivés dedans), 100% ont un charset utf-8. Si je prends aussi en compte les Spip plus anciens, il y en a encore 4 en iso-8859-1 et en cp1252.

Test réalisé sur environ 5000 urls les plus récentes prises depuis la page Des sites sous SPIP. Sur ces 5000, il y en a 500 qui sont à 100% sûr des Spip, 700 qui sont à 100% sûr pas des Spip, 1400 où le domaine n’existe plus (DNS Lookup failed), et le reste est zone grise…

(je peux mettre mon script en pj si ça intéresse quelqu’un)

Ce sont quelles versions de SPIP les 4 qui ont des charsets différents ? (et hébergement chez Free? ou ailleurs)

Je me suis sans doute mal exprimé, mais nous avons déjà une liste de sites SPIP « vivants » à jour. Pour mémoire, le fonctionnement a été détaillé sur le blog et reste d’actualité. Le plus important à savoir étant que la pétition « Des sites sous SPIP » est toujours la source principale de cette liste.

En gros, sans jamais l’avoir nommé comme ça, la communauté dispose déjà d’un « bot » qui scanne tous les sites SPIP qu’on veut bien lui donner à analyser … (peut-être qu’un seul « bot » est suffisant ?)

Une PR sur univers_spip (voir lien plus haut) pour ajouter un champ SQL charset et le scan de l’entête http content-type ou d’un <meta http-equiv="="Content-Type" content="..." /> (parce que ça dépend du squelette sommaire.html du site et/ou de la version de spip …) dans les fonctions d’analyse fournirait l’info en moins de 24h à marcimat (qui à accès au serveur qui héberge le bot). :slight_smile:

1 « J'aime »

@marcimat des vieux Spip (2 et 3 je crois). Pour l’hébergement je ne sais pas!

Moi j’ai pris l’entête <meta charset et en fallback l’information HTTP content-type ; et pour la version spip, <meta name="generator"

J’ai fais un PR ici feat: rajouter le charset du site en base (!5) · Requêtes de fusion · spip-galaxie / univers_spip · GitLab

Je reviens sur ce que j’ai dit après quelques tests.

L’entête HTTP Content-Type (dont j’ai parlé dès le début) est présente systématiquement sur tous les SPIP vivants que j’ai testé, de SPIP1.9 à SPIP5.

C’est peut-être pas la peine de se prendre le chou avec les <meta .../>

Et pour ce qui est de la valeur, on peut tabler sur une longueur max de 40 :

https://www.iana.org/assignments/character-sets/character-sets.xhtml

2 « J'aime »

Et c’est parti, ça tourne en prod.

Merci @pierretux pour la PR. :+1:
Merci @maathieu pour tes initiatives :clap:

Il y aura des résultats en fin de journée ou demain matin …

1 « J'aime »

Merci à toi pour la mise en ligne

Merci à toi :slight_smile:

Après 18h30 environ de scan (c’est lent exprès parce que le serveur n’a pas que ça à faire), un peu plus de 63% des sites vérifiés ont donné leur charset.

Bilan : 2 charsets sont utilisés (je m’attendais à un troisième qui n’est toujours pas apparu)

  • UTF-8 sur 99.066% des sites,
  • ISO-8859-1 sur 0.934% des sites.

Les sites en ISO sont présents surtout sur des SPIP3.0 ou des SPIP3.2. On a 1 seul SPIP4.3 en ISO.

Résultat final dans la soirée ou demain matin, mais ça dit déjà des choses.

1 « J'aime »

Petite info supplémentaire :

détection via l’entête http : 99.27%
détection via les tags <meta ...> : 0.83%

Au final :

3896 SItes

pas d’info ISO-8859-1 UTF-8
0.795% 0.821% 98.383%

Pas dinfos :

Branche Nb. Sites
2.0 1
2.1 9
3.0 9
3.1 1
3.2 5
4.0 1
4.1 3
4.4 2

ISO-8859-1 :

Branche Nb. Sites
1.9 3
2.0 2
2.1 4
3.0 7
3.1 2
3.2 11
4.2 1
4.3 1
4.4 1

Merci

Et pour ceux sans info, tu as une idée de la où l’on pourrait la récupérer ? Ou bien c’est un charset pas logique ?