Etiquettes de langue

From Stephane Bortzmeyer <steph...@sources.org>
Subject Re: [spip-trad] Étiquettes de langutiquettes de langue
Date Fri, 01 Jun 2007 20:39:15 GMT

> Salut Stéphane !

Bonjour, Fil et les traducteurs,

On a par exemple un peu tâtonné pour les langues suivantes :
* occitans oc_*

En ISO 639-2, c'était bien "oc". En ISO 639-3, c'est devenu une
macro-langue qui inclus des langues comme gascon (gsc) ou languedocien
(lnc).

Utiliser la rfc 4646 bis (1) et la liste de codes iso 639-3 (2) aurais permis
d'avoir des identifiants standards pour les dialectes de la langue d'oc (3)
étiquettés par SPIP (4). Ce n'est plus possible, ces codes ayant été retirés (5).

Ce n'est pas que la norme soit parfaite, c'est
qu'elle existe et forme une référence.

Exactement. Autant je n'aime pas que ISO 639-3 appelle langues des choses qui sont de
toute évidence des dialectes, et qu'elle aurait pu qualifier d'idiomes ou de parlers si
il fallait absolument faire politiquement correct, autant j'aurais apprécié de pouvoir
écrire le groupe d'identifiants oc* dans un format normé.

* chinois zh_* (écritures "traditionnelle" et "simplifiée", allant
ou non avec des variations de choix de mots)

zh aussi est devenu une macro-langue en ISO 639-3, qui inclus le min
dong, le mandarin, le hakka, le cantonais... En écriture
traditionnelle, zh-Hant, en simplifié, zh-Hans.

zh_tw ( http://trac.rezo.net/trac/spip/browser/spip/ecrire/inc/lang_liste.php#L131 )
pourrait être changé en zh_Hant_tw

> * (serb(e|o-))(croate|monténégrin|...) sh_* avec ses écritures
> cyrilliques ou non

Là aussi, question sensible

Aucun problème, sh sera valide à nouveau en tant que hbs
http://www.sil.org/iso639-3/documentation.asp?id=hbs
Autant dire que c'est encore pire.

SPIP restera (je l'espère) donc en ISO 639-1 avec sh, sr, hr, bs comme suffixes de langues,
et Cyrl et Latn comme suffixes d'alphabets.

Par ailleurs on emploie le underscore alors que visiblement il
faudrait tout faire avec des tirets.

Oui

D'après Language Tags and Locale Identifiers for the World Wide Web , le souligné est utilisé pour distingues les portions
d'une « locale » (par exemple celles de CLDR Unicode CLDR Project ),

fr-latn-fr_latn_utf-8 indique que je veux du français (alphabet latin) comme langue, latin
comme alphabet, utf-8 comme charset

Donc pas vraiment pour les langues seules.
Et pour les indications de langues en html et xml, il faut des tirets
(sauf lecteur très tolérant).

1 : http://tools.ietf.org/wg/ltru/draft-ietf-ltru-4646bis/
draft-ietf-ltru-4646bis-23
2 : ISO 639-3 |
3 : Occitan (post 1500)
4 : Voir oc, oc_auv, oc_gsc, oc_lms, oc_lnc, oc_ni, oc_ni_la, oc_prv, oc_va dans
http://trac.rezo.net/trac/spip/browser/spip/ecrire/inc/lang_liste.php
ainsi que http://mag.spip.net/article53.html et http://mag.spip.net/IMG/jpg/dialectes_oc.jpg
5 : entre draft-ietf-ltru-4645bis-01
et draft-ietf-ltru-4645bis-02
http://www.sil.org/iso639-3/documentation.asp?id=auv
http://www.sil.org/iso639-3/documentation.asp?id=gsc
http://www.sil.org/iso639-3/documentation.asp?id=lms
http://www.sil.org/iso639-3/documentation.asp?id=lnc
http://www.sil.org/iso639-3/documentation.asp?id=prv