[spip-dev] ae, oe, AE, OE

Ci-joint ce que j'ai pu pondre jusqu'ici pour gérer la correction
des oe, et ae dans les entités HTML qui vont bien.
Reste à faire la même chose pour d'autres caractères spéciaux.

Le code demande un peu de mise en ordre, mais je pense que tout y est.
Reste à voir si cela répond au mieux au problème; j'en ai l'impression,
mais peux me tromper.

Une remarque, au passage : il me semble impossible d'avoir un
"correcteur" exhaustif (il y aura forcément des retouches à faire
"à la main").
Par exemple, avec "oeconomie" (latin, j'imagine). Si on fait abstraction
de l'accent, le mot macroéconomie (sauf si on l'écrit macro-économie,
mais tout le monde n'est pas forcément d'accord là-dessus) rentre dans
la correction à faire. Vous me direz que c'est un défaut de mon
correcteur qui ne prend en compte que la racine "oeconomie"; mais je
ne suis pas sûr que cet exemple soit isolé, ni le plus explicite.

Solution complémentaire, faire une liste des mots stricts à corriger,
en plus de la liste des racines. Cela permet de traiter la plupart des
mots, sauf des exceptions.

J'attends vos commentaires.
Il y a une fonction de test en fin de page.

romain.

liste.php.gz (3.29 KB)

Ok. Je viens de me rendre compte (ça aurait pourtant dû
m'apparaitre plus tôt...) que j'ai mélangé termes à corriger
et exceptions.

Bon, je revois ma copie, et je reviens.

romain.

Franchement, je pense que c'est insoluble comme problème.

Par exemple, théoriquement "aegir" s'écrit "ægir", alors si je mets dans un
article "écrivez-moi, mon email est aegir@linuxfrench.net" que va-t-il se
passer ?

Je suis d'accord, c'est se faire des trous dans la tête pour
pas grand'chose....

En fait, pour être plus direct, c'est que je pense qu'aucun logiciel ne fera
écrire en français correct un illettré...

Ce qui est en revanche tout à fait imaginable (et potentiellement très utile),
c'est un fonction qui va afficher l'article en surlignant ce que le logiciel
considère comme "douteux".

Et puis, pour terminer, je vous invite à vous rappeler ce à quoi ressemblent
les poèmes de queneau ou aragon.... ils n'auraien jamais pu être publiés si
le système de publication avait transformé leur texte...

Le Aragon d'aujourd'hui pourrait-il utiliser SPIP avec ce genre de fonctions ?

et si yavait à l'écran les touches qui manquent au clavier :
un bouton pour chaque ae, oe, AE, OE ?
JLuc

LEFEBVRE Herve wrote:

C'était bien aussi l'idée de souligner avec un lien sensible partout dans la prévisualisation les mots où où il ya un ae oe etc.
Et sur un clic de l'auteur sur le lien, ça se transforme en caractère ligaturé.
JLuc

Romain d'Alverny wrote:

> et si yavait à l'écran les touches qui manquent au clavier :
> un bouton pour chaque ae, oe, AE, OE ?
Ben en fait, je pense que c'est comme ça que ca va finir. :slight_smile:

Mon idée n'est pas du tout celle-là : il s'agit d'avoir un système capable
de "nettoyer" une base de données une fois pour toutes, pas un filtre
correcteur d'orthographe qui s'appliquerait à chaque calcul de page...
L'idée serait de stocker les textes proprement, avec des ligatures, quitte à
les déligaturer pour affichage à l'écran. Bon, je ne dis pas que ça va
servir à tout le monde, mais si on envisage de sortir des PDFs ou autre,
c'est dommage de ne pas avoir ces ligatures...

Au passage, pour la fonctino typo_fr(), il faudrait remplacer
également les ' par des ’ (question de typo française).

Là, j'ai pas compris :wink:

-- Fil

Fil wrote:

Mon idée n'est pas du tout celle-là : il s'agit d'avoir un système
capable de "nettoyer" une base de données une fois pour toutes, pas un
filtre correcteur d'orthographe qui s'appliquerait à chaque calcul de
page...

Ok. J'avais compris encore autre chose au début : un filtre s'appliquant
à chaque édition d'un texte dans l'admin.
Ca ne change rien, de toutes façons, ce sont les mêmes fonctions qui
font l'affaire.

L'idée serait de stocker les textes proprement, avec des
ligatures, quitte à les déligaturer pour affichage à l'écran.

Ok. Pas besoin de les déligaturer si on les affiche à l'écran,
il n'y a pas de raisons.
Juste une question :
on stocke les ligatures sous quelle forme ? œ Œ ou
un autre code ?

J'ai juste un certain doute; pour corriger les ligatures, il faut
s'en tenir à une liste de mots ou de racines type à corriger.
C'est ce que j'ai codé et posté; le "fil rouge" de ce système
consiste à avoir une liste de racines bien déterminées (et pas
une liste de mots, car ingérable en volume).
Tout le problème est là, et je n'y arriverais pas seul, et cette
liste ne sera pas complète/correcte en peu de temps, je pense.

Il y a également toutes les sortes d'exceptions à traiter :
- si la ligature est dans une URL, pas question de la corriger;
- si... (s'il y a d'autres exceptions, il faut les trouver).

Ce qu'on pourrait également faire, c'est une fonction qui trie
les textes "à risque" (comportant des suites "ae" ou "oe"),
qui comptabilise le nombre de ces ligatures dans chaque texte,
qui comptabilise le nombre de ces ligatures dans chaque texte
_après_ filtrage des exceptions, et qui propose à l'admin,
par la suite, de corriger ces textes.
L'admin qui devra, idéalement, toujours jeter un oeil sur le
résultat.

Au passage, pour la fonctino typo_fr(), il faudrait remplacer
également les ' par des ’ (question de typo française).

Là, j'ai pas compris :wink:

Il me semble que l'apostrophe bien française, ca n'est pas le
"truc" vertical, mais bien une jolie telle qu'un ’ donne.
A débattre, mais il me semble bien que c'est cela, et graphiquement,
c'est sans comparaison en terme de lisibilité et de confort.

(il me semble bien qu'il y a une fonction typo_fr() dans
ecrire/inc_texte.php ?)

romain.

JLuc wrote:

C'était bien aussi l'idée de souligner avec un lien sensible partout
dans la prévisualisation les mots où où il ya un ae oe etc.
Et sur un clic de l'auteur sur le lien, ça se transforme en caractère
ligaturé.

L'idée est bonne, mais j'ai du mal à concevoir le truc,
techniquement parlant ? Javascript (je ne suis pas un grand fan,
à tort peut être) ?

romain.

C'est pourtant la seule solution. Le JS est très pratique, quand il sert
à offrir quelque chose en plus. Pas quand il est obligatoire. Là, en
l'occurence, ce serait pas mal...

J'ai peur de comprendre... vous voulez nous infliger ce genre d'usine
à gaz juste pour corriger des "oe" ?!!!

J'ai peur de comprendre... vous voulez nous infliger ce genre d'usine
à gaz juste pour corriger des "oe" ?!!!

Non, je crois qu'ils rigolent, t'inquiète pas :wink:

-- Fil

Fil wrote:

J'ai peur de comprendre... vous voulez nous infliger ce genre d'usine
à gaz juste pour corriger des "oe" ?!!!

Non, je crois qu'ils rigolent, t'inquiète pas :wink:

Non, mais l'idée est bonne (avec du javascript - mais ca me semble
néanmoins beaucoup de boulot pour pas grand chose), pour revoir des
zones sensibles (si on n'arrive décidément pas à traiter tout
automatiquement).

Que pensez-vous de ma solution précédente :
- filtrer tous les textes ayant des ligatures ou des "oe"/"ae";
- filtrer parmi ceux-ci ceux ayant des ligatures hors exceptions
   (dans une URL ou autre ?)
- compter les occurences des ligatures potentielles dans chaque
   texte;
- traiter ces textes
- les présenter à l'admin (ou l'auteur) pour vérification
   (éventuelle, mais une relecture sera toujours nécessaire).

Que ce soit implémenté juste pour faire une mise à jour complète
de la base de données à un instant t, ou pour chaque texte édité,
à l'attention de son auteur, n'est pas le plus gros souci.

romain.

voilà qui donquichotise la quête fondamentale
des intrépides pourfendeurs de ligatures...
N'empêche ! ya des gaz rares et très utiles !
JL

Antoine wrote:

J'ai peur de comprendre... vous voulez nous infliger ce genre d'usine
à gaz juste pour corriger des "oe" ?!!!

Non, je crois qu'ils rigolent, t'inquiète pas :wink:

Non

...

Que pensez-vous de ma solution précédente :
- filtrer tous les textes ayant des ligatures ou des "oe"/"ae";
- filtrer parmi ceux-ci ceux ayant des ligatures hors exceptions
   (dans une URL ou autre ?)
- compter les occurences des ligatures potentielles dans chaque
   texte;
- traiter ces textes
- les présenter à l'admin (ou l'auteur) pour vérification
   (éventuelle, mais une relecture sera toujours nécessaire).

J'en pense que ça irait plus vite d'aller les corriger à la main,
les trois ligatures rencontrées tous les cent mille caractères....

Si tu veux faire un "beautifyer", je suggère la chose suivante :
- un machin qui s'occupe aussi des guillemets français et deux
trois autres problèmes récurrents (à définir)
- appelable par un bouton quelconque en page d'article ("fignoler
la typographie", un truc dans le genre)

Si c'est une moulinette à usage sur toute la base, c'est ingérable
(comment vérifier que ça n'a pas foiré certains textes ?).

a+

Si tu veux faire un "beautifyer", je suggère la chose suivante :
- un machin qui s'occupe aussi des guillemets français et deux trois
  autres problèmes récurrents (à définir)
- appelable par un bouton quelconque en page d'article ("fignoler la
  typographie", un truc dans le genre)

Ce serait aussi à mon avis la meilleure solution, ça permettrait
notamment de gérer les ligatures en cours d'écriture sans avoir à
connaître les entités HTML correspondantes ...

-Nicolas

> Si tu veux faire un "beautifyer", je suggère la chose suivante :
> - un machin qui s'occupe aussi des guillemets français et deux trois
> autres problèmes récurrents (à définir)

Oui, les notes pas automatiques, c'es mon souci numéro deux :wink:

    Toto (1) a dit...
    [[<>(1) 0+0.]]

à transformer en

    Toto[[0+0.]] a dit...

-- Fil

Antoine wrote:

Non, je crois qu'ils rigolent, t'inquiète pas :wink:

Non

...

Non, mais l'idée est bonne, pour revoir des zones sensibles.
Lors de la relecture par un auteur; pas pour retraiter toute
la base; ce ne sont que des idées.

Que pensez-vous de ma solution précédente :
[...]

J'en pense que ça irait plus vite d'aller les corriger à la main,
les trois ligatures rencontrées tous les cent mille caractères....

Tout dépend de quoi parle le texte; s'il ça parle d'art, il y a fort
à parier que le mot "oeuvre" ressorte pas mal.
S'il y a des citations latines, si ça traite des désastreuses
conséquences gastriques chez le jeune enfant lorsque son paternel
le soustrait des bras de sa mère, voir si ça parle des expérimentations
artistico-conceptuelles d'un lambda, il risque d'y avoir pas mal de
"oe" dans le champ de bataille.
Bon, d'accord, c'est "un peu" cappillotracté; mais bon.
On sait jamais. :slight_smile:

Si tu veux faire un "beautifyer", je suggère la chose suivante :
- un machin qui s'occupe aussi des guillemets français et deux
trois autres problèmes récurrents (à définir)
- appelable par un bouton quelconque en page d'article ("fignoler
la typographie", un truc dans le genre)

Il y a des règles typographiques que l'on peut appliquer d'office
(espaces insécables, guillemets, apostrophes, points de suspension);
sauf si on considère qu'elles n'ont pas d'importance.

Il y a celles qu'on ne peut pas appliquer, car elles sont du ressort
de l'auteur (les tirets, par exemple).

Pour les ligatures, on peut faire ce genre de "beautifyer" dans le
textarea; sous cette forme, ca aura l'avantage de laisser à l'auteur
la pleine responsabilité de la gueule de son texte.

Si c'est une moulinette à usage sur toute la base, c'est ingérable

Ah, ca, je suis tenté d'approuver, mais il faudrait vous mettre
d'accord : c'est Fil qui en a parlé le premier ! :-p
(j'étais de passage, j'ai pris le bébé car il semblait intéressant
à traiter).
Ingérable, je ne pense pas. Délicat, oui.

(comment vérifier que ça n'a pas foiré certains textes ?).

En faisant une revue du texte, justement, pour isoler les corrections
à faire, les présenter à l'admin, dans leur contexte (ie, 2 mots avant
et 2 mots après la ligature), lequel admin peut valider ou non telle
ou telle modif, puis envoyer la sauce. C'est sans aucun doute du boulot,
reste à voir si ca en vaut la peine.

romain.

Ce que je ne comprends pas, c'est pourquoi faire des usines à gaz comme ça
pour faire des saisie à la souris, pourquoi ne pas les faire au clavier ?

Parce que si on continue sur ce principe, pourquoi ne pas faire tourner un
correcteur orthographique sur toute la base de données ? Et pour la typo,
pourquoi se limiter aux æ ou œ ? POurquoi ne pas correiger les « », et
surtout les lettres majuscules qu'on voit trop souvent non accentuées alors
qu'elles devraient l'être.