[spip-dev] codeurs ?

Coucou,

s'il y a parmi vous des gens intéressés à écrire un filtre qui traite le
"E dans l'O", dans un sens (facile) et dans l'autre (dur), je tiens à votre
disposition une liste des mots qui les contiennent (coeur, soeur, etc...)

Sinon je finirai par le faire moi-même, hein :wink:

-- Fil

Fil wrote:

s'il y a parmi vous des gens intéressés à écrire un filtre qui traite
le "E dans l'O", dans un sens (facile) et dans l'autre (dur), je tiens
à votre disposition une liste des mots qui les contiennent (coeur,
soeur, etc...)

Hmmm... je veux bien m'y coller, mais... il me semble qu'il n'y a pas
de mot avec 'oe' sans que ça ne soit un "e dans l'o" ?
(en cours : qu'il n'y a que ça) Si ?

Ca ne serait compliqué ni dans un sens, ni dans l'autre, du coup.
Je m'a gourré ?

romain.

Gaffe, il risque d'y avoir des tripotées de "oe" dans d'autres langues, non? Genre l'allemand?

A*

>>s'il y a parmi vous des gens intéressés à écrire un filtre qui traite
>>le "E dans l'O", dans un sens (facile) et dans l'autre (dur), je tiens
>>à votre disposition une liste des mots qui les contiennent (coeur,
>>soeur, etc...)

Gaffe, il risque d'y avoir des tripotées de "oe" dans d'autres langues,
non? Genre l'allemand?

Genre le français, aussi : coexistence, coextensif... à mon avis il "suffit"
d'établir une liste positive de tous les mots à "corriger". Mais c'est assez
compliqué pour ne pas se régler en deux minutes, j'ai essayé :wink:

-- Fil

Fil wrote:

ARNO* wrote:

>>s'il y a parmi vous des gens intéressés à écrire un filtre qui
>>traite le "E dans l'O", dans un sens (facile) et dans l'autre
>>(dur), je tiens à votre disposition une liste des mots qui les
>>contiennent (coeur, soeur, etc...)

Gaffe, il risque d'y avoir des tripotées de "oe" dans d'autres
langues, non? Genre l'allemand?

En effet, mais je pensais à ça en regardant la fonction pour la typo.
Je pensais mettre le filtre pour le français seul; ce qui ne résoud
le problème qu'à moitié en fait.

Genre le français, aussi : coexistence, coextensif... à mon avis il
"suffit" d'établir une liste positive de tous les mots à "corriger".
Mais c'est assez compliqué pour ne pas se régler en deux minutes, j'ai
essayé :wink:

Ah... je n'avais pas pensé à ceux-ci.
Je veux toujours bien m'y coller ! =)
Si tu as ta liste sous la main... je suis preneur.

romain.

Fil wrote:

Il s'agit de corriger des bases de données déjà existantes, et montées
avec un "standard" de caractères débile (où manquait le OE) ; à mon
avis il ne faut pas faire un filtre de spip, mais un outil qui va
"corriger" la base une fois pour toutes... à condition de savoir ce
qu'on fait du oe...

On le convertit dans le bon caractère, si SPIP passe à l'unicode
(heu... désolé, je n'ai pas vérifié; qu'en-est-il ?),
sinon, on peut faire un outil qui :

1. transforme le texte édité pour l'enregistrer avec des entités HTML
   (oe => &#...:wink: dans la base;

2. transforme le texte dans l'autre sens lors de la réédition du texte;

Ce serait aussi simple de traduire définitivement le 'oe' dans son
équivalent unicode, et toujours le laisser tel quel, mais il faudra
toujours revalider la modification et l'insertion de nouveaux textes :
le problème est toujours le même : le clavier français n'a pas tout
ses caractères.

Reste à voir la charge que peuvent prendre de telles fonctions;
je suis en train de réduire la liste que tu m'as transmis en racines,
et le volume de mots à traiter diminue énormément.

romain.

Pourquoi on peut avoir, simplement, dans ecrire/accents.php3

$fichier = ereg_replace(chr(156), 'œ', $fichier);
$fichier = ereg_replace(chr(140), 'Œ', $fichier);

et que ça marche
et qu'on peut pas l'avoir dans l'espace public ?

Fil wrote:

s'il y a parmi vous des gens intéressés à écrire un filtre qui traite
le "E dans l'O", dans un sens (facile) et dans l'autre (dur), je tiens
à votre disposition une liste des mots qui les contiennent (coeur,
soeur, etc...)
       

Gaffe, il risque d'y avoir des tripotées de "oe" dans d'autres langues, non? Genre l'allemand?
   

Vi c'est une horreur et même pour le français. Les jolies règles sur le papier volent vite en éclat. Et c'est pas
mieux pour la ligature ae.

Genre le français, aussi : coexistence, coextensif... à mon avis il "suffit"
d'établir une liste positive de tous les mots à "corriger". Mais c'est assez
compliqué pour ne pas se régler en deux minutes, j'ai essayé :wink:

Je confirme, n'est-ce pas Fil ? :wink: Sinon j'ai toujours la liste et en français c'est énorme. La liste positive est je
confirme la meilleure solution, toutes les bidouilles que j'ai tenté ont échoué (Fil est sans pitié dans les tests, ah le Groeland !) dès qu'il n'y a pas que du français
dans le texte.

Filifab wrote:

Gaffe, il risque d'y avoir des tripotées de "oe" dans d'autres
langues, non? Genre l'allemand?

Vi c'est une horreur et même pour le français. Les jolies règles sur
le papier volent vite en éclat.

Et c'est pas mieux pour la ligature ae.

Oui, mais justement, attention. On ne va pas pouvoir mélanger 36
langages différents; les règles qui s'appliquent en français ne
sont pas forcément les mêmes pour d'autres langues, même lorsqu'il
s'agit du même mot (je n'ai pas d'exemple sous la main, mais il est
probable que la ligature se fasse dans un cas, pas dans l'autre).

Donc si un auteur "s'amuse" à faire un mic-mac de mots différents
dans son texte, la correction de celui-ci ne va pas être faisable,
sauf à faire alors un véritable correcteur d'orthographe,
et à baliser le texte étranger
<text lang="fr">bonjour</text>
<text lang="se">hej da</text> (au fait, en Suède, ils ont bien _tous_
leurs caractères spéciaux sur leurs claviers - et il y en a - allez
savoir pourquoi ça n'est pas le cas en France ?).

Genre le français, aussi : coexistence, coextensif... à mon avis il
"suffit" d'établir une liste positive de tous les mots à "corriger".
Mais c'est assez compliqué pour ne pas se régler en deux minutes, j'ai
essayé :wink:

Je confirme, n'est-ce pas Fil ? :wink: Sinon j'ai toujours la liste et
en français c'est énorme. La liste positive est je confirme la
meilleure solution, toutes les bidouilles que j'ai tenté ont échoué
(Fil est sans pitié dans les tests, ah le Groeland !) dès
qu'il n'y a pas que du français dans le texte.

Histoire que je ne parte pas dans une fausse direction, avez-vous
essayé la liste positive, en utilisant les racines de mots autant
que possible (ce qui réduit significativement le volume de "mots"
à vérifier).
Exemples :
- "oeil" permet de valider tous les mots composés avec "oeil".
- "oeuvr" permet de valider tous les mots ayant cette racine
   (maoeuvre, oeuvre, chef d'oeuvre, etc.),
- "oecum" pour oecumenique, et autres dérivés,
- etc. (en faisant gaffe, justement, de ne pas former de racine
   ayant des exceptions (type "coex" ou "coel" par exemple).

En partant du français/latin, ça me semble une solution tenable;
mais je ne sais pas ce que ça peut donner pour d'autres langues.

Votre avis ?

romain.

Romain d'Alverny wrote:

Oui, mais justement, attention. On ne va pas pouvoir mélanger 36
langages différents; les règles qui s'appliquent en français ne
sont pas forcément les mêmes pour d'autres langues, même lorsqu'il
s'agit du même mot (je n'ai pas d'exemple sous la main, mais il est
probable que la ligature se fasse dans un cas, pas dans l'autre).

Oui c'est le problème, Fil avait testé sur un corpus extrait du Monde Diplomatique et ma méthode
ne marchait pas car mélange de français et de langues étrangères. J'étais parti du principe de préciser
uniquement les mots qui ne font pas la ligature-o e liés en français. Sinon j'avais isolé 90% des mots (dixit un
vieux Grévisse) pour la ligature AE, moins de 20 mots et beaucoup de forme archaïque. Si ça intéresse... C'est
bien entendu que les latinistes rentrés dans les noms commun en français.

Histoire que je ne parte pas dans une fausse direction, avez-vous
essayé la liste positive, en utilisant les racines de mots autant
que possible (ce qui réduit significativement le volume de "mots"
à vérifier).
Exemples :
- "oeil" permet de valider tous les mots composés avec "oeil".
- "oeuvr" permet de valider tous les mots ayant cette racine
  (maoeuvre, oeuvre, chef d'oeuvre, etc.),
- "oecum" pour oecumenique, et autres dérivés,
- etc. (en faisant gaffe, justement, de ne pas former de racine
  ayant des exceptions (type "coex" ou "coel" par exemple).

Pour coel c'est moins gênant : cœlacanthe, cœliaque etc... Le français a horreur des règles :slight_smile:

J'avais essayé mais j'avais trop réduit les racines (quelque chose comme consonne - oe - consonne, désolé j'ai plus ma liste suite à un plantage de PC), la solution là me semble nettement meilleure et évitera un certain nombre de problèmes avec les racines.
J'ai aussi une liste dans un coin de quelques exceptions pas toutes car cf. les noms propres.

En partant du français/latin, ça me semble une solution tenable;
mais je ne sais pas ce que ça peut donner pour d'autres langues.

Votre avis ?

C'est une très bonne piste, les racines grecques et latines sont j'en suis sûr le plus pertinant. J'avais un peu trop candidement simplifié le problème. J'ai hâte de tester :wink:

Filifab (Philippe)

Filifab wrote:

Sinon j'avais isolé 90% des mots (dixit un vieux Grévisse) pour la
ligature AE, moins de 20 mots et beaucoup de forme archaïque.
Si ça intéresse...

Fil m'a transmis une liste de mots, mais peut être n'est-ce pas la même.
Je prends toujours, merci. =)

J'ai aussi une liste dans un coin de quelques exceptions pas toutes
car cf. les noms propres.

De toutes façons, la solution n'est pas idéale, mais elle aura
peut être le mérite d'être relativement acceptable.
Si vous retrouvez cette liste, j'en veux bien une copie également,
merci.

romain.