[spip-dev] SPIP - moteur de recherche plurilingue

On s'est posé la question si le moteur de recherche SPIP etait assez performant pour
s'attaquer à des sites multilingues - ou simplement, dans notre cas, à des sites en
allemand.

J'ai demandé au machiniste du site moteur de recherche pour enfants "Blinde Kuh"
comment il faisait (www.blinde-kuh.de).
Voici la traduction de sa réponse:

D'abord il faut savoir qu'est-ce que c'est qu'un Umlaut. Ça change avec la police de
cararctères du brouteur. Avec d l'UTF8 c'est problématique.

Chez nous les Umlaute sont traités comme s'ils étaient des caractères 7 bit, pour
pouvoir les identifier, mais

ä -> ae
à -> a

et ainsi les consonnes doubles

ie -> i

ee -> e

Dans ces cas l'expression originale est enrégistrée dans la base de données et
l'expression transformée lui est associée comme mot clé.

C'est pareil pour des trucs comme

fff -> ff
ff -> f

Avec tout ça on peut se débrouiller pour maîtriser les deux types d'orthographie
allemandes existantes (récemment il y a eu une réforme officielle de l'orthographie
allemande).

En tous les cas c'est utile de transformer les textes à traiter en caractères de 7-bit.

Indexer les site plurilingues:

Ce n'est pas triste, les vrais moteurs de recherche l'essayent et n'arrivent toujours pas.
Aujourd'hui la plupart connaissent l'UTF8 et plusieurs langues. Pourtant quand on ne
prend en compte que les langues européennes on n'arrive déjà plus à les identifier
automatiquement pour faire une indexation en fonction. Chez un des moteurs les plus
importants 20% des pages restaient sans langue identifiée et 30% des identifications
étaient erronnées. Les pages avec liens ou URLs étaient particulièrement drôles, ça
donnait des langues inconnues jusqu'à ce jour.

La méthode d'indexation du moteur SPIP n'est pas bête (traiter les Umlaute comme
lettres ordinaires).

Fin de la traduction.

Apparemment on peut faire confiance à la méthode spipéenne si on n'attend pas de
miracles. Chez sowieso.de ça marche très bien. Alors en route, partons dans l'univers
de Babylon ...

Klaus.