Je m'apprete à mettre les mains dans le cambouis sur le moteur de recherche.
En consultant la table dico sur linuxfrench, je me suis rendu compte qu'il y
avait pas mal de déchet :
des mots de moins de 3 lettres ("le")
des mots finissant ou commencant par un tiret ("-par")
des caractères html ("herv&eactu")
des successions genre "----------"
des séparateurs considérés comme caractères genre | ou ]
En fait, l'expression régulière dans indexer_chaine() est buggée.
Bref, je suis en train de modifier le moteur pour linuxfrench, je vais
également ajouter une gestion de "deadwords", acronymes voire de suffixes si
c'est gérable sans trop de problèmes de perfs.
En ce qui concerne le debug et les deadwords, ca a l'air de marcher. Donc si
ça vous intéresse, je vous en envoie un version.