Hello,
N'ayant pas eu de réponse sur le sujet sur spip-dev :-/ je poste ici :
J'ai remarqué un certains nombre de petits bugs dans l'indexation du moteur de
recherche. J'ai fait une version corrigée (mais pas encore parfaite) du fichier
ecrire/inc_index.php3 disponible ici
http://www.linuxfrench.net/fichier/inc_index.php3.new
Voici les modifs effectuées :
les mots de 3 lettres ou moins placés en debut ou fin de chaine ne sont plus
indexés.
les "lignes" ("----------" ou "++++++++" ou "====" ) ne sont plus indexées.
des caractères auparavant indexés sont désormais considérés comme séparateurs
(avant "[SPIP]nouveau" était indexé en "SPIP]nouveau" maintenant ça donne bien
"SPIP" et "nouveau").
les '&' sont considérés comme des espaces ("Donjon&Dragon" donne bien "donjon"
et "dragon")
Un certains nombres de codes HTML sont transformés en ascii : 'é' donne
'e' etc. Ce point là est incomplet. Il ne traite que les ç et voyelles
accentuées. Et encore, les code &#xxx; ne sont pas traités. Par contre le
est désormais bien considéré comme un espace.
les '-' en debut ou fin de mot sont ignorés. Ainsi "c'est -nouveau- pour vous"
donne "nouveau" et non plus "-nouveau-", par contre "nouveau-venu" demeure
indexé tel quel.
A++
--
H.Lefebvre aegir@free.fr http://www.linuxfrench.net
LINUX : Ne jetez plus votre argent par les fenêtres !