[SPIP Zone] plugin indexation et nettoyage de texte

Bonjour,

dans le plugin indexation, le texte qui ressort lors d'une recherche
est difficile à lire.

Est-ce justifié de supprimer les caracteres de ponctuation et
guillements vu qu'on fait un MATCH sur le contenu ?

.Gilles

PS.:
Pour ma part, dans inc/indexation.php, j'ai commencé par remplacer
  $e = "],:;*\"!\r\n\t\\/)}{[|@<>$%'`?\~.^(";
par
  $e = "\r\n\t}{[]";
(ligne 502)

J'y ai ajouté un filtre (très incomplet) :

function clean_result($txt) {
  $txt = str_replace('*','',$txt);
  $txt = str_replace('00','',$txt);
  $txt = ereg_replace('\[[^\]]+\]','',$txt);
  $txt = ereg_replace('(-(>|&gt;))?(rub|art)([0-9]+)','',$txt);
  $txt = ereg_replace('-(>|&gt;)([0-9]+)','',$txt);
}

et le rendu de [(#EXTRAIT|clean_result)] est nettement plus lisible..

Est-ce justifié de supprimer les caracteres de ponctuation et
guillements vu qu'on fait un MATCH sur le contenu ?

n'hésite pas à tout changer ; comme tu peux voir ce n'est pas fini.
j'avais par exemple prévu de stocker à part le titre, la date et les
"metas" (auteurs, mots-clés, surtitre, chapo) de manière à permettre
des recherches "plus ciblées".

-- Fil