Suite a un certains nombres de sujets tournant autour du moteur de recherche de SIP, une réflexion concernant son mécanisme actuel.
SPIP n’index que les mots de plus de trois caractères, ce qui peut-être gênant dans certains cas et la superposition avec l’ouverture du multilanguisme.
Je m’explique.
Un article sur contenant le mot « ip » comme notre protocole préfère ne sera pas indexer, pas plus que « le », alors que de terme « this » dans un article en anglais le sera !
Ne serait-il pas intéressant d’indexer tous les mots de plus de un caractère et de prévoir une table des mots à exclure de l’indexation, cela permettant dans chaque langue d’exclure les mots comme « le », « this » mais pas « ip » (pour reprendre notre exemple).
Elle permettra en autre de résoudre le problème qu’a eu Philippe Auriol sur son site qui contient beaucoup le mot « allergie » (thème du site) et qui plantait le moteur de recherche