Le spipien est par nature verbeux, il n'y a qu'a voir le volume des mailing-list, et les tonnes de mots gérés par le petit écureuil sur le Net.
Bref, Spip mérite un moteur de recherche digne de ce nom, et ce n'est pas la propagande Google qui dira le contraire.
Pour l'instant, mon moteur est à l'état de prototype fonctionnel, neutre par rapport à Spip, mais inspiré du travail de celui-ci pour pouvoir s'intégrer facilement à n'importe quel projet.
Ce qui marche :
* Les mots creux (stop words)
* La persistance de l'index, en utilisant une db, db4 en l'occurrence, mais ça devrait marcher avec ce qui traîne sur l'hébergement.
* Parser de requête (sans la gestion de parenthèse) avec les négations( -poire), les groupes de mots ("petits pois"), les attributs (titre:pomme), les débuts de mots (pom*), et tout ça mélangé ensemble.
* Gestion des extraits pour situer le contexte.
* Suggestion d'orthographe pour les mots en vrac.
* Gestion des homophones.
Ce qui manque :
* Une indexation en php, pour l'instant, c'est du python.
* La colle avec Spip.
* Gestion des homophones pour affiner la suggestion.
* Une gestion clef en main des indexs
* Un algo de scoring digne de ce nom
* Gestion des groupes nominaux (comme dans la recherche sur libe.com)
Pour tester :
http://macbouffon.com/cherche/cherche.php
L'indexation se fait sur les feeds RSS de sites mac et informatiques plus généraliste, le vocabulaire est donc ciblé.
La doc :
Homophonie : https://admin.garambrogne.net/projets/revuedepresse/wiki/HomoPhonie
Persistance : https://admin.garambrogne.net/projets/revuedepresse/wiki/PersistanceDeDonnees
Du code sans doc verbeuse:
Suggestion : https://admin.garambrogne.net/projets/revuedepresse/browser/trunk/src/php/suggest.class.php
Recherche : https://admin.garambrogne.net/projets/revuedepresse/browser/trunk/src/php/cherche.class.php
Voila, toutes suggestions, critiques, questions ... sont bienvenues.
M.