Indexation de documents joints

Bonjour,

Je cherchait un moyen d'indexer des documents joints (notamment *.doc et *.pdf) et j’ai finalement opté pour une indexation dans SPIP. En effet, htdig et mnogosearch utilisent des logiciels annexes (catdoc, pdftotext...) pour convertir ces types de document et les indexer ensuite.

J’ai donc utilisé les logiciels de conversion (cités précédemment) ainsi que les fonctions de nettoyage de chaines inclues dans SPIP pour indexer les docs dans une nouvelle table (de même structure que les tables d’index)

Cette solution marche plutôt bien, cependant, il arrive parfois qu’un même mot n’ait pas le même numéro de hash. Ainsi, un mot recherché pourra ne pas être trouvé alors qu’il a bien été indexé...

A quoi cela peut-il être du ?

Merci.

_________________________________________________________________
MSN Messenger http://g.msn.fr/FR1001/866 : dialoguez en direct et gratuitement avec vos amis !