Probleme avec le moteur de recherche

64a4a33f20df1d3f09c9 · Janvier 23, 2003, 10:54

[Si certaines explications ont déja été données dans la liste,
n'hésitez pas à me renvoyer sur les archives; je suis nouveau.
En revanche, je n'ai rien trouvé dans la doc, si ce n'est que
ça devrait marcher alors que visiblement non.]

J'ai un problème avec le moteur de recherche sur le site suivant:
http://documentation.ledamed.org/

essayez le mot "rate" (sans accent, c'est sérieux)

et faites le même essai avec Htdig ici:
http://www.ledamed.org/search

Le cache a été vidé, les articles re-entrés et SPIP upgradé sans
que ce résultat change. (vous pouvez aussi essayer avec foetus
mais c'est moins fiable à cause du oe).

Éventuellement, il y a un problème connexe:
Parmi les réponses, il y en a qui sont dans la base SPIP et d'autres
qui sont des documents joints (IMG/pouetpouet.html). On m'a dit qu'il
suffisait de naviguer sur ces documents via SPIP pour qu'ils soient
indexés. On m'a même fait la démo sur le site de développement.
Faut-il une manipulation supplémentaire ?

Merci de vos conseils.

--
Olivier Perret -=- perret@pasteur.fr

From fil@miel.brainstorm.fr Thu Jan 23 12:01:45 2003

Return-Path: <fil@miel.brainstorm.fr>
Received: by miel.brainstorm.fr (Postfix, from userid 1001)
  id BDC011C8155; Thu, 23 Jan 2003 12:01:45 +0100 (CET)
Date: Thu, 23 Jan 2003 12:01:45 +0100
From: Fil <fil@rezo.net>
To: Olivier Perret <perret@pasteur.fr>
Subject: Re: [Spip] Probleme avec le moteur de recherche
Message-ID: <20030123110145.GA13469@rezo.net>
Mail-Followup-To: Olivier Perret <perret@pasteur.fr>, spip@rezo.net
References: <20030123105450.GB6624@isis.sis.pasteur.fr>
Mime-Version: 1.0
Content-Type: text/plain; charset=iso-8859-1
Content-Disposition: inline
Content-Transfer-Encoding: 8bit
In-Reply-To: <20030123105450.GB6624@isis.sis.pasteur.fr>
User-Agent: Mutt/1.3.28i
cc: spip@rezo.net
X-BeenThere: spip@rezo.net
X-Mailman-Version: 2.1rc1+
Precedence: list
List-Id: SPIP : questions/reponses <spip.rezo.net>
List-Unsubscribe: <http://listes.rezo.net/mailman/listinfo/spip>,
  <mailto:spip-request@rezo.net?subject=unsubscribe>
List-Archive: <Discuter chez rezo.net;
List-Post: <mailto:spip@rezo.net>
List-Help: <mailto:spip-request@rezo.net?subject=help>
List-Subscribe: <http://listes.rezo.net/mailman/listinfo/spip>,
  <mailto:spip-request@rezo.net?subject=subscribe>
X-List-Received-Date: Thu, 23 Jan 2003 11:01:45 -0000
Status: O
Content-Length: 1089
Lines: 27

Salut Olivier

Le cache a été vidé, les articles re-entrés et SPIP upgradé sans
que ce résultat change. (vous pouvez aussi essayer avec foetus
mais c'est moins fiable à cause du oe).

Des explications sont données là :
www.uzine.net/article1575.html

Et tu devrais jeter un oeil à la liste des articles et autres objets que
spip a déjà indexés, et à celle qu'il doit (ré)indexer :

* liste des docs à indexer : ecrire/data/.index
* liste des docs indexés : mysql : select id_article from spip_index_articles;
* indexation en direct : tail -F ecrire/data/spip.log

Éventuellement, il y a un problème connexe:
Parmi les réponses, il y en a qui sont dans la base SPIP et d'autres
qui sont des documents joints (IMG/pouetpouet.html). On m'a dit qu'il
suffisait de naviguer sur ces documents via SPIP pour qu'ils soient
indexés. On m'a même fait la démo sur le site de développement.
Faut-il une manipulation supplémentaire ?

Contrairement à ce qu'on t'a dit, SPIP n'indexe pas les documents joints. Ca
serait peut-être un développement intéressant, d'ailleurs...

-- Fil

63438612493668b99328 · Janvier 23, 2003, 11:05

Salut,

J'ai un problÃ¨me avec le moteur de recherche sur le site suivant:
http://documentation.ledamed.org/

essayez le mot "rate" (sans accent, c'est sÃ©rieux)

et faites le mÃªme essai avec Htdig ici:
http://www.ledamed.org/search

Le cache a Ã©tÃ© vidÃ©, les articles re-entrÃ©s et SPIP upgradÃ© sans
que ce rÃ©sultat change. (vous pouvez aussi essayer avec foetus
mais c'est moins fiable Ã cause du oe).

Ce n'est pas nÃ©cessaire. Il faut simplement attendre qu'il y ait
suffisamment de visites pour que tout le site soit indexÃ©. S'il y a
beaucoup d'articles et que le site n'est pas trÃ¨s visitÃ© (apparemment
il n'est pas encore ouvert ?), il est normal que Ã§a prenne du temps.
Si tu veux que tout soit indexÃ© immÃ©diatement, il faut faire passer
un "aspirateur HTML" sur le site (type Teleport Pro, HTTrack...), de
prÃ©fÃ©rence deux fois (la premiÃ¨re fois SPIP calcule le cache, la
deuxiÃ¨me fois il indexe le contenu, histoire de ne pas surcharger
le serveur en faisant les deux Ã la fois ;-).

Tu remarqueras que si SPIP renvoie deux articles, htdig n'en renvoie pas
beaucoup plus en rÃ©alitÃ© : en effet il renvoie plusieurs mises en page
du mÃªme article, ainsi que la page de la rubrique contenant l'article
en question. Les deux grosses diffÃ©rences :

- htdig indexe les pages HTML finales, SPIP indexe le contenu des textes
stockÃ©s dans la base de donnÃ©es tels quels (articles, brÃ¨ves, rubriques,
mots-clÃ©s...). Du coup, une page HTML de rubrique contenant un extrait de
l'article sera vue par htdig comme un rÃ©sultat, alors que SPIP renverra
uniquement l'article lui-mÃªme (la rubrique en tant que telle - ensemble
{titre + texte + descriptif} - ne rÃ©pond pas Ã la requÃªte puisqu'elle
ne contient pas le mot "rate").

- htdig indexe aussi les documents joints, ce que ne fait pas SPIP.
Les fichiers HTML liÃ©s aux articles ne seront pas retournÃ©s par SPIP
comme rÃ©sultats d'une recherche.

Amicalement

Antoine.

63438612493668b99328 · Janvier 23, 2003, 5:57

> Si tu veux que tout soit indexé immédiatement, il faut faire passer
> un "aspirateur HTML" sur le site (type Teleport Pro, HTTrack...), de
> préférence deux fois (la première fois SPIP calcule le cache, la
> deuxième fois il indexe le contenu, histoire de ne pas surcharger
> le serveur en faisant les deux à la fois ;-).

Est-ce que notre cas est une particularité due au fait qu'on court-
circuite la phase d'édition/validation ou est-ce pareil pour tout
le monde ?

Non, non, c'est pareil pour tout le monde. Il n'y a pas de régime
préférentiel

Parce que c'est un peu chiant pour tester le bouzin:
Par exemple, nous on a pas mal de mots-clés assez techniques (médicaux),
et on aime bien vérifier faire des tests de user-compliance pour voir si
les lecteurs ont des chances de tomber sur leur article en tapant "diarée"
ou "colique frénétique", sans demander l'impossible au moteur, juste pour
voir.

Le moteur ne gère pas les fautes d'orthographe (htdig non plus, si ?)...
Donc dans ton cas seul "colique" occasionnera des résultats.

Mais mis à part, je te rassure, il n'y a pas de surprise : tout mot de
plus de trois lettres sera forcément trouvé et le classement des
résultats sera fonction du nombre d'occurences et de l'importance du
champ où elles ont lieu (un titre compte plus qu'un post-scriptum...).

a+

Antoine.