Probleme avec le moteur de recherche

[Si certaines explications ont déja été données dans la liste,
n'hésitez pas à me renvoyer sur les archives; je suis nouveau.
En revanche, je n'ai rien trouvé dans la doc, si ce n'est que
ça devrait marcher alors que visiblement non.]

J'ai un problème avec le moteur de recherche sur le site suivant:
        http://documentation.ledamed.org/

essayez le mot "rate" (sans accent, c'est sérieux)

et faites le même essai avec Htdig ici:
        http://www.ledamed.org/search

Le cache a été vidé, les articles re-entrés et SPIP upgradé sans
que ce résultat change. (vous pouvez aussi essayer avec foetus
mais c'est moins fiable à cause du oe).

Éventuellement, il y a un problème connexe:
Parmi les réponses, il y en a qui sont dans la base SPIP et d'autres
qui sont des documents joints (IMG/pouetpouet.html). On m'a dit qu'il
suffisait de naviguer sur ces documents via SPIP pour qu'ils soient
indexés. On m'a même fait la démo sur le site de développement.
Faut-il une manipulation supplémentaire ?

Merci de vos conseils.

--
Olivier Perret -=- perret@pasteur.fr

From fil@miel.brainstorm.fr Thu Jan 23 12:01:45 2003

Return-Path: <fil@miel.brainstorm.fr>
Received: by miel.brainstorm.fr (Postfix, from userid 1001)
  id BDC011C8155; Thu, 23 Jan 2003 12:01:45 +0100 (CET)
Date: Thu, 23 Jan 2003 12:01:45 +0100
From: Fil <fil@rezo.net>
To: Olivier Perret <perret@pasteur.fr>
Subject: Re: [Spip] Probleme avec le moteur de recherche
Message-ID: <20030123110145.GA13469@rezo.net>
Mail-Followup-To: Olivier Perret <perret@pasteur.fr>, spip@rezo.net
References: <20030123105450.GB6624@isis.sis.pasteur.fr>
Mime-Version: 1.0
Content-Type: text/plain; charset=iso-8859-1
Content-Disposition: inline
Content-Transfer-Encoding: 8bit
In-Reply-To: <20030123105450.GB6624@isis.sis.pasteur.fr>
User-Agent: Mutt/1.3.28i
cc: spip@rezo.net
X-BeenThere: spip@rezo.net
X-Mailman-Version: 2.1rc1+
Precedence: list
List-Id: SPIP : questions/reponses <spip.rezo.net>
List-Unsubscribe: <http://listes.rezo.net/mailman/listinfo/spip&gt;,
  <mailto:spip-request@rezo.net?subject=unsubscribe>
List-Archive: <Discuter chez rezo.net;
List-Post: <mailto:spip@rezo.net>
List-Help: <mailto:spip-request@rezo.net?subject=help>
List-Subscribe: <http://listes.rezo.net/mailman/listinfo/spip&gt;,
  <mailto:spip-request@rezo.net?subject=subscribe>
X-List-Received-Date: Thu, 23 Jan 2003 11:01:45 -0000
Status: O
Content-Length: 1089
Lines: 27

Salut Olivier :wink:

Le cache a été vidé, les articles re-entrés et SPIP upgradé sans
que ce résultat change. (vous pouvez aussi essayer avec foetus
mais c'est moins fiable à cause du oe).

Des explications sont données là :
www.uzine.net/article1575.html

Et tu devrais jeter un oeil à la liste des articles et autres objets que
spip a déjà indexés, et à celle qu'il doit (ré)indexer :

* liste des docs à indexer : ecrire/data/.index
* liste des docs indexés : mysql : select id_article from spip_index_articles;
* indexation en direct : tail -F ecrire/data/spip.log

Éventuellement, il y a un problème connexe:
Parmi les réponses, il y en a qui sont dans la base SPIP et d'autres
qui sont des documents joints (IMG/pouetpouet.html). On m'a dit qu'il
suffisait de naviguer sur ces documents via SPIP pour qu'ils soient
indexés. On m'a même fait la démo sur le site de développement.
Faut-il une manipulation supplémentaire ?

Contrairement à ce qu'on t'a dit, SPIP n'indexe pas les documents joints. Ca
serait peut-être un développement intéressant, d'ailleurs...

-- Fil

Salut,

J'ai un problème avec le moteur de recherche sur le site suivant:
        http://documentation.ledamed.org/

essayez le mot "rate" (sans accent, c'est sérieux)

et faites le même essai avec Htdig ici:
        http://www.ledamed.org/search

Le cache a été vidé, les articles re-entrés et SPIP upgradé sans
que ce résultat change. (vous pouvez aussi essayer avec foetus
mais c'est moins fiable à cause du oe).

Ce n'est pas nécessaire. Il faut simplement attendre qu'il y ait
suffisamment de visites pour que tout le site soit indexé. S'il y a
beaucoup d'articles et que le site n'est pas très visité (apparemment
il n'est pas encore ouvert ?), il est normal que ça prenne du temps.
Si tu veux que tout soit indexé immédiatement, il faut faire passer
un "aspirateur HTML" sur le site (type Teleport Pro, HTTrack...), de
préférence deux fois (la première fois SPIP calcule le cache, la
deuxième fois il indexe le contenu, histoire de ne pas surcharger
le serveur en faisant les deux à la fois ;-).

Tu remarqueras que si SPIP renvoie deux articles, htdig n'en renvoie pas
beaucoup plus en réalité : en effet il renvoie plusieurs mises en page
du même article, ainsi que la page de la rubrique contenant l'article
en question. Les deux grosses différences :

- htdig indexe les pages HTML finales, SPIP indexe le contenu des textes
stockés dans la base de données tels quels (articles, brèves, rubriques,
mots-clés...). Du coup, une page HTML de rubrique contenant un extrait de
l'article sera vue par htdig comme un résultat, alors que SPIP renverra
uniquement l'article lui-même (la rubrique en tant que telle - ensemble
{titre + texte + descriptif} - ne répond pas à la requête puisqu'elle
ne contient pas le mot "rate").

- htdig indexe aussi les documents joints, ce que ne fait pas SPIP.
Les fichiers HTML liés aux articles ne seront pas retournés par SPIP
comme résultats d'une recherche.

Amicalement

Antoine.

> Si tu veux que tout soit indexé immédiatement, il faut faire passer
> un "aspirateur HTML" sur le site (type Teleport Pro, HTTrack...), de
> préférence deux fois (la première fois SPIP calcule le cache, la
> deuxième fois il indexe le contenu, histoire de ne pas surcharger
> le serveur en faisant les deux à la fois ;-).

Est-ce que notre cas est une particularité due au fait qu'on court-
circuite la phase d'édition/validation ou est-ce pareil pour tout
le monde ?

Non, non, c'est pareil pour tout le monde. Il n'y a pas de régime
préférentiel :wink:

        Parce que c'est un peu chiant pour tester le bouzin:
Par exemple, nous on a pas mal de mots-clés assez techniques (médicaux),
et on aime bien vérifier faire des tests de user-compliance pour voir si
les lecteurs ont des chances de tomber sur leur article en tapant "diarée"
ou "colique frénétique", sans demander l'impossible au moteur, juste pour
voir.

Le moteur ne gère pas les fautes d'orthographe (htdig non plus, si ?)...
Donc dans ton cas seul "colique" occasionnera des résultats.

Mais mis à part, je te rassure, il n'y a pas de surprise : tout mot de
plus de trois lettres sera forcément trouvé et le classement des
résultats sera fonction du nombre d'occurences et de l'importance du
champ où elles ont lieu (un titre compte plus qu'un post-scriptum...).

a+

Antoine.