réindexation

Bonjour,

Après avoir effacé les index, j'ai cru comprendre dans la doc que la
réindexation s'effectue en "tâche de fond".

Apparemment, ce n'est pas le cas sur mon site spip 1.6 : les seuls articles
indexés sont ceux qui ont été modifiés depuis l'effacement des index il y a
48 heures, ainsi que j'ai pu le vérifier dans la base.

Est-ce qu'il existe un compte-rendu ? Comment puis-je savoir si cette
réindexation s'exécute ou non, si elle est seulement trop lente ou si elle
s'est plantée et pourquoi ?

Merci de votre aide.

Je ne suis pas certain si ça répond à ta question, mais voici ce que je
propose pour forcer la réindexation de l'engin de recherche d'un site Spip :

1) Effacer les données d'indexation et vider le cache (à partir de la page
/ecrire/admin_vider.php3). Vider le cache devrait faire en sorte que les
pages seront indexées la prochaine fois qu'elles seront visualisées.

2) Demander à votre navigateur de rendre votre site disponible hors-ligne et
activer la synchronisation du site. Si tout va bien, cela fera en sorte que
votre navigateur ira visiter toutes les pages de votre site, faisant en
sorte qu'elles soient toutes indexés par Spip.

Instructions pour la navigation hors-connection pour Internet Explorer :
http://www.microsoft.com/france/aide/internet/naviguer.asp#5

Pour les autres navigateurs, je suggère d'aller voir dans l'Aide de votre
logiciel. :slight_smile:

PS : Si je ne me trompe pas, et si cela n'existe pas encore, je pourrais
faire une contrib plus détaillée à ce sujet. Est-ce que l'on peut me
confirmer ces deux conditions?

Cordialement,

Thierry Gagnon
http://thierrygagnon.com/

-----Message d'origine-----
De : spip-bounces@rezo.net [mailto:spip-bounces@rezo.net]De la part de
martinus
Envoyé : 30 octobre, 2003 04:12
À : spip@rezo.net
Objet : [Spip] réindexation

Bonjour,

Après avoir effacé les index, j'ai cru comprendre dans la doc que la
réindexation s'effectue en "tâche de fond".

Apparemment, ce n'est pas le cas sur mon site spip 1.6 : les seuls articles
indexés sont ceux qui ont été modifiés depuis l'effacement des index il y a
48 heures, ainsi que j'ai pu le vérifier dans la base.

Est-ce qu'il existe un compte-rendu ? Comment puis-je savoir si cette
réindexation s'exécute ou non, si elle est seulement trop lente ou si elle
s'est plantée et pourquoi ?

Merci de votre aide.

Bonsoir,

J'ai essayé ta suggestion, qui est astucieuse, mais je ne crois pas qu'elle
soit à conseiller.

D'abord, elle ne permet de visiter que les pages atteignables depuis la page
d'accueil en moins de 3 liens, le maximum autorisé par la synchronisation
d'IE6. Il y en a qui nécessitent plus de liens, et il pourrait même exister
des pages qui ne soit pas atteignables du tout depuis la page d'accueil,
seulement par l'index (s'il était à jour, bien sûr...).

Comme la synchronisation suit aussi les liens externes, j'ai dû télécharger
et stocker sur mon disque des milliers de pages inutiles, ce qui prend une
bande passante, un espace et un temps faramineux !

Heureusement que la limite est à 3 liens. J'ai arrêté au bout de 30
minutes... pour découvrir en consultant les logs et la base, que je n'ai
finalement rien réindexé.

Je constate, en fait, que le recalcul d'une page ne déclenche pas
d'indexation, alors que cela semble prévu ainsi. Seul la modification de
l'article la provoque.

Cela parait incroyable qu'il n'existe pas une commande qui crée les index à
partir des données. Je ne vois d'ailleurs pas pourquoi elle aurait besoin de
calculer les pages. Tous les SGBD que je connais ont une telle commande.

Merci quand même de ton aide.

Cordialement.

"Thierry Gagnon" <info@thierrygagnon.com> a écrit dans le message de
news:BAECKHCECFNJJKFFGHILEEMICIAA.info@thierrygagnon.com...

Je ne suis pas certain si ça répond à ta question, mais voici ce que je
propose pour forcer la réindexation de l'engin de recherche d'un site Spip

:

1) Effacer les données d'indexation et vider le cache (à partir de la page
/ecrire/admin_vider.php3). Vider le cache devrait faire en sorte que les
pages seront indexées la prochaine fois qu'elles seront visualisées.

2) Demander à votre navigateur de rendre votre site disponible hors-ligne

et

activer la synchronisation du site.

Après avoir effacé les index, j'ai cru comprendre dans la doc que la
réindexation s'effectue en "tâche de fond".

Apparemment, ce n'est pas le cas sur mon site spip 1.6 : les seuls

articles

indexés sont ceux qui ont été modifiés depuis l'effacement des index il y

a

48 heures, ainsi que j'ai pu le vérifier dans la base.

Bonjour!

Je réponds ici au message plus bas.

1) Maximum de trois liens de profondeur lors de la syndication : Je suggère
de partir du plan du site pour maximiser le nombre de pages visitées. Sinon,
essayer en utilisant plusieurs points d'entrées (donc créer plusieurs
favoris offline).

2) Liens externes : En faisant clique-droit sur un favoris, on peur modifier
les options " download " (téléchargement?) du favoris. De là, on peut
désélectionner l'option de suivi des liens hors du site. On peut aussi
limiter l'espace disque occupé par le site.

3) Le recalcul des pages qui ne force pas l'indexation : Ah ben là... Ça
fout pas mal ma solution à l'eau. :stuck_out_tongue: C'est vrai que plusieurs s'en sont
plains dans le passé, il me semble. Est-ce que ce phénomène peut être
confirmé (et corrigé) ?

Cordialement,

Thierry Gagnon
http://thierrygagnon.com/

-----Message d'origine-----
De : spip-bounces@rezo.net [mailto:spip-bounces@rezo.net]De la part de
martinus
Envoyé : 30 octobre, 2003 15:55
À : spip@rezo.net
Objet : Re: [Spip] réindexation

Bonsoir,

J'ai essayé ta suggestion, qui est astucieuse, mais je ne crois pas qu'elle
soit à conseiller.

D'abord, elle ne permet de visiter que les pages atteignables depuis la page
d'accueil en moins de 3 liens, le maximum autorisé par la synchronisation
d'IE6. Il y en a qui nécessitent plus de liens, et il pourrait même exister
des pages qui ne soit pas atteignables du tout depuis la page d'accueil,
seulement par l'index (s'il était à jour, bien sûr...).

Comme la synchronisation suit aussi les liens externes, j'ai dû télécharger
et stocker sur mon disque des milliers de pages inutiles, ce qui prend une
bande passante, un espace et un temps faramineux !

Heureusement que la limite est à 3 liens. J'ai arrêté au bout de 30
minutes... pour découvrir en consultant les logs et la base, que je n'ai
finalement rien réindexé.

Je constate, en fait, que le recalcul d'une page ne déclenche pas
d'indexation, alors que cela semble prévu ainsi. Seul la modification de
l'article la provoque.

Cela parait incroyable qu'il n'existe pas une commande qui crée les index à
partir des données. Je ne vois d'ailleurs pas pourquoi elle aurait besoin de
calculer les pages. Tous les SGBD que je connais ont une telle commande.

Merci quand même de ton aide.

Cordialement.

"Thierry Gagnon" <info@thierrygagnon.com> a écrit dans le message de
news:BAECKHCECFNJJKFFGHILEEMICIAA.info@thierrygagnon.com...

Je ne suis pas certain si ça répond à ta question, mais voici ce que je
propose pour forcer la réindexation de l'engin de recherche d'un site Spip

:

1) Effacer les données d'indexation et vider le cache (à partir de la page
/ecrire/admin_vider.php3). Vider le cache devrait faire en sorte que les
pages seront indexées la prochaine fois qu'elles seront visualisées.

2) Demander à votre navigateur de rendre votre site disponible hors-ligne

et

activer la synchronisation du site.

Après avoir effacé les index, j'ai cru comprendre dans la doc que la
réindexation s'effectue en "tâche de fond".

Apparemment, ce n'est pas le cas sur mon site spip 1.6 : les seuls

articles

indexés sont ceux qui ont été modifiés depuis l'effacement des index il y

a

48 heures, ainsi que j'ai pu le vérifier dans la base.

1) Maximum de trois liens de profondeur lors de la syndication : (...)

Lire : " lors de la synchronisation "

Bon, bien ça fait trop de conneries pour aujourd'hui. Je pense qu'il est
grand temps pour moi de me déconnecter. :stuck_out_tongue:

Thierry Gagnon
http://thierrygagnon.com/

-----Message d'origine-----
De : spip-bounces@rezo.net [mailto:spip-bounces@rezo.net]De la part de
Thierry Gagnon
Envoyé : 30 octobre, 2003 16:37
À : martinus
Cc : Spip (Utilisateurs)
Objet : RE: [Spip] réindexation

Bonjour!

Je réponds ici au message plus bas.

1) Maximum de trois liens de profondeur lors de la syndication : Je suggère
de partir du plan du site pour maximiser le nombre de pages visitées. Sinon,
essayer en utilisant plusieurs points d'entrées (donc créer plusieurs
favoris offline).

2) Liens externes : En faisant clique-droit sur un favoris, on peur modifier
les options " download " (téléchargement?) du favoris. De là, on peut
désélectionner l'option de suivi des liens hors du site. On peut aussi
limiter l'espace disque occupé par le site.

3) Le recalcul des pages qui ne force pas l'indexation : Ah ben là... Ça
fout pas mal ma solution à l'eau. :stuck_out_tongue: C'est vrai que plusieurs s'en sont
plains dans le passé, il me semble. Est-ce que ce phénomène peut être
confirmé (et corrigé) ?

Cordialement,

Thierry Gagnon
http://thierrygagnon.com/

En fait, l'indexation ne se fait pas lors du calcul ou du recalcul de la
page dans le cache car ça demande trop de temps au serveur. Par contre,
l'indexation se fait quand une page qui est déjà dans le cache est
demandée. Ou alors, quand l'article est modifié dans l'espace privé.

Par contre, j'ai une bonne et une mauvaise nouvelle...

La bonne, c'est que j'ai la solution (que je vais expliquer) et la
mauvaise, c'est qu'il faut un UNIX sous la main (Linux fait très bien
l'affaire, pas la peine de payer une fortune à Sco pour une licence UNIX).

Pour commencer, il faut savoir combien d'entrées il faut indexer. Pour
ça, c'est tout simple, il suffit d'aller dans le répertoire ecrire/data,
d'ouvrir le fichier .index et de compter le nombre de lignes (avec un
bon éditeur de texte, on peut le savoir).

Une fois ceci fait, il faut lancer le Linux avec la suite Apache
installée sur le système Linux. Normalement, il y a un petit utilitaire
nommé ab qui permet de faire des benchmark sur les serveurs Apache. Son
fonctionnement est très simple, il suffit de lui indiquer le nombre de
requete et l'URL à tester.

Par exemple, si mon ficher .index a 1000 lignes, il suffit de taper:

ab -b1000 http://mon-site-a-reindexer.com/backend.php

Et là, le programme enverra 1000 requete sur cette adresse et SPIP va
réindexer le site.

Par contre, le plus dur pour les débutants qui ont Windows, c'est de
devoir installer Linux + Apache (par contre, pour les débutants qui ont
Linux, c'est plus simple évidemment :wink: ). Le plus simple, c'est de
trouver un Linux Knoppix modifié avec un serveur Apache en plus et de
booter via le CD de Knoppix (qui est une distribution Linux qui
fonctionne à partir du CD sans rien installer sur le disque dur, ce qui
est idéal quand on veut pas installer Linux).

Voila, j'espère que ça aidera tous ceux qui veulent réindexer leur site.

PS: Les infos que je donne sont aussi sur SPIP-Contrib.
PS2: Par contre, je suis plus sur de la syntaxe de la commande, vu que
je fais ça de mémoire. La syntaxe correcte se trouve sur SPIP-Contrib ou
dans la page de manuel.