[SPIP Zone] [Spip-zone-commit] r31876 - in /_plugins_/fulltext: base/ base/fulltext.php exec/fulltext.php extract/ extract/pdf.php fulltext_pipelines.php genie/ genie/fulltext_index_document.php inc/rechercher.php plugin.xml

Et revoila l'indexation des documents dans le plugin Fulltext, heritee du plugin Indexation, en commencant par les PDF !

Super ! Mais à quoi sert le champ "indexe" ? Si c'est pour signaler
qu'on a lu le contenu du document, d'une part c'est mal nommé, d'autre
part ne peut-on pas se contenter de mettre "-" dans "contenu" quand on
n'a pas réussi à le lire (et le contenu le cas échéant) ?

-- Fil

Le 29 sept. 2009 à 18:29, Fil a écrit :

Et revoila l'indexation des documents dans le plugin Fulltext, heritee du plugin Indexation, en commencant par les PDF !

Super ! Mais à quoi sert le champ "indexe" ?

A indiquer si c'est indexé.

Si c'est pour signaler qu'on a lu le contenu du document, d'une part c'est mal nommé

Pourquoi ?

d'autre part ne peut-on pas se contenter de mettre "-" dans "contenu" quand on
n'a pas réussi à le lire (et le contenu le cas échéant) ?

Non, ce champ peut prendre plusieurs valeurs : "non" et "oui" sont évidents, mais il peut aussi y avoir "err" si une erreur s'est produite lors de l'indexation.

L'idée est de pouvoir revenir sur ceux-là s'il n'y a plus de "non" à traiter, notamment pour prendre en compte un changement de config ou d'exécutable d'extraction (mais ce n'est pas encore codé).

-Nicolas

--
Nicolas HOIZEY
Blog : http://www.gasteroprod.com/
Photos : http://flic.kr/nicolas-hoizey/

A indiquer si c'est indexé.

Si c'est pour signaler qu'on a lu le contenu du document, d'une part c'est
mal nommé

Pourquoi ?

Parce qu'il s'agit d'"extraire" le texte et pas de l'indexer :
l'indexation se faisant par l'INDEX FULLTEXT de MySQL.

d'autre part ne peut-on pas se contenter de mettre "-" dans "contenu"
quand on
n'a pas réussi à le lire (et le contenu le cas échéant) ?

Non, ce champ peut prendre plusieurs valeurs : "non" et "oui" sont évidents,
mais il peut aussi y avoir "err" si une erreur s'est produite lors de
l'indexation.

on pourrait dire que '' (vide) est 'non', 'un contenu' est 'oui', et
'-' est 'err'.

L'idée est de pouvoir revenir sur ceux-là s'il n'y a plus de "non" à
traiter, notamment pour prendre en compte un changement de config ou
d'exécutable d'extraction (mais ce n'est pas encore codé).

en effet ce cas n'entre pas dans mon système ; quoiqu'il suffise de
mettre un "+" en début du contenu

(ce n'est pas très important ; mais en ayant un seul et unique champ,
on peut plus facilement imaginer un crayon)

-- Fil

Le 29 sept. 2009 à 20:14, Fil a écrit :

A indiquer si c'est indexé.

Si c'est pour signaler qu'on a lu le contenu du document, d'une part c'est
mal nommé

Pourquoi ?

Parce qu'il s'agit d'"extraire" le texte et pas de l'indexer :
l'indexation se faisant par l'INDEX FULLTEXT de MySQL.

Très bonne remarque ! :wink:

Je vais changer le nom.

d'autre part ne peut-on pas se contenter de mettre "-" dans "contenu"
quand on
n'a pas réussi à le lire (et le contenu le cas échéant) ?

Non, ce champ peut prendre plusieurs valeurs : "non" et "oui" sont évidents,
mais il peut aussi y avoir "err" si une erreur s'est produite lors de
l'indexation.

on pourrait dire que '' (vide) est 'non', 'un contenu' est 'oui', et
'-' est 'err'.

Sauf qu'un document (PDF ou autre) peut très bien n'être constitué que d'images, auquel cas le texte sera vide. Donc comment distinguer les cas ?

L'idée est de pouvoir revenir sur ceux-là s'il n'y a plus de "non" à
traiter, notamment pour prendre en compte un changement de config ou
d'exécutable d'extraction (mais ce n'est pas encore codé).

en effet ce cas n'entre pas dans mon système ; quoiqu'il suffise de
mettre un "+" en début du contenu

Ca fait un peu bricolage, tout ça.

(ce n'est pas très important ; mais en ayant un seul et unique champ,
on peut plus facilement imaginer un crayon)

Effectivement, je n'avais pas pensé à ça. Est-ce réellement si intéressant ?

-Nicolas

--
Nicolas HOIZEY
Blog : http://www.gasteroprod.com/
Photos : http://flic.kr/nicolas-hoizey/

Le 29 sept. 2009 à 21:09, Nicolas Hoizey a écrit :

Le 29 sept. 2009 à 20:14, Fil a écrit :

A indiquer si c'est indexé.

Si c'est pour signaler qu'on a lu le contenu du document, d'une part c'est
mal nommé

Pourquoi ?

Parce qu'il s'agit d'"extraire" le texte et pas de l'indexer :
l'indexation se faisant par l'INDEX FULLTEXT de MySQL.

Très bonne remarque ! :wink:

Je vais changer le nom.

Fait en v0.3

-Nicolas

--
Nicolas HOIZEY
Blog : http://www.gasteroprod.com/
Photos : http://flic.kr/nicolas-hoizey/