Et revoila l'indexation des documents dans le plugin Fulltext, heritee du plugin Indexation, en commencant par les PDF !
Super ! Mais à quoi sert le champ "indexe" ? Si c'est pour signaler
qu'on a lu le contenu du document, d'une part c'est mal nommé, d'autre
part ne peut-on pas se contenter de mettre "-" dans "contenu" quand on
n'a pas réussi à le lire (et le contenu le cas échéant) ?
Et revoila l'indexation des documents dans le plugin Fulltext, heritee du plugin Indexation, en commencant par les PDF !
Super ! Mais à quoi sert le champ "indexe" ?
A indiquer si c'est indexé.
Si c'est pour signaler qu'on a lu le contenu du document, d'une part c'est mal nommé
Pourquoi ?
d'autre part ne peut-on pas se contenter de mettre "-" dans "contenu" quand on
n'a pas réussi à le lire (et le contenu le cas échéant) ?
Non, ce champ peut prendre plusieurs valeurs : "non" et "oui" sont évidents, mais il peut aussi y avoir "err" si une erreur s'est produite lors de l'indexation.
L'idée est de pouvoir revenir sur ceux-là s'il n'y a plus de "non" à traiter, notamment pour prendre en compte un changement de config ou d'exécutable d'extraction (mais ce n'est pas encore codé).
Si c'est pour signaler qu'on a lu le contenu du document, d'une part c'est
mal nommé
Pourquoi ?
Parce qu'il s'agit d'"extraire" le texte et pas de l'indexer :
l'indexation se faisant par l'INDEX FULLTEXT de MySQL.
d'autre part ne peut-on pas se contenter de mettre "-" dans "contenu"
quand on
n'a pas réussi à le lire (et le contenu le cas échéant) ?
Non, ce champ peut prendre plusieurs valeurs : "non" et "oui" sont évidents,
mais il peut aussi y avoir "err" si une erreur s'est produite lors de
l'indexation.
on pourrait dire que '' (vide) est 'non', 'un contenu' est 'oui', et
'-' est 'err'.
L'idée est de pouvoir revenir sur ceux-là s'il n'y a plus de "non" à
traiter, notamment pour prendre en compte un changement de config ou
d'exécutable d'extraction (mais ce n'est pas encore codé).
en effet ce cas n'entre pas dans mon système ; quoiqu'il suffise de
mettre un "+" en début du contenu
(ce n'est pas très important ; mais en ayant un seul et unique champ,
on peut plus facilement imaginer un crayon)
Si c'est pour signaler qu'on a lu le contenu du document, d'une part c'est
mal nommé
Pourquoi ?
Parce qu'il s'agit d'"extraire" le texte et pas de l'indexer :
l'indexation se faisant par l'INDEX FULLTEXT de MySQL.
Très bonne remarque !
Je vais changer le nom.
d'autre part ne peut-on pas se contenter de mettre "-" dans "contenu"
quand on
n'a pas réussi à le lire (et le contenu le cas échéant) ?
Non, ce champ peut prendre plusieurs valeurs : "non" et "oui" sont évidents,
mais il peut aussi y avoir "err" si une erreur s'est produite lors de
l'indexation.
on pourrait dire que '' (vide) est 'non', 'un contenu' est 'oui', et
'-' est 'err'.
Sauf qu'un document (PDF ou autre) peut très bien n'être constitué que d'images, auquel cas le texte sera vide. Donc comment distinguer les cas ?
L'idée est de pouvoir revenir sur ceux-là s'il n'y a plus de "non" à
traiter, notamment pour prendre en compte un changement de config ou
d'exécutable d'extraction (mais ce n'est pas encore codé).
en effet ce cas n'entre pas dans mon système ; quoiqu'il suffise de
mettre un "+" en début du contenu
Ca fait un peu bricolage, tout ça.
(ce n'est pas très important ; mais en ayant un seul et unique champ,
on peut plus facilement imaginer un crayon)
Effectivement, je n'avais pas pensé à ça. Est-ce réellement si intéressant ?