[SPIP Zone] Le plugin Fulltext récupère l'indexation du contenu des PDF

Bonjour,

Je viens de commiter une évolution majeure (mais non intrusive) du plugin Fulltext [1], en rajoutant l'indexation des documents qui avait été développée pour le plugin Indexation [2]. Le travail a été principalement réalisé par Stéphanie Caron comme sur le plugin "activite_editoriale".

[1] http://www.spip-contrib.net/Fulltext
[2] http://www.spip-contrib.net/Le-plugin-Indexation

Pour l'instant, seuls les documents PDF sont indexés, à plusieurs conditions :

- le système doit disposer d'un exécutable permettant de transformer un PDF en texte (tests réalisés sur Linux, Mac OS X et Windows XP avec "pdftotext" issu de Xpdf), son usage étant défini avec des constantes à placer dans mes_options.php
- les PDF ne doivent bien entendu pas être protégés contre la copie

Il « suffira » d'ajouter d'autres formats sous forme de scripts dans le dossier "extract/".

Je n'ai pas laissé l'extraction de PDF en PHP pur, il me semble qu'elle n'était pas satisfaisante. Si je me suis trompé, on peut la remettre, elle est encore dans Indexation.

Fil, je voudrais mettre à jour la doc sur SPIP Contrib, on fait comment ?

-Nicolas

--
Nicolas HOIZEY
Blog : http://www.gasteroprod.com/
Photos : http://flic.kr/nicolas-hoizey/

Je viens de commiter une évolution majeure (mais non intrusive) du plugin
Fulltext [1], en rajoutant l'indexation des documents qui avait été
développée pour le plugin Indexation [2].

top !

Le travail a été principalement
réalisé par Stéphanie Caron comme sur le plugin "activite_editoriale".

Dommage qu'elle ne commite pas elle-même ?

Il « suffira » d'ajouter d'autres formats sous forme de scripts dans le
dossier "extract/".

Si vous avez conservé la même (pseudo) API pour les extract/, il
suffit de copier directement tous les extracteurs de indexation ?

Je n'ai pas laissé l'extraction de PDF en PHP pur, il me semble qu'elle
n'était pas satisfaisante. Si je me suis trompé, on peut la remettre, elle
est encore dans Indexation.

euh il me semble qu'elle marchait correctement (surtout quand il
s'agit d'extraire du texte pour indexation, et pas pour affichage).

Fil, je voudrais mettre à jour la doc sur SPIP Contrib, on fait comment ?

euh bien il faut que toi ou Stéphanie soyez admin ou auteure de l'article.

-- Fil

Le 29 sept. 2009 à 20:17, Fil a écrit :

Je viens de commiter une évolution majeure (mais non intrusive) du plugin
Fulltext [1], en rajoutant l'indexation des documents qui avait été
développée pour le plugin Indexation [2].

top !

Le travail a été principalement
réalisé par Stéphanie Caron comme sur le plugin "activite_editoriale".

Dommage qu'elle ne commite pas elle-même ?

Je lui ai demandé de se créer une adresse e-mail non Clever Age pour demander un compte, mais je ne voulais pas attendre pour contribuer cette évolution.

Il « suffira » d'ajouter d'autres formats sous forme de scripts dans le
dossier "extract/".

Si vous avez conservé la même (pseudo) API pour les extract/, il
suffit de copier directement tous les extracteurs de indexation ?

C'est à priori le cas, mais nous n'avons pas testé, donc pas intégré. Nous n'avions besoin que du PDF pour l'instant.

Je n'ai pas laissé l'extraction de PDF en PHP pur, il me semble qu'elle
n'était pas satisfaisante. Si je me suis trompé, on peut la remettre, elle
est encore dans Indexation.

euh il me semble qu'elle marchait correctement (surtout quand il
s'agit d'extraire du texte pour indexation, et pas pour affichage).

Alors on la remettra. Le faire dans une classe avec plusieurs méthodes était-il réellement nécessaire, par contre ?

Fil, je voudrais mettre à jour la doc sur SPIP Contrib, on fait comment ?

euh bien il faut que toi ou Stéphanie soyez admin ou auteure de l'article.

Tu m'ajoutes comme auteur, pour commencer ?
Mais de toute façon, en tant qu'auteur, on ne peut pas modifier un article déjà publié, non ?

-Nicolas

--
Nicolas HOIZEY
Blog : http://www.gasteroprod.com/
Photos : http://flic.kr/nicolas-hoizey/

Tu m'ajoutes comme auteur, pour commencer ?

fait

Mais de toute façon, en tant qu'auteur, on ne peut pas modifier un article
déjà publié, non ?

si (Autorité)

A noter j'ai beaucoup travaillé sur l'extracteur de fichiers quark
(dans le plugin "convertisseur de formats")

-- Fil

Le 29 sept. 2009 à 21:53, Fil a écrit :

Tu m'ajoutes comme auteur, pour commencer ?

fait

Merci.

Mais de toute façon, en tant qu'auteur, on ne peut pas modifier un article
déjà publié, non ?

si (Autorité)

Magique.

A noter j'ai beaucoup travaillé sur l'extracteur de fichiers quark
(dans le plugin "convertisseur de formats")

J'ai vu ça, oui.

Penses-tu qu'il faudrait plutôt mettre les extracteurs dans des plugins séparés (y compris celui de PDF, donc), pour qu'ils soient utilisables pour d'autres besoins ?

-Nicolas

--
Nicolas HOIZEY
Blog : http://www.gasteroprod.com/
Photos : http://flic.kr/nicolas-hoizey/

Penses-tu qu'il faudrait plutôt mettre les extracteurs dans des plugins
séparés (y compris celui de PDF, donc), pour qu'ils soient utilisables pour
d'autres besoins ?

A vrai dire je n'ai plus aucun site sérieux sans le plugin Fulltext,
donc la solution actuelle me convient farpaitement.

-- Fil

Le 29 sept. 2009 à 22:37, Fil a écrit :

Penses-tu qu'il faudrait plutôt mettre les extracteurs dans des plugins
séparés (y compris celui de PDF, donc), pour qu'ils soient utilisables pour
d'autres besoins ?

A vrai dire je n'ai plus aucun site sérieux sans le plugin Fulltext,

Pareil.

donc la solution actuelle me convient farpaitement.

Donc tu vas mettre ton extracteur quark dedans ?

-Nicolas

--
Nicolas HOIZEY
Blog : http://www.gasteroprod.com/
Photos : http://flic.kr/nicolas-hoizey/

Le 29 sept. 2009 à 20:17, Fil a écrit :

Il « suffira » d'ajouter d'autres formats sous forme de scripts dans le
dossier "extract/".

Si vous avez conservé la même (pseudo) API pour les extract/, il
suffit de copier directement tous les extracteurs de indexation ?

Au fait, que vient faire "metamail" dans tous ces extracteurs ?

Il offre le support de MIME, c'est tout, non ???

-Nicolas

--
Nicolas HOIZEY
Blog : http://www.gasteroprod.com/
Photos : http://flic.kr/nicolas-hoizey/

Au fait, que vient faire "metamail" dans tous ces extracteurs ?
Il offre le support de MIME, c'est tout, non ???

il permet de donner une piste pour trouver automatiquement
l'exécutable qui va transformer ton document en texte ; j'ignore si ça
fonctionne encore

-- Fil

Le 29 sept. 2009 à 23:39, Fil a écrit :

Au fait, que vient faire "metamail" dans tous ces extracteurs ?
Il offre le support de MIME, c'est tout, non ???

il permet de donner une piste pour trouver automatiquement
l'exécutable qui va transformer ton document en texte ; j'ignore si ça
fonctionne encore

BIn dans l'extracteur de Indexation pour les doc, on commence par ça :

  @exec('metamail -d -q -b -c application/msword '.escapeshellarg($fichier), $r, $e);
  if (!$e) return @join(' ', $r);

Donc si metamail fonctionne, on ne va pas à la suite, où se trouvent les « vrais » extracteurs...

Ou alors j'ai loupé un truc, il est tard... :wink:

-Nicolas

--
Nicolas HOIZEY
Blog : http://www.gasteroprod.com/
Photos : http://flic.kr/nicolas-hoizey/