Je viens de commiter une évolution majeure (mais non intrusive) du plugin Fulltext [1], en rajoutant l'indexation des documents qui avait été développée pour le plugin Indexation [2]. Le travail a été principalement réalisé par Stéphanie Caron comme sur le plugin "activite_editoriale".
Pour l'instant, seuls les documents PDF sont indexés, à plusieurs conditions :
- le système doit disposer d'un exécutable permettant de transformer un PDF en texte (tests réalisés sur Linux, Mac OS X et Windows XP avec "pdftotext" issu de Xpdf), son usage étant défini avec des constantes à placer dans mes_options.php
- les PDF ne doivent bien entendu pas être protégés contre la copie
Il « suffira » d'ajouter d'autres formats sous forme de scripts dans le dossier "extract/".
Je n'ai pas laissé l'extraction de PDF en PHP pur, il me semble qu'elle n'était pas satisfaisante. Si je me suis trompé, on peut la remettre, elle est encore dans Indexation.
Fil, je voudrais mettre à jour la doc sur SPIP Contrib, on fait comment ?
Je viens de commiter une évolution majeure (mais non intrusive) du plugin
Fulltext [1], en rajoutant l'indexation des documents qui avait été
développée pour le plugin Indexation [2].
top !
Le travail a été principalement
réalisé par Stéphanie Caron comme sur le plugin "activite_editoriale".
Dommage qu'elle ne commite pas elle-même ?
Il « suffira » d'ajouter d'autres formats sous forme de scripts dans le
dossier "extract/".
Si vous avez conservé la même (pseudo) API pour les extract/, il
suffit de copier directement tous les extracteurs de indexation ?
Je n'ai pas laissé l'extraction de PDF en PHP pur, il me semble qu'elle
n'était pas satisfaisante. Si je me suis trompé, on peut la remettre, elle
est encore dans Indexation.
euh il me semble qu'elle marchait correctement (surtout quand il
s'agit d'extraire du texte pour indexation, et pas pour affichage).
Fil, je voudrais mettre à jour la doc sur SPIP Contrib, on fait comment ?
euh bien il faut que toi ou Stéphanie soyez admin ou auteure de l'article.
Je viens de commiter une évolution majeure (mais non intrusive) du plugin
Fulltext [1], en rajoutant l'indexation des documents qui avait été
développée pour le plugin Indexation [2].
top !
Le travail a été principalement
réalisé par Stéphanie Caron comme sur le plugin "activite_editoriale".
Dommage qu'elle ne commite pas elle-même ?
Je lui ai demandé de se créer une adresse e-mail non Clever Age pour demander un compte, mais je ne voulais pas attendre pour contribuer cette évolution.
Il « suffira » d'ajouter d'autres formats sous forme de scripts dans le
dossier "extract/".
Si vous avez conservé la même (pseudo) API pour les extract/, il
suffit de copier directement tous les extracteurs de indexation ?
C'est à priori le cas, mais nous n'avons pas testé, donc pas intégré. Nous n'avions besoin que du PDF pour l'instant.
Je n'ai pas laissé l'extraction de PDF en PHP pur, il me semble qu'elle
n'était pas satisfaisante. Si je me suis trompé, on peut la remettre, elle
est encore dans Indexation.
euh il me semble qu'elle marchait correctement (surtout quand il
s'agit d'extraire du texte pour indexation, et pas pour affichage).
Alors on la remettra. Le faire dans une classe avec plusieurs méthodes était-il réellement nécessaire, par contre ?
Fil, je voudrais mettre à jour la doc sur SPIP Contrib, on fait comment ?
euh bien il faut que toi ou Stéphanie soyez admin ou auteure de l'article.
Tu m'ajoutes comme auteur, pour commencer ?
Mais de toute façon, en tant qu'auteur, on ne peut pas modifier un article déjà publié, non ?
Mais de toute façon, en tant qu'auteur, on ne peut pas modifier un article
déjà publié, non ?
si (Autorité)
Magique.
A noter j'ai beaucoup travaillé sur l'extracteur de fichiers quark
(dans le plugin "convertisseur de formats")
J'ai vu ça, oui.
Penses-tu qu'il faudrait plutôt mettre les extracteurs dans des plugins séparés (y compris celui de PDF, donc), pour qu'ils soient utilisables pour d'autres besoins ?
Penses-tu qu'il faudrait plutôt mettre les extracteurs dans des plugins
séparés (y compris celui de PDF, donc), pour qu'ils soient utilisables pour
d'autres besoins ?
A vrai dire je n'ai plus aucun site sérieux sans le plugin Fulltext,
donc la solution actuelle me convient farpaitement.
Penses-tu qu'il faudrait plutôt mettre les extracteurs dans des plugins
séparés (y compris celui de PDF, donc), pour qu'ils soient utilisables pour
d'autres besoins ?
A vrai dire je n'ai plus aucun site sérieux sans le plugin Fulltext,
Pareil.
donc la solution actuelle me convient farpaitement.