Si tous les « documents » d’un site web (sous spip ou autre) sont correctement conçus et renseignés (image, pdf, texte, vidéo, …), ils seront faciles à « référencer » … et dans ce cas il offriront chacun un « titre », un « descriptif », H1, H2, … sous-titres, titre de paragraphes, alt+, etc …" Quand ce minimum est réalisé, n’importe quel moteur de recherche peut les trouver facilement.
Que cela soit QWANT, GG, BING, etc … l’obligation est donc de « renseigner » chaque document PDF
Normalement le système intégré de recherche dans escal fonctionne parfaitement pour les trouver ensuite.
(suite) Suffit pas qu’un fichier PDF existe pour qu’il soit trouvé !
Je pense qu’avant d’ajouter un moteur de recherche ou un script dans un site spip, il est plus efficace et utile d’améliorer le minimum du travail de référencement de chaque document PDF, et de chaque page le contenant !
Liste de quelques points à respecter https://www.codeur.com/blog/seo-pdf/ pour favoriser l’indexation et le bon positionnement de fichiers PDF en ligne et ainsi favoriser leurs trouvailles par n’importe quel système de moteur de recherche.
Optimisation SEO du texte du document PDF : contenu et structure.
Utilisation des métadonnées du document PDF pour le référencement naturel (correspondent aux propriétés du documents et sont éditables avec le logiciel de création du PDF).
Optimisation de la taille du document
Pensez à la balise alt. L’utilisation de la balise alt (ou « texte alternatif ») fait partie du b-a ba du référencement des images. L****e texte alternatif peut aussi être renseigné pour les images contenus dans un PDF, apportant un coup de pouce SEO au document. La plupart des outils permettent de créer des PDF donnant la possibilité d’éditer la balise alt d’une image.
Optimisation des hyperliens qui pointent vers le document PDF.
Pas si simple en fait : pour que fulltext puisse indexer les pdf, il faut un extracteur au niveau du serveur, comme pdftotexte.
Mais s'il n'y en a pas, je ne sais pas comment l'ajouter.
Indexation du contenu textuel des documents avec "FULLTEXT"
Ce plugin propose en outre l’indexation (optionnelle) du contenu textuel des documents joints aux articles et/ou rubriques.
Il stocke pour cela dans la table |spip_documents| une version texte du document, obtenue à l’aide d’un «extracteur». Cet extracteur peut être un exécutable système lancé depuis le plugin, ou du code purement PHP.
Les formats supportés à partir de la version 0.6.2 du plugin sont :
* *Le PDF, à condition que le fichier ne soit pas protégé contre la
copie*
* Le DOC, PPT, et XLS
* Le DOCX, PPTX et XLSX (nécessite PHP 5.2 au minimum, ainsi que
l’option -enable-zip)
* Le ODT (nécessite PHP 5.2 au minimum, ainsi que l’option -enable-zip)