syndication : doublons fantômes

J'observe un phénomène étrange:

sur un site SPIP récemment créé (en SPIP 2.0.9) j'ai implémenté une liste d'articles syndiqués, en provenance d'une rubrique spécifique d'un site voisin (sous SPIP version 1.9.2d). Je les filtre avec un critère {age<30}.

Le lien que j'ai indiqué pour la syndication a le format suivant:
http://DOMAINE/spip.php?rubrique228

Fichier de syndication: http://DOMAINE/spip.php?page=backend&id_rubrique=228

Cela fonctionne bien dans un premier temps, mais après quelques semaines d'utilisation, une ribambelle de doublons fait son apparition (avec des URL différentes), que je me vois obligé de désactiver manuellement!

J'ai donc d'une part le lien normal de l'article:
http://DOMAINE/spip.php?article876

Ainsi qu'une série de doublons qui présentent une URL fantaisiste:
.../spip.php/ecrire/IMG/pdf/ecrire/squelettes/squelettes/IMG/jpg/spip.php?article876
.../spip.php/dist/squelettes/IMG/swf/ecrire/squelettes/IMG/pdf/spip.php?article876
.../spip.php/spip.php?article876
.../spip.php/img/pdf/squelettes/ecrire/dist/squelettes/dist/IMG/pdf/spip.php?article876
.../spip.php/dist/ecrire/spip.php?article876
.../spip.php/dist/spip.php?article876

Toutes ces URLS "fonctionnent": elles génèrent le contenu de l'article, dépourvu de style CSS.

En vérifiant le fil RSS original, je constate qu'il ne présente toujours qu'une version de l'article, mais que l'URL subit en effet des variations - c'est donc bien le RSS du site sous SPIP 1.9.2d qui produit ces liens.

J'ai maintenant réglé la syndication à "bloquer automatiquement" les "liens qui ne figurent plus dans le fichier de syndication" et j'espère que ça résoudra le problème... mais je suis assez perplexe, et curieux de connaître la cause de ce phénomène -- un problème propre à cette ancienne version de SPIP?

Bonne journée,

--
Manuel

Bonjour,

Ce bug est étonnant ... Ceci dit, j'ai déjà eu ce genre de problèmes avec des réécritures d'url sur un autre moulin que spip.
A l'époque, je l'avais résolu en incluant un <base href="http://www.monsite.com" /> dans le header du site converné.
Le problème était du à des liens relatifs situés dans un sous répertoire virtuel ( du à la réécriture d'url ) du site.
J'obtenais au niveau de google et dans mes logs des liens totalement farfelus du même type que ceux que tu décris ( boucles ).

Peut être devrais tu chercher dans cette direction ?

Vincent a écrit :

Bonjour,

Ce bug est étonnant ... Ceci dit, j'ai déjà eu ce genre de problèmes avec des réécritures d'url sur un autre moulin que spip.
A l'époque, je l'avais résolu en incluant un <base href="http://www.monsite.com" /> dans le header du site converné.
Le problème était du à des liens relatifs situés dans un sous répertoire virtuel ( du à la réécriture d'url ) du site.
J'obtenais au niveau de google et dans mes logs des liens totalement farfelus du même type que ceux que tu décris ( boucles ).

Peut être devrais tu chercher dans cette direction ?

Bonjour

Je viens de constater la même chose sur un site qui est syndiqué avec <http://www.france.attac.org/&gt; qui est en 2.0.9 mais n'utilise pas la réécriture d'URL. De plus chaque article avec ce bug se trouve syndiqué 8 fois!

J'ai pas la solution. Mais si les responsables du site que tu syndiques compare leur code avec celui de france.attac.org ils la trouveront peut-être :wink:

Cordialement

FR

le site en question n'utilise pas ("ne peut pas utiliser" selon leur
sys-admin) la réécriture URL de SPIP -- par contre il s'agit comme pour
france.attac.org d'un sous-domaine machin.truc.org ...

donc c'est peut-être bien ça la source de l'erreur, la réécriture d'url
du domaine/sous-domaine.

j'essaierai de transmettre l'info au responsable du site ... qu'ils
aillent comparer leur .htaccess avec celui d'attac.fr :slight_smile:

F. Roure said the following on 22/10/09 15:27:

Vincent a écrit :

Bonjour,

Ce bug est étonnant ... Ceci dit, j'ai déjà eu ce genre de problèmes
avec des réécritures d'url sur un autre moulin que spip.
A l'époque, je l'avais résolu en incluant un <base
href="http://www.monsite.com" /> dans le header du site converné.
Le problème était du à des liens relatifs situés dans un sous
répertoire virtuel ( du à la réécriture d'url ) du site.
J'obtenais au niveau de google et dans mes logs des liens totalement
farfelus du même type que ceux que tu décris ( boucles ).

Peut être devrais tu chercher dans cette direction ?

Bonjour

Je viens de constater la même chose sur un site qui est syndiqué avec
<http://www.france.attac.org/&gt; qui est en 2.0.9 mais n'utilise pas la
réécriture d'URL. De plus chaque article avec ce bug se trouve syndiqué
8 fois!

J'ai pas la solution. Mais si les responsables du site que tu syndiques
compare leur code avec celui de france.attac.org ils la trouveront
peut-être :wink:

Cordialement

FR

tar.gz a écrit :

le site en question n'utilise pas ("ne peut pas utiliser" selon leur
sys-admin) la réécriture URL de SPIP -- par contre il s'agit comme pour
france.attac.org d'un sous-domaine machin.truc.org ...
  

Le fait que ce soit un domaine, ou un sous domaine ne change rien à l'affaire: il s'agit toujours d'un nom de machine au final.
Malheureusement, le souci dont je parlais n'est valable que dans le cas ou l'on a un sous répertoire virtuel + réécriture d'url.
Il ne s'applique donc potentiellement pas ici ...

Par contre, l'aspect des url citées dans le premier post m'incite vraiment à penser à un problème du à un lien relatif ( sans le nom de domaine complet devant ).
La question est donc ou dans la chaine d'acquisition des données peut se glisser la plaisanterie ?