Google, via son blog officiel, revient sur le duplicate content (duplication de contenu) et essaye de clarifier cette notion qui peut paraître floue du fait de ses quelques nuances…
- On retiendra les points suivants :
- Google considère qu’il y-a duplicate content lorsque un bloc de contenu est identique d’un site à l’autre ou est fortement similaire. Un site reprenant le contenu d’un autre site sans-y apporter aucune modification est susceptible d’être sanctionné par le moteur de recherche.
- Google ne considère pas, par contre, une traduction comme de la duplication de contenu. Un article anglais traduit en français ne sera pas sanctionné.
- Google ne considère pas non plus la page de la version imprimable d’un article comme du duplicate content. Par contre il conseille d’indiquer sur le fichier robots.txt quelle page sur les deux indexer (l’article en général et non la version imprimable). En effet il n’indexera qu’une des deux pages. Le seul risque à courir par le webmaster est de voir la mauvaise page indexée (version imprimable) si il ne renseigne pas correctement le fichier robots.txt.
- Google en profite également pour donner quelques conseils pour éviter de subir le duplicate content :
- Dans le cas d’une refonte de site, si il subit une restructuration, il est conseillé d’utiliser les redirection 301 pour renvoyer les anciennes pages vers les nouvelles pour éviter que Google indexe les deux versions et ne considère l’une comme duplicate content !
- Evitez des liens vers une même page avec une structure de lien différente. Par exemple si au seing du site, les liens vers la page d’accueil reprennent les trois formes suivantes :
www.exemple.com, www.exemple.com/ et www.exemple.com/index.php Google indexera la page avec trois URL différentes est considérera deux d’entre elles comme duplicate content. - Pour les sites multilingues, préférez un domaine propre à chaque langue plutôt qu’un sous domaine ou un répertoire. On préférera www.exemple.de plutôt que de.exemple.de ou encore www.exemple.com/de !
- Si le contenu de votre site est repris sur des sites partenaires, faites en sorte que chaque sites reprenant votre article fasse un lien vers votre article d’origine.
- Utilisez le domaine préféré (Preferred domain) dans Google Webmaster tool pour indiquer la version de votre site que vous souhaitez que Google indexe c’est à dire avec ou sans www avant (exemple.com ou www.exemple.com)
- Si un site reprend votre contenu sans votre accord et que vous n’arrivez pas à trouver un accord à l’amiable, Google indique également la procédure à suivre sur cette page : DMCA request (en anglais)
D’une façon générale, les solutions pour éviter le duplicate content sont rapides et faciles à mettre en place. Cependant éviter la duplication de contenu nécessite de surveiller l’indexation du site régulièrement.
Source : Google Webmaster blog
Mouais, il y a certains cas où éviter la duplication de contenu est quasi impossible. Prenons un exemple simple et courant, je dispose d’un site Internet accessible via l’url monsite.fr à destination de la France. Je décide de me lancer en Belgique demain. Je vais donc lancer monsite.be hors mon contenu lui n’aura pas changé pour autant et il sera rigoureusement identique et je serais accusé de duplication sans pour autant pouvoir y faire grand chose.
Les index locaux sont distincts.. Pas de DC dans ce cas.
Voir le lien que j’ai en haut (acidifie.coupdeprojecteur… pour le problème de la pagination sur les blogs.
C’est aussi un des problèmes les plus importants, mais que vous avez oublié de citer, et surtout de résoudre dans ce billet!
toujours intéresant tes billets 🙂 l’article en general et non la version imprimable : ça m’a quelque peu fait sourir 🙂 bonne contibuation !
coucou, article très intéressant 🙂 je me demandais ce que tu voulais indiquer dans cette précision : ‘l’article en general et non la version imprimable’ … A+
Bonjour,
L’article = la page web affichant l’article ;
La version imprimable = la page s’affichant après avoir cliqué sur imprimer cet article ;