Francis Chouquet Graphiste Lettering

SEO WordPress: Vidéo sur le contenu dupliqué

0

En préparant un article sur le fichier robots.txt pour demain, je suis tombé sur une vidéo très intéressante et qui, je dois l’avouer remets pas mal de choses en cause sur la manière de gérer son blog et aussi de laisser les robots se balader dessus. Voici donc cette vidéo. Petit résumé en français après la vidéo 😉 !!

Image de prévisualisation YouTube

En gros, ce que dit Michael Gray de SEOBLOG, c’est qu’il faut éviter le « duplicate content » à tout prix pour être mieux référencer sur Google. En fait, il compare Googlebot à un enfant de 3 ans qui doit chercher ses jouets. Si vous lui dites où il sont, tout sera simple, ça lui évite de chercher. C’est pour cela que l’on crée un sitemap. Mais il va plus loin en disant qu’il faut faciliter la tâche du robot en n’allant pas coller un article dans plusieurs catégories. En effet, selon lui, ça va pas faciliter la tâche à Googlebot et en plus, ça risque fort de créer du contenu dupliqué, même avec la version tronquée d’un article à la place de sa forme complète. Pour lui, il faut donc limiter chaque billet à une et une seule catégorie, et qui correspond le mieux.

Ensuite, il conseille fortement l’utilisation de la balise « more » pour la homepage de votre blog. Encore une fois pour éviter le contenu dupliqué. Ainsi l’article complet se trouve uniquement sur son permalien, avec son URL, et les choses sont plus simples pour Google. Encore une fois, il insiste bien sur le fait de rendre les choses le plus simple possible pour Mister Googlebot !

Et enfin, on arrive à la partie sur le robots.txt. Ce fichier, que je vous présenterai demain et que l’on essaiera d’optimiser pour un meilleur référencement, vous permet de bloquer l’accès de certains fichiers ou dossiers aux robots qui visitent votre blog. Ici, Michael Gray vous conseille fortement de bloquer l’accès des archives à Googlebot. Les archives sont super intéressantes pour les visiteurs, ceux qui passent sur le blog, mais ce n’est que du contenu dupliqué pour Google. Donc, selon lui, à bloquer sur votre fichier robots.txt. Mais j’y pense ! Dans ce cas-là, faudrait faire pareil avec les tags alors ? 😯

Alors, je ne dis pas que ce qu’il dit est vrai ou faux, mais je m’interroge et trouve tout de même cette vidéo intéressante. Limiter au maximum l’accès à du contenu dupliqué va-t-il améliorer le référencement de manière sensible ? J’avoue que tout ça m’interpelle… Pas vous ? Vous en pensez quoi de ces propos ?

Francis

34 Commentaires

  • Intéressant, très intéressant ! J’attends de lire l’article sur le fichier robots.txt

  • Ca à le mérite d’être dit, après je doute que tout le monde optimisera ce fichier. Néanmoins je pensais il y à quelques jours remettre de l’ordre dans mes catégories pour une meilleure navigation, et je vois dans ton billet que ça peut aussi être utile pour le référencement !

  • Je pense personnellement que si on mets des « excerpts » partout sauf sur les permaliens, Google saura où chercher l’info… Pas de duplicata dans ces cas-là… Enfin, je suppose…

  • Merci pour cet article instructif.
    Oui, je pense aussi que les extraits peuvent résoudre ce problème.

    L’idéal pour les archives, c’est de faire une page spéciale réunissant les permaliens d’articles par mois comme tu le fais très bien sur ce blog, ou comme je l’ai fait avec le plugin SRG Clean Archives, ça fait même une sorte de Sitemap chronologique 😉

    D’ailleurs, cette super page d’archives, tu l’as faite à l’aide d’un plugin je suppose, serait-ce Extended Live Archives ?

  • En même temps le all-in-one-seo-pack de WP permet de résoudre tous ces problèmes de duplication des archives non ?

  • Harry > C’est quoi le « all-in-one-seo-pack de WP » dont tu parles ? Tout dépend du thème et à la base rien n’est prévu pour éviter le duplicata du contenu. Il faut modifier le « content » par les « excerpt » sur chaque fichier…

    Frenchmat > J’utilise SRG CLean Archives, tout comme toi !! 😉

  • Je parle de ça Fran6 : http://wordpress.org/extend/pl.....-seo-pack/

  • Pffiou ca change tout ! Moi qui met toujours 4 ou 5 catégories par article, je suis mal barré 🙂

    Effectivement, si on va au bout de ce raisonnement, il faut interdire l’accès aux tags/catégories et aux archives. A creuser..

  • Effectivement une fois de plus trés intéressant …. bravo
    mais quelle complexité aujourd’hui pour le blogueur lambda ( dont je fais partie )
    j’essaye de me mettre à ma place ( c’est à dire celle de tout le monde … ) .. bloguer devient un exercice difficile, non ?

  • Merci Harry pour le lien. Effectivement, je ne connaissais pas… Intéressant en tout cas ! 😉

    bloingo > Si déjà tu blogues sous WordPress, c’est que tu n’es plus un blogueur lambda !! 😀

  • En effet cette vidéo (et ton article) sème le doute…Limiter l’accès aux archives et aux tags n’est pas une mauvaise idée si on considère la duplication du contenu. A moins dans les pages d’archive et de tags de ne mettre que les liens des articles (et pas le contenu).
    Mais ça ne pose pas de problème avec le sitemaps? On lui dit qu’il faut qu’il aille crawler le lien, et arrivé sur place, on lui dit de faire demi-tour? à sa place je me vexe 😀

    Sérieusement, ne faudrait-il pas simplement accepter le robot UNIQUEMENT dans les archives, et la page d’accueil? (et aussi les autres pages comme « contact » etc). Donc l’interdire dans les tags, et « page 2 », « 3 » etc? je pense à ça parce que la page d’archive (notamment la tienne fran6) est bien organisée, c’est peut-être mieux pour le bot. D’ailleurs la tienne ne devrait pas poser problème puisqu’il n’y a pas de contenu, mais simplement des titres?
    Arf que de questions…

    Je pensais aussi (je pense beaucoup aujourd’hui!), empecher l’accès aux tags et archives, c’est peut etre une bonne chose pour l’indexation, mais pas forcément pour le pagerank non? car les pages linkées n’hériteront pas du PR de la page fille. Si j’ai bien compris la chôse…

    Et voilà à cause de toi je ne vais pas dormir :-/

  • Désolé Bastoune si je t’empêches de dormir !!! 😕 Comme je l’ai dit plus haut, commence par tout avoir en excerpt saus les articles complets et tu vas déjà voir ce que ça donne. Pas obligé de tout changé d’un coup !! Pour ce qui est du sitemap et du robots.txt, le truc c’est que le sitemap c’est juste pour que le robot puisse chercher et trouver les pages. Ensuite, on tri dans le robots.txt, et là ça peut être différent d’un robot à un autre. Il y a bien une autre solution que l’on peut mettre dans les balises meta du header mais ça ne fonctionne pas avec WordPress…

    Je crois que simplifier au maximum et être le plus clair possible permettra une indexation plus facile pour WordPress et un meilleur référencement, mais faîtes les choses progressivement, faut pas trop perturber googlebot !! :roll: :mrgreen:

  • Je ne pense pas que le contenu dupliqué soit un si gros problème. On a posé la question à Matt Cutts lors de sa conférence à WordCamp (j’ai pris des notes, mais c’est en anglais bien sûr) et il n’a pas sauté au plafond en disant « à éviter absolument ».

    Utiliser « more » pour ne mettre que des extraits de billets en première page, c’est quelque chose que je ne vois plus du tout parmi la blogosphère « sérieuse » et « de longue date » (les spécialistes pour ce genre de truc, ce sont les journalistes, et franchement, les journalistes font parfois les pires blogueurs). Forcer un lecteur nouvellement arrivé à cliquer sur chaque article de la première page pour le lire, c’est un peu comme les fils RSS « partiels »: ça paraît séduisant, mais c’est un cauchemar ergonomique, et les gens fichent le camp.

    Le résumé en une phrase de la « SEO-wordpress », c’est comme pour le reste de la SEO: faites un site qui soit pertinent et bien fichu pour les humains, et les moteurs de recherche suivront (y’a des subtilités, je dis pas, mais l’essentiel est là).

  • Stephanie > Là, j’avoue que je suis surpris ! Ce que j’entends ces derniers temps, et en grande partie en provenance des blogs US, c’est d’utiliser au maximum les excerpt et SURTOUT en homepage ! Et d’ailleurs, je vois de plus en plus de blogs « sérieux » le faire… Dans ton article, Matt Cutts le dit bien: « WP does suffer a bit from the fact you can get to a post from 3-4 different ways ». C’est à ce niveau-là qu’il faut éviter d’avoir des articles complets partout.

    Maintenant, je suis d’accord qu’il ne faut pas exagérer non plus et en faire une véritable phobie !!! :mrgreen:

    Enfin, concernant l’ergonomie d’un site, et bien je pourrais t’en dire plus prochainement, vu que je suis passé d’un extrème à un autre. On verra notamment non pas si le nb de visites change mais si la durée des visites à tendance à augmenter ou à diminuer…

    En tout cas, merci pour tes remarques !

  • Je ne dirais pas qu’il faut choisir entre avoir un bon référencement et plaire à Google, mais presque.

    Ces nouvelles « recommandations » en matière de contenu dupliqué de la part de Google sont peut-être simplement le signe qu’il n’arrive pas forcément à reconnaître un contenu strictement identique à partir d’url différentes.
    Ou alors, il y parvient au prix d’un effort en ressources qu’il ne peut plus se permettre vu l’augmentation exponentielle du réseau.

    A y réfléchir vite fait mal fait, il faudrait aussi se poser la question des liens internes sur genre : « comme j’ai déjà eu l’occasion de le dire ici [lien vers son propre blog] ou la [idem], etc. » qui sont aussi du contenu dupliqué…

    En jouant même le mauvais esprit on pourrait même qualifier les backlinks de contenu dupliqué. Bon, ok, là, j’rigole 😉

    Ceci dit, ce n’est pas forcément une mauvaise chose de faire le ménage dans les catégories comme j’ai déjà eu l’occasion de le faire sur mon blog, où j’ai attribué une seule catégorie par article, plus pour le visiteur que pour le référencement d’ailleurs : retrouver plusieurs fois le même billet dans des catégories différentes ne fait pas très sérieux et décourage amha l’exploration d’un blog !

    Pour finir, s’il n’y a aucun mal à faciliter le travail de Google pour optimiser l’indexation, il faut savoir aussi faire le tri dans les différentes recommendations des uns et des autres : Google est ton ami, mais il a aussi sa stratégie 😉

  • >Br1o>pas d’accord avec toi

    je m’explique : on parle bien de CONTENU dupliqué, pas de lien dupliqué.
    Exemple précis : cet article de Romain sur les extensions Firefox, avec 2 tags, il est présent ENTIEREMENT sur ces 4 pages
    =>http://www.woueb.net/2007/07/2.....wordpress/
    =>http://www.woueb.net
    =>http://www.woueb.net/category/administration/
    =>http://www.woueb.net/category/software/
    Il s’agit bien de CONTENU dupliqué, et pas de simples liens. Par exemple, la page d’archives de Woueb ne pose pas problème, puisqu’elle ne présente que le lien vers les billets publiés, et pas le contenu. Et plus il y a de catégories (ou tags) associées, plus le contenu est dupliqué.

    Reprenez moi si je me trompe…

  • Non, non, c’est bien du contenu dupliqué ! C’est Romain qui va être content !! 😀

  • lapin compris la démontration de Bastoune46 : il me semble que l’inverse du contenu dupliqué n’est pas forcément le contenu unique mais le fait que le contenu (la page) doit être accessible via une url unique.

    Par exemple mon dernier billet est accessible via :

    – la home (chapô),
    – son url,
    – la catégorie qui affiche une page contenant les liens vers les billets (donc pas dupliqué) et ce serait exactement la même chose si j’avais classé le billet dans 2 catégories ou plus : chaque page liée à une catégorie affiche une page (contenant des liens ves les billets) différente à chaque fois (en supposant que tous les billets ne se voient pas associer toutes les catégories…),
    – les archives (idem),
    – les tags (idem),

    Mon idée c’est qu’à la limite, le fait de présenter une page sensiblement identique à Google (supposons que plusieurs catégories soit appliquées aux billets) ne signifie pas qu’elle soit strictement identique.

    Il s’agit de points d’entrées différents pour afficher des pages différentes permettant à leur tour d’afficher un même contenu. Au pire un humain pourrait confondre les pages, mais pas un robot. (bon j’arrête là, car je m’embrouille un peu… 😉 )

  • Ah bon l’à pô co-pli? 🙂 Alors dans ton cas le contenu est dupliqué une seule fois, puisqu’il est présent sur la page d’accueil, et sur la page donnée par son lien. Après je ne connais pas comment fonctionne le bot de GOOG mais c’est ce que j’ai compris de la définition du contenu dupliqué.
    Pour le cas des liens, cela ne fait que faire référence à la page, pas la « plaggier » (voilà pouquoi tes tags et tes archives ne posent pas problème, mais posent problème pour Romain sur Woueb, car ils contiennent le contenu).

    Ciao!

  • Bon les cocos !! (rien de politique là-dedans, rassurez-vous, c’est plutôt une forme informelle de politesse amicale…:D). Pour ce qui est des liens, on oublie tout de suite ! Les liens ne sont pas du duplicata et j’espère ne le seront jamais ! Concernant les articles, le robot de Google sait, visiblement, faire la différence entre le full content et le excerpt content. Du coup, il semble moins bien indexer les excerpts, se concentrant principalement sur le full content. Par contre, s’il trouve doublon ça peut être dangeureux.

    Je dis ça mais en même temps, mon blog a pendant les 9 premiers mois de sa vie eu des doublons sur les permaliens et la home et j’ai quand même eu un PR de 5. Parfois j’ai l’impression que la politique de Google est plus une politique d’intimidation. C’est tout comme les liens payés, j’ai vu une interview de Matt Cutts qui disait que finalement c’était pas bien grave mais que ça n’encourageait pas un meilleur référencement. Attention à TLA Bruno !!! 😉

  • « voilà pouquoi tes tags et tes archives ne posent pas problème, mais posent problème pour Romain sur Woueb, car ils contiennent le contenu »

    Je ne doute pas que tu connaisses mieux la définition du contenu dupliqué que moi, puisque je ne l’ai pas lu 😉 Je tiens à rappeller aussi que si j’interviens aussi promptement sur ce fil c’est surtout pour apprendre et pas (uniquement) pour faire valoir ma vision des choses 😉

    Ce que je me dit, c’est que même si l’article est publié intégralement sur la page d’accueil ET sur la page du post lui-même (donc avec un contenu identique accessible via la page d’accueil ET la page du billet), la page n’est de toute façon pas la même.

    Après, faut voir dans quelle mesure l’algorithme de Google est capable de définir les contours d’un billet complet sur une page d’accueil qui en contient plusieurs.

    Imaginons une partie de page d’accueil en se focalisant sur la fin du dernier billet publié et le début de d’avant-dernier. Prenons comme exemple l’expression « A bientôt » présent dans le premier cas et « bonjour » dans le second.

    Dans mon hypothèse, sur la requête « A bientôt bonjour », la page d’accueil devrait apparaître dans les résultats. Ca ne prouverait évidement pas grand chose, sinon, le fait que pour Google, cette page d’accueil n’est pas un ensemble de billet, mais un item unique dont il va indexer les mots comme s’il s’agissait d’un immense article.

    Corollaire de mon hypothèse, il se pourrait même que l’ensemble du billet présent en page d’accueil ne soit pas indexé de la même manière que le billet seul.

    D’abord parce que ce n’est pas toujours le même crawler qui visite la page, et puis surtout, le billet étant entouré d’autres billets (et éventuellement d’autres contenus) le contexte sémantique n’est pas le même.

    J’ai remarqué que peu de temps après la publication d’un billet, seule la page d’accueil est indexée, puis quelque temps après, je retrouve la page pointant vers le post lui-même.

    Mes deux cents 😉

  • « J??ai remarqué que peu de temps après la publication d??un billet, seule la page d??accueil est indexée, puis quelque temps après, je retrouve la page pointant vers le post lui-même. »

    Effectivement, mais la page d’accueil étant fréquemment visitée par le robot…Mais une fois qu’il passe, le permalien est lui aussi indexé donc le robot risque de repasser prochainement pour lui… Mais la remarque est intéressant: la homepage est souvent la page qui a le PR le plus haut. Il devrait être plus intéressant de mettre les articles complets sur cette page non ?

    Quoi qu’il en soit, mon pauvre Bruno, j’ai bien peur que les voix de Google soient une fois de plus impénétrables…

  • @francis > « la homepage est souvent la page qui a le PR le plus haut. Il devrait être plus intéressant de mettre les articles complets sur cette page non ? »

    Pas sûr : il faut compter avec la densité des mots-clés sur une page. C’est ce qui me conforte dans l’idée que le texte d’un billet n’est pas indexé de la même manière selon qu’il partage la vedette avec d’autres billets ou s’il est tout seul dans son écrin.

    A la limite l’idéal est à redécouvrir du côté du thème Kubrick de WordPress où la page single.php élimine tout le bruit pour faire place nette au billet.

    Le PR n’a pas trop de rapport avec le contenu, mais plutôt avec les backlinks 😉

    « les voix de Google soient une fois de plus impénétrables? »

    C’est clair… Les voies aussi d’ailleurs 😉 Il est urgent de se fier à son intuition et de mettre le paquet sur les aspects éditoriaux !

  • Un petit coup d’oeil sur le blog officiel de google webmaster central, ils en parlent justement :
    http://googlewebmastercentral......t-smx.html

  • Merci Alexis pour le lien ! 😉

    Bruno > C’est pareil avec la version de base de k2. L’article seul est SEUL, rien dans la sidebar par exemple, on se concentre sur le contenu et uniquement le contenu du billet… Déjà que c’est pas facile de jongler entre le référencement et le positionnement, alors entre le Search Engine Management et le User friendly… Que faire ?? 😕

  • Merci
    Bien intéressant !

Success, your comment is awaiting moderation.