Francis Chouquet Graphiste Lettering

Référencement: Quid du Supplemental Index de Google ?

0

Aujourd’hui nous continuons notre route à travers le référencement et nous allons, encore une fois, essayer de comprendre le fonctionnement de Google (si on y arrive) pour optimiser notamment notre positionnement dans le moteur de recherche. On va donc aujourd’hui s’intéresser au fameux supplemental index de Google qui fait toujours autant parler de lui…

Kezako que le Supplemental Index ?

Je suis sûr que certains se sont dit en voyant le titre « quid du quoi ? ». Qu’est-ce donc que le supplemental index de Google ? En fait, c’est l’index parallèle de Google qui référence toutes les URL de votre site qui sont prises d’une manière ou d’une autre comme contenu dupliqué et qui présentent moins d’intérêt pour Google.

Quelles sont mes pages figurant dans le supplemental index ?

La manière la plus connue pour connaître ces pages est de taper cette requête dans la fenêtre de navigation de Google:

site:www.yoursite.com *** -sljktf

DailyBlogTips propose également ces requêtes:

site:www.yoursite.com *** -sjpked
site:www.yoursite.com *** -view
site:www.yoursite.com *** -ndsfoiw

Alors, quand j’ai découvert cet index via cet article d’Aaron Wall il y a quelques temps, je me suis empressé de calculer la part de mes pages web qui étaient prises comme contenu dupliqué… Et là, mauvaise nouvelle, elles y étaient presque toutes !! 😎 Alors, comme souvent, je me suis rendu sur Webrankinfo et j’ai posé la question Quand à la validité d’un tel index puisque je figure quand même en première page de Google sur plusieurs requêtes. Là, on m’a répondu que cet index n’était plus d’actualité.

Cependant, j’ai continué à voir fleurir plusieurs articles sur le sujet, et notamment un, hier, de DailyBlogTips, qui vous propose de calculer votre ratio d’articles considéré comme Google comme moins intéressantes.

Comment calculer ce ratio ?

La méthode est la suivante: vous allez effectuer la requête suivante sur Google, site:www.yoursite.com, et noter le nombre de vos URL indexées par Google. Ensuite, vous allez calculer le nombre de pages figurant dans l’index principal de Google en effectuant la requête suivante: site:www.yoursite.com -allinurl:www.yoursite.com.

Ensuite faites le rapport suivant pour obtenir le nombre de pages figurant dans le supplemental index de Google:

Nb de pages indexées – Nb de pages figurant dans l’index principal

Enfin, pour calculer le ratio, faites l’opération suivante:

Nb de pages figurant dans le supplemental index / Nb de pages indexées

Alors, je l’ai fait pour mon site et le résultat est le suivant:

Nombre de pages indexées: 1040
Nombre de pages figurant dans l’index principal: 616
Nombre de pages figurant dans le supplemental index: 424

Ratio: 40,7%

Alors bon, je dois quand même avouer que j’ai des doutes sur la méthode… Alors, en lisant les commentaires de ce même article de DBT, j’ai découvert une autre méthode:

Excellent comment, the seo4fun article explaining the supp index had a slightly different way (perhaps more up-to-date) method of querying. To summarize:

Main index = site:www.yoursite.com/*
Supp index = site:www.yoursite.com/&

The results are slightly different, but I do not know which is more accurate.

J’ai donc essayé cette autre méthode et là, le ratio est de 91% !!!

Mais là, le résultat est intéressant, et plus pertinent, parce que dans ces URL, je retrouve toutes les pages de tags et d’archives par exemple. Et donc la politique de contenu dupliqué de Google. Tout ce que je viens de bloquer via le fichier robots.txt… Donc, maintenant, les choses devraient s’améliorer.

Que valent ces ratios ?

Est-ce que ce genre de calcul, quel qu’il soit, est représentatif de la réalité ? Je crois quand même qu’on n’en est pas trop loin et si on suit bien les règles de Google et qu’on n’a pas bien suivi les tutos de l’été, on se retrouve vite dans le supplemental index. :mrgreen: Je rigole mais je suis convaincu qu’il y a une part de vérité dans tout ça…

Je prends un exemple simple et que j’ai abordé récemment, c’est celui des méta tags « description » et « keywords ». Par défaut, WordPress va laisser la description du blog et des keywords de la page d’accueil sur toutes les pages du blog. On sait que Google n’aime pas ça et qu’il va les prendre pour des pages inintéressantes parce que pas « différentes » les unes des autres. Donc, si on suit leur logique, et si eux l’appliquent, on attérit dans le supplemental index.

Alors bien sûr, on peut encore dire que pourtant certaines de nos pages sont très bien référencées…Oui, et c’est peut-être là, la limite de ces ratios… Mais si elles ont beaucoup de trafic et beaucoup de liens, elles sont bien référencées… C’est un peu flou toute cette histoire mais je crois quand même qu’il est important de virer les tags et les archives de l’index de Google. Je ne suis pas sûr pour les catégories. Mais au final, ce sont les permaliens les plus importants… Vous pouvez être bien positionné sur des requêtes peu demandées et figurer dans le supplemental index, mais quand est-il si vous êtes sur des requêtes très prisées ?? Je me pose la question… Et les secrets de Google sont toujours aussi bien gardés… 😉


6 Commentaires

  • Sympa ton article Francis. Par contre moi je préfère éviter de faire ce genre de calculs car malheureusement le nombre de résultats annoncé par la commande site: n’a jamais été fiable…

  • Salut Olivier, tout ça n’est définitivement pas simple et nous ne pouvons, malheureusement pas faire de prévisions complètement fiables… Google devrait plus communiquer là-dessus je trouve, et pourquoi pas l’intégrer à Google Webmaster Tools…

  • Marrant, si je ne me trompe pas dans le calcul, Google lui-même à un ratio de plus de 70% ^^

  • Merci de franciser ces techniques mathématiques du supplemental index.
    Je pense qu’une bonne partie de la réponse se trouve dans la démarche mathématique qu’elle est : Si l’on considère le supplemental comme l’index de toutes les pages de listes et de tags, on comprend que le ration est le taux d’un site entre ses listes par rapport à son nombre de contenu.

    Pour un site statiques (il en reste !) par exemple ce ratio va être très bas, pour un site dynamique, un blog ou un portail d’info, il y a plus de risque d’obtenir des taux très (trop…) élevés, mais cela n’est pas pour autant que Google considère toutes ces pages comme du real duplicate content ! Selon les derniers dires (Matt Cuts et le duplicate content dans les blogs), GG est de plus en plus tempéré pour les pages tags et categories.

    Cet outil est plutôt un bon moyen de ne pas submerger son site de pages listes et mettre en place des règles de robots pour diminuer le ratio.

Success, your comment is awaiting moderation.