Francis Chouquet Graphiste Lettering

Tuto de l’été n°3: créez un fichier robots.txt pour votre blog WordPress

0

Dans le précédent tutoriel, on a vu que le sitemap était important pour permettre aux robots d’aller se balader sur votre site et référencer toutes vos pages web. Aujourd’hui, on va s’intéresser au fichier robots.txt qui définit quel est l’accès que l’on veut donner aux différents robots sur l’ensemble des fichiers et dossiers du blog. Si vous n’avez pas de fichier robots.txt, ça veut dire que les robots peuvent aller partout et tout récupérer.

Il va donc être important d’essayer d’établir un fichier robots.txt qui limite l’accès à certains fichiers « sensibles », mais qui permette aussi d’améliorer le référencement. En effet, j’en parlais la semaine dernière, si on veut améliorer son référencement, il faut aussi penser à ne pas avoir trop de contenu dupliqué. Grâce au fichier robots.txt, on va pouvoir « dire » aux robots de ne pas aller voir dans certains fichiers où l’on pourrait retrouver un contenu déjà présent ailleurs.

Alors, quand j’ai commencé à m’intéresser à trouver un fichier robots.txt infaillible pour WordPress, je suis allé sur le web, voir ce qui se disait. Et là, je dois avouer que j’ai trouvé de tout, et visiblement, chacun a sa propre manière de voir le fichier robots.txt. Alors, pour commencer, je vous livre quelques réponses de blogueurs à la question: « Quel fichier robots.txt pour votre blog WordPress ? »
Tout d’abord les français:

Ca vous permettra déjà d’avoir une bonne idée de ce qui se fait…

Alors, quand on crée un fichier robots.txt, il y a principalement 3 choses auxquelles il faut penser:

  1. Ne pas permettre aux robots d’avoir accès à des dossiers et des fichiers importants du blog,
  2. Ne pas permettre l’accès à des fichiers dont le contenu peut être identique et donc pris comme « dupliqué »,
  3. Bien vérifier que l’on ne bloque pas l’accès à des fichiers et dossiers importants pour un meilleur référencement.

Si vous n’avez pas encore de fichier robots.txt de créé sur votre blog, créez un fichier que vous nommez robots.txt, que vous irez placer à la racine de votre blog et mettez le code suivant comme contenu du fichier:

Sitemap: http://www.monblog.com/sitemap.xml
User-agent: *
Disallow:

Pour faire simple, disons que la première ligne, c’est pour dire au robots d’aller faire un tour sur le sitemap. Ensuite, la deuxième ligne vous indique que la règle s’applique à tous les robots (d’où le signe *). Enfin, la troisième ligne correspond aux accès et refus d’accès aux différents fichiers et dossiers. Ici, on ne refuse rien. Donc TOUS les robots ont accès à TOUT.

Maintenant, on va ajouter des lignes à ce code pour délimiter les accès. Ceux-ci seront différents d’un blog à un autre puisque l’on n’a pas tous les mêmes fichiers ou dossiers. Quoi qu’il en soit, une bonne partie d’entre eux seront identiques. Et plutôt que d’aller modifier l’ensemble directement sur le serveur, vous allez faire des tests dans Google Webmaster Tools. Et oui, le revoilà celui-là !! 😀 En fait, Google Webmaster Tools a un outil pour tester votre fichier robots.txt. Pour cela, allez dans l’onglet Diagnostic > Outils > robots.txt analyse. Là tout vous est expliqué. Vous allez pouvoir ajouter toutes les lignes que vous souhaitez et les tester avant de les mettre définitivement en ligne. Comme ça, vous éviterez de faire des erreurs. N’oubliez pas que le fichier sera mis à jour sur Google Webmaster Tools qu’une fois que GoogleBot sera repassé sur votre blog !

Alors, qu’est-ce qu’on va bien pouvoir ajouter ?

Tout d’abord, on va s’intéresser aux dossiers complets, pour lesquels tous les fichiers ne seront pas accessibles aux robots, et notamment à Googlebot, puisque c’est surtout le robot qui nous intéresse ici. Pour cela, j’ajouterais déjà ces 3 lignes:

# Acces refuse aux dossiers et fichiers inclus
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-

Ici, pas accès à ces dossiers et fichiers dits « sensibles ». C’est une manière d’éviter l’accès aux fichiers d’administration du blog par exemple, aux fichiers WordPress. Ici, je ne suis pas sûr que l’on doit ajouter un « disallow » pour wp-admin ou wp-includes, comme plusieurs semblent le faire. Il me semble que « disallow: /wp- » le fera pour tout dossier ou tout fichier commençant par cette syntaxe.

Ensuite, on va supprimer l’accès aux flux et trackbacks des différents articles et commentaires, histoire, une fois de plus de limiter le contenu dupliqué, et ce, toujours pour tous les robots:

Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/

Enfin, on va vérouiller l’accès pour certains TYPES de fichiers, comme php ou css par exemple, histoire de diminuer encore un peu plus le contenu dupliqué. Et ici, on ne va l’appliquer qu’à Googlebot:

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$

Vous devez donc avoir un fichier qui ressemble à ça:

Sitemap: http://www.fran6art.com/sitemap.xml

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$

Ensuite, on peut ajouter pas mal de choses, selon ce que l’on veut voir apparaître. Personnellement, je serais tenté de virer aussi les catégories (les archives peut-être ?) et d’ajouter la ligne suivante pour tous les robots:

Disallow: /categories/*

On peut également travailler de différentes manières sur différents robots comme MediaPartners, le robot de Google pour Adsense. Mais je pense que le plus important est dans un premier lieu de se focaliser sur l’optimisation pour Google, numéro 1 des moteurs de recherche. En tout cas, je suis un peu comme certains d’entre vous, j’avais un fichier de base robots.txt sur mon blog et maintenant, on va voir ce que ça change d’avoir un fichier moins permissif.

Alors, disons que ce que je vous propose là est un fichier de base, une idée de départ. Il n’est pas parfait. Ensuite, on peut discuter quant à savoir ce qu’il faut mettre ou non. Et pour être complètement honnête, ce qui serait top, c’est de partager ensemble notre expérience et nos idées du fichier robots.txt pour essayer d’en concevoir un qui soit, peut-être pas idéal, mais proche du parfait pour le référencement. Qu’en pensez-vous ? Que contient votre fichier robots.txt ?

54 Commentaires

Success, your comment is awaiting moderation.