Francis Chouquet Lettering + Logo Design

Tuto de l’été n°3: créez un fichier robots.txt pour votre blog WordPress

0

Dans le précédent tutoriel, on a vu que le sitemap était important pour permettre aux robots d’aller se balader sur votre site et référencer toutes vos pages web. Aujourd’hui, on va s’intéresser au fichier robots.txt qui définit quel est l’accès que l’on veut donner aux différents robots sur l’ensemble des fichiers et dossiers du blog. Si vous n’avez pas de fichier robots.txt, ça veut dire que les robots peuvent aller partout et tout récupérer.

Il va donc être important d’essayer d’établir un fichier robots.txt qui limite l’accès à certains fichiers « sensibles », mais qui permette aussi d’améliorer le référencement. En effet, j’en parlais la semaine dernière, si on veut améliorer son référencement, il faut aussi penser à ne pas avoir trop de contenu dupliqué. Grâce au fichier robots.txt, on va pouvoir « dire » aux robots de ne pas aller voir dans certains fichiers où l’on pourrait retrouver un contenu déjà présent ailleurs.

Alors, quand j’ai commencé à m’intéresser à trouver un fichier robots.txt infaillible pour WordPress, je suis allé sur le web, voir ce qui se disait. Et là, je dois avouer que j’ai trouvé de tout, et visiblement, chacun a sa propre manière de voir le fichier robots.txt. Alors, pour commencer, je vous livre quelques réponses de blogueurs à la question: « Quel fichier robots.txt pour votre blog WordPress ? »
Tout d’abord les français:

Ca vous permettra déjà d’avoir une bonne idée de ce qui se fait…

Alors, quand on crée un fichier robots.txt, il y a principalement 3 choses auxquelles il faut penser:

  1. Ne pas permettre aux robots d’avoir accès à des dossiers et des fichiers importants du blog,
  2. Ne pas permettre l’accès à des fichiers dont le contenu peut être identique et donc pris comme « dupliqué »,
  3. Bien vérifier que l’on ne bloque pas l’accès à des fichiers et dossiers importants pour un meilleur référencement.

Si vous n’avez pas encore de fichier robots.txt de créé sur votre blog, créez un fichier que vous nommez robots.txt, que vous irez placer à la racine de votre blog et mettez le code suivant comme contenu du fichier:

Sitemap: http://www.monblog.com/sitemap.xml
User-agent: *
Disallow:

Pour faire simple, disons que la première ligne, c’est pour dire au robots d’aller faire un tour sur le sitemap. Ensuite, la deuxième ligne vous indique que la règle s’applique à tous les robots (d’où le signe *). Enfin, la troisième ligne correspond aux accès et refus d’accès aux différents fichiers et dossiers. Ici, on ne refuse rien. Donc TOUS les robots ont accès à TOUT.

Maintenant, on va ajouter des lignes à ce code pour délimiter les accès. Ceux-ci seront différents d’un blog à un autre puisque l’on n’a pas tous les mêmes fichiers ou dossiers. Quoi qu’il en soit, une bonne partie d’entre eux seront identiques. Et plutôt que d’aller modifier l’ensemble directement sur le serveur, vous allez faire des tests dans Google Webmaster Tools. Et oui, le revoilà celui-là !! 😀 En fait, Google Webmaster Tools a un outil pour tester votre fichier robots.txt. Pour cela, allez dans l’onglet Diagnostic > Outils > robots.txt analyse. Là tout vous est expliqué. Vous allez pouvoir ajouter toutes les lignes que vous souhaitez et les tester avant de les mettre définitivement en ligne. Comme ça, vous éviterez de faire des erreurs. N’oubliez pas que le fichier sera mis à jour sur Google Webmaster Tools qu’une fois que GoogleBot sera repassé sur votre blog !

Alors, qu’est-ce qu’on va bien pouvoir ajouter ?

Tout d’abord, on va s’intéresser aux dossiers complets, pour lesquels tous les fichiers ne seront pas accessibles aux robots, et notamment à Googlebot, puisque c’est surtout le robot qui nous intéresse ici. Pour cela, j’ajouterais déjà ces 3 lignes:

# Acces refuse aux dossiers et fichiers inclus
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-

Ici, pas accès à ces dossiers et fichiers dits « sensibles ». C’est une manière d’éviter l’accès aux fichiers d’administration du blog par exemple, aux fichiers WordPress. Ici, je ne suis pas sûr que l’on doit ajouter un « disallow » pour wp-admin ou wp-includes, comme plusieurs semblent le faire. Il me semble que « disallow: /wp- » le fera pour tout dossier ou tout fichier commençant par cette syntaxe.

Ensuite, on va supprimer l’accès aux flux et trackbacks des différents articles et commentaires, histoire, une fois de plus de limiter le contenu dupliqué, et ce, toujours pour tous les robots:

Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/

Enfin, on va vérouiller l’accès pour certains TYPES de fichiers, comme php ou css par exemple, histoire de diminuer encore un peu plus le contenu dupliqué. Et ici, on ne va l’appliquer qu’à Googlebot:

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$

Vous devez donc avoir un fichier qui ressemble à ça:

Sitemap: http://www.fran6art.com/sitemap.xml

User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/feed/

User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$

Ensuite, on peut ajouter pas mal de choses, selon ce que l’on veut voir apparaître. Personnellement, je serais tenté de virer aussi les catégories (les archives peut-être ?) et d’ajouter la ligne suivante pour tous les robots:

Disallow: /categories/*

On peut également travailler de différentes manières sur différents robots comme MediaPartners, le robot de Google pour Adsense. Mais je pense que le plus important est dans un premier lieu de se focaliser sur l’optimisation pour Google, numéro 1 des moteurs de recherche. En tout cas, je suis un peu comme certains d’entre vous, j’avais un fichier de base robots.txt sur mon blog et maintenant, on va voir ce que ça change d’avoir un fichier moins permissif.

Alors, disons que ce que je vous propose là est un fichier de base, une idée de départ. Il n’est pas parfait. Ensuite, on peut discuter quant à savoir ce qu’il faut mettre ou non. Et pour être complètement honnête, ce qui serait top, c’est de partager ensemble notre expérience et nos idées du fichier robots.txt pour essayer d’en concevoir un qui soit, peut-être pas idéal, mais proche du parfait pour le référencement. Qu’en pensez-vous ? Que contient votre fichier robots.txt ?

54 Commentaires

  • Merci pour cet excellent article. Etant moi même sur wordpress, j’ai suivi pas à pas ton article et je viens de créer mon robots.txt

  • Legroom : checke ton Robots tu t’es planté, tu as fait un copier coller de celui de fran6 y compris l’url de son sitemap : http://legroom.fr/robots.txt

  • 😀 mais quel boulet je fais !

    Merci Gonzague !

  • Merci Fran6, je l’attendais avec impatience cet article.
    J’avais déjà un robots.txt depuis mi-juillet mais là, j’y ai rajouté le flux de commentaire et les trackbacks. Le voici :

    Sitemap: http://www.frenchmat.net/blog/sitemap.xml
    User-agent: *
    Disallow: /memo/
    Disallow: /blog/wp-
    Disallow: /blog/feed/
    Disallow: /blog/page/
    Disallow: /blog/2007/
    Disallow: /blog/2006/
    Disallow: /blog/e-mail/
    Disallow: /blog/comments/feed/
    Disallow: /trackback/

    Je préfère enlevé les pages d’archives par défaut de wordpress, mais peut-être n’est-ce plus la peine puisque je ne les affiche plus et que j’ai une page réservée à cet effet (merci Fran6 😉 )
    Je me suis dit aussi que les pages 1, 2, 3, etc… peuvent faire du contenu dupliqué ainsi que ma page de contact qui n’a pas d’intérêt pour les moteurs.
    Peut-être que je devrais rajouter les catégories ? Je vais voir les avis…
    Quant au /cgi-bin/, je ne sais pas ce que c’est et apparemment, je n’ai pas ça sur le répertoire de mon blog.

    Par contre, je voudrais savoir comment faire en sorte que Google prenne bien en compte ce fichier. Et sous quel délai.

    Ca fait près d’un mois que je l’ai soumis dans google webmasters Tools, et Google indexe toujours ma page d’e-mail, le flux de WordPress, le flux des commentaires, j’en passe et des meilleurs… et dans « URL restreintes par un fichier robots.txt », il n’y a rien.
    Pourtant il est bien enregistré, il le télécharge tous les jours et le code d’état est 200 (opération effectuée).
    Il se trouve que mon blog n’est pas à la racine de mon domaine, alors que le robots.txt, lui, est censé toujours être à la racine, est-ce que ce serait lié à ça ?

  • fab

    aucun rapport mais comment fais tu pour afficher « recevez les prochains articles. Déjà 617 abonnés » ? C’est un script fourni par feedburner ?

  • ? grand Yoda, maitre incontesté des Trucs et Tips sous WordPress ! Voilà que tu sévit encore une fois sur la blogosphère avec ce truc que moi petit élève de cet espace intersidéral de la blogsphère va pouvoir enfin mettre ton enseignement en pratique.

    Pour te remercier, je t’envoie Tout droit dans ma Sidebar « Articles que vous devez lire » afin que l’espace entier puisse venir sur ton blog partager ce moment de plaisir que j’ai eu lors de la création de Mr Robot.txt.

    Merci Francis et @très bientôt,
    Que la Force soit avec toit Maitre Yoda 😉

  • P.S: Quand j’ai une voix qui vaut 8 pts sur Blogasty, te voilà propulser dans l’espace intersidéral de la 55ième à la 63ième place. Que ton travail soir honorer par tous sur la Home Page de Blogasty !!!!

  • Merci très cher ami Ridouan (ou Daali ? :D)… C’est trop d’honneur (mode courbette !). J’espère que ça vous sera utile en tout cas…

    Frenchmat > Et bien, je ne sais pas trop quoi te répondre, je viens de modifier le mien, on va bien voir combien de temps ça met avant d’être mis à jour… Je te tiendrai au courant de toute façon ! 😉

  • Le Bazaar

    Ridouan pour les intimes (càd toi par ex.) et Daali pour le reste de la blogosphère.

    😉 et merci pour la courbette…..

  • Merci pour ce billet qui m’a fait permis de mieux comprendre le fichier robots.txt et son intérêt

  • Merci pour ce tutoriel très facile à suivre et aussi pour tout le reste du blog, très utile pour avancer dans wordpress quand on est novice au départ! Encore merci et bonne continuation 🙂

  • MErci Fran6 pour ce tuto ! Nickel !

    Par contre j’ai une (non 2 en fait) questions:

    -google index aussi les flux des commentaire propre a chacun de mes articles, et je voudrai l’empecher … donc …

    url type –> http://www.buzzandpeople.com/titre-article/feed/

    Donc je suppose –> Disallow: /*/feed/

    J’ai bon ?

    Et aussi, pourquoi le plugin all-in-one SEO ne me le génère pas ? (alors qu’il est coché dans les options) 😮

  • brad > Yes my dear ! Pourquoi il te génère pas quoi ? J’ai pas tout compris… 😉

  • Oups j’aurais du préciser effectivement O_o

    En fait le plugin de me génère pas mon fichier robots.txt … mais bon, ce n’est plus très grave maintenant grâce ton tuto 🙂

    Et merci pour le confirmation 😉

  • Le fait de mettre une restriction sur l’année, comprise dans les permaliens, entraîne que les « articles seuls » ne seront pas référencés ?

  • Sinklar > Je ne suis pas sûr à 100% mais je pense que ce seront les pages au format http://www.tonblog.com/2007 par exemple, qui ne seront pas indexées… Donc quelque part, tes archives. Mais ça demande vérification…

  • Oui, parce que je me dis que si on bloque les articles eux-mêmes, tout changement dans le nombre d’articles affichés par page de blog entraînera un dérèglement du référencement…

    L’article censé se trouver en /page/2/ serait en /page/3/ par exemple.

    Si j’en parle c’est parce que je remets un peu d’ordre dans tout ça… comme je viens de le dire à Amaury, mon admin WP a un PageRank de 5…. Hum.

  • Sinklar > Effectivement ! Je viens de laisser un message à Amaury justement, on va bien voir ce qu’il en dit puisque c’est la technique qu’il utilise sur son blog… 😉

  • Alors, ça a donné des résultats probants ?

  • Al-Kanz > Ca avance. Les visites en provenance des moteurs de recherche augmentent et le positionnement sur certains mots clés à fortement progressé. Donc, que du bon pour le moment ! 😉

  • Chouette :). Ca faisait un moment que je voulais le faire (depuis la lecture du billet d’Henri de 2803), mais j’ai laissé trainer.
    J’ai donc ajouté hier mon fichier robots.txt
    http://al-kanz.org/blog/robot.txt

    Merci Francis pour ces billets utiles.

  • J’oubliais : les changements sont patents assez rapidement ?

  • Je dirais que ça dépend des pages et de leur positionnement. Mais compter quelques semaines pour avoir les retours…

  • Didier

    salut à tous,

    je ne comprends plus rien, l’ensemble des fichiers, voir dossiers, que l’on interdit dans le robots.txt….représente tous les fichiers ou dossiers de la racine.

    Alors je dirais plutôt : que ne doit on pas interdire ‘comme fichier ou dossier’ pour avoir un référencement normale…

  • @ Al-Kanz, ton message date un peu, mais juste pour te signaler que t’as mal nommé ton fichier, d’où peut-être quelques « soucis de non-indexation » persistants 😉

    C’est robots.txt et non robot.txt

  • Excellente explication ! Mais j’ai un soucis car même si j’indique aux moteurs de ne pas acceder aux pages de tags, catégories et de recherche pour éviter le duplicate content, google continue d’indexer ces pages …

    Disallow: /tag/
    Disallow: /category/
    Disallow: /search

    Tu sais d’où ça peut venir ?

  • David > Es-tu sûr que Google est passé ? Tu peux le vérifier via Google Webmaster Tools

  • Je suis allé sur Google webmaster tools est il me dit :
    « Le robot Googlebot est parvenu à accéder pour la dernière fois à votre page d’accueil le 29 sept. 2008 »

    Et ça fait bien un mois que j’ai modifié mon fichier robots 🙁

  • C’est bizarre quand même ?

  • Bé oui, normalement, ça devrait fonctionner… O_o

  • Je dois avoir la polio ^^

  • Ca y est, j’ai compris mon erreur … j’avais insérer dans l’entête de mon blog «  », quel idiot ^^

  • « robots » content= »index, follow »

  • Effectivement !! 😉

  • Ah oui, quelle prise de tête, j’ai mis des mois à voir cette erreur alors que c’était tout simple ^^
    au fait Francis, il paraît que les metakeywords ne sont plus pris en compte par Google. Les tags servent encore à quelque chose finalement ? vu qu’on les exclue en plus de l’indexation ?

  • Il servent toujours pour le visiteur…

  • Pas bête …

  • Davsigner

    Cela m’aide ! merci !

  • Bonjour,
    J’aimerais relancer un peu le sujet (très intéressant) sur ce satané fichier robots.txt !

    J’ai donc crée ce fichier qui se présente de cette manière :

    Sitemap: http://www.autourduweb.fr/sitemap.xml

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /wp-
    Disallow: /trackback/
    Disallow: /feed/
    Disallow: /comments/feed/

    User-agent: Googlebot
    Disallow: /*.php$
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$

    J’ai donc fait comme tu l’a indiqué par contre, lorsque je vais dans Google Webmaster, j’ai plein d’erreurs du style :

    « Erreurs rencontrées pour les URL répertoriées dans les sitemaps »
    « URL à accès restreint par un fichier robots.txt »

    As-tu les mêmes ??

    Et pour finir, as-tu rajouté autre chose dans ce fichier robots.txt ?

    Merci… ^^

  • J’ai fais un copié collé en changeant l’url 😉
    je teste…
    Merci pour ces infos suis novices mais je me soigne grâce a vous.

  • Bonjour,
    Mon fichier robots.txt ressemble à ça :
    User-agent: *
    Disallow:
    Dans le but de tout autoriser afin que google et cie me trouve quand on tape par ex Vierzon boxe et club.
    Boxing Club Vierzon
    (il parait que la commande allow peut être mal interprétée !?)
    Or ni google ni voila et encore moins paf heu non bing pardon
    ne trouve quoi que ce soit… Cela viendrait-il de ce maudit fichier robots txt ?
    Une precision le moteur francais l’excellent moteur français EXALEAD me trouve et me place en tête de ses résultats. j’utilise l’extension Google XML Sitemaps ou il est question de tous les moteurs de recherches, mais aucune allusion a exalead. Je me demande si il ne sagit pas d’une erreur de configuration de ma part avec cette extension qui empeche voila, bing, google, ask ect de me voir.
    EXALEAD n’a pas l’air de tenir compte d’une sitemaps et du coup il me trouve tout de suite. Étonnant quand même… Si je vire l’extension GOOGLE arrivera peut etre à me voir un peu mieux, je suis un peu perdu en fait compliqué tout ça.

Success, your comment is awaiting moderation.