Blog

Disallow (robots.txt) : ne l'utilisez pas pour "faire comme tout le monde"

Edit : lisez l’article en entier pour bien comprendre, de nombreuses mises à jour ont été effectuées.

Dans le référencement il y a souvent deux méthodes : celle qui consiste à tester par soi-même et celle qui consiste à suivre le mouvement. Malheureusement la seconde option est souvent la plus facile et certains référenceurs tendent à s’y diriger plutôt que de constater par eux-même ce qu’il en est réellement… Ça m’arrive aussi plus souvent qu’il ne le faudrait…

Comme ceux qui me connaissent le savent bien j’aime les tests SEO et j’ai réalisé il y a de ça quelques semaines un test sur le fichier « robots.txt ».

Tout le monde sait qu’il s’agit d’un fichier nécessaire lorsqu’on souhaite communiquer avec GoogleBot. Depuis toujours j’utilisais comme beaucoup une directive nommée « Disallow » pour interdire à Google (et aux autres robots respectueux des règles qui sont inscrites dans ce fichier) l’accès à une page ou à toute une arborescence.

Depuis août 2012, le moteur a changé sa politique envers le Disallow (voir cet article d’abondance, celui sur SearchEngineLand ou bien encore sur la documentation officielle Google). Il se permet donc de faire grossir son index avec une URL en Disallow sans pour autant s’autoriser de lui-même l’accès aux contenus de ces pages…

Un fonctionnement qui ne me convient pas. En effet je ne veux pas que des URLs pour lesquelles j’ai pris la peine (au minimum) de mettre en place une directive soient indexées dans le moteur ! J’ai donc cherché un peu plus loin et découvert dans un document non-officiel (n’ayant pas retrouvé ce document, rendez-vous à l’EDIT en fin de page), qu’il existe une directive « Noindex »… J’ai donc mis en place un test en remplaçant sur un site WordPress ce qui était alors :

User-Agent: *
Disallow: /category/
Disallow: /author/
Disallow: /wp-includes/

Par :

User-Agent: *
Noindex: /category/
Noindex: /author/
Noindex: /wp-includes/

Quelques semaines plus tard le travail a commencé à se faire et petit à petit (sur une durée assez longue), les URL se sont désindexées.

Attention : je ne présente pas cette solution comme un solution de désindexation (il y en a des beaucoup plus efficaces), mais elle semble fonctionner aussi bien pour la « non-indexation » que pour la « désindexation ».

La conclusion

La conclusion est double :

  1. La directive Disallow n’est à utiliser dans le robots.txt que si vous ne voulez pas que Google consulte le contenu de votre page. Autrement dit qu’il n’ait connaissance que de l’URL et de rien d’autre. Tout en sachant qu’il va ajouter l’URL à son index.
  2. Le Noindex est à utiliser dans le robots.txt si vous ne voulez pas que Google indexe le contenu de votre page. Cela ne signifie pas que le crawler ne le consultera pas.

Si le sujet de l’indexation vous intéresse n’hésitez pas à consulter l’excellente présentation d’Olivier Andrieu sur le sujet : http://www.abondance.com/actualites/20130318-12359-seo-campus-indexation-et-desindexation.html. Qui complète assez bien cet article lorsqu’on sort du cadre du fichier Robots.txt (ou inversement..).

Edit : Comme certains me l’ont demandé j’ai fait quelques recherches pour trouver d’autres sources traitant le sujet :

  • Une documentation Yandex : des pistes à suivre pour GoogleBot ?
  • Robots-txt.com : qui fait état d’un test mené en 2007 sur le même sujet et présentant les mêmes résultats
  • Recherche (simpliste) permettant de se rendre compte de l’utilisation du Noindex dans le robots.txt par de nombreux sites.
  • La documentation officielle de Google ne semble pas faire état de la prise en compte de cette directive « Noindex » dans le robots.txt

Edit #2 : suite à certains commentaires (notamment celui de Paul), on peut conclure que :

  • D’après mon test, la directive semble toujours être prise en compte. Le test a été effectué sur quelques pages déjà indexées.
  • Celle-ci n’est pas officiellement supportée par Google (dixit un Googler en 2007, voir commentaire de Tiger). Ce qui signifie qu’elle peut être prise en compte aujourd’hui mais ne plus l’être demain.
  • Comme dit précédemment dans l’article elle n’est en rien à préférer aux autres implémentations permettant de ne pas indexer / désindexer une ou plusieurs pages. Si le test est validé par d’autres référenceurs dans d’autres cas de figure,Le test ayant été validé par d'autres référenceurs on peut penser que cette directive est toujours prise en compte par le moteur. Cependant elle n’est à utiliser que dans des cas où aucune autre implémentation n’est possible.
  • Peut-être peut-elle venir en complément du Disallow ? Je n’ai pas testé si la mise en place des deux directives sur un même dossier peut être effective, voir complémentaire…
  • Quoi qu’il en soit, comprenez bien que le Disallow n’a plus le rôle qu’on pouvait lui attribuer en 2011 et qu’il ne s’agit en rien d’un Noindex.