https://metaversse.fr/choisir-entre-robots-txt-et-noindex

Choisir entre Robots.txt et Noindex pour la Gestion des Informations de Votre Site

Ce qui est en jeu ici, ce n'est autre que le choix entre robots.txt et noindex pour administrer les renseignements sur votre site web que vous ne désirez pas voir indexés, encore moins crawlés par les engins de recherche.

Compréhension de Robots.txt et Noindex

Quelques éclaircissements sont nécessaires à propos des disparités entre robots.txt et noindex. Le robots.txt, c'est en fait un dossier textuel qui se situe à la base du site et qui va dispenser un certain nombre de consignes de type Disallow : qui vont donc prohiber le crawl aux secteurs qui sont référencés via ces consignes Disallow : . Parfois, on peut également apercevoir du Allow: pour autoriser le crawl à l'intérieur d'une zone qui est interdite d'accès, et donc permettre l'accès à des sous-secteurs aux engins de recherche.

L'Utilité de Robots.txt et Noindex

Ainsi, le robots.txt va interdire le crawl par les robots aux secteurs qui sont énumérés par les consignes Disallow:. D'autre part, la balise meta robots noindex est une balise html, une consigne aussi, qui va requérir aux engins de recherche, après avoir crawlé la page, de ne pas indexer celle-ci. Donc avec la balise meta robots noindex, il y a crawl, mais on requiert que l'indexation ne soit pas effectuée.

La Nuance Majeure entre Robots.txt et Noindex

La différence majeure entre le robots.txt et le noindex, c'est qu'avec le robots.txt il n'y a pas de crawl. Ainsi, si tout va bien - on pourrait en discuter mais théoriquement il n'y a pas d'indexation, alors qu'avec le noindex, il y a un crawl par les robots et par la suite donc il n'y a pas d'indexation. La différence majeure, c'est le crawl en fait entre les deux.

L'Application du Robots.txt

Quand peut-on favoriser le robots.txt ? En réalité, c'est la plupart du temps lorsque l'on souhaite demander à Google de ne pas crawler un grand nombre de pages, par exemple dans un répertoire ou souvent lorsque l'on a un schéma d'url récurrent.

Exemples d'Application du Robots.txt

J'ai placé quelques illustrations ici : search?qu=[mot clé] : ce sont les pages de résultats du moteur de recherche interne. Typiquement, c'est le robots.txt de manière évidente. Si vous ne voulez pas faire indexer ou voir crawlés vos pdf, vous les placez tous dans un répertoire qui se nomme /pdf/ et puis vous l'interdisez via le robots.txt.

L'Usage du Noindex

Avec le noindex, on va plutôt travailler au niveau de la page, par exemple on crée des articles qui sont longs et puis on a un article qui est trop court pour avoir un intérêt en SEO, donc cet article-là, on va le mettre en noindex. Ou alors une page de test, qu'on ne veut pas voir indexée par les moteurs de recherche parce qu'on fait un test d'A/B testing ou quelque chose comme ça, on va aussi mettre une balise meta noindex.

Avantages et Désavantages

Il existe des avantages et des désavantages dans les deux : le robots.txt, les avantages c'est qu'on peut très facilement traiter une zone entière d'un site web, c'est assez facile à maintenir parce que finalement ce n'est qu'un dossier texte. Cependant, les désavantages du robots.txt, c'est que parfois, sur certains CMS, on n'y a pas toujours accès.

La balise noindex, l'avantage c'est qu'on peut travailler vraiment au niveau de la page. Les inconvénients, c'est que on n'y a pas toujours accès. On y accès sur la plupart des CMS mais il faut que le CMS bien sûr donne accès au noindex.

En somme

Le robots.txt permet de faire le gros œuvre, d'interdire au crawl un maximum de pages et puis ensuite on va affiner avec le noindex à l'échelle de la page pour demander une non-indexation, avec quand même un crawl qui est fait. Le gros œuvre pour le robots.txt et puis on affine ensuite avec le noindex ! Voilà pour cette petite présentation, la dernière donc de l'année 2021.