Retour au blog
6 min de lecture
SEO

Sitemap et robots.txt : la base SEO que beaucoup bâclent

Un fichier robots.txt peut bloquer Google sans que personne ne le sache. Un sitemap absent empêche la découverte de vos pages. Le test #38 vérifie les deux en quelques secondes.

Points clés
  • Le test #38 vérifie la présence et l'accessibilité du sitemap.xml et du robots.txt. Les deux présents = score 100, un seul = 70, aucun = 20
  • Si robots.txt contient « Disallow: / » pour tous les user-agents, le score tombe à 20 — votre site est invisible pour tous les moteurs de recherche
  • Ce sont des fichiers de configuration basiques. Les corriger prend 5 minutes, mais l'impact SEO est immédiat et mesurable

Il y a des erreurs SEO spectaculaires — du contenu dupliqué massif, des pénalités manuelles de Google. Et puis il y a les erreurs silencieuses. Celles qui passent inaperçues pendant des mois parce que personne ne pense à vérifier deux fichiers texte à la racine du site.

Le fichier sitemap.xml dit aux moteurs de recherche « voici les pages qui existent sur mon site ». Le fichier robots.txt leur dit « voici les zones auxquelles vous avez accès ». Quand le premier est absent, Google doit deviner quelles pages existent. Quand le second est mal configuré, Google peut être bloqué sans que personne ne le sache.

Le test #38 d'Orilyt vérifie les deux fichiers en une seule passe. Il contrôle leur présence, leur accessibilité, leur cohérence — et détecte le cas critique où robots.txt bloque tout le crawl. Ce sont les fondations SEO. Si elles sont bancales, rien de ce que vous construisez dessus ne tiendra.

Test SEO sitemap.xml et robots.txt : vérification de l'accessibilité, du format et des directives de crawl

Sitemap.xml : le plan de votre site pour Google

Un sitemap.xml est un fichier XML qui liste toutes les URLs que vous voulez voir indexées. Il est placé à la racine du site (exemple : votresite.com/sitemap.xml) et permet aux moteurs de recherche de découvrir vos pages sans avoir à suivre chaque lien interne.

Le test #38 vérifie plusieurs choses concernant le sitemap :

  1. Accessibilité — le fichier /sitemap.xml est-il accessible (HTTP 200) ? S'il retourne une erreur 404 ou 500, les moteurs de recherche ne peuvent pas le lire
  2. Détection via robots.txt — si robots.txt contient une directive « Sitemap: », le test utilise cette URL en priorité. C'est la méthode recommandée pour indiquer l'emplacement du sitemap
  3. Format XML valide — le fichier contient-il une balise <urlset> ou <sitemapindex> ? Un fichier qui retourne du HTML ou du texte brut n'est pas un sitemap valide

Sans sitemap, Google peut quand même indexer votre site en suivant les liens. Mais il le fera plus lentement, en manquant potentiellement des pages orphelines — celles qui n'ont aucun lien interne pointant vers elles.

Un sitemap ne garantit pas l'indexation. Mais son absence garantit que Google devra deviner la structure de votre site — et il devinera souvent mal.

Robots.txt : le contrôleur d'accès de votre site

Le fichier robots.txt est un fichier texte situé à la racine du site (votresite.com/robots.txt). Il indique aux robots d'indexation quelles parties du site ils peuvent explorer et lesquelles sont interdites.

Le test #38 vérifie les aspects critiques de robots.txt :

  1. Accessibilité — le fichier robots.txt est-il présent et accessible (HTTP 200) ? Son absence n'est pas bloquante, mais c'est une bonne pratique de l'avoir
  2. Référence au sitemap — robots.txt contient-il une ligne « Sitemap: » pointant vers le sitemap.xml ? C'est le moyen standard de déclarer l'emplacement du plan de site
  3. Blocage total — le cas critique : si robots.txt contient « User-agent: * » suivi de « Disallow: / », tout le site est bloqué pour tous les moteurs de recherche. Score immédiat : 20/100

Le cas le plus dangereux est aussi le plus courant : un site mis en production avec un robots.txt de pré-production qui bloque tout le crawl. Le développeur avait ajouté « Disallow: / » pour empêcher l'indexation du site de staging, puis a oublié de le retirer. Le site est en ligne, fonctionne parfaitement — mais Google ne le voit pas.

Les erreurs courantes (et comment les corriger)

La plupart des problèmes de sitemap et robots.txt viennent de la même source : des fichiers créés une fois et jamais revérifiés. Voici les erreurs les plus fréquentes :

  1. Sitemap manquant — le site n'a jamais eu de sitemap, ou le plugin qui le générait a été désactivé. Correction : activer la fonctionnalité sitemap native de WordPress (disponible depuis WP 5.5) ou utiliser un plugin SEO comme Yoast ou Rank Math
  2. Robots.txt bloque tout — hérité du développement ou du staging. Correction : remplacer « Disallow: / » par des règles ciblées (bloquer /wp-admin/ mais pas le reste). Vérifiable en 10 secondes
  3. Sitemap obsolète — le fichier existe mais contient des URLs supprimées ou des pages en erreur 404. Correction : régénérer le sitemap via votre plugin SEO. La plupart le font automatiquement si correctement configurés
  4. Pas de référence sitemap dans robots.txt — le sitemap existe, mais robots.txt ne le mentionne pas. Correction : ajouter une ligne « Sitemap: https://votresite.com/sitemap.xml » à la fin du fichier robots.txt
  5. Mauvais format de sitemap — le fichier retourne du HTML au lieu de XML (page d'erreur personnalisée qui retourne un code 200). Correction : vérifier que l'URL du sitemap retourne bien du XML avec le bon Content-Type

Toutes ces corrections prennent moins de 5 minutes. Le rapport entre effort et impact est exceptionnel : quelques lignes de configuration peuvent débloquer l'indexation de centaines de pages.

La valeur business : un quick win pour chaque audit

Pour les freelances et agences, les problèmes de sitemap et robots.txt sont des trouvailles en or dans un audit client. Ils sont faciles à expliquer, rapides à corriger et visuellement marquants dans le rapport.

Dans le rapport Orilyt, le test #38 génère des recommandations FIA concrètes :

  1. Fait : « Aucun fichier sitemap.xml accessible » ou « robots.txt bloque tous les moteurs de recherche (Disallow: /) »
  2. Impact : « Google ne connaît pas la structure de votre site » ou « Aucune page de votre site ne peut apparaître dans les résultats de recherche »
  3. Action : « Générer un sitemap via votre plugin SEO et l'ajouter à robots.txt » ou « Retirer la directive Disallow: / du fichier robots.txt »

Le cas du robots.txt qui bloque tout est particulièrement puissant en clientèle. Quand vous montrez à un client que son site est littéralement invisible pour Google depuis des mois, l'urgence est immédiate. La correction prend 2 minutes. Le retour sur investissement de l'audit est démontré sur place.

Un site avec un robots.txt qui bloque Google, c'est comme un magasin avec un rideau de fer baissé. Le bâtiment est là, les produits sont en rayon — mais personne ne peut entrer.

Deux fichiers, zéro excuse

Le sitemap.xml et le robots.txt sont les deux fichiers les plus basiques du SEO technique. Ils ne demandent ni budget, ni compétence avancée, ni changement de code. Juste une vérification de 30 secondes. Et pourtant, des milliers de sites vivent avec un sitemap absent ou un robots.txt qui sabote leur visibilité.

Le test #38 d'Orilyt automatise cette vérification. Il détecte les fichiers manquants, les incohérences entre robots.txt et sitemap, et surtout le cas critique du blocage total du crawl. C'est un contrôle d'hygiène SEO minimal — mais indispensable.

Si vous faites des audits pour des clients, commencez par là. Un problème trouvé ici se corrige en 5 minutes et démontre immédiatement la valeur de votre travail. C'est le quick win parfait.

Vérifiez le sitemap et robots.txt de n'importe quel site
Lancez un audit gratuit et voyez si les fondations SEO sont en place — sitemap, robots.txt et 56 autres tests automatisés.
Lancer un audit gratuit
Précédent Canonical og hreflang Suivant Checklist SEO Technique 2026 : 25 points à vérifier sur WordPress