Volver al blog
6 min de lectura
SEO

Sitemap y robots.txt: la base SEO que muchos descuidan

Un archivo robots.txt puede bloquear a Google sin que nadie lo sepa. Un sitemap ausente impide el descubrimiento de tus páginas. El test #38 verifica ambos en segundos.

Puntos clave
  • El test #38 verifica la presencia y accesibilidad de sitemap.xml y robots.txt. Ambos presentes = puntuación 100, solo uno = 70, ninguno = 20
  • Si robots.txt contiene "Disallow: /" para todos los user-agents, la puntuación cae a 20 — tu sitio es invisible para todos los motores de búsqueda
  • Son archivos de configuración básicos. Corregirlos toma 5 minutos, pero el impacto SEO es inmediato y medible

Hay errores SEO espectaculares — contenido duplicado masivo, penalizaciones manuales de Google. Y luego están los errores silenciosos. Los que pasan desapercibidos durante meses porque nadie piensa en verificar dos archivos de texto en la raíz del sitio.

El archivo sitemap.xml le dice a los motores de búsqueda "estas son las páginas que existen en mi sitio". El archivo robots.txt les dice "estas son las zonas a las que pueden acceder". Cuando el primero falta, Google tiene que adivinar qué páginas existen. Cuando el segundo está mal configurado, Google puede estar bloqueado sin que nadie lo sepa.

El test #38 de Orilyt verifica ambos archivos en una sola pasada. Controla su presencia, accesibilidad, coherencia — y detecta el caso crítico donde robots.txt bloquea todo el rastreo. Son los cimientos del SEO. Si están mal, nada de lo que construyas encima se sostendrá.

Test SEO para sitemap.xml y robots.txt: verificación de accesibilidad, formato y directivas de rastreo

Sitemap.xml: el mapa de tu sitio para Google

Un sitemap.xml es un archivo XML que lista todas las URLs que quieres ver indexadas. Se coloca en la raíz del sitio (ejemplo: tusitio.com/sitemap.xml) y permite a los motores de búsqueda descubrir tus páginas sin tener que seguir cada enlace interno.

El test #38 verifica varios aspectos del sitemap:

  1. Accesibilidad — ¿el archivo /sitemap.xml es accesible (HTTP 200)? Si devuelve un error 404 o 500, los motores de búsqueda no pueden leerlo
  2. Detección vía robots.txt — si robots.txt contiene una directiva "Sitemap:", el test usa esa URL con prioridad. Es el método recomendado para indicar la ubicación del sitemap
  3. Formato XML válido — ¿el archivo contiene una etiqueta <urlset> o <sitemapindex>? Un archivo que devuelve HTML o texto plano no es un sitemap válido

Sin sitemap, Google puede igualmente indexar tu sitio siguiendo los enlaces. Pero lo hará más lentamente, perdiendo potencialmente páginas huérfanas — aquellas sin ningún enlace interno apuntando a ellas.

Un sitemap no garantiza la indexación. Pero su ausencia garantiza que Google tendrá que adivinar la estructura de tu sitio — y a menudo adivinará mal.

Robots.txt: el controlador de acceso de tu sitio

El archivo robots.txt es un archivo de texto ubicado en la raíz del sitio (tusitio.com/robots.txt). Indica a los robots de indexación qué partes del sitio pueden explorar y cuáles están prohibidas.

El test #38 verifica los aspectos críticos de robots.txt:

  1. Accesibilidad — ¿el archivo robots.txt está presente y accesible (HTTP 200)? Su ausencia no es bloqueante, pero es una buena práctica tenerlo
  2. Referencia al sitemap — ¿robots.txt contiene una línea "Sitemap:" apuntando al sitemap.xml? Es la forma estándar de declarar la ubicación del mapa del sitio
  3. Bloqueo total — el caso crítico: si robots.txt contiene "User-agent: *" seguido de "Disallow: /", todo el sitio está bloqueado para todos los motores de búsqueda. Puntuación inmediata: 20/100

El caso más peligroso es también el más común: un sitio puesto en producción con un robots.txt de pre-producción que bloquea todo el rastreo. El desarrollador había añadido "Disallow: /" para evitar la indexación del staging y olvidó quitarlo. El sitio está en línea, funciona perfectamente — pero Google no lo ve.

Errores comunes (y cómo corregirlos)

La mayoría de los problemas de sitemap y robots.txt vienen de la misma fuente: archivos creados una vez y nunca revisados. Estos son los errores más frecuentes:

  1. Sitemap ausente — el sitio nunca tuvo uno, o el plugin que lo generaba fue desactivado. Corrección: activar la funcionalidad sitemap nativa de WordPress (disponible desde WP 5.5) o usar un plugin SEO como Yoast o Rank Math
  2. Robots.txt bloquea todo — heredado del desarrollo o staging. Corrección: reemplazar "Disallow: /" con reglas específicas (bloquear /wp-admin/ pero no el resto). Verificable en 10 segundos
  3. Sitemap obsoleto — el archivo existe pero contiene URLs eliminadas o páginas con error 404. Corrección: regenerar el sitemap vía tu plugin SEO. La mayoría lo hacen automáticamente si están bien configurados
  4. Sin referencia al sitemap en robots.txt — el sitemap existe, pero robots.txt no lo menciona. Corrección: añadir una línea "Sitemap: https://tusitio.com/sitemap.xml" al final de robots.txt
  5. Formato incorrecto de sitemap — el archivo devuelve HTML en vez de XML (página de error personalizada que devuelve código 200). Corrección: verificar que la URL del sitemap devuelve XML válido con el Content-Type correcto

Todas estas correcciones toman menos de 5 minutos. La relación esfuerzo-impacto es excepcional: unas pocas líneas de configuración pueden desbloquear la indexación de cientos de páginas.

El valor de negocio: un quick win para cada auditoría

Para freelancers y agencias, los problemas de sitemap y robots.txt son hallazgos de oro en una auditoría de cliente. Son fáciles de explicar, rápidos de corregir y visualmente impactantes en el informe.

En el informe Orilyt, el test #38 genera recomendaciones FIA concretas:

  1. Hecho: "No se encontró archivo sitemap.xml accesible" o "robots.txt bloquea todos los motores de búsqueda (Disallow: /)"
  2. Impacto: "Google no conoce la estructura de tu sitio" o "Ninguna página de tu sitio puede aparecer en los resultados de búsqueda"
  3. Acción: "Generar un sitemap vía tu plugin SEO y añadirlo a robots.txt" o "Eliminar la directiva Disallow: / del archivo robots.txt"

El caso del robots.txt que bloquea todo es particularmente poderoso ante clientes. Cuando le muestras a un cliente que su sitio ha sido literalmente invisible para Google durante meses, la urgencia es inmediata. La corrección toma 2 minutos. El ROI de la auditoría queda demostrado en el acto.

Un sitio con un robots.txt que bloquea a Google es como una tienda con la persiana bajada. El edificio está ahí, los productos están en los estantes — pero nadie puede entrar.

Dos archivos, cero excusas

El sitemap.xml y el robots.txt son los dos archivos más básicos del SEO técnico. No requieren presupuesto, ni habilidades avanzadas, ni cambios de código. Solo una verificación de 30 segundos. Y sin embargo, miles de sitios viven con un sitemap ausente o un robots.txt que sabotea su visibilidad.

El test #38 de Orilyt automatiza esta verificación. Detecta archivos faltantes, inconsistencias entre robots.txt y el sitemap, y sobre todo el caso crítico del bloqueo total de rastreo. Es un control de higiene SEO mínimo — pero indispensable.

Si haces auditorías para clientes, empieza por aquí. Un problema encontrado aquí se corrige en 5 minutos y demuestra inmediatamente el valor de tu trabajo. Es el quick win perfecto.

Verifica el sitemap y robots.txt de cualquier sitio
Ejecuta una auditoría gratuita y verifica si las bases SEO están en su lugar — sitemap, robots.txt y 56 tests automatizados más.
Lanzar una auditoría gratuita
Anterior Canonical og hreflang Siguiente Checklist SEO Technique 2026 : 25 points à vérifier sur WordPress