Sitemap und robots.txt: die SEO-Grundlagen, die viele vernachlässigen
Eine robots.txt-Datei kann Google blockieren, ohne dass es jemand merkt. Eine fehlende Sitemap verhindert die Seitenerkennung. Test #38 prüft beides in Sekunden.
- Test #38 prüft die Existenz und Erreichbarkeit von sitemap.xml und robots.txt. Beide vorhanden = Bewertung 100, nur eine = 70, keine = 20
- Wenn robots.txt "Disallow: /" für alle User-Agents enthält, fällt die Bewertung auf 20 — Ihre Website ist für alle Suchmaschinen unsichtbar
- Dies sind einfache Konfigurationsdateien. Die Korrektur dauert 5 Minuten, aber die SEO-Auswirkung ist sofort und messbar
Es gibt spektakuläre SEO-Fehler — massiver Duplicate Content, manuelle Google-Abstrafungen. Und dann gibt es die stillen Fehler. Die Art, die monatelang unbemerkt bleibt, weil niemand daran denkt, zwei Textdateien im Stammverzeichnis der Website zu überprüfen.
Die Datei sitemap.xml sagt den Suchmaschinen: „Hier sind die Seiten, die auf meiner Website existieren." Die Datei robots.txt sagt ihnen: „Hier sind die Bereiche, auf die Sie zugreifen dürfen." Wenn die erste fehlt, muss Google raten, welche Seiten existieren. Wenn die zweite falsch konfiguriert ist, kann Google blockiert werden, ohne dass es jemand merkt.
Der Test #38 von Orilyt prüft beide Dateien in einem Durchlauf. Er überprüft ihre Existenz, Erreichbarkeit, Konsistenz — und erkennt den kritischen Fall, in dem robots.txt das gesamte Crawling blockiert. Das sind die SEO-Fundamente. Wenn sie wackeln, hält nichts, was darauf aufgebaut wird.
Sitemap.xml: der Lageplan Ihrer Website für Google
Eine sitemap.xml ist eine XML-Datei, die alle URLs auflistet, die Sie indexiert haben möchten. Sie befindet sich im Stammverzeichnis der Website (z.B. ihreseite.de/sitemap.xml) und hilft Suchmaschinen, Ihre Seiten zu entdecken, ohne jedem internen Link folgen zu müssen.
Test #38 prüft mehrere Aspekte der Sitemap:
- Erreichbarkeit — ist /sitemap.xml erreichbar (HTTP 200)? Wenn sie einen 404- oder 500-Fehler zurückgibt, können Suchmaschinen sie nicht lesen
- Erkennung über robots.txt — wenn robots.txt eine „Sitemap:"-Direktive enthält, verwendet der Test diese URL bevorzugt. Dies ist die empfohlene Methode, den Sitemap-Standort zu deklarieren
- Gültiges XML-Format — enthält die Datei ein <urlset>- oder <sitemapindex>-Tag? Eine Datei, die HTML oder reinen Text zurückgibt, ist keine gültige Sitemap
Ohne Sitemap kann Google Ihre Website trotzdem indexieren, indem es Links folgt. Aber es wird langsamer geschehen und möglicherweise verwaiste Seiten verpassen — solche, auf die kein interner Link verweist.
Robots.txt: die Zugangskontrolle Ihrer Website
Die robots.txt ist eine Textdatei im Stammverzeichnis der Website (ihreseite.de/robots.txt). Sie teilt Crawlern mit, welche Teile der Website sie durchsuchen dürfen und welche gesperrt sind.
Test #38 prüft die kritischen Aspekte der robots.txt:
- Erreichbarkeit — ist robots.txt vorhanden und erreichbar (HTTP 200)? Ihr Fehlen ist nicht blockierend, aber eine vorhandene Datei ist Best Practice
- Sitemap-Verweis — enthält robots.txt eine „Sitemap:"-Zeile, die auf sitemap.xml verweist? Dies ist der Standardweg, den Sitemap-Standort zu deklarieren
- Totale Blockade — der kritische Fall: wenn robots.txt „User-agent: *" gefolgt von „Disallow: /" enthält, wird die gesamte Website für alle Suchmaschinen blockiert. Sofortige Bewertung: 20/100
Der gefährlichste Fall ist auch der häufigste: eine Website, die mit einer robots.txt aus der Vorab-Produktion live geschaltet wird, die alles blockiert. Der Entwickler hatte „Disallow: /" hinzugefügt, um die Indexierung der Staging-Seite zu verhindern, und vergaß dann, es zu entfernen. Die Website ist online, funktioniert einwandfrei — aber Google kann sie nicht sehen.
Häufige Fehler (und wie man sie behebt)
Die meisten Sitemap- und robots.txt-Probleme haben dieselbe Ursache: Dateien, die einmal erstellt und nie wieder überprüft wurden. Hier sind die häufigsten Fehler:
- Fehlende Sitemap — die Website hatte nie eine, oder das Plugin, das sie generierte, wurde deaktiviert. Korrektur: die native WordPress-Sitemap-Funktion aktivieren (verfügbar seit WP 5.5) oder ein SEO-Plugin wie Yoast oder Rank Math verwenden
- Robots.txt blockiert alles — aus der Entwicklung oder dem Staging übernommen. Korrektur: „Disallow: /" durch gezielte Regeln ersetzen (/wp-admin/ blockieren, aber nicht den Rest). In 10 Sekunden überprüfbar
- Veraltete Sitemap — die Datei existiert, enthält aber gelöschte URLs oder Seiten mit 404-Fehlern. Korrektur: Sitemap über Ihr SEO-Plugin neu generieren. Die meisten tun dies automatisch, wenn sie richtig konfiguriert sind
- Kein Sitemap-Verweis in robots.txt — die Sitemap existiert, aber robots.txt erwähnt sie nicht. Korrektur: eine Zeile „Sitemap: https://ihreseite.de/sitemap.xml" am Ende der robots.txt hinzufügen
- Falsches Sitemap-Format — die Datei gibt HTML statt XML zurück (benutzerdefinierte Fehlerseite mit Status 200). Korrektur: überprüfen, dass die Sitemap-URL gültiges XML mit dem richtigen Content-Type zurückgibt
Alle diese Korrekturen dauern weniger als 5 Minuten. Das Aufwand-Wirkungs-Verhältnis ist außergewöhnlich: ein paar Konfigurationszeilen können die Indexierung hunderter Seiten freischalten.
Der Geschäftswert: ein Quick Win für jedes Audit
Für Freelancer und Agenturen sind Sitemap- und robots.txt-Probleme Goldfunde in einem Kunden-Audit. Sie sind leicht zu erklären, schnell zu beheben und visuell eindrucksvoll im Bericht.
Im Orilyt-Bericht generiert Test #38 konkrete FIA-Empfehlungen:
- Fakt: „Keine zugängliche sitemap.xml-Datei" oder „robots.txt blockiert alle Suchmaschinen (Disallow: /)"
- Auswirkung: „Google kennt die Struktur Ihrer Website nicht" oder „Keine Seite Ihrer Website kann in Suchergebnissen erscheinen"
- Aktion: „Sitemap über Ihr SEO-Plugin generieren und zu robots.txt hinzufügen" oder „Die Disallow: /-Direktive aus robots.txt entfernen"
Der Fall einer robots.txt, die alles blockiert, ist in Kundengesprächen besonders wirkungsvoll. Wenn Sie einem Kunden zeigen, dass seine Website seit Monaten buchstäblich für Google unsichtbar ist, ist die Dringlichkeit sofort spürbar. Die Korrektur dauert 2 Minuten. Der ROI des Audits ist auf der Stelle bewiesen.
Zwei Dateien, null Ausreden
Die sitemap.xml und robots.txt sind die zwei grundlegendsten Dateien im technischen SEO. Sie erfordern kein Budget, keine fortgeschrittenen Kenntnisse, keine Code-Änderungen. Nur eine 30-Sekunden-Überprüfung. Und dennoch leben Tausende von Websites mit einer fehlenden Sitemap oder einer robots.txt, die ihre Sichtbarkeit sabotiert.
Der Test #38 von Orilyt automatisiert diese Überprüfung. Er erkennt fehlende Dateien, Inkonsistenzen zwischen robots.txt und Sitemap und vor allem den kritischen Fall der totalen Crawl-Blockade. Es ist eine minimale SEO-Hygiene-Prüfung — aber eine unverzichtbare.
Wenn Sie Audits für Kunden durchführen, beginnen Sie hier. Ein hier gefundenes Problem wird in 5 Minuten behoben und demonstriert sofort den Wert Ihrer Arbeit. Es ist der perfekte Quick Win.