Was ist die Robots.txt-Datei in einer Domäne?

Wenn Sie eine Website besitzen und sich um die SEO-Gesundheit Ihrer Website kümmern, sollten Sie sich mit der robots.txt-Datei in Ihrer Domain gut vertraut machen. Ob Sie es glauben oder nicht, das sind eine beunruhigend hohe Anzahl von Leuten, die schnell eine Domäne starten, eine schnelle WordPress-Website installieren und sich nie mit ihrer robots.txt-Datei beschäftigen.

Das ist gefährlich. Eine schlecht konfigurierte robots.txt -Datei kann die SEO-Gesundheit Ihrer Website zerstören und Ihre Chancen auf eine Steigerung Ihres Traffic erhöhen.

Was ist die Robots.txt-Datei??

Das Robots.txt Die Datei wird passend benannt, da es sich im Wesentlichen um eine Datei handelt, die Anweisungen für Web-Robots (wie Suchmaschinen-Robots) auflistet, wie und was sie auf Ihrer Website crawlen können. Dies ist ein Webstandard, gefolgt von Websites seit 1994, und alle großen Webcrawler halten sich an den Standard.

Die Datei wird im Textformat (mit der Erweiterung .txt) im Stammordner Ihrer Website gespeichert. Tatsächlich können Sie die robot.txt-Datei einer Website anzeigen, indem Sie einfach die Domäne gefolgt von /robots.txt eingeben. Wenn Sie dies mit groovyPost versuchen, sehen Sie ein Beispiel für eine gut strukturierte robot.txt-Datei.

Die Datei ist einfach aber effektiv. Diese Beispieldatei unterscheidet nicht zwischen Robotern. Die Befehle werden an alle Roboter mit dem Befehl ausgegeben User-Agent: * Richtlinie. Das bedeutet, dass alle darauf folgenden Befehle für alle Roboter gelten, die die Website besuchen, um sie zu crawlen.

Web-Crawler angeben

Sie können auch bestimmte Regeln für bestimmte Webcrawler angeben. Sie können beispielsweise zulassen, dass Googlebot (Googles Web-Crawler) alle Artikel auf Ihrer Website durchsucht. Sie möchten jedoch möglicherweise verhindern, dass der russische Web-Crawler Yandex Bot Artikel auf Ihrer Website durchsucht, die Informationen über Russland enthalten.

Es gibt Hunderte von Web-Crawlern, die im Internet nach Informationen zu Websites suchen. Die 10 häufigsten Probleme, die Sie betreffen sollten, sind hier aufgelistet.

Googlebot: Google-Suchmaschine
Bingbot: Microsofts Bing-Suchmaschine
Schlürfen: Yahoo Suchmaschine
DuckDuckBot: DuckDuckGo Suchmaschine
Baiduspider: Chinesische Baidu-Suchmaschine
YandexBot: Russische Yandex-Suchmaschine
Exabot: Französische Exalead-Suchmaschine
Facebot: Facebooks kriechender Bot
ia_archiver: Alexas Web-Ranking-Crawler
MJ12bot: Große Linkindizierungsdatenbank

Wenn Sie im obigen Beispielszenario zulassen möchten, dass Googlebot alles auf Ihrer Website indiziert, Yandex jedoch die Indizierung Ihres auf Russisch basierenden Artikelinhalts blockieren möchten, fügen Sie der Datei robots.txt die folgenden Zeilen hinzu.

Benutzeragent: googlebot Nicht zulassen: Nicht zulassen: / wp-admin / Nicht zulassen: /wp-login.php

Benutzeragent: yandexbot Nicht zulassen: Nicht zulassen: / wp-admin / Nicht zulassen: /wp-login.php Nicht zulassen: / russia /

Wie Sie sehen, verhindert der erste Abschnitt nur, dass Google Ihre WordPress-Anmeldeseite und die Verwaltungsseiten durchsucht. Der zweite Abschnitt blockiert Yandex aus demselben Bereich, aber auch aus dem gesamten Bereich Ihrer Website, in dem Sie Artikel mit anti-russischem Inhalt veröffentlicht haben.

Dies ist ein einfaches Beispiel für die Verwendung von Nicht zulassen Befehl, um bestimmte Web-Crawler zu steuern, die Ihre Website besuchen.

Andere Robots.txt-Befehle

Nicht zulassen ist nicht der einzige Befehl, auf den Sie in Ihrer robots.txt-Datei zugreifen können. Sie können auch einen der anderen Befehle verwenden, um festzulegen, wie ein Roboter Ihre Site crawlen kann.

Nicht zulassen: Weist den Benutzeragenten an, das Crawlen bestimmter URLs oder ganzer Abschnitte Ihrer Website zu vermeiden.
ermöglichen: Ermöglicht Ihnen die Feinabstimmung bestimmter Seiten oder Unterordner auf Ihrer Site, auch wenn Sie möglicherweise einen übergeordneten Ordner nicht zugelassen haben. Sie können beispielsweise Folgendes zulassen: / about /, aber dann: / about / ryan /.
Crawl-Verzögerung: Hiermit wird der Crawler angewiesen, xx Sekunden zu warten, bevor der Inhalt der Site durchsucht wird.
Seitenverzeichnis: Stellen Sie Suchmaschinen (Google, Ask, Bing und Yahoo) den Ort Ihrer XML-Sitemaps zur Verfügung.

Denken Sie daran, dass Bots es tun werden nur Hören Sie sich die Befehle an, die Sie angegeben haben, wenn Sie den Namen des Bots angeben.

Ein häufiger Fehler, den Leute begehen, ist das Verbot von Bereichen wie / wp-admin / von allen Bots. Geben Sie dann einen Googlebot-Abschnitt an und verbieten Sie nur andere Bereiche (wie / über /)..

Da Bots nur den Befehlen folgen, die Sie in ihrem Abschnitt angegeben haben, müssen Sie alle anderen Befehle, die Sie für alle Bots angegeben haben, neu erstellen (mithilfe des * Benutzeragenten)..

Nicht zulassen: Der Befehl, der einem Benutzeragenten mitteilt, bestimmte URLs nicht zu crawlen. Für jede URL ist nur eine Zeile "Disallow:" zulässig.
Zulassen (Gilt nur für Googlebot): Der Befehl, Googlebot mitzuteilen, dass er auf eine Seite oder einen Unterordner zugreifen kann, obwohl die übergeordnete Seite oder der Unterordner möglicherweise nicht zulässig ist.
Crawl-Verzögerung: Wie viele Sekunden sollte ein Crawler warten, bevor er den Seiteninhalt lädt und crawlt. Beachten Sie, dass Googlebot diesen Befehl nicht bestätigt. Die Durchforstungsrate kann jedoch in der Google Search Console festgelegt werden.
Seitenverzeichnis: Wird verwendet, um den Speicherort einer XML-Sitemap (s) anzugeben, die dieser URL zugeordnet ist. Beachten Sie, dass dieser Befehl nur von Google, Ask, Bing und Yahoo unterstützt wird.

Beachten Sie, dass robots.txt legitimen Bots (wie Suchmaschinen-Bots) helfen soll, Ihre Website effektiver zu durchsuchen.

Es gibt eine Menge schändlicher Crawler, die Ihre Website crawlen, um beispielsweise E-Mail-Adressen zu kratzen oder Inhalte zu stehlen. Wenn Sie versuchen möchten, Ihre robots.txt-Datei zu verwenden, um diese Crawler daran zu hindern, etwas auf Ihrer Website zu crawlen, machen Sie sich keine Mühe. Die Ersteller dieser Crawler ignorieren normalerweise alles, was Sie in Ihre robots.txt-Datei geschrieben haben.

Warum etwas nicht zulassen??

Die Suchmaschine von Google dazu zu bringen, möglichst viele qualitativ hochwertige Inhalte auf Ihrer Website zu crawlen, ist ein Hauptanliegen der meisten Website-Inhaber.

Google gibt jedoch nur einen begrenzten Betrag aus Crawler-Budget und Durchforstungsrate auf einzelnen Standorten. Die Durchforstungsrate gibt an, wie viele Anforderungen Googlebot pro Sekunde während des Durchforstungsereignisses an Ihre Website stellt.

Wichtiger ist das Durchforstungsbudget, dh wie viele Anfragen Googlebot insgesamt benötigt, um Ihre Website in einer Sitzung zu durchsuchen. Google gibt sein Crawling-Budget aus, indem es sich auf Bereiche Ihrer Website konzentriert, die sehr beliebt sind oder sich in letzter Zeit geändert haben.

Sie sind nicht blind für diese Informationen. Wenn Sie die Google Webmaster-Tools besuchen, können Sie sehen, wie der Crawler Ihre Site behandelt.

Wie Sie sehen, hält der Crawler seine Aktivitäten auf Ihrer Website jeden Tag ziemlich konstant. Es werden nicht alle Websites gecrawlt, sondern nur die, die ihrer Meinung nach die wichtigste sind.

Warum sollten Sie Googlebot die Entscheidung überlassen, was auf Ihrer Website wichtig ist, wenn Sie Ihre robots.txt-Datei verwenden können, um die wichtigsten Seiten anzuzeigen? Dadurch wird verhindert, dass Googlebot auf Ihrer Website Zeit mit kostengünstigen Seiten verschwendet.

Optimieren des Crawl-Budgets

Mit den Google Webmaster-Tools können Sie auch überprüfen, ob Googlebot Ihre robots.txt-Datei einwandfrei liest und ob Fehler vorliegen.

So können Sie überprüfen, ob Sie Ihre robots.txt-Datei richtig strukturiert haben.

Welche Seiten sollten Sie von Googlebot nicht zulassen? Es ist gut für Ihre Website-SEO, die folgenden Seitenkategorien nicht zuzulassen.

Doppelte Seiten (wie druckerfreundliche Seiten)
Vielen Dank, dass Sie auf folgenden Seiten Bestellungen abschließen
Bestell- oder Informationsabfrageformulare
Kontaktseiten
Login-Seiten
Lead-Magnet-Verkaufsseiten

Ignorieren Sie nicht Ihre Robots.txt-Datei

Der größte Fehler, den neue Websitebesitzer machen, ist es, ihre robots.txt-Datei nicht einmal zu betrachten. Die schlimmste Situation könnte sein, dass die Datei "robots.txt" tatsächlich Ihre Website oder Bereiche Ihrer Website daran hindert, überhaupt gecrawlt zu werden.

Überprüfen Sie Ihre robots.txt-Datei und stellen Sie sicher, dass sie optimiert ist. Auf diese Weise "sehen" Google und andere wichtige Suchmaschinen all die fantastischen Dinge, die Sie mit Ihrer Website der Welt anbieten.