✅ Robots.txt- oder Robots-Ausschlussstandard und Suchmaschinen-Crawling

Inhaltsverzeichnis

Hallo zusammen, ich beginne mit diesem Tutorial auf robots.txt, ich hoffe es gefällt euch

Erlauben Sie allen Robotern, alle Dateien zu besuchen, die im Stammverzeichnis des Webs gespeichert sind:

 User-Agent: * Verbieten:

Verhindern Sie den Zugriff auf alle Roboter und alle Dateien, die im Stammverzeichnis gespeichert sind:

 User-Agent: * Verbieten: /

Nur einem Roboter den Zugriff erlauben, in diesem Beispiel kann nur Google crawlen

 User-Agent: googlebot Verbieten: User-Agent: * Verbieten: /

Die beliebtesten Roboter haben einen Namen für den User-Agent
googlebot => für Google
msnbot => MSN-Suche
yahoo-schlürfen => Yahoo!
schrubben => Das Web schrubben
robozilla => DMOZ-Checker
ia_archiver => Alexa / Wayback
Baiduspider => Baidu
Es gibt auch die spezifischeren Roboter wie die in Bildern
googlebot-image => Google Image
googlebot-mobile => Google Mobile
Ein weiteres Beispiel, dass alle Unterverzeichnisse, die den Platzhalter (/) enthalten, gesperrt werden müssen, nur diese, mit Ausnahme aller anderen Dateien und Verzeichnisse, die keinen Platzhalter enthalten, sind nominell die System- oder Backend-Verzeichnisse:

 User-Agent: * Disallow: / cgi-bin / Disallow: / images / Disallow: / tmp / Disallow: / adminstrador /

Verhindern, dass eine bestimmte Datei verfolgt wird

 User-Agent: * Verbieten: /page.htm

Dies wird häufig verwendet, wenn wir eine Seite mit einem 404-Fehler oder eine Seite aus den Suchergebnissen entfernen möchten, um das Crawlen zu verhindern.
Verwalten Sie die Häufigkeit von kriechenden Robotern
Aus Google Analytics und von Webmaster werkzeuge Sie können die Statistiken sehen Sie können auch sehen, dass einige Robots manchmal lange brauchen, um unsere Website zu überprüfen und Anfragen an den Server zu senden, die Robots verbrauchen Bandbreite und Ressourcen, als wären sie nur ein anderer Besucher.
Es gibt eine Möglichkeit, dass Roboter nicht außer Kontrolle geraten, das können wir jedem sagen
User-Agent: googlebot Crawl-Verzögerung: 30
Damit weisen wir den Google-Robot an, zwischen jedem Crawl 30 Sekunden zu warten. Seien Sie vorsichtig, denn Crawl-Delay wird möglicherweise nicht von allen Suchmaschinen unterstützt, Bing und Google tun dies.
Die offizielle Website von robots.txt Es ist http://www.robotstxt.org/, wo wir die Namen aller Roboter und Spezifikationen zum Code finden. Hier zeigt sich, dass Roboter dazu dienen, diejenigen zu standardisieren, die verfolgt werden müssen und auf anderen Plattformen verwendet werden, um HTML zu verfolgen und zu validieren, Links zu validieren, Informationen zu indizieren, Inhalte in Suchmaschinen zu aktualisieren, Websites zu schützen.Hat dir dieses Tutorial gefallen und geholfen?Sie können den Autor belohnen, indem Sie diesen Knopf drücken, um ihm einen positiven Punkt zu geben