Die robots.txt ist eine Textdatei auf einer Website, die den Webcrawlern von Suchmaschinen Anweisungen gibt, welche Teile der Website indexiert - d.h. in den Suchergebnissen angezeigt - werden dürfen und welche nicht. Entsprechend ist eine korrekt eingestellt robots.txt sehr wichtig für die Suchmaschinenoptimierung.
Damit Webcrawler die robots.txt finden können, muss die Datei im Hauptverzeichnis der eigenen Domain abgelegt werden. Wird sie in einem anderen Verzeichnis gespeichert, können Webcrawler diese nicht finden. Jede Domain kann nur eine robots.txt haben.
Eine robots.txt besteht aus zwei Elementen: einer Auflistung der Adressaten, d.h. den User-Agents (unter anderem auch Bots & Webcrawler) und anschließend den Anweisungen, welche Verzeichnisse vom jeweiligen User-Agent gelesen werden dürfen und welche nicht. Hier kann man ebenfalls dokumentieren, wo sich die XML-Sitemap der Website befindet.
Es ist zu beachten, dass die robots.txt am ehesten als Bitte an Webcrawler zu verstehen ist. Bots können diese Anweisungen auch ignorieren, d.h. sie ist keine Garantie, dass Websites nicht gecrawlt werde. Die robots.txt ist somit auch nicht dazu geeignet, (sensible) Dateien und Verzeichnisse auf dem eigenen Webserver zu schützen. Die wichtigsten großen Crawler von Google und Bing geben beide an, dass sie robots.txt-Einstellungen beachten.
Um die eigene robots.txt aufzurufen, trägt man lediglich den eigenen Domainnamen in die Browserzeile ein und ergänzt am Ende der Domain ein /robots.txt, z.B.:
www.zoda-media.de/robots.txt