В данном разделе мы постарались описать все термины, относящиеся к созданию сайтов в нашей системе. Если Вы заметили, что какого-то понятия не хватает - пишите нам на info@setup.ru
Robot.txt — текстовый файл, интерпретируемый большинством поисковых систем как протокол (стандарт) исключений для роботов (Robots Exclusion Protocol, or Robots Exclusion Standard). Информация, содержащаяся в robot.txt, влияет на поведение поисковых пауков и кроулеров, указывая порядок обработки данных, а также запрещая индексацию каких-либо файлов, страниц и директорий сайта.
Данный стандарт был разработан Мартином Костером (Martijn Koster) во время его работы над WebCrawler в 1994 году и получил распространение благодаря внедрению AltaVista и других популярных поисковых систем в последующие годы.
Чтобы поисковые системы «видели» этот файл и следовали его инструкциям, он должен, во-первых, называться именно robot.txt, а во-вторых — размещаться в корневом каталоге сайта (пример: http://www.site.org но не http://www.site.org/articles). При несоблюдении этих двух условий robot.txt будет рассматриваться как обыкновенный текстовый файл.
Поисковый робот при проведении индексации сайта заходит на ресурс, обращается к robot.txt и анализирует находящуюся там информацию. Рассмотрим образец кода:
В разделе «User-agent» перечисляются кроулеры, к которым будут применяться описанные ниже правила.
«Disallow» указывает недоступные для индексирования элементы сайта.
«Allow», наоборот, дает доступ к определенным страницам и разделам.
На приведенном выше примере «User-agent: *» говорит, что правила будут применяться ко всем поисковым роботам. «Disallow: /» и «Allow: /customer» сообщают, что ни один элемент сайта, кроме тех, что начинаются с «/customer», не должен подвергаться индексированию.