Свернуть Развернуть

Словарь терминов

В данном разделе мы постарались описать все термины, относящиеся к созданию сайтов в нашей системе. Если Вы заметили, что какого-то понятия не хватает - пишите нам на info@setup.ru

Алфавитный список

Robot.txt

Robot.txt — текстовый файл, интерпретируемый большинством поисковых систем как протокол (стандарт) исключений для роботов (Robots Exclusion Protocol, or Robots Exclusion Standard). Информация, содержащаяся в robot.txt, влияет на поведение поисковых пауков и кроулеров, указывая порядок обработки данных, а также запрещая индексацию каких-либо файлов, страниц и директорий сайта.

Данный стандарт был разработан Мартином Костером (Martijn Koster) во время его работы над WebCrawler в 1994 году и получил распространение благодаря внедрению AltaVista и других популярных поисковых систем в последующие годы.

Создание файла robot.txt

Чтобы поисковые системы «видели» этот файл и следовали его инструкциям, он должен, во-первых, называться именно robot.txt, а во-вторых — размещаться в корневом каталоге сайта (пример: http://www.site.org но не http://www.site.org/articles). При несоблюдении этих двух условий robot.txt будет рассматриваться как обыкновенный текстовый файл.

Описание работы robot.txt

Поисковый робот при проведении индексации сайта заходит на ресурс, обращается к robot.txt и анализирует находящуюся там информацию. Рассмотрим образец кода:

  1. User-agent: *
  2. Allow: /customer
  3. Disallow: /

В разделе «User-agent» перечисляются кроулеры, к которым будут применяться описанные ниже правила.

«Disallow» указывает недоступные для индексирования элементы сайта.

«Allow», наоборот, дает доступ к определенным страницам и разделам.

На приведенном выше примере «User-agent: *» говорит, что правила будут применяться ко всем поисковым роботам. «Disallow: /» и «Allow: /customer» сообщают, что ни один элемент сайта, кроме тех, что начинаются с «/customer», не должен подвергаться индексированию.

Недостатки данного стандарта

  1. Robots Exclusion Protocol носит рекомендательный характер, из-за чего поисковые роботы и другие программы могут игнорировать файл robot.txt. Это относится в первую очередь к вредоносным программам, которые ищут «дыры» в системе безопасности сайта, и к спам-ботам, собирающим электронные адреса.
  2. Robot.txt находится в общем доступе, так что любой желающий может увидеть список разделов сайта, к которым не имеют доступа поисковые роботы. Поэтому не следует использовать файл для хранения конфиденциальной информации.

Доска почета

Производство LED бегущей строки во Владимире, световые вывески, объёмные буквы.

vladreklama.ru
или посмотреть видео о сервисе