Свернуть Развернуть

27 июня 2024

Обновление версии для слабовидящих

Добавлен новый функционал
6 мая 2024

Оплата услуг через сервис Robokassa

Оплата конструтора сайтов иностранными банковскими картами
1 мая 2024

Майские праздники на Setup.ru

Майские праздники – скидки!

Словарь терминов

В данном разделе мы постарались описать все термины, относящиеся к созданию сайтов в нашей системе. Если Вы заметили, что какого-то понятия не хватает - пишите нам на info@setup.ru

Алфавитный список

Robot.txt

Robot.txt — текстовый файл, интерпретируемый большинством поисковых систем как протокол (стандарт) исключений для роботов (Robots Exclusion Protocol, or Robots Exclusion Standard). Информация, содержащаяся в robot.txt, влияет на поведение поисковых пауков и кроулеров, указывая порядок обработки данных, а также запрещая индексацию каких-либо файлов, страниц и директорий сайта.

Данный стандарт был разработан Мартином Костером (Martijn Koster) во время его работы над WebCrawler в 1994 году и получил распространение благодаря внедрению AltaVista и других популярных поисковых систем в последующие годы.

Создание файла robot.txt

Чтобы поисковые системы «видели» этот файл и следовали его инструкциям, он должен, во-первых, называться именно robot.txt, а во-вторых — размещаться в корневом каталоге сайта (пример: http://www.site.org но не http://www.site.org/articles). При несоблюдении этих двух условий robot.txt будет рассматриваться как обыкновенный текстовый файл.

Описание работы robot.txt

Поисковый робот при проведении индексации сайта заходит на ресурс, обращается к robot.txt и анализирует находящуюся там информацию. Рассмотрим образец кода:

User-agent: *
Allow: /customer
Disallow: /

В разделе «User-agent» перечисляются кроулеры, к которым будут применяться описанные ниже правила.

«Disallow» указывает недоступные для индексирования элементы сайта.

«Allow», наоборот, дает доступ к определенным страницам и разделам.

На приведенном выше примере «User-agent: *» говорит, что правила будут применяться ко всем поисковым роботам. «Disallow: /» и «Allow: /customer» сообщают, что ни один элемент сайта, кроме тех, что начинаются с «/customer», не должен подвергаться индексированию.

Недостатки данного стандарта

Robots Exclusion Protocol носит рекомендательный характер, из-за чего поисковые роботы и другие программы могут игнорировать файл robot.txt. Это относится в первую очередь к вредоносным программам, которые ищут «дыры» в системе безопасности сайта, и к спам-ботам, собирающим электронные адреса.
Robot.txt находится в общем доступе, так что любой желающий может увидеть список разделов сайта, к которым не имеют доступа поисковые роботы. Поэтому не следует использовать файл для хранения конфиденциальной информации.

Доска почета

moskowcarx.ru