Robots.txt

Толкование

Robots.txt: robots.txt

robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (то есть иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

Использование файла добровольно. Стандарт был принят консорциумом 30 января 1994 года в списке рассылки robots-request@nexor.co.uk и с тех пор используется большинством известных поисковых машин.

Файл robots.txt используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться.

Файл robots.txt может использоваться для указания расположения файла и может показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу.

Содержание

1 Описание структуры

2 Проверка синтаксиса

3 Примеры

4 Нестандартные директивы

5 Расширенный стандарт

6 Особенности поддержки стандарта поисковыми роботами

7 См. также

8 Ссылки

Описание структуры

Файл состоит из записей. Записи разделяются одной или более пустых строк (признак конца строки: символы CR, CR+LF, LF). Каждая запись содержит непустые строки следующего вида:

<поле>:<необязательный пробел><значение><необязательный пробел>

где поле — это либо User-agent, либо Disallow.

Сравнение производится методом простого поиска подстроки. Например, запись Disallow: /about запретит доступ как к разделу http://example.com/about/, так и к файлу http://example.com/about.php, а запись Disallow: /about/ — только к разделу http://example.com/about/.

Проверка синтаксиса

Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб.

Служба Яндекса (выполняет только проверку синтаксиса) (рус.)

Google webmasters tools (позволяет проверить разрешения для каждой отдельной страницы) (рус.)

Существует специализированная поисковая система BotSeer, которая позволяет осуществлять поиск по файлам robots.txt.

Примеры

Запрет доступа всех роботов ко всему сайту:

User-agent: * Disallow: /

Запрет доступа определенного робота к каталогу /private/:

User-agent: googlebot Disallow: /private/

Нестандартные директивы

Crawl-delay: устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды.

User-agent: * Crawl-delay: 10

Allow: имеет действие, обратное директиве Disallow — разрешает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.

Allow: /album1/photo.html Disallow: /album1/

Расширенный стандарт

В 1996 году был предложен расширенный стандарт robots.txt, включающий такие директивы как Request-rate и Visit-time. Например:

User-agent: * Disallow: /downloads/ Request-rate: 1/5 # загружать не более одной страницы за пять секунд Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.

Особенности поддержки стандарта поисковыми роботами

Рамблер поддерживает только базовый вариант стандарта - только директивы User-agent и Disallow

Рамблер-Помощь > Формат файла robots.txt

См. также

Sitemaps

Ссылки

A Standard for Robot Exclusion (англ.)

Использование robots.txt - официальная помощь Яндекса

Список отловленных роботов Название и краткое описание реально действующих роботов в Рунете

Поисковая оптимизация

Исключения

robots.txt • Мета-теги • nofollow • noindex

Маркетинг

Интернет-маркетинг • Партнёрская программа • Маркетинг по электронной почте • Реклама на экране • Интернет-статистика

Поисковый
маркетинг

Поисковый маркетинг • Продвижение сайта в социальных сетях (SMO) • Управление присутствием личной информации в сети • Платное включение в индекс • Оплата за клик • Гуглбомбинг

Спам

Поисковый спам • Автоматический сбор данных • Сайты с неоригинальным контентом • Линкоферма • Дорвеи • Клоакинг

Ссылки

Внешние факторы в поисковой оптимизации • Популярность ссылки • Обмен ссылками • Взаимные ссылки • Многолинки • Биржа ссылок • Бэклинки (ссылки на сайт) • Поисковый индекс

Прочее

Страница приземления • Геотаргетинг • Оптимизация страниц приземления • Поисковая система с ручным отбором результатов • Стоп-слова • Подозрительные слова

Веб и веб-сайты

Глобально

Всемирная паутина (Веб 1.0, Веб 2.0, Web 3.0) • Семантическая паутина • Рунет

Локально

Веб-сайт (Статический, Динамический) • Веб-портал • Веб-страница • Веб-служба • Веб-кольцо

Виды сайтов
и сервисов

Виртуальный атлас • Баннерная сеть • Блог (Блог-платформа) • Видеохостинг • Вики-движок (Вики-хостинг, список) • Сайт-визитка • Вопрос-ответ • Закладки • Службы знакомств • Каталог ресурсов • Сервис контекстной рекламы • Интернет-магазин • Микроблог • Новостной сайт • Поисковая система (список) • Порносайт • Социальная сеть • Торрент-трекер • Файлообменник • Форум (сервис форумов) • Фотохостинг • Чат

Создание и
обслуживание

Веб-разработка • Веб-мастер • Веб-дизайн • Вёрстка веб-страниц (верстальщик) • Веб-программирование • Юзабилити • Модератор • Поисковая оптимизация (SEO) • Продвижение сайта

Техническое

Веб-сервер (список) • Браузер (список • сравнение) • Веб-фреймворк • Система управления содержимым (Список CMS) • HTTP (ответы • заголовки) • SPDY • CGI • HTML • XHTML • CSS • JavaScript • DHTML • DOM • XML • AJAX • JSON • Flash • RSS • Atom • Микроформаты • favicon.ico • robots.txt • Sitemaps • Карта сайта • .htaccess

Маркетинг

Интернет-маркетинг • Интернет-реклама • Баннер • Контекстная реклама

Социум и культура

Блогосфера • Интернет-сообщество (районное) • Сетевая литература

Игры ⚽ Нужно решить контрольную?

Полезное

Смотреть что такое "Robots.txt" в других словарях:

Robots.txt — Robots.txt, ou le fichier d exclusion des robots, est une ressource de format texte qui peut être placée la racine d un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d indexation… … Wikipédia en Français
robots.txt — robots.txt, Datei, die von Suchmaschinen beauftragte automatische Rechercheprogramme (Roboter) daran hindert, bestimmte Teile eines Webservers zu untersuchen. Man nennt diese Technik auch Robot Exclusion (dt. »Roboterausschluss«). Die Datei… … Universal-Lexikon
Robots.txt — Nach der Übereinkunft des Robots Exclusion Standard Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt… … Deutsch Wikipedia
Robots.txt — Mit dieser Textdatei im Hauptverzeichnis einer Website können Spider i.d.R. davon abgehalten werden, bestimmte Dateien oder Ordner zu spidern und zu indexieren. Seriöse Suchmaschinen Spider halten sich an diese Anweisungen. Webseiten, die absolut … SEO Wörterbuch
robots.txt — ● np. m. ►MOTREC Fichier placé dans un répertoire d un site web et destiné aux moteur de recherche. Il contient des indications disant ce qu il faut indexer et ce qu il faut laisser de côté … Dictionnaire d'informatique francophone
Robots.txt — PodWEB A file which specifies which pages or folders should NOT be indexed by search engines. This is used for Search Engine Optimization to exclude content that doesn’t need to be indexed and might confuse the search engine crawlers … Audio and video glossary
Robots exclusion standard — selfref| For restricting Wikipedia bots, see .|The robot exclusion standard, also known as the Robots Exclusion Protocol or robots.txt protocol, is a convention to prevent cooperating web spiders and other web robots from accessing all or part of … Wikipedia
Robots Exclusion Standard — Nach der Übereinkunft des Robots Exclusion Standard Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt… … Deutsch Wikipedia
Robots d'indexation — Robot d indexation Pour les articles homonymes, voir Spider. Un robot d indexation (ou littéralement araignée du Web ; en anglais web crawler ou web spider) est un logiciel qui explore automatiquement le Web. Il est généralement conçu pour… … Wikipédia en Français
Robot.txt — Robots.txt Robots.txt, ou le fichier d exclusion des robots, est une ressource de format texte qui peut être placée la racine d un site Web, et qui contient une liste des ressources du site qui ne sont pas censées être indexées par les robots d… … Wikipédia en Français

Словари и энциклопедии на Академике

Robots.txt

robots.txt

Содержание

Описание структуры

Проверка синтаксиса

Примеры

Нестандартные директивы

Расширенный стандарт

Особенности поддержки стандарта поисковыми роботами

См. также

Ссылки

Полезное

Смотреть что такое "Robots.txt" в других словарях:

Поделиться ссылкой на выделенное

Поисковая оптимизация
Исключения	robots.txt • Мета-теги • nofollow • noindex
Маркетинг	Интернет-маркетинг • Партнёрская программа • Маркетинг по электронной почте • Реклама на экране • Интернет-статистика
Поисковый маркетинг	Поисковый маркетинг • Продвижение сайта в социальных сетях (SMO) • Управление присутствием личной информации в сети • Платное включение в индекс • Оплата за клик • Гуглбомбинг
Спам	Поисковый спам • Автоматический сбор данных • Сайты с неоригинальным контентом • Линкоферма • Дорвеи • Клоакинг
Ссылки	Внешние факторы в поисковой оптимизации • Популярность ссылки • Обмен ссылками • Взаимные ссылки • Многолинки • Биржа ссылок • Бэклинки (ссылки на сайт) • Поисковый индекс
Прочее	Страница приземления • Геотаргетинг • Оптимизация страниц приземления • Поисковая система с ручным отбором результатов • Стоп-слова • Подозрительные слова

Веб и веб-сайты
Глобально	Всемирная паутина (Веб 1.0, Веб 2.0, Web 3.0) • Семантическая паутина • Рунет
Локально	Веб-сайт (Статический, Динамический) • Веб-портал • Веб-страница • Веб-служба • Веб-кольцо
Виды сайтов и сервисов	Виртуальный атлас • Баннерная сеть • Блог (Блог-платформа) • Видеохостинг • Вики-движок (Вики-хостинг, список) • Сайт-визитка • Вопрос-ответ • Закладки • Службы знакомств • Каталог ресурсов • Сервис контекстной рекламы • Интернет-магазин • Микроблог • Новостной сайт • Поисковая система (список) • Порносайт • Социальная сеть • Торрент-трекер • Файлообменник • Форум (сервис форумов) • Фотохостинг • Чат
Создание и обслуживание	Веб-разработка • Веб-мастер • Веб-дизайн • Вёрстка веб-страниц (верстальщик) • Веб-программирование • Юзабилити • Модератор • Поисковая оптимизация (SEO) • Продвижение сайта
Техническое	Веб-сервер (список) • Браузер (список • сравнение) • Веб-фреймворк • Система управления содержимым (Список CMS) • HTTP (ответы • заголовки) • SPDY • CGI • HTML • XHTML • CSS • JavaScript • DHTML • DOM • XML • AJAX • JSON • Flash • RSS • Atom • Микроформаты • favicon.ico • robots.txt • Sitemaps • Карта сайта • .htaccess
Маркетинг	Интернет-маркетинг • Интернет-реклама • Баннер • Контекстная реклама
Социум и культура	Блогосфера • Интернет-сообщество (районное) • Сетевая литература

Словари и энциклопедии на Академике

Википедия

Robots.txt

robots.txt

Содержание

Описание структуры

Проверка синтаксиса

Примеры

Нестандартные директивы

Расширенный стандарт

Особенности поддержки стандарта поисковыми роботами

См. также

Ссылки

Полезное

Смотреть что такое "Robots.txt" в других словарях:

Поделиться ссылкой на выделенное

Прямая ссылка: