Директива Disallow: как закрыть страницу и сайт от индексации в robots.txt

Навигация

Репутация — это не количество звёзд, а восприятие

Когда «слишком хорошо» — значит подозрительно

Алгоритмы тоже не дураки

Директива Disallow: как закрыть страницу и сайт от индексации в robots.txt

Файл robots.txt считается одним из базовых инструментов технического SEO, а центральную роль в этом механизме играет Disallow. Несмотря на простоту синтаксиса, неправильная настройка приводит к серьезным проблемам с индексированием. В статье разберем, как работает директива и как корректно настраивать ее.

Disallow — что это такое: определение и принцип работы

Disallow — директива файла robots.txt, которая не разрешает веб-краулеру обходить указанный путь и сканировать содержимое посадочной.

Директива запрещает роботам обходить страницу, что помогает контролировать индексацию, но сама по себе не удаляет URL из поиска, если на него ведут ссылки или он уже проиндексирован.

Файл robots.txt всегда размещается в корневой директории, он ищется по стандартному адресу yoursite.ru/robots.txt. Любой юзер может открыть этот файл в браузере и увидеть его содержимое. Как выглядит структура файла:

User-agent — определяет, для какого краулера действует ограничение.
Запреты, наложенные с помощью Дисаллоу — в виде списка путей, которые роботу нельзя обходить.

На практике это указание применяют, чтобы закрыть доступ к техразделам, например, служебным директориям, параметрам сортировки или внутренним административным категориям.

Синтаксис Disallow: как правильно запретить индексацию

Синтаксис директивы достаточно простой, но для корректных указаний надо понимать, как формируются ограничения и как они интерпретируются роботами. В основе правила всегда указывают путь, который нельзя подвергать сканированию.

Классические варианты записи выглядят следующим образом.

Disallow: /путь/ — запрет обхода целого раздела сайта.
Disallow: /страница.html — запрет конкретной страницы.
Disallow: / — запрет обхода всего сайта.
Disallow: (пустое значение) — отсутствие запрета, иначе — полное разрешение на обход.

К примеру, когда в robots.txt содержится Disallow: /catalog/, индексатор не будет сканировать всё, что расположено внутри каталога /catalog/. При этом остальные категории останутся доступными для сканирования.

Чтобы запретить индексацию страницы через Disallow, также используют шаблоны для более гибкой настройки правил. Это особенно полезно для интернет-магазинов и крупных сайтов, где большое количество посадочных создается автоматически через фильтры.

Рассмотрим примеры таких шаблонов.

Disallow: /*.pdf$ — запретить обход всех PDF-файлов.
Disallow: /*? — закрыть страницы, содержащие параметры в URL.
Disallow: /category/*?sort — исключить страницы категории с параметром сортировки.

Еще одна важная возможность связана с использованием Allow, которая позволяет открыть отдельные страницы внутри закрытого раздела. Например, если нужно закрыть весь каталог, но оставить доступ к одному подразделу, используется комбинация Allow: /admin/public/ + Disallow: /admin/ — краулер не обойдет весь раздел /admin/, но получит доступ к каталогу /admin/public/.

При работе с robots.txt учитывайте особенности записи путей. На серверах Linux имеет значение регистр символов и завершающий слеш, который меняет область действия правила.

Типичные ошибки при настройке Disallow

Чтобы директива работала корректно, проверьте ваш ресурс и убедитесь, что избежали распространенных проблем:

Одновременное использование Disallow и noindex. Если страница закрыта через Disallow, робот не сможет увидеть тег noindex и страница останется в индексе.
Случайное закрытие всего сайта. Запись Disallow: / на рабочем сайте блокирует обход всех страниц.
Ошибки в пути или регистре символов. Пропущенный или лишний слеш, неправильный регистр изменяют действие правила.
Устаревший robots.txt. Если забыли обновить файл после изменений, то новые или перемещенные страницы останутся открытыми или закрытыми по старым правилам.
Неучет внешних ссылок и ранее проиндексированных страниц. Даже закрытые через Disallow URL порой отображаются в поиске, если на них ведут ссылки.

Проверим robots.txt: всё ли закрыто правильно

Ошибка в Дисаллоу — одна из частых причин потери страниц из индекса. Мы проводим технический SEO-аудит: проверяем robots.txt, находим случайно закрытые разделы и категории с конфликтом Disallow/noindex.

Как закрыть сайт от индексации через Disallow

Директива позволяет достаточно гибко управлять доступом краулеров к различным частям сайта, главное — настраивать всё внутри robots.txt.

Рассмотрим, как полностью или частично исключить ресурс из поиска.

Весь сайт

Этот вариант используется для тестовых проектов, стейджинговых версий или ресурсов, которые находятся в разработке. Прописывается следующая конфигурация:

User-agent: *
Disallow: /

Такая запись означает, что инструкция действует для всех индексаторов и запрещает обход в принципе. Символ / указывает на корневую директорию, поэтому запрет распространяется на абсолютно все ссылки.

Отдельные разделы

Часто возникает необходимость исключить из поиска конкретные разделы: административные панели, корзину или личные кабинеты. Здесь применяют следующий способ:

Disallow: /admin/
Disallow: /cabinet/
Disallow: /cart/

Подобные записи строго ограничивают обход конкретных каталогов, пока остальная часть веб-ресурса остается доступной для сканирования.

Конкретная страница

Иногда нужно исключить из обхода страницу благодарности после отправки формы или завершения заказа. Они не имеют самостоятельной ценности для выдачи.

Подходящий шаблон:

Disallow: /thank-you.html
Disallow: /success/

Индексатор увидит этот путь в robots.txt и не будет переходить по нему во время сканирования сайта.

Страницы с параметрами

На многих сайтах, где подключена онлайн-оплата, создают динамические контент с параметрами URL — фильтры товаров, сортировки или маркетинговые метки. Чтобы индексаторы не сканировали большое количество динамических страниц, используют следующие шаблоны:

Disallow: /*?utm_
Disallow: /*?filter

Такие условия помогают избежать появления большого количества дублей в обходе поисковых систем.

Настройка правил для отдельных роботов

Иногда требуется задать разные ограничения для разных поисковиков. Для этого используется User-agent:

User-agent: Googlebot
Disallow: /no-google/

Данное ограничение будет действовать только для робота Google. Для всех остальных краулеров задаются отдельные правила.

User-agent: *
Disallow: /private/

Подобный подход применяют редко, но бывает полезен в сложных проектах с различными стратегиями индексирования.

Disallow и индексация: отличие от noindex и закрытых страниц

При управлении индексированием нужно разграничивать различные инструменты, иначе их неправильная комбинация приведет к тому, что краулеры будут индексировать сайт не так, как планировалось.

Дисаллоу не гарантирует, что URL полностью исчезнет из поискового индекса. Страница продолжает индексироваться в нескольких случаях:

она была проиндексирована раньше;
на нее ведут внешние ссылки;
ссылка присутствует в карте сайта или других источниках.

Поэтому Дисаллоу чаще используют для экономии crawl budget и для ограничения обхода технических разделов.

Метатег noindex работает по другому принципу: он размещается внутри HTML-страницы и сообщает роботу, что ее нельзя добавлять в индекс, но содержимое разрешено прочитать. Noindex применяют для результатов фильтрации, служебных разделов или страниц с дублирующим контентом.

Преимущества такого подхода:

Страница гарантированно исключается из результатов поиска.
Индексатор продолжает обходить сайт и переходить по внутренним ссылкам.
Индекс обновляется корректно.

Одна из распространенных ошибок возникает при одновременном использовании директивы и метатега, когда веб-краулер не может зайти и прочитать метатег noindex. Такая ситуация приводит к тому, что посадочная продолжает существовать в индексе без возможности обновления данных.

Вот почему при необходимости удалить страницу из индекса обычно действуют по-другому:

Убирают Дисаллоу.
Добавляют тег noindex.
Дожидаются повторного обхода роботом.
Снова закрывают страницу через robots.txt.

Если вы не уверены, правильно ли индексируется сайт, полезно провести технический SEO-аудит. Во время такой проверки специалисты анализируют robots.txt, метатеги, структуру URL и выявляют неверно индексируемые страницы.
Закажите аудит и сопровождение сайта — наметим точки роста, исправим ошибки и оптимизируем ресурс, чтобы он корректно отображался в поисковиках и приносил лиды.

Посмотрите
все наши кейсы

Disallow — это то же самое, что запретить индексацию?

Нет, это не то же самое. Директива запрещает роботу сканировать содержимое определенных разделов. Когда необходимо гарантированно избежать индексирования, обычно применяют метатег noindex, оставляя доступ для краулера.

Что значит Disallow: / в robots.txt?

Такая запись полностью скрывает сайт от Яндекса и Google. Символ / обозначает корневой каталог, а значит, условие распространяется на все файлы проекта. Если подобная запись случайно появляется на рабочем сайте, поисковики перестают сканировать весь ресурс.

Закрытые от индексации директивой Disallow страницы — их видят пользователи?

Да, юзеры открывают и просматривают такие страницы по прямой ссылке. Директива работает только для роботов и не блокирует доступ для обычных посетителей.

Как проверить, что Disallow работает правильно?

Для проверки просмотрите robots.txt и проверьте синтаксис. Воспользуйтесь аналитическими инструментами, например, раздел «Старые инструменты» или «Проверка URL» в панели Google Search Console . Похожая функция доступна и в Яндекс Вебмастере.

Не нашли ответ на свой вопрос?

Оставьте заявку или свяжитесь любым удобным способом — мы всегда на связи и готовы помочь