Почему нельзя индексировать весь сайт

  1. Пользователям, которые ищут в сети полезную информацию, ни к чему видеть «лишний» для них контент. Он мешает поиску нужной информации. Поисковые системы это заметят и также не оставят без внимания.
  2. Поисковые роботы любят, чтобы контент на страницах был уникальным. Поэтому без запрета индексации не обойтись если сайт тестируют на другом домене (поисковые системы также могут принять это за копирование).
  3. Поисковые системы отводят определенное время (мощности своего поискового бота) на индексирование каждого сайта. Если это время будет уходить на ненужную и не полезную информацию (на редиректы, спам и т.д.) это может замедлить индексацию важных страниц.
  4. При смене дизайна сайта или его структуры, когда он находится в разработке.

Что нужно закрывать от индексации

  • Страницы сайта в разработке. Если сайт находится в разработке, лучшим решением будет закрыть его от индекса на время. Ограничить доступ к сайту или его страницам нужно через файл robots.txt.
  • Копии сайта. Чтобы верно указать копию сайта, необходимо корректное зеркало (с помощью 301 редиректа или атрибута rel=»canonical»), чтобы рейтинг главного ресурса не падал. К тому же, поисковые системы так будут лучше понимать — где главный сайт, а где его копия. Рабочий ресурс не должен быть скрыт от индексации! Так можно потерять репутация ресурса, наработанную годами.
  • Печатные страницы. Печатные страницы могут быть полезны посетителю. Необходимая информация может быть распечатана в адаптированном текстовом формате: статья, информация о продукте, схема расположения компании. По сути, печатная страница является копией своей основной версии. Если эта страница открыта для индексации, поисковый робот может выбрать ее в качестве приоритетной и посчитать более релевантной.
  • Ненужные документы. Кроме страниц, полезных для пользователей, на сайте могут также присутствовать документы для скачивания (PDF, DOC, XLS). И когда пользователь ищет информацию, он может видеть в выдаче не только нужные страницы, но и заголовки pdf-файлов. Эти файлы не несут практической ценности для пользователей. Либо документы появляются в результатах поиска над html страницами сайта. В этом случае индексация документов нежелательна, и их лучше закрыть от индекса в файле robots.txt.
  • Пользовательские формы и элементы. Эти элементы могут быть полезны для пользователей сайта, но при этом не нести никакой информационной пользы в поисковой выдаче. Соответственно, оттуда их нужно убирать. Такие элементы, как форма регистрации и заявки, корзина, личный кабинет и прочее.
  • Технические данные сайта. Только владелец ресурса должен иметь доступ к техническим страницам (это может быть форма входа в панель управления). В поисковой выдаче эти страницы — ни к чему.
  • Личная информация о клиенте. Это информация должна быть конфиденциальной и, ни в коем случае, не индексироваться. Это могут быть данные пользователя, его банковская информация и так далее.

Запретить индексирование сайта, раздела или страницы

Как запретить индексирование в robots txt всего сайта

Иногда необходимо запретить весь сайт к индексу роботами Яндекса и Google. Так, для Яндекса стоит ввести следующий текст в robots.txt:

User-agent: Yandex
Disallow: /

Чтобы закрыть сайт от всех поисковых систем, стоит прописать:

User-agent: *
Disallow: /

Как закрыть папку от индексации

Иногда требуется закрыть определенную папку (например, служебную). Для этого нужно:

  • Открыть файл robots.txt.
  • Указать на каких поисковых роботов будет распространятся запрет: на все (User-agent: *) или только на Яндекс (User-agent: Yandex).
  • Создать правило Disallow с названием папки/раздела, который хотите запретить: Disallow: /catalog/ (вместо «catalog» — название папки, которую необходимо запретить к индексу).

Как закрыть поддомен

Иногда появляется необходимость закрыть поддомены от индекса (например, при мультирегиональных или мультиязычных сайтах поддомены не всегда должны попадать в выдачу).

Для этого необходимо добавить инструкцию

User-agent: *
Disallow: /

На каждом поддомене, который требуется закрыть.

Как запретить индексацию страницы в robots txt и метатегах

Отдельную страницу можно закрыть при помощи следующих способов:

  • Использования метатега «noindex». Добавление метатега «noindex» — метод управления индексацией отдельно взятой страницы. Необходимо вставить следующий тег в раздел <head> HTML-разметки страницы: <meta name=»robots» content=»noindex»>. Это необходимо сделать для каждой страницы, которую вы не хотите индексировать.
  • Использования HTTP-заголовка X-ROBOTS-TAG. Тег X-Robots-Tag нужно добавлять в заголовок ответа HTTP для данного URL-адреса. Он имеет тот же эффект, что и тег «noindex», но с дополнительными параметрами для указания условий для разных поисковых систем. Чтобы деиндексировать страницу, нужно добавить тег «X-Robots-Tag: noindex».
  • В robots.txt в Disallow: прописать полный адрес страницы.

Как запретить индексацию контента

Можно также скрыть от индекса поисковыми системами отдельные виды контента: картинки, часть текса и ссылки.

Как закрыть все картинки от индексации

Чтобы скрыть все картинки на сайте от индекса в Яндекс, нужно в файл robots.txt добавить следующее:

User-Agent: Yandex
Disallow: *.jpg
Disallow: *.gif
Disallow: *.png

Для Google стоит прописать:

User-Agent: Googlebot
Disallow: *.jpg
Disallow: *.gif
Disallow: *.png

Для скрытия конкретной картинки:

User-Agent: *
Disallow: /img/pixelplus.gif

Дополнительно можно закрывать от индексации папку, где эти картинки расположены.

Как скрыть от индексации часть текста

Часть текста стоит закрывать от индекса в том случае, если он не должен попадать в выдачу, но все же несет информационную ценность для посетителей. Для Яндекса стоит использовать тег <noindex>. Он показывает поисковой системе, что часть текста, находящуюся между тегами <noindex></noindex> индексировать не нужно.

Для Google есть возможность закодировать нужную часть текста с помощью асинхронного JavaScript.

Как скрыть от индекса ссылки на странице

В HTML-коде страницы необходимо указать метатег «robots» с директивой nofollow. В таком случае поисковые роботы не станут переходить по ссылкам на данной странице. Или же использовать в атрибутах ссылки <noindex><a href=»http://адрес_сайта/» rel=»nofollow»>Текст ссылки</a></noindex>.

Как закрыть от индексации страницы пагинации

Добавить на страницы пагинации теги:

<meta name=»robots» content=»noindex» />

Закрыть их в robots.txt или внедрить rel = «canonical». Это лучший вариант.

Как проверить, корректно ли работает запрет индексации

Есть несколько способов чтобы узнать, корректно ли работает ваш запрет на индексацию сайта или отдельной страницы:

  1. Яндекс.Вебмастер. Кликнуть на кнопку «Инструменты» и далее «Проверка ответа сервера». Вставить адрес нужной вам страницы. Если она запрещена к индексу, то вы увидите соответствующее сообщение.
  2. Google Search Console. Нажать на «Проверка URL» и вписать адрес нужной вам страницы.
  3. Ввести в строку поиска (в Google или Яндекс) site:https:// + URL интересующего сайта/страницы. Так вы увидите выдает ли поисковик вашу страницу.