Почему нельзя индексировать весь сайт
- Пользователям, которые ищут в сети полезную информацию, ни к чему видеть «лишний» для них контент. Он мешает поиску нужной информации. Поисковые системы это заметят и также не оставят без внимания.
- Поисковые роботы любят, чтобы контент на страницах был уникальным. Поэтому без запрета индексации не обойтись если сайт тестируют на другом домене (поисковые системы также могут принять это за копирование).
- Поисковые системы отводят определенное время (мощности своего поискового бота) на индексирование каждого сайта. Если это время будет уходить на ненужную и не полезную информацию (на редиректы, спам и т.д.) это может замедлить индексацию важных страниц.
- При смене дизайна сайта или его структуры, когда он находится в разработке.
Что нужно закрывать от индексации
- Страницы сайта в разработке. Если сайт находится в разработке, лучшим решением будет закрыть его от индекса на время. Ограничить доступ к сайту или его страницам нужно через файл robots.txt.
- Копии сайта. Чтобы верно указать копию сайта, необходимо корректное зеркало (с помощью 301 редиректа или атрибута rel=»canonical»), чтобы рейтинг главного ресурса не падал. К тому же, поисковые системы так будут лучше понимать — где главный сайт, а где его копия. Рабочий ресурс не должен быть скрыт от индексации! Так можно потерять репутация ресурса, наработанную годами.
- Печатные страницы. Печатные страницы могут быть полезны посетителю. Необходимая информация может быть распечатана в адаптированном текстовом формате: статья, информация о продукте, схема расположения компании. По сути, печатная страница является копией своей основной версии. Если эта страница открыта для индексации, поисковый робот может выбрать ее в качестве приоритетной и посчитать более релевантной.
- Ненужные документы. Кроме страниц, полезных для пользователей, на сайте могут также присутствовать документы для скачивания (PDF, DOC, XLS). И когда пользователь ищет информацию, он может видеть в выдаче не только нужные страницы, но и заголовки pdf-файлов. Эти файлы не несут практической ценности для пользователей. Либо документы появляются в результатах поиска над html страницами сайта. В этом случае индексация документов нежелательна, и их лучше закрыть от индекса в файле robots.txt.
- Пользовательские формы и элементы. Эти элементы могут быть полезны для пользователей сайта, но при этом не нести никакой информационной пользы в поисковой выдаче. Соответственно, оттуда их нужно убирать. Такие элементы, как форма регистрации и заявки, корзина, личный кабинет и прочее.
- Технические данные сайта. Только владелец ресурса должен иметь доступ к техническим страницам (это может быть форма входа в панель управления). В поисковой выдаче эти страницы — ни к чему.
- Личная информация о клиенте. Это информация должна быть конфиденциальной и, ни в коем случае, не индексироваться. Это могут быть данные пользователя, его банковская информация и так далее.
Запретить индексирование сайта, раздела или страницы
Как запретить индексирование в robots txt всего сайта
Иногда необходимо запретить весь сайт к индексу роботами Яндекса и Google. Так, для Яндекса стоит ввести следующий текст в robots.txt:
User-agent: Yandex
Disallow: /
Чтобы закрыть сайт от всех поисковых систем, стоит прописать:
User-agent: *
Disallow: /
Как закрыть папку от индексации
Иногда требуется закрыть определенную папку (например, служебную). Для этого нужно:
- Открыть файл robots.txt.
- Указать на каких поисковых роботов будет распространятся запрет: на все (User-agent: *) или только на Яндекс (User-agent: Yandex).
- Создать правило Disallow с названием папки/раздела, который хотите запретить: Disallow: /catalog/ (вместо «catalog» — название папки, которую необходимо запретить к индексу).
Как закрыть поддомен
Иногда появляется необходимость закрыть поддомены от индекса (например, при мультирегиональных или мультиязычных сайтах поддомены не всегда должны попадать в выдачу).
Для этого необходимо добавить инструкцию
User-agent: *
Disallow: /
Как запретить индексацию страницы в robots txt и метатегах
Отдельную страницу можно закрыть при помощи следующих способов:
- Использования метатега «noindex». Добавление метатега «noindex» — метод управления индексацией отдельно взятой страницы. Необходимо вставить следующий тег в раздел <head> HTML-разметки страницы: <meta name=»robots» content=»noindex»>. Это необходимо сделать для каждой страницы, которую вы не хотите индексировать.
- Использования HTTP-заголовка X-ROBOTS-TAG. Тег X-Robots-Tag нужно добавлять в заголовок ответа HTTP для данного URL-адреса. Он имеет тот же эффект, что и тег «noindex», но с дополнительными параметрами для указания условий для разных поисковых систем. Чтобы деиндексировать страницу, нужно добавить тег «X-Robots-Tag: noindex».
- В robots.txt в Disallow: прописать полный адрес страницы.
Как запретить индексацию контента
Можно также скрыть от индекса поисковыми системами отдельные виды контента: картинки, часть текса и ссылки.
Как закрыть все картинки от индексации
Чтобы скрыть все картинки на сайте от индекса в Яндекс, нужно в файл robots.txt добавить следующее:
User-Agent: Yandex
Disallow: *.jpg
Disallow: *.gif
Disallow: *.png
Для Google стоит прописать:
User-Agent: Googlebot
Disallow: *.jpg
Disallow: *.gif
Disallow: *.png
Для скрытия конкретной картинки:
User-Agent: *
Disallow: /img/pixelplus.gif
Как скрыть от индексации часть текста
Часть текста стоит закрывать от индекса в том случае, если он не должен попадать в выдачу, но все же несет информационную ценность для посетителей. Для Яндекса стоит использовать тег <noindex>. Он показывает поисковой системе, что часть текста, находящуюся между тегами <noindex></noindex> индексировать не нужно.
Для Google есть возможность закодировать нужную часть текста с помощью асинхронного JavaScript.
Как скрыть от индекса ссылки на странице
В HTML-коде страницы необходимо указать метатег «robots» с директивой nofollow. В таком случае поисковые роботы не станут переходить по ссылкам на данной странице. Или же использовать в атрибутах ссылки <noindex><a href=»http://адрес_сайта/» rel=»nofollow»>Текст ссылки</a></noindex>.
Как закрыть от индексации страницы пагинации
Добавить на страницы пагинации теги:
<meta name=»robots» content=»noindex» />
Закрыть их в robots.txt или внедрить rel = «canonical». Это лучший вариант.
Как проверить, корректно ли работает запрет индексации
Есть несколько способов чтобы узнать, корректно ли работает ваш запрет на индексацию сайта или отдельной страницы:
- Яндекс.Вебмастер. Кликнуть на кнопку «Инструменты» и далее «Проверка ответа сервера». Вставить адрес нужной вам страницы. Если она запрещена к индексу, то вы увидите соответствующее сообщение.
- Google Search Console. Нажать на «Проверка URL» и вписать адрес нужной вам страницы.
- Ввести в строку поиска (в Google или Яндекс) site:https:// + URL интересующего сайта/страницы. Так вы увидите выдает ли поисковик вашу страницу.