Что такое Robots.txt и зачем он нужен

Robots.txt — это файл с инструкциями и директивами для роботов поисковых систем, который создан в текстовом формате. Он указывает на то, какие папки и страницы сайта можно индексировать, а какие нет. Рекомендуется к использованию всеми поисковыми системами для улучшения индексирования ресурса.

При каждом сканировании сайта, поисковые роботы обращаются первым делом к Robots. Поэтому можно назвать файл одним из важных факторов ранжирования при продвижении. Большую роль играет то, что Robots не только запрещает и разрешает сканирование страниц, но и содержит ссылку на файл Sitemap. Он в свою очередь сообщает поисковым роботам структуру сайта со ссылками на имеющиеся страницы ресурса.

Благодаря файлу вы можете:

  • убрать дубли страниц;
  • закрыть неуникальный контент;
  • обозначить главное зеркало сайта;
  • задать частоту и скорость загрузки страницы роботами;
  • скрыть служебные папки.
Правильное заполнение директив показывает поисковым системам, что вы следите за чистотой на сайте. При некорректно созданном файле, ваш сайт вообще может выпасть из поиска, поэтому первым делом seo-специалист проверяет Robots.txt.

Где находится robots.txt WordPress

Расположение файла может быть разным. Для того, чтобы узнать, есть ли он на сайте в принципе, можно добавить к адресу главной страницы /robots.txt.

В WordPress, как и во многих других CMS, файл находится в корневой папке, поэтому даже если вам открылись директивы выше, редактировать их можно только из файлов на хостинге. Для этого нужно войти в корневую папку сайта.

При отсутствии Robots.txt, создайте его заново.

Как создать файл robots.txt для WordPress

Чтобы создать правильный robots вручную, нужно понимать значение директив и команд. Начать следует с создания документа txt:

  • Откройте блокнот на рабочем столе.
  • Нажмите “Сохранить”.
  • Дайте название сохраняемому файлу robots (не нужно давать свои названия, это стандартное исключение).
  • Не меняйте расширение txt.
  • Сохраните.

Мы сохранили пустой документ, поэтому далее вам нужно разобраться в значении директив:

  • Allow — разрешает сканирование;
  • User-agent — указывает для какой поисковой системы составлены директивы;
  • Disallow — запрещает сканирование;
  • Sitemap — путь с адресом карты сайта;
  • Host — главное зеркало;
  • Crawl-delay — ограничение времени сканирования;
  • Clean-param — убирает дублирующийся контент с других линков.

Считается, что последние три команды уже устарели, но как показывает практика, в работе сайта бывают различные нюансы, поэтому будет не лишним в некоторых случаях прописать эти команды. Поисковые системы всё равно учтут их значения.

После того, как вы внесли нужные вам директивы, сохраните файл и перезалейте его в корень WordPress. Также вы можете создать robots.txt с помощью плагина. Скачайте Yoast SEO, AIOSEO или любой другой плагин, установите его. Войдите во вкладку Инструменты — Редакторы файлов — Создать файл robots.txt — Сохранить изменения. В этом случае файл будет создан с минимальным количеством директив автоматом.

Как редактировать robots.txt на WordPress?

Редактирование может осуществляться через FTP, плагин.

Редактирование через плагин AIOSEO

Войдите в меню плагина — Инструменты — Редактор Robots.txt.

Если вы уже настроили ранее файл robots.txt, то импортируйте его в плагин. Если вы хотите создать новый, тогда система оповещения предупредить вас о наличии уже созданного файла. Его придется либо импортировать, либо удалить. Иногда стоит проигнорировать уведомления и оставить старый роботс до создания нового корректного файла.

После входа в редактор Robots.txt плагина AIOSEO, перетяните галочку Custom Robots.txt на включение.

Перед вами откроется предварительный просмотр, где вы сможете вносить свои изменения. Плагин уже создаст базовый файл с закрытыми папками админки, темы и прочей информацией, которая не будет полезна людям.

 

AIOSEO содержит конструктор правил, поэтому путем выбора страниц вы можете легко задать нужные правила сканирования.

Также вы можете добавить новое правила для другой поисковой системы.

Сохраняйте изменения и проверяйте правильность созданного файла.

Редактирование через FTP

FTP позволяет управлять сайтом через удаленный веб-сервер. Благодаря ему можно вносить изменения в любые файлы сайта не имея физического доступа к серверу. Самыми частыми FTP-клиентами считаются FileZilla, Free FTP, Cyberduck, WinSCP.

Настройте FTP для доступа к учетной записи хостинга. Войдите в панель и найдите папку под названием Robots.txt. Можно создать новый файл и перезалить его, либо редактировать уже имеющийся.

Стандартный Robots.txt для WordPress

По умолчанию роботс выглядит так:

Должны быть закрыты административная часть сайта, за исключением admin-ajax.php, которая относится к данной директиве. К сожалению даже для базового Robots.txt на сегодня этого мало, поэтому рекомендуется также закрыть доступ к таким директивам и параметрам как:

  • /xmlrpc.php;
  • /wp-json;
  • author;
  • customize_autosaved;
  • p&preview;
  • s;
  • customize_theme.

Базовый файл лучше разделить для двух поисковых систем Гугл и Яндекс, либо для всех поисковых систем User-agent: *, и отдельно для Яндекса User-agent: Yandex.

Строка Disallow: /*? указывает на запрет сканирования UTM-меток, CRM, коллтрекинг и т.д. При копировании кода с нашей страницы не забудьте изменить путь Sitemap.

Расширенный Robots.txt для WordPress

Поскольку WordPress использует кастомную авторизацию, следует закрыть в Robots.txt страницы входа, регистрации и восстановления данных:

  • Disallow: /login
  • Disallow: /register
  • Disallow: /reset-password

Регулярно следите за выдачей и страницами в Яндекс.Вебмастер. Лишние и ненужные страницы нужно убирать из поисковой выдачи, чтобы у роботов было больше шансов просканировать полезные страницы. В связи с этим следует запретить:

  • страницы пагинации;
  • записи;
  • рубрики;
  • архивы;
  • комментарии к записям;
  • скрипты;
  • стили.

Директива clean-param

Clean-param прописывается только для Яндекс роботов, поскольку Гуглом она не учитывается. Данная директива сообщает роботам об одинаковых урлах, но с разными динамическими параметрами. Такое часто встречается у тех, кто пользуется контекстной рекламой, сортировкой товаров и т.д. Задача Clean-param в роботс — объяснить поисковым роботам Яндекс, что на сайте есть GET-параметры, что позволит не индексировать и не учитывать дубли страниц.

Чтобы настроить директиву clean-param в Robots.txt для WordPress откройте ее через FTP или плагин (там же где и отредактировать сам файл роботс). Директива может быть прописана в любом месте, но помните что регистр букв играет большую роль. Если вам надо обозначить несколько параметров, то используйте амбассадором &.

Проверка работы файла robots.txt

После того, как вы создали файл robots.txt, загрузили его и убедились в его отображении, следует проверить его доступность с точки зрения поисковиков. Сделать это можно и Яндекс.Вебмастере и Google Search Console. Проверим работу файла robots.txt в Яндекс.Вебмастере:

  • Авторизуйтесь;
  • Выберите нужный сайт;
  • Инструменты;
  • Анализ robots.txt.

Перед вами откроется окошко с уже имеющимся файлом или загрузите свой. Нажмите кнопку “Проверить”. Также проверить правильность robots.txt можно перейдя по ссылке https://webmaster.yandex.ru/tools/server-response/. Здесь можно вставить фрагмент кода или ссылку на файл.

Если все директивы отдают ответом 200 ОК, то все работает корректно. При наличии ошибок, они будут подсвечиваться красным.