Как правильно создать и настроить файл robots.txt для wordpress

untitled 2 Плагины
В этой статье я расскажу  о том, что такое файл robots.txt для сайта и как правильно его настраивать в cms wordpress. Мы пройдёмся по шагам и проведём настройку robots.txt, которая не потребует от вас знаний кода или вёрстки сайтов. А также разберём ручной вариант создания файла для тех, кто хочет заморочиться.

Что такое файл robots.txt

У этого файла стоит простая задача — фильтровать роботов определённых поисковых систем от индексации адресов ваших отдельно взятых страниц или файлов. То есть это замок, который вы можете повесить на определённые страницы, чтобы поисковики их не видели и не имели к ним доступ.
Если этот файл настроить неправильно, то весь сайт может выпасть из поиска, а может наоборот — оказаться в поиске весь, включая нежелательные страницы, которые вам хотелось бы скрыть. Также можно закрыть страницу от индексации в robots.txt в индивидуальном порядке.
Этот файл является стандартом, который был введён ещё в 1994 году и до сих пор является стандартом для роботов поисковых систем.

Роль robots.txt в SEO

С ним всё достаточно просто — данный файл является одним из первых, куда заглядывают поисковые роботы для того, чтобы понять:
  1. Какие разделы, ссылки и файлы им можно индексировать(переобходить и проверять), а какие нельзя.
  2. В нём есть ссылка на sitemap.xml для поисковых систем.
Этот файл является одним из первых за который следует взяться каждому seo специалисту. В противном случае переобход страниц и их количество в поисковиках может быть равно нулю.

Где находится robots.txt для wordpress

Сам файл находится в корневом каталоге вашего сайта. Если мы говорим про хостинг beget, где расположены все мои сайты, то путь до фала robots будет выглядеть так: https://domen.ru/robots.txt. Однако, если вы пользуетесь файловым менеджером beget, то полный путь будет таким: https://domen.ru/public_html/robots.txt. После того, как файл создан, вы можете проверить robots.txt, введя его адрес в поисковой строке. Если он открывается — у вас всё получилось.

Как создать правильный robots.txt вручную

Как я и говорил вначале статьи — мы рассмотрим два варианта создания файла robots.txt и первым будет ручной способ создания.
Для этого нам понадобится любая программа из нижеперечисленных:
  1. Блокнот.
  2. Microsoft word.
  3. Notepad++.
  4. SublimeText.
Первый и второй — не слишком удобные варианты, а 4ый уже инструмент полноценной разработки, поэтому NotePad является самым оптимальным вариантом создания и редактирования файлов.
После того, как файл будет создан — его можно сохранить под именем robots.txt и залить на свой сайт, используя filezilla или любой другой ftp менеджер. В том же самом beget он есть в панели хостера.

Создание файла robots с помощью онлайн генераторов

Вариант для самых ленивых и тех, кто хочет побыстрее. Пользоваться можно, но главное понимать какие именно настройки вы будете в него вводить(о них ниже).
Сгенерировать свой файл robots.txt вы можете на том же CY-PR. Но по факту получается так, что вы всё равно будете прописывать часть правил руками, так что от ручного составления будет отличать лишь то, что вы имеете чуть более широкий спектр возможностей по запрету и их автогенерёжку. А в контентниках или информационниках в этом нет никакой необходимости.

Директивы файла robots.txt

Для того, чтобы роботы яндекса или гугла могли понять, что в нём можно индексировать или нет — в файле прописываются директивы.
Давайте рассмотрим их на примере и разберёмся с тем, какие из них и за что отвечают.

Директивы user-agent

Эта директива сразу фильтрует роботов определённых поисковых систем. Её правила запрещают индексацию для роботов google или яндекса.
У нас есть несколько правил, которые мы можем использовать.
Запретить индексирование для всех роботов:
User-agent: *
Запретить индексирование для ботов google: User-agent: GoogleBot
Также имейте ввиду, что не так важно то, какой регистр букв в файлах robots.txt. Вы можете писать как с большой, так и с маленькой.

Robots txt disallow

Эта директива позволяет закрывать определённые разделы сайта или его страницы.
У этой директивы есть несколько операторов, которые вы можете использовать при работе с данным файлом.
Перечень операторов для disallow:
#  — так обозначается оператор комментирования, который автоматически отбрасывает всё, что находится после него и последующий за ним текст не учитывается.
*  — произвольные символы, которые идут после этого оператора, а также их количество или отсутствие. Эту звёздочку не надо ставить в конце строки.
$ — данный оператор говорит о том, что символ после него должен быть последним.
Примеры использования операторов disallow:
disallow:/category — закрываем все страницы, адрес которых начинается с category.
user-agent:googlebot
disallow:/page?
Запрещаем индексировать все страницы, адрес которых имеет параметр выше.
User-agent: Yandex
Disallow: /
Закрыть от индексации в robots.txt весь сайт.

Директивы allow

Allow в переводе с английского — позволять. Соответственно, такой директивой мы открываем определённые страницы для индексации и плюс эта директива имеет похожий синтаксис и операторы:
Команды allow:
useragent:googlebot
allow:/category
Открывает индексацию по маске category
useragent:googlebot
allow:/yourfile.pdf
Открывает индексацию к указанному файлу(теперь вы знаете как закрывать доступ к указанным файлам)

Директива sitemap

Благодаря этой директиве поисковые роботы понимают, где именно находится файл sitemap. Путь до неё должен быть полным. После обхода поисковиками файла роботс — они устремляются именно на карту сайта. Необходимо проверить её наличие на сайте и открываемость.
В этом файле собраны все ссылки самого сайта для индексирования. Благодаря такой карте сайта осуществляется более быстрый переобход страниц и их индексация в поисковых системах.
Как указать в файле robots путь до sitemap
user-agent:googlebot
sitemap:https://domen.ru/sitemap.xml
Если у вас несколько карт сайта, то можно указать путь до основной(смотреть выше), либо прописать каждую с новой строки:
user-agent:googlebot
sitemap:https://domen.ru/sitemap1.xml
sitemap:https://domen.ru/sitemap2.xml
Если ваша карта закрыта для индексации или вовсе не создана, то в яндекс вебмастер вы увидите соответствующую подсказку.

Директивы clean-param

Эти директивы, которые описывают в файле robots.txt определённые динамические параметры страниц. То есть такие страницы отдают одинаковое содержимое, но при этом имеют разные адреса. Директива работает только с сервисом яндекс.
Зачем включать эту директиву и когда это стоит делать? Чаще всего это применяется в интернет магазинах. Так что если мы настроим директиву для роботов, то мы снизим нагрузку на роботов поисковых систем и увеличим скорость переобхода нашего сайта, а также его эффективность.
Примеры дублирующих страниц для сайта:
https://books.ru/directory/get_knife?ref=test_1&file_id=123
https://books.ru/directory/get_knife?ref=test_2&file_id=123
https://books.ru/directory/get_knife?ref=test_3&file_id=123
Получается так, что параметр ref у нас используется в качестве utm метки и используется только для того, чтобы понять с какого источника к нам пришёл трафик.
Соответственно, нам важно закрыть его переобхода поисковыми роботами:
User-agent: googlebot Disallow: Clean-param: ref /directory/get_knife

Директивы host

Такая директива раньше использовалась только в яндексе, а так же mail.ru(им вообще кто-то пользуется?) и то для зеркал сайта(тогда, когда доступ к сайту можно было осуществить через несколько адресов). Директива не работает с 2018 года и теперь в случае переезда сайта у нас есть опция в вебмастере «Переезд сайта в вебмастере», а также 301 редирект.

Директива crawl-delay

Одна из ныне почивших директив, которая использовалась исключительно роботами яндекса и mail.ru для того, чтобы снизить нагрузку на самих роботов. То есть по сути в ней указывался временной интервал задержки между переобходом страниц.

Перечень запретов индексации

Теперь рассмотрим то, что именно нам надо исключить из индексации.
Для того, чтобы наш сайт индексировался быстрее и качественнее — нам надо исключить дубли страниц. То есть каждому url контент должен быть уникальным. Как и разбирали выше — нам надо закрыть от индексации всё то, что имеет одинаковые ссылки, но в тоже время приводит человека на одну и ту же страницу.
Пример:
Disallow: /*?*
Disallow: /*%
Disallow: /index.php
Disallow: /*?page=
Disallow: /*&page=
Также стоит скрыть все страницы, которые участвуют в воронках продаж. Например:
  1. Страницы благодарности за подписку.
  2. Инструкции по почте.
  3. Просто подписные страницы, если они не имеют под собой задачи в продвижении сайта.
Также страницы, которые могут содержать индикаторы сессии, но в случае wordpress это редкие кадры. Пример:
Disallow: *session_id=
Disallow: *PHPSESSID=
Также лучше всего скрыть все страницы, которые палят движок сайта, адрес админ панели и так далее.
Пример:
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Кстати, страницу логина лучше всего скрыть.

Как скрыть сайт от определённых роботов

Для того, чтобы разрешить переобход определённым роботам поисковых систем — вы можете ввести одну из комманд ниже:
# Для поисковых ботов
User-agent: *
# Для роботов Яндекса
User-agent: Yandex
# Для робота Google
User-agent: Googlebot

Как создать файл robots.txt с помощью плагинов

Все эти заморочки — это очень хорошо и просто замечательно. Но я считаю, что сильно проще сделать такой файл автоматом и не создавать его вручную.
Для этого нам понадобится простой плагин Webcraftic Clearfy. Кликните по ссылке далее и узнайте о том, как устанавливать плагины.
Далее переходим в настройки плагина и нажимаем так, как показано у меня:
Как настроить файл robots.txt с помощью плагина
После чего вводим то, что показано у меня на рисунке:
Настройка файла robots.txt с помощью плагина clearfy
Вот содержимое моего файла.
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /*.css
Allow: /*.js
Sitemap: https://andreystruchckov.ru/sitemaps.xml
В вашем случае карта сайта будет иметь другую ссылку, я писал выше о том, где она находится. Также кликните по ссылке и узнайте, как включить карту сайта для поисковиков.
Ну вот и готово. Теперь у вас есть свой файл robots, который вы можете дополнить на основе знаний, полученных выше.
Итак. Из этой статьи вы узнали:
  1. Что такое файл robots.txt.
  2. Как его создать вручную.
  3. Какие директивы есть у этого файла.
  4. Как его создать автоматически.
  5. Какие страницы лучше всего исключать по умолчанию.
Пользуйтесь — вопросы можно задавать в комментариях.
Рейтинг
Добавить комментарий