Главная / SEO / Файл robots.txt для WordPress сайта: предназначение, создание, оптимизация и проверка
файл robots.txt для WordPress
Все, что нужно знать о файле robots.txt для WordPress

Файл robots.txt для WordPress сайта: предназначение, создание, оптимизация и проверка

Уважаемые, читатели! Давайте сегодня вместе сделаем уверенный шаг навстречу дополнительному трафику и заветному ТОПу поисковой выдачи! В данной статье речь пойдет о том, как создать правильный файл robots.txt для WordPress сайта.

Даже если у вас уже имеется этот «зверь» — советую ознакомиться с материалом ниже ибо не факт, что вы используете действительно правильное и эффективное решение!

Перед погружением в мир полезных букв я набросал предварительный перечень тем и вопросов, которые мы рассмотрим в ближайшие 10-15 минут:

  • в самом начале мы поговорим об основных функциях и важности файла robots.txt для поисковой оптимизации каждого сайта;
  • далее заведем разговор о сущности этого стандарта индексации для поисковых систем и разберем простейший процесс создания robots.txt;
  • завести собственный robots.txt для WordPress вы сможете двумя способами: скачать уже готовую универсальную версию файла или же пройти его создание пошагово вместе со мной. Здесь же мы поговорим о методах загрузки и адресе расположения данного файла на сайте;
  • практическая инструкция к созданию robots.txt с конкретным примером;
  • далее мы обсудим SEO-оптимизацию файла robots.txt и его роль в правильной индексации сайта. Попутно развенчаем несколько устоявшихся мифов на этот счет;
  • в конце мы рассмотрим правильный файл robots.txt с правильной привязкой к нему XML-карты;
  • самый последний пункт подскажет, как проверить наш robots.txt и даст коллекцию полезных ссылок для тех, кто захочет «копнуть» глубже в этом направлении.

Действительно ли моему сайту нужен файл robots.txt?

Очень часто клиенты и знакомые спрашивают меня о важности файла robots.txt для сайта в целом с точки зрения его поисковой оптимизации. На вопрос: «Действительно ли моему сайту нужен файл robots.txt», я отвечу убедительным – «ДА»! Этот файлик, начиная, с далекого 1994 года играет важную роль в SEO и позволяет владельцам сайтов общаться с поисковыми системами на понятном для них «языке».

Правильный файл robots.txt «расскажет» поисковой системе, что нужно проиндексировать в первую очередь, а от индексации чего следует воздержаться. Также он «намекнет» поисковому роботу, по какому адресу следует искать XML карту сайта (используется для более тщательного сканирования и правильного ранжирования связанных веб-страниц), поведает об основном зеркале и еще много чего…

Разумеется, отсутствие в корневом каталоге вашего сайта этой штуковины не остановит поисковые системы — они и дальше будут скурпулезно сканировать каждую веб-страничку для ее последующей индексации. Однако я настоятельно рекомендую обзавестись этим файликом, тем более, что его создание и размещение на веб-сервере с вашим ресурсом займет не более 10-15 минут!

Файл robots.txt защищает с 1994 года

Файл robots.txt — он такой )

Как создать robots.txt для WordPress сайта и где его разместить?

В подавляющем большинстве случаев файл robots.txt размещается в корневом каталоге вашего сайта (в главной папке на веб-сервере, где находятся все файлы и другие подкаталоги вашего детища). Если помимо основного доменного имени site_name.com вы используете поддомены типа blog.site_name.com, то следует разместить файл robots еще и в корневом каталоге каждого поддомена.

В общем случае путь доступа к файлу robots.txt должен получиться следующим:

site_name.com /robots.txt

Например, в моем случае это будет выглядеть так: gerkhard.com/robots.txt

Чтобы создать robots.txt много времени и дополнительных программных ресурсов не потребуется. Ведь с технической точки зрения — это простой текстовый файл с записями (инструкциями для правильного индексирования сайта поисковыми системами).

Создать файл robots.txt можно в любом простейшем редакторе, например при помощи стандартной программы «Блокнот» в ОС Windows. Здесь главное «обозвать» текстовый документ правильно – «robots.txt» и никак иначе, а также прописать верно все необходимые инструкции.

Обо всем этом я уже позаботился, скачать robots.txt для WordPress вы сможете в данной статье (ссылка на мой robots.txt — жмем правой кнопкой мыши и выбираем пункт — Сохранить как). После загрузки откройте файл и отредактируйте пару строк, которые связаны непосредственно с уникальным доменным именем вашего сайта и используемым SEO-плагином.

В моем файле robots.txt править нужно следующие строки:

Sitemap: http://site_name.com/post-sitemap.xml

Sitemap: http://site_name.com /page-sitemap.xml

где первая строчка отвечает за абсолютный путь к XML-карте с постами сайта, а вторая — за путь к XML-карте со страницами сайта.

Здесь необходимо вместо записи site_name.com использовать доменное имя вашего сайта и убедиться в правильности указанного пути (для этого достаточно скопировать отредактированную ссылку, вставить в адресную строку браузера и перейти на данную страницу с XML-картой!

Уважаемые читатели, обратите внимание, что я приверженец использования файла robots.txt в тандеме с хорошим SEO-плагином WordPress. Если вы противник такого метода, то соответственно и мой файл robots.txt будет в вашем случае не таким эффективным…

Подробнее о преимуществах описанного подхода для поисковой оптимизации сайта и рекомендуемых мною SEO-плагинах — читайте далее в статье!

Дальше дело остается за малым – необходимо «залить» отредактированный файл в корневую папку вашего сайта. Сделать это можно при помощи FTP клиента (например, FileZilla) или файлового менеджера вашего хостера. Также в этом деле могут помочь определенные SEO-плагины для ВордПресс, если вы их используете.

Следующие разделы посвящаются для всех тех, кто хочет пройти через процесс создания файла robots.txt самостоятельно и еще не устал читать много букв. В конце статьи мы также вместе займемся проверкой созданного robots.txt на предмет его технической грамотности.

Составляем правильный файл robots.txt для WordPress сайта

Пора переходить от пассивной теории к активной практике! Создаем в любом текстовом редакторе новый файл, и сохраняем его под именем «robots.txt». Итак, полдела уже сделано! 😉

Общий вид всех записей в robots.txt подчиняется этой нехитрой формуле:

<имя инструкции>:<необязательный пробел><значение>,

где <имя инструкции> может принимать следующие варианты: User-agent, Disallow, Allow, Sitemap.

Стандартный формат этого непризнанного многими начинающими оптимизаторами текстового файла достаточно прост. Первая строка содержит поле — User-agent. Это своего рода позывной, через двоеточие можно указать имя конкретного поискового бота, с которым файл robots «планирует общаться» (например, Googlebot или Yandex). Если инструкции, которые будут следовать ниже, предназначены для всех поисковых машин без исключения – можно смело ставить * (звездочку).

В следующих строках после «позывного» принято располагать конкретные инструкции, которые запрещают или наоборот – разрешают поисковому боту индексацию отдельных разделов (каталогов) и страниц сайта. Благодаря этому поисковая машина будет «знать», какие части вашего сайта вы разрешаете индексировать, а какие нет.

А вот и конкретный пример начала правильного файла robots.txt для WordPress:

User-Agent: *

Allow: /wp-content/uploads/

Disallow: /wp-content/plugins/

Disallow: /readme.html

Сейчас я прокомментирую каждую строчку, чтобы смысл этих нехитрых инструкций был понятен всем:

  1. В первой строке данного файла robots.txt для WordPress мы сообщаем, что инструкции ниже касаются ВСЕХ поисковых систем без исключения;
  2. Здесь мы «поручили» всем ботам в обязательном порядке индексировать содержимое каталога c изображениями, которые были и будут загружены на наш WordPress сайт;
  3. Эта строчка «сообщает» о запрете на индексацию технического каталога с установленными на сайте плагинами;
  4. Четвертая строка закрывает от индексации файл «readme.html», который находится в корневом каталоге (по умолчанию данный файл присутствует на всех сайтах под управлением CMS WordPress).

Оптимизация файла robots.txt для SEO

В свежем руководстве для веб-мастеров Google настоятельно рекомендует не использовать файл robots.txt для сокрытия страниц с содержанием низкого качества (ворованным или неуникальным контентом, копиями, дублями). В этом свете использование файла robots.txt для того, чтобы остановить Google и его других коллег от индексации отдельной категории, даты и других архивных материалов на сайте, мягко говоря, не является «мудрым» решением.

Помните, главная цель стандарта robots.txt — это рекомендации для ботов поисковых систем по поводу эффективного сканирования и правильной индексации вашего сайта. Этот файл не убережет ваш сайт от всеобъемлющего сканирования его поисковыми машинами.

Для всех архивных страниц WordPress на мой взгляд лучше всего использовать специальные SEO-плагины! Последние позволяют добавлять очень гибко мета-теги (Nofollow и NoIndex) к отдельным «мусорным» (с точки зрения SEO) страницам и группам страниц .

При помощи подобного плагина мы просто и легко закроем от индексации все необходимые страницы архивов: постраничную навигацию, дубли отдельных страниц, страницы с отработкой определенных фильтров, страницы с результатами поиска на сайте и прочее.

С этой задачей могут справиться, например, следующие сеошные плагины WordPress:

  • плагин «WordPress SEO by Yoast» — рекомендую использовать этот;
  • плагин «All in One SEO Pack» + плагин «Google XML Sitemaps»;
  • плагин «SEO Ultimate» + плагин «Google XML Sitemaps».

Также я хотел бы развенчать устаревший миф о том, что в robots.txt необходимо запрещать индексацию страницы входа в административную консоль сайта WordPress, каталог администратора, страницу регистрации нового пользователя.

Все дело в том, что в свежих версиях CMS все вышеупомянутые страницы уже имеют тег «Noindex» запрещающий индексацию! Добавляется он самим WordPress по умолчанию.

А вот запретить от индексации файл readme.html и каталог с установленными плагинами (смотри первый код файла robots.txt выше) я настойчиво рекомендую. Так файл readme.html может использоваться для того, чтобы определить текущую версию WordPress, которую в данный момент использует ваш сайт. Эта информация может помочь злоумышленнику взломать сайт.

Зачастую злоумышленники используют специальные «вредоносные запросы», позволяющие найти сайты WordPress определенной версии (с обнаруженной уязвимостью). В этом случае директива Disallow поможет вам защититься от возможных массовых атак.

Также стоит закрыть от индексации ваш каталог с плагинами WordPress. Это однозначно поспособствует повышению безопасности вашего сайта, ведь есть и те, кто ищет в глобальной сети определенные плагины с определенными уязвимостями. В дальнейшем сайты с такими плагинами также могут подвергнуться массовой атаке.

Ссылка в тему: Интересные статьи на тему «Продвижение молодого сайта» собраны в разделе блога — SEO WordPress.

Продолжаем составлять файл robots.txt: добавляем XML-карту сайта

Некоторые из вышеперечисленных SEO-плагинов после автоматического создания XML-карты вашего сайта будут пытаться также автоматически добавить в файл robots.txt строки с адресом сгенерированной «Sitemap».

Этот момент необходимо взять под свой личный контроль и если ваш плагин не подразумевает такого функционала — внесите вручную директиву с ссылкой на вашу XML карту. Выглядят эти строки следующим образом:

Sitemap: http://site_name.com/post-sitemap.xml

Sitemap: http://site_name.com /page-sitemap.xml

Проверка robots.txt при помощи онлайн-сервисов Yandex и Google

Проверка robots.txt: специальные службы Yandex и Google для проверки правильности синтаксиса и структуры файла:

https://webmaster.yandex.ua/robots.xml

https://www.google.com/webmasters/tools/robots-testing-tool

Разумеется, чтобы данные ссылки сработали корректно — следует изначально войти в свои аккаунты (кабинеты) для веб-мастеров от Yandex и Google!

Вот так выглядит страница в моем кабинете веб-мастера Yandex для проверки файла robots.txt (сриншот кликабельный). Как видим, в Яндексе наш файл прошел проверку успешно!

Проверка robots.txt в Яндексе

В Google для проверки файла robots.txt требуется сделать два небольших шага. В качестве подсказки — используйте данный алгоритм:

Алгоритм проверки robots.txt в Google

На втором этапе нас встретит уже знакомый по Яндексу интерфейс с отчетом о проверке файла robots.txt. Как видим, Гугл также не нашел ошибок или несоответствий в нашем файлике! Ура!

Проверка robots.txt в Google

Файл robots.txt для WordPress. Советы и выводы

  • Учтите что рекомендации по составлению файла robots.txt оговоренные в данной статье главным образом заточены под сайты, управляемые CMS WordPress;
  • Разумеется, здесь рассмотрен общий вариант начального robots.txt. Все возможные варианты в одной статье не учесть: у кого-то сайт-визитка, у кого-то блог, а у третьего – интернет-магазин. В этом случае в качестве отсчета можно подглядеть файл robots у любого понравившегося вам сайта конкурента из ТОПа (напомню универсальный путь местоположения данного файла: site_name.com /robots.txt);
  • Если вы используете предыдущий совет: не забывайте, что в большой семье WordPress сайт сайту рознь и бездумное копирование файла robots у облюбованного вами сайта не всегда может подойти вам, поэтому тщательно проанализируйте каждую строчку файла, если решили пойти по такому пути;
  • Если вы желаете прокачать в этой области знаний свой скилл максимально — обратитесь к официальным туториалам (смотри ссылку ниже) и рекомендациям Яндекса (смотри ссылку ниже);
  • В любом случае не забывайте, что стандарт robots.txt – это всего лишь рекомендация, а не закон. В некоторых случаях поисковая машина может и не следовать указаниям команд в файле;
  • После каждого изменения в robots.txt всегда с течением времени проверяйте в кабинетах для веб-мастеров (Google и Yandex), как это отразилось на индексации вашего сайта;
  • Не забивайте на этот файл огромный «болт», а просто потратьте 5-10 минут вашей жизни веб-мастера и будет вам счастье!
  • Рекомендованный мною вариант файла robots.txt используйте только в тандеме с одним из перечисленных выше SEO-плагинов WordPress.

А вот и блок обещанных ссылок для тех, кто не желает довольствоваться малым и планирует более подробно ознакомиться с принципами стандарта robots.txt:

Инструкции от Google по составлению правильного файла robots.txt:
https://support.google.com/webmasters/answer/6062608
Инструкции от Yandex по составлению правильного файла robots.txt:
https://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml

Ссылка на плагин «WordPress SEO by Yoast» в репозитрии WordPress:
https://wordpress.org/plugins/wordpress-seo/
Ссылка на плагин «All in One SEO Pack» в репозитрии WordPress:
https://wordpress.org/plugins/all-in-one-seo-pack/
Ссылка на плагин «SEO Ultimate» в официальном репозитрии WordPress:
https://wordpress.org/plugins/seo-ultimate/
Ссылка на плагин «Google XML Sitemaps» в официальном репозитрии WordPress:
https://wordpress.org/plugins/google-sitemap-generator/

На этом все! Если тебе пригодилась информация из данной статьи — отблагодари старания автора комментарием или нажатием кнопки одной из социальных сетей!

О GerkHard

Хотите быть в курсе последних событий в мире WordPress. Хотите создать сайт бесплатно? Интресесует заработок в интернете? Все это Вы найдете на сайте GerkHard.com, подписывайтесь на канал РСС, а также на наши официальные странички в популярных социальных сетях!

Оставить комментарий

Ваш email нигде не будет показанОбязательные для заполнения поля помечены *

*