Как оптимизировать WordPress Robots.txt для лучшего SEO

Что такое robots.txt? Как создать файл robots.txt? Зачем нужно создавать файл robots.txt? Помогает ли оптимизация файла robots.txt улучшить ваш рейтинг в поисковой сети?

Все это и многое другое мы расскажем в этой подробной статье о файле robots.txt!

Вы когда-нибудь хотели сказать поисковым системам, чтобы они не сканировали конкретный файл? Хотите, чтобы поисковые системы не сканировали определенную папку на вашем веб-сайте?

Здесь на помощь приходит файл robots.txt. Это простой текстовый файл, который сообщает поисковым системам, где и где не сканировать при индексировании вашего веб-сайта.

Хорошая новость в том, что вам не нужно иметь никакого технического опыта, чтобы раскрыть всю мощь robots.txt.

Robots.txt – это простой текстовый файл, создание которого занимает секунды. Это также один из самых простых файлов, которые можно испортить. Всего один неуместный символ, и вы испортили SEO всего своего сайта и не позволите поисковым системам получить доступ к вашему сайту.

При работе над поисковой оптимизацией веб-сайта важную роль играет файл robots.txt. Хотя он позволяет запретить поисковым системам доступ к различным файлам и папкам, часто это не лучший способ оптимизации вашего сайта.

В этой статье мы объясним, как использовать файл robots.txt для оптимизации вашего веб-сайта. Мы также покажем вам, как его создать, и поделимся некоторыми понравившимися плагинами, которые могут сделать за вас тяжелую работу.

Что такое Robots.txt?

Robots.txt – это простой текстовый файл, который сообщает роботам поисковых систем, какие страницы вашего сайта сканировать. Он также сообщает роботам, какие страницы не сканировать.

Прежде чем мы углубимся в эту статью, важно понять, как работает поисковая система.

У поисковых систем есть три основные функции: сканирование, индексирование и ранжирование.

Поисковые системы начинают с отправки своих поисковых роботов, также называемых пауками или ботами, через Интернет. Эти боты представляют собой интеллектуальное программное обеспечение, которое перемещается по всей сети в поисках новых ссылок, страниц и веб-сайтов. Этот процесс просмотра сети называется сканированием .

Как только боты обнаруживают ваш сайт, ваши страницы упорядочиваются в удобную структуру данных. Этот процесс называется индексацией .

И, наконец, все сводится к ранжированию . Где поисковая система предоставляет своим пользователям самую лучшую и наиболее релевантную информацию на основе их поисковых запросов.

Как выглядит Robots.txt?

Допустим, поисковая система собирается посетить ваш сайт. Прежде чем сканировать сайт, он сначала проверит robots.txt на предмет инструкций.

Например, предположим, что робот поисковой системы собирается просканировать наш сайт webprosite.net и получить доступ к нашему файлу robots.txt.

Пока мы обсуждаем эту тему, вы можете получить доступ к файлу robots.txt для любого веб-сайта, введя «/robots.txt» после имени домена.

В ПОРЯДКЕ. Возвращение на правильный путь.

Выше представлен типичный формат файла robots.txt.

И прежде чем вы подумаете, что все это слишком техническое, хорошая новость заключается в том, что это все, что есть в файле robots.txt. Ну, почти.

Давайте разберем каждый элемент, упомянутый в файле.

Первый – это User-agent: * .

Звездочка после User-agent указывает, что файл применяется ко всем роботам поисковых систем, которые посещают сайт.

У каждой поисковой системы есть собственный пользовательский агент, который просматривает Интернет. Например, Google использует Googlebot для индексации содержания вашего веб-сайта в поисковой системе Google.

Некоторые из других пользовательских агентов, используемых популярными поисковыми системами:

Google: Googlebot
Googlebot News: Googlebot-News
Googlebot Images: Googlebot-Image
Googlebot Video: Googlebot-Video
Bing: Bingbot
Yahoo: Slurp Bot
DuckDuckGo: DuckDuckBot
Baidu: Baiduspider
Yandex: YandexBot
Exalead: ExaBot
Amazon’s Alexa: ia_archiver

Таких пользовательских агентов сотни.

Вы можете установить собственные инструкции для каждого пользовательского агента. Например, если вы хотите установить конкретные инструкции для робота Google, тогда первая строка вашего файла robots.txt будет такой:

Пользовательский агент: Googlebot

Вы назначаете директивы всем пользовательским агентам, используя звездочку (*) рядом с User-agent.

Допустим, вы хотите заблокировать сканирование вашего сайта всеми ботами, кроме робота Google. Ваш файл robots.txt будет иметь следующий вид:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

Косая черта ( / ) после Disallow указывает боту не индексировать какие-либо страницы на сайте. И хотя вы назначили директиву, которая будет применяться ко всем ботам поисковых систем, вы также явно разрешили роботу Google индексировать ваш веб-сайт, добавив « Разрешить: /» .

Точно так же вы можете добавить директивы для любого количества пользовательских агентов.

Напомним, что вернемся к нашему примеру с Astra robots.txt, т. Е.

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Директива была установлена для всех роботов поисковых систем, чтобы они ничего не сканировали в папке ‘ / wp-admin / ‘, но следили за файлом ‘ admin-ajax.php ‘ в той же папке.

Все просто, правда?

Что такое краулинговый бюджет?

Добавляя косую черту после Disallow , вы запрещаете роботу посещать какие-либо страницы сайта.

Итак, следующий очевидный вопрос: зачем кому-то мешать роботам сканировать и индексировать ваш сайт? В конце концов, когда вы работаете над поисковой оптимизацией сайта, вы хотите, чтобы поисковые системы сканировали ваш сайт, чтобы помочь вам в рейтинге.

Именно поэтому вам следует подумать об оптимизации файла robots.txt.

Есть идеи, сколько страниц у вас на сайте? От реальных страниц до тестовых страниц, страниц с дублированным контентом, страниц благодарности и т. Д. Мы полагаем, что много.

Когда бот сканирует ваш сайт, он просканирует каждую страницу. А если у вас несколько страниц, боту поисковой системы потребуется время, чтобы их просканировать.

Знаете ли вы, что это может негативно повлиять на рейтинг вашего сайта?

И это из-за « краулингового бюджета » бота поисковой системы .

Что такое краулинговый бюджет?

Бюджет сканирования – это количество URL-адресов, которые поисковый бот может сканировать за сеанс. Каждому сайту будет выделен определенный бюджет сканирования. И вам нужно убедиться, что краулинговый бюджет расходуется наилучшим образом для вашего сайта.

Если на вашем веб-сайте несколько страниц, вам определенно нужно, чтобы бот сначала сканировал ваши самые ценные страницы. Таким образом, необходимо явно указать это в вашем файле robots.txt.

Ознакомьтесь с ресурсами, доступными в Google, чтобы узнать, что означает краулинговый бюджет для робота Googlebot .

Как создать файл Robots.txt в WordPress?

Теперь, когда мы рассмотрели, что такое файл robots.txt и насколько он важен, давайте создадим его в WordPress.

У вас есть два способа создать файл robots.txt в WordPress. Один использует плагин WordPress , а другой – вручную загружает файл в корневую папку вашего сайта.

Метод 1. Создайте файл Robots.txt с помощью плагина Yoast SEO

Чтобы помочь вам оптимизировать свой сайт WordPress , вы можете использовать плагины SEO . Большинство этих плагинов имеют собственный генератор файлов robots.txt.

В этом разделе мы создадим его с помощью плагина Yoast SEO . Используя плагин, вы можете легко создать файл robots.txt из своей панели управления WordPress.

Шаг 1. Установите плагин

Перейдите в Плагины> Добавить новый . Затем найдите, установите и активируйте плагин Yoast SEO, если у вас его еще нет.

Шаг 2. Создайте файл robots.txt.

После активации плагина перейдите в Yoast SEO> Инструменты и нажмите Редактор файлов .

Поскольку мы создаем файл впервые, нажмите « Создать файл robots.txt» .

Создайте файл robots txt с помощью Yoast

Вы заметите файл, созданный с некоторыми директивами по умолчанию.

По умолчанию генератор файлов robots.txt Yoast SEO добавляет следующие директивы:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

При желании вы можете добавить другие директивы в robots.txt. Когда вы закончите, нажмите Сохранить изменения в robots.txt .

Идите вперед и введите свое доменное имя, а затем ” /robots.txt “. Если вы обнаружите, что в браузере отображаются директивы по умолчанию, как показано на изображении ниже, вы успешно создали файл robots.txt.

Мы также рекомендуем вам добавить URL-адрес карты сайта в файл robots.txt.

Например, если URL-адрес карты сайта вашего веб-сайта https://yourdomain.com/sitemap.xml, рассмотрите возможность включения файла Sitemap: https://yourdomain.com/sitemap.xml в файл robots.txt.

Другой пример: если вы хотите создать директиву, запрещающую боту сканировать все изображения на вашем веб-сайте. Допустим, мы хотели бы ограничить это только роботом GoogleBot.

В таком случае наш robots.txt будет иметь следующий вид:

User-agent: Googlebot
Disallow: /uploads/

User-agent: *
Allow: /uploads/

И на всякий случай, если вам интересно, как узнать имя папки с изображениями, просто щелкните правой кнопкой мыши любое изображение на своем веб-сайте, выберите «Открыть в новой вкладке» и запишите URL-адрес в браузере. Вуаля!

Метод 2: создать файл Robots.txt вручную с помощью FTP

Следующий метод – создать файл robots.txt на вашем локальном компьютере и загрузить его в корневую папку вашего сайта WordPress.

Вам также потребуется доступ к вашему хостингу WordPress с помощью FTP-клиента, такого как Filezilla . Учетные данные, необходимые для входа, будут доступны в панели управления хостингом, если у вас их еще нет.

Помните, что файл robots.txt должен быть загружен в корневую папку вашего веб-сайта. То есть его не должно быть ни в каком подкаталоге.

Итак, после входа в систему с помощью FTP-клиента вы сможете увидеть, существует ли файл robots.txt в корневой папке вашего веб-сайта.

Если файл существует, просто щелкните файл правой кнопкой мыши и выберите параметр редактирования.

Внесите изменения и нажмите «Сохранить».

Если файл не существует, вам нужно его создать. Вы можете создать его с помощью простого текстового редактора, такого как Блокнот, и добавить директивы в файл.

Например, включите следующие директивы,

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

… И сохраните файл как robots.txt.

Теперь, используя свой FTP-клиент, нажмите « Загрузить файл » и загрузите файл в корневую папку веб-сайта.

Чтобы проверить, успешно ли был загружен ваш файл, введите свое доменное имя, а затем «/robots.txt».

Вот как вы вручную загружаете файл robots.txt на свой сайт WordPress !

Плюсы и минусы Robots.txt

Плюсы файла robots.txt

Это помогает оптимизировать бюджеты сканирования поисковых систем, говоря им не тратить время на страницы, которые вы не хотите индексировать. Это помогает гарантировать, что поисковые системы будут сканировать наиболее важные для вас страницы.
Это помогает оптимизировать ваш веб-сервер, блокируя ботов, тратящих ресурсы впустую.
Это помогает скрыть страницы с благодарностью, целевые страницы, страницы входа в систему и многое другое, что не нужно индексировать поисковыми системами.

Минусы файла robots.txt

Теперь вы знаете, как получить доступ к файлу robots.txt для любого веб-сайта. Все очень просто. Просто введите имя домена и затем «/robots.txt». Однако это тоже представляет определенный риск. Файл robots.txt может включать URL-адреса некоторых ваших внутренних страниц, которые вы не хотели бы индексировать поисковыми системами.
Например, может существовать страница входа, которую вы не хотели бы индексировать. Однако упоминание этого в файле robots.txt позволяет злоумышленникам получить доступ к странице. То же самое происходит, если вы пытаетесь скрыть некоторые личные данные.
Хотя создать файл robots.txt довольно просто, если вы ошибетесь хотя бы с одним символом, это испортит все ваши усилия по поисковой оптимизации.

Куда поместить файл Robots.txt

Мы предполагаем, что теперь вы хорошо знаете, куда нужно добавить файл robots.txt.

Файл robots.txt всегда должен находиться в корне вашего веб-сайта. Если ваш домен – yourdomain.com, то URL-адрес вашего файла robots.txt будет https://yourdomain.com/robots.txt.

Помимо включения файла robots.txt в корневой каталог, необходимо следовать нескольким передовым методам.

Обязательно назовите файл robots.txt.
Имя чувствительно к регистру. Так сделай это правильно, или это не сработает
Каждая директива должна быть на новой строке
Включите символ «$», чтобы отметить конец URL-адреса.
Использовать отдельные пользовательские агенты только один раз
Используйте комментарии, чтобы объяснить людям свой файл robots.txt, начав строку с решетки (#)

Как проверить файл Robots.txt

Теперь, когда вы создали файл robots.txt, пора протестировать его с помощью тестера robots.txt.

Рекомендуемый нами инструмент находится внутри Google Search Console .

Чтобы получить доступ к этому инструменту, нажмите Открыть тестер robots.txt .

Мы предполагаем, что ваш веб-сайт добавлен в Google Search Console. Если это не так, нажмите « Добавить свойство сейчас » и выполните простые шаги, чтобы добавить свой веб-сайт в Google Search Console.

После этого ваш веб-сайт появится в раскрывающемся списке под заголовком « Пожалуйста, выберите свойство» .

Выберите веб-сайт, и инструмент автоматически загрузит файл robots.txt с вашего веб-сайта и выделит ошибки и предупреждения, если таковые имеются.

Часто задаваемые вопросы о robots.txt

Хотя в этой статье мы рассмотрели большинство часто задаваемых вопросов, есть еще один часто задаваемый вопрос.

Вам нужен файл Robots.txt для вашего сайта WordPress?

Да, вам нужен файл robots.txt на вашем сайте WordPress. Независимо от того, есть ли у вас файл robots.txt или нет, поисковые системы все равно будут сканировать и индексировать ваш сайт. Но, рассмотрев, что такое robots.txt, как он работает и сколько обходится бюджету, почему бы вам не включить его?

Файл robots.txt сообщает поисковым системам, что сканировать и, что более важно, что не сканировать.

Основная причина для включения файла robots.txt – учет негативных последствий краулингового бюджета.

Как указывалось ранее, у каждого веб-сайта есть определенный бюджет сканирования. Это сводится к количеству страниц, которые бот просматривает за сеанс. Если бот не завершит сканирование всех страниц вашего сайта во время сеанса, он вернется и возобновит сканирование в следующем сеансе.

А это замедляет индексирование вашего сайта.

Быстрое решение этой проблемы – запретить поисковым роботам сканировать ненужные страницы, медиафайлы, плагины, папки тем и т. Д., Тем самым сэкономив квоту сканирования.

Вывод

При работе над SEO вашего сайта мы уделяем большое внимание оптимизации контента, поиску правильных ключевых слов, работе с обратными ссылками, созданию sitemap.xml и другим факторам. Элемент SEO, на который некоторые веб-мастера обращают меньше внимания, – это файл robots.txt.

Файл robots.txt может не иметь большого значения, когда вы начинаете работу со своим веб-сайтом . Но по мере роста вашего веб-сайта и увеличения количества страниц он приносит большие дивиденды, если мы начнем следовать лучшим практикам в отношении robots.txt.

Мы надеемся, что эта статья помогла вам получить полезную информацию о том, что такое robots.txt и как создать его на своем веб-сайте.