Обновления Google для Robots.txt: что нужно знать для SEO

Если вы следили за недавними обновлениями Google, вы, вероятно, уже знаете, что они сделали несколько объявлений, связанных с robots.txt. Эти обновления состоят из нескольких различных компонентов, поэтому мы хотели разобрать, что они собой представляют, почему они важны и как они влияют на вас.

Памятка по определениям

Возможно, вам будет полезно ознакомиться с этими определениями перед тем, как погрузиться в них!

Срок Определение
Протокол исключения роботов (REP) Создан Мартином Костером в 1994 году, чтобы сообщать сканерам, к каким частям веб-сайта следует и не следует обращаться.
Internet Standard Определяет протоколы и процедуры для Интернета.
Инженерная группа Интернета (IETF) Открытое международное сообщество людей, приверженных бесперебойной работе Интернета. Они производят технические документы, описывающие Интернет-стандарты.
Открытый исходный код Не проприетарный; код, который находится в свободном доступе и может быть распространен или изменен.
Запрос комментариев (RFC) Документы, написанные инженерами и компьютерными специалистами, в которых описаны методы и концепции, часто с целью принятия IETF в качестве стандарта Интернета.

Google хочет сделать REP официальным интернет-стандартом

1 июля 2019 года Google объявил, что они работали вместе «с первоначальным автором протокола, веб-мастерами и другими поисковыми системами», чтобы задокументировать, как REP следует использовать в современной сети, чтобы они могли отправить его в IETF и получить одобрение в качестве официального Интернет-стандарта.

Созданный ими черновик не меняет исходных правил REP, но, основываясь на 20-летнем реальном опыте работы с robots.txt, они наметили конкретные сценарии и применили его к современной сети.

Почему это важно? Несколько причин:

  • Robots.txt используется таким количеством веб-сайтов (~ 500 миллионов !), Что откровенно странно, что он еще не является официальным интернет-стандартом. Приятно видеть, что Google уделяет этому приоритетное внимание.
  • Превращение REP в официальный стандарт поможет устранить путаницу в отношении того, что можно и чего нельзя делать в robots.txt. Эта документация значительно упростит оптимизаторам поисковой оптимизации и разработчикам поиск необходимой информации о том, как создать файл robots.txt, соответствующий их потребностям.
  • Google вывел документацию REP за рамки основ, добавив конкретные общие сценарии, которые сделают поиск правильного способа еще более простым.

Эта новость ничего не меняет о том, как следует форматировать файлы robots.txt, но дает более четкое направление.

Уведомление об обновлении robot.txt-1

Ознакомьтесь со спецификацией IETF здесь.

Google делает парсер robots.txt открытым

В тот же день, когда появились новости REP, Google объявил, что его парсер robots.txt теперь имеет открытый исходный код. Они объяснили, что, хотя попытка сделать REP Интернет-стандартом была важным шагом, это также означало дополнительную работу для разработчиков, которые разбирают файлы robots.txt. В ответ Google открыл исходный код библиотеки, которую они используют для анализа файлов robots.txt.

Почему это важно? Несколько причин:

  • Пакет robots.txt с открытым исходным кодом включает инструмент тестирования, который помогает вам тестировать правила robots.txt.
  • Это тот же код, который используется сканером Google для определения URL-адресов, к которым он может получить доступ, поэтому он поможет разработчикам создавать инструменты, которые лучше отражают синтаксический анализ и сопоставление robots.txt Google (а не наше лучшее предположение о том, как Google читает эти файлы).
  • Google заявил, что это «прокладывает дорогу для потенциальных проектов поиска с открытым исходным кодом в будущем». Будущее поиска выглядит более прозрачным!

Robot.txt - Parser-Matcher - 2

Хотите парсер robots.txt с открытым исходным кодом? Найдите его на GitHub !

Google отказывается от неподдерживаемых правил robots.txt

На следующий день, 2 июля, Google опубликовал дополнительную информацию о файле robots.txt. На этот раз обновление было сосредоточено на неподдерживаемых правилах . Они сказали, что открытый исходный код их библиотеки синтаксического анализатора позволил им более детально изучить, как используются правила robots.txt, уделяя особое внимание использованию, которое не было поддержано интернет-проектом. Среди них:

  • Crawl-delay
  • Nofollow
  • Noindex

Пользовательский агент - 3

Пример файла robots.txt с правилом noindex.

Они обнаружили, что когда такие правила, как noindex, использовались в файлах robots.txt, они противоречили другим правилам на сайте «во всех файлах robots.txt в Интернете, кроме 0,001%». Эти типы противоречивых сигналов могут влиять на производительность веб-сайта в результатах поиска способами, которые веб-мастера никогда не предполагали.

Итак, поскольку неподдерживаемые правила robots.txt часто противоречат другим правилам, и в рамках подготовки к будущим выпускам с открытым исходным кодом Google удаляет весь код, который обрабатывает неподдерживаемые и неопубликованные правила, с 1 сентября 2019 года .

Вывод

  • Если вы использовали свой файл robots.txt для страниц или разделов noindex своего сайта, этот вариант больше не будет работать с сентября. Ваши новые варианты (используйте один из следующих): переключитесь на использование noindex в ваших метатегах, удалите страницу и предоставьте код статуса 404/410, защитите эти страницы паролем, используйте robots.txt, чтобы запретить поисковым системам сканирование эти страницы или используйте инструмент удаления URL-адресов в Google Search Console.
  • Использование «запрета» в вашем файле robots.txt может предотвратить сканирование, но если страница все еще связана с ней, она может быть проиндексирована даже с помощью этой директивы. Этим объявлением Google заявил, что хочет сделать запрещенные, но проиндексированные страницы «менее заметными в будущем».
  • Многие оптимизаторы полагались на robots.txt noindex как на временное решение при работе с клиентами, чьи платформы или ресурсы разработки не позволяли легко выполнить noindexing. Без этой возможности некоторые организации теперь могут быть вынуждены решать проблемы с более крупными платформами или ресурсами.

Call Now Button«Позвонить Сейчас»