Обновления Google для Robots.txt: что нужно знать для SEO

Просмотры: 450

Если вы следили за недавними обновлениями Google, вы, вероятно, уже знаете, что они сделали несколько объявлений, связанных с robots.txt. Эти обновления состоят из нескольких различных компонентов, поэтому мы хотели разобрать, что они собой представляют, почему они важны и как они влияют на вас.

Памятка по определениям

Содержание

1) Памятка по определениям

2) Google хочет сделать REP официальным интернет-стандартом

3) Google делает парсер robots.txt открытым

4) Google отказывается от неподдерживаемых правил robots.txt

5) Вывод

Возможно, вам будет полезно ознакомиться с этими определениями перед тем, как погрузиться в них!

Срок	Определение
Протокол исключения роботов (REP)	Создан Мартином Костером в 1994 году, чтобы сообщать сканерам, к каким частям веб-сайта следует и не следует обращаться.
Internet Standard	Определяет протоколы и процедуры для Интернета.
Инженерная группа Интернета (IETF)	Открытое международное сообщество людей, приверженных бесперебойной работе Интернета. Они производят технические документы, описывающие Интернет-стандарты.
Открытый исходный код	Не проприетарный; код, который находится в свободном доступе и может быть распространен или изменен.
Запрос комментариев (RFC)	Документы, написанные инженерами и компьютерными специалистами, в которых описаны методы и концепции, часто с целью принятия IETF в качестве стандарта Интернета.

Google хочет сделать REP официальным интернет-стандартом

1 июля 2019 года Google объявил, что они работали вместе «с первоначальным автором протокола, веб-мастерами и другими поисковыми системами», чтобы задокументировать, как REP следует использовать в современной сети, чтобы они могли отправить его в IETF и получить одобрение в качестве официального Интернет-стандарта.

Созданный ими черновик не меняет исходных правил REP, но, основываясь на 20-летнем реальном опыте работы с robots.txt, они наметили конкретные сценарии и применили его к современной сети.

Почему это важно? Несколько причин:

Robots.txt используется таким количеством веб-сайтов (~ 500 миллионов !), Что откровенно странно, что он еще не является официальным интернет-стандартом. Приятно видеть, что Google уделяет этому приоритетное внимание.
Превращение REP в официальный стандарт поможет устранить путаницу в отношении того, что можно и чего нельзя делать в robots.txt. Эта документация значительно упростит оптимизаторам поисковой оптимизации и разработчикам поиск необходимой информации о том, как создать файл robots.txt, соответствующий их потребностям.
Google вывел документацию REP за рамки основ, добавив конкретные общие сценарии, которые сделают поиск правильного способа еще более простым.

Эта новость ничего не меняет о том, как следует форматировать файлы robots.txt, но дает более четкое направление.

Ознакомьтесь со спецификацией IETF здесь.

Google делает парсер robots.txt открытым

В тот же день, когда появились новости REP, Google объявил, что его парсер robots.txt теперь имеет открытый исходный код. Они объяснили, что, хотя попытка сделать REP Интернет-стандартом была важным шагом, это также означало дополнительную работу для разработчиков, которые разбирают файлы robots.txt. В ответ Google открыл исходный код библиотеки, которую они используют для анализа файлов robots.txt.

Почему это важно? Несколько причин:

Пакет robots.txt с открытым исходным кодом включает инструмент тестирования, который помогает вам тестировать правила robots.txt.
Это тот же код, который используется сканером Google для определения URL-адресов, к которым он может получить доступ, поэтому он поможет разработчикам создавать инструменты, которые лучше отражают синтаксический анализ и сопоставление robots.txt Google (а не наше лучшее предположение о том, как Google читает эти файлы).
Google заявил, что это «прокладывает дорогу для потенциальных проектов поиска с открытым исходным кодом в будущем». Будущее поиска выглядит более прозрачным!

Хотите парсер robots.txt с открытым исходным кодом? Найдите его на GitHub !

Google отказывается от неподдерживаемых правил robots.txt

На следующий день, 2 июля, Google опубликовал дополнительную информацию о файле robots.txt. На этот раз обновление было сосредоточено на неподдерживаемых правилах . Они сказали, что открытый исходный код их библиотеки синтаксического анализатора позволил им более детально изучить, как используются правила robots.txt, уделяя особое внимание использованию, которое не было поддержано интернет-проектом. Среди них:

Crawl-delay
Nofollow
Noindex

Пример файла robots.txt с правилом noindex.

Они обнаружили, что когда такие правила, как noindex, использовались в файлах robots.txt, они противоречили другим правилам на сайте «во всех файлах robots.txt в Интернете, кроме 0,001%». Эти типы противоречивых сигналов могут влиять на производительность веб-сайта в результатах поиска способами, которые веб-мастера никогда не предполагали.

Итак, поскольку неподдерживаемые правила robots.txt часто противоречат другим правилам, и в рамках подготовки к будущим выпускам с открытым исходным кодом Google удаляет весь код, который обрабатывает неподдерживаемые и неопубликованные правила, с 1 сентября 2019 года .

Вывод

Если вы использовали свой файл robots.txt для страниц или разделов noindex своего сайта, этот вариант больше не будет работать с сентября. Ваши новые варианты (используйте один из следующих): переключитесь на использование noindex в ваших метатегах, удалите страницу и предоставьте код статуса 404/410, защитите эти страницы паролем, используйте robots.txt, чтобы запретить поисковым системам сканирование эти страницы или используйте инструмент удаления URL-адресов в Google Search Console.
Использование «запрета» в вашем файле robots.txt может предотвратить сканирование, но если страница все еще связана с ней, она может быть проиндексирована даже с помощью этой директивы. Этим объявлением Google заявил, что хочет сделать запрещенные, но проиндексированные страницы «менее заметными в будущем».
Многие оптимизаторы полагались на robots.txt noindex как на временное решение при работе с клиентами, чьи платформы или ресурсы разработки не позволяли легко выполнить noindexing. Без этой возможности некоторые организации теперь могут быть вынуждены решать проблемы с более крупными платформами или ресурсами.