Google принимает страницы за дублирующиеся, если их URL похожи
В недавней видеотрансляции представитель компании Google Джон Мюллер рассказал о том, как система определяет дублирующийся контент методом сопоставления идентичных URL адресов. Таким образом, поисковые роботы не ищут и не индексируют одинаковые страницы, тратя на это лишнее время.
Когда система находит странички, в которых имеется одинаковая структура URL, а также есть одинаковый контент, она решает, что на всех страницах ресурса с таким же URL содержится одинаковая информация, поэтому не индексирует их.
Проблема в том, что из-за этого явления по-настоящему важные и интересные ресурсы могу исключаться из поисковой выдачи просто потому, что их URL похож на адрес других ресурсов.
Как Google определяет одинаковый контент
Первый способ состоит в том, что система напрямую анализирует содержимое страницы, и если оказывается, что он отличается, то после этого каждая страница обрабатывается отдельно.
Второй способ более обширный и основывается на прогнозировании. Время от времени анализируется структура URL у страниц ресурса для того, чтоб обнаружить похожие компоненты. И если однажды оказывается, что странички с одинаковыми адресами имеют повторяющееся содержимое, то система решает, что они дублируются.
Таким образом, удаётся сэкономить время, которое поисковые роботы тратят на поиск и индексацию контента.
Как можно этого избежать?
Решить данный вопрос можно путем устранения со странички всего повторяющегося контента. Можно добавить rel canonical на странички, в которых речь идёт о работе компании в крупных городах, а не в маленьких. За счет этого системы понимают, что именно эти ресурсы и их URL имеют уникальный контент, и можно их индексировать.