Ручная проверка сайта на дубли страниц. Как найти и удалить?
При поисковой оптимизации самое главное — не допустить ошибок. И самая распространенная ошибка — это большое количество дублей страниц. Сегодня мы расскажем, как убрать если не все, то 99% всех дублей с сайта простой ручной проверкой.
Что такое дубли страниц
Для начала давайте разберемся — что это такое и откуда они берутся?
Самый простой пример дубля — это домен третьего уровня www. Например, у нас есть сайт — site.ru. Как вы знаете, в браузере можно его вводить следующим образом — www.site.ru. По сути — оба этих варианта абсолютно идентичны, поэтому поисковые системы могут проиндексировать один из вариантов и в итоге при переходе, например, с Google — пользователи будут попадать на страницу www.site.ru, а при переходе с Яндекса — на страницу site.ru.
Почему от них надо избавляться
Есть две основных причины:
1. Внутренние и внешние ссылки.
Запомнить — какое именно зеркало (дубль) страницы используется — практически невозможно. Особенно если над сайтом работает не один человек, а несколько. В итоге, кто-то ссылается на страницу с www, кто-то без. В итоге — вес ссылок размывается и продвигать сайт становится сложнее. Кроме того — сами пользователи добавляют масла в огонь, оставляя ссылки в соцсетях и на форумах на разные дубли.
2. Скачки позиций в поиске
Из-за того, что ссылки ведут на разные зеркала — в поисковиках могут наблюдаться серьезные скачки позиций. Сначала Яндекс посчитает, что страница с www более релевантная, потом вдруг изменит решение и сделает релевантной страницу без www. Как итог — позиции могут сильно прыгать и трафик будет расти не равномерно.
Как удалить дубли страниц
Опять же, есть несколько способов убрать зеркала на сайте. Рассмотрим подробнее каждый из них:
1. 301 редирект
Этот способ чаще всего используется для технических зеркал. Срабатывает он следующим образом — пользователь попадает на сайт с www, а его автоматически перебрасывает на сайт без поддомена.
2. Запрет на индексацию в robots.txt
Используется для запрета индексации отдельных типов зеркал. Например — фильтров в интернет-магазинах, или поисковых страниц вида ?search=…
Для того, чтобы запретить индексацию — достаточно в файле robots.txt дописать строчку:
Disallow: /*?*search=
3. Атрибут rel=»canonical»
Аналогичен предыдущему варианту, но чаще всего используется в системах пагинации (например, просмотр предыдущей и следующей страниц в каталоге магазина). Подробнее об этом методе можно почитать на странице помощи Яндекса.
Попытаемся найти дубли страниц
Теперь, когда мы разобрались что это и как это исправить — найдем все возможные дубли на сайте. Просто добавляйте указанные значения к своему сайту и проверяйте, есть ли дубли. Если страница открывается так же, как и без параметра — значит это явное зеркало.
Примеры:
site.ru -> www.site.ru site.ru -> site.ru/ site.ru -> site.ru/index.php и т.д.
1. Дубли главной страницы
www / на конце /index.php /index.html /index.htm /index /index/ /home.php /home.html /home.htm /home /home/
2. Пагинация
Проверьте, добавлен ли атрибут rel="canonical" на страницах пагинации.
3. UTM-разметка и рекламные параметры:
Добавьте в robots.txt следующий код
Disallow: /*?*openstat= Disallow: /*?*yclid= Disallow: /*?*utm
4. На внутренних страницах сайта
/ на конце .php на конце
5. Страница поиска
Если хотите закрыть страницу поиска от индексации, введите запрос на своем сайте в поисковой форме и найдите параметр вида ?search=запрос. После этого внесите параметр «?search» в robots.txt вот так:
Disallow: /*?*search=
6. Фильтры и сортировка
Для интернет-магазинов и каталогов так же нужно убирать дубли фильтров и сортировок. Просто выберете любой фильтр на сайте и получите ссылку вида ?sort=price. Найдите параметр типа «?sort» и добавьте его в robots.txt следующим образом:
Disallow: /*?*sort
С ручной проверкой — закончено! Можете быть уверены, если вы проверите все вышеперечисленное — то уже избавитесь от большого количества дублей на сайте.
Обратите внимание! Если в индексе поисковиков было много зеркал, то после их удаления — сайт может временно «просесть» в позициях, так что лучше проводить чистку постепенно, чтобы дать возможность Яндексу и Гуглу постепенно переиндексировать сайт.