Как найти и убрать дубли страниц на сайте

Всем привет! Сегодня я рассмотрю два важных вопроса внутренней оптимизации. Первый — это как найти дубли страниц на сайте, а второй — как избавиться от этих дублей. Почему важно удалять дубли? Дубли негативно влияют на сайт следующим образом:

  1. Они размывают ссылочный вес страницы, то есть могло бы быть 10 ссылок на одну страницу, а получается 5 на одну, 3 на один дубль и 2 на другой дубль. Итого, всего 5.
  2. Уникальность контента снижается. Так как страниц несколько, и все они с одинаковым контентом, то о какой уникальности может идти речь?
  3. После апдейта выдачи, входной страницей может оказаться не та, которую продвигал оптимизатор и на которую стояли ссылки. Следствие из этого — потеря позиций.
  4. Нужная страница вообще может вылететь из индекса.

Для тех, кто не понимает о чем речь, дубли — это частично или полностью идентичный друг другу страницы.

Как найти дубли страниц на сайте?

На данный момент существует замечательный сервис по анализу сайта. Называется он сайтрепорт.рф. Не знаю, долго ли он останется бесплатным, но пока есть возможность проанализировать сайт и мы ею воспользуемся!

Заходим на него, регистрируемся. После регистрации вбиваем в поле адрес своего сайта:

Вводим адрес сайта

Разумеется, выбираем просто Диагностику сайта и нажимаем кнопку Анализировать.

Выскочит табличка:

Успешно

Теперь нужно немного подождать. Время ожидания зависит от количества страниц вашего сайта. На момент написания статьи ограничение по страницам стоит 500. Буквально позавчера никакого ограничения не было…

В Моих проектах ваш сайт должен иметь статус Завершен!

Завершен

Кликаем на Автоматический отчет.

Так как на atamovich.ru дублей нет, дальше я буду рассматривать другой сайт. Он работает на CMS Joomla.

Для того, чтобы узнать, есть ли дубли на сайте, необходимо прокрутить вниз встроеное окошко.

Окно

Нажимаем на последнюю ссылку «На сайте больше ** похожих или дублирующихся между собой страниц.«

Откроется новое окно. Слева, около нижней таблички, нажмите на «→ Полные дубликаты» . Откроется новое окно:

Дубли

Не трудно понять, ЧТО именно является причиной дубликатов страниц.

Как удалить дубли страниц с сайта?

В первую очередь, нужно проанализировать все эти страницы и выявить общий элемент, который и дублирует страницы.

На скриншоте выше, можете увидеть повторяющийся кусок ссылки ?tmpl=component

Проанализировав дальше, я выявил несколько таких «кусков»:

/mailto
?fontstyle=
?tmpl=component

Теперь у нас есть информация, знаем проблему. Как будем решать?

Открываем robots.txt и дописываем туда несколько строк:

Disallow: /*mailto
Disallow: /*?fontstyle=
Disallow: /*?tmpl=component

В моем случае получились эти строки, в вашем, возможно, другие.

Символ * указывает на то, что до этого куска может быть все, что угодно.
Правильность написания robots.txt можно проверить в Яндекс.Вебмастере на специальной странице.
Там же можно проверить нужные страницы на открытость роботу. А то вдруг закроем слишком много 😉

Проверили в Яндексе, загрузили на сервер, теперь надо заново прогнать по системе сайтрепорт.рф для проверки правильности выполнения работы! Если все дубли исчезли, то работы выполнена на 5+!

Если видите такую надпись, то у вас все получилось! :-)

Рекомендую!

Ваш Atamovich

© 2018 Atamovich.ru