Как найти и убрать дубли страниц на сайте

Всем привет! Сегодня я рассмотрю два важных вопроса внутренней оптимизации. Первый — это как найти дубли страниц на сайте, а второй — как избавиться от этих дублей. Почему важно удалять дубли? Дубли негативно влияют на сайт следующим образом:

  1. Они размывают ссылочный вес страницы, то есть могло бы быть 10 ссылок на одну страницу, а получается 5 на одну, 3 на один дубль и 2 на другой дубль. Итого, всего 5.
  2. Уникальность контента снижается. Так как страниц несколько, и все они с одинаковым контентом, то о какой уникальности может идти речь?
  3. После апдейта выдачи, входной страницей может оказаться не та, которую продвигал оптимизатор и на которую стояли ссылки. Следствие из этого — потеря позиций.
  4. Нужная страница вообще может вылететь из индекса.

Для тех, кто не понимает о чем речь, дубли — это частично или полностью идентичный друг другу страницы.

Как найти дубли страниц на сайте?

На данный момент существует замечательный сервис по анализу сайта. Называется он сайтрепорт.рф. Не знаю, долго ли он останется бесплатным, но пока есть возможность проанализировать сайт и мы ею воспользуемся!

Заходим на него, регистрируемся. После регистрации вбиваем в поле адрес своего сайта:

Вводим адрес сайта

Разумеется, выбираем просто Диагностику сайта и нажимаем кнопку Анализировать.

Выскочит табличка:

Успешно

Теперь нужно немного подождать. Время ожидания зависит от количества страниц вашего сайта. На момент написания статьи ограничение по страницам стоит 500. Буквально позавчера никакого ограничения не было…

В Моих проектах ваш сайт должен иметь статус Завершен!

Завершен

Кликаем на Автоматический отчет.

Так как на atamovich.ru дублей нет, дальше я буду рассматривать другой сайт. Он работает на CMS Joomla.

Для того, чтобы узнать, есть ли дубли на сайте, необходимо прокрутить вниз встроеное окошко.

Окно

Нажимаем на последнюю ссылку «На сайте больше ** похожих или дублирующихся между собой страниц.«

Откроется новое окно. Слева, около нижней таблички, нажмите на «→ Полные дубликаты« . Откроется новое окно:

Дубли

Не трудно понять, ЧТО именно является причиной дубликатов страниц.

Как удалить дубли страниц с сайта?

В первую очередь, нужно проанализировать все эти страницы и выявить общий элемент, который и дублирует страницы.

На скриншоте выше, можете увидеть повторяющийся кусок ссылки ?tmpl=component

Проанализировав дальше, я выявил несколько таких «кусков»:

/mailto
?fontstyle=
?tmpl=component

Теперь у нас есть информация, знаем проблему. Как будем решать?

Открываем robots.txt и дописываем туда несколько строк:

Disallow: */mailto
Disallow: *?fontstyle=
Disallow: *?tmpl=component

В моем случае получились эти строки, в вашем, возможно, другие.

Символ * указывает на то, что до этого куска может быть все, что угодно.
Правильность написания robots.txt можно проверить в Яндекс.Вебмастере на специальной странице.
Там же можно проверить нужные страницы на открытость роботу. А то вдруг закроем слишком много ;-)

Проверили в Яндексе, загрузили на сервер, теперь надо заново прогнать по системе сайтрепорт.рф для проверки правильности выполнения работы! Если все дубли исчезли, то работы выполнена на 5+!

Если видите такую надпись, то у вас все получилось! :-)

Рекомендую!

Ваш Atamovich

К началу



  • http://live-and-learn-for-good.ru/ Наталья Лебедева

    Статья прямо в тему!
    Я как раз сейчас столкнулась с такой проблемой: некоторое время назад «сломала» свой сайт и после восстановления на нем пропала последняя опубликованная статья.. пришлось дублировать
    А недавно смотрю по поисковику — эта статья в первой двадцатке — кликаю и перехожу на пустую страницу с ошибкой «это статья никогда не была создана и т.д.» Обидно, но все понятно — зеркало) и поисковик продвигает статью, которой нет («..этот город, которого нет!…»)

  • Prukon

    отличная статья! Спасибо за полезный сервис и его описание.

  • http://kladzolota.ru/ Kladez-zolota

    Попробую, но не уверена, что смогу разобраться с кодами.

  • http://You-family.com/ Юрий

    да, дубли — опасная штука. Хорошая статейка.

  • http://otpusk21.ru/ Александр

    Давно искал информацию по удалению дублей страниц. Спасибо. Сайт добавил в закладки.

  • http://wseobowsem.ru/ Ирина

    Спасибо, за информацию. Поддерживаю Ваш сайт, заходите и ко мне в гости, спасибо! [ссылка]

  • http://atamovich.ru Atamovich

    Пожалуйста, взаимно :)

  • http://You-family.com/ Юрий

    Вернулся к твоему посту. С дублями всё ок, но выводит вот что:

    На сайте найдены дублирующиеся теги Title (4). Следует заполнить Title так чтобы на каждой странице он был уникален.

    Что посоветуешь?

  • http://atamovich.ru Atamovich

    При нажатии на эту строчку «На сайте найдены дублирующиеся теги Title (4)» откроется страница с этими Заголовками. Как говорится, отследить и устранить)))
    С другой стороны 4шт не так критично, если не хочешь парится, можно просто забить)))

  • http://You-family.com/ Юрий

    я сильно и не парюсь :)

  • http://damskije-shtuchki.ru/ Alissa Kor

    Не знала, что есть такие сервисы, спасибо за ссылку)

  • олег

    Не смог протестить [ссылка]

  • http://blog-mashnin.ru/ Антон Машнин

    Здрасьте. У меня на блоге стартовала бессрочная акция по бесплатному размещению ваших уникальных статей на моем ресурсе. Суть такая — вы мне уникальный текст, а я вам с этой статьи одну прямую индексируемую ссылку на ваш проект в сети. Ссылка размещается навсегда. Без редиректов и пр. Все честно. Все условия описаны в соответствующей статье у меня на сайте. Если кого заинтересует, милости прошу. Все быстро, качественно, а главное — бесплатно.

  • http://zastolie4you.ru/ Konstantin

    Полезная штуковина однака …

  • http://atamovich.ru Atamovich

    Не только полезная, а еще и безумно важная! :)