Всем привет! Сегодня я рассмотрю два важных вопроса внутренней оптимизации. Первый — это как найти дубли страниц на сайте, а второй — как избавиться от этих дублей. Почему важно удалять дубли? Дубли негативно влияют на сайт следующим образом:
- Они размывают ссылочный вес страницы, то есть могло бы быть 10 ссылок на одну страницу, а получается 5 на одну, 3 на один дубль и 2 на другой дубль. Итого, всего 5.
- Уникальность контента снижается. Так как страниц несколько, и все они с одинаковым контентом, то о какой уникальности может идти речь?
- После апдейта выдачи, входной страницей может оказаться не та, которую продвигал оптимизатор и на которую стояли ссылки. Следствие из этого — потеря позиций.
- Нужная страница вообще может вылететь из индекса.
Для тех, кто не понимает о чем речь, дубли — это частично или полностью идентичный друг другу страницы.
Как найти дубли страниц на сайте?
На данный момент существует замечательный сервис по анализу сайта. Называется он сайтрепорт.рф. Не знаю, долго ли он останется бесплатным, но пока есть возможность проанализировать сайт и мы ею воспользуемся!
Заходим на него, регистрируемся. После регистрации вбиваем в поле адрес своего сайта:
Разумеется, выбираем просто Диагностику сайта и нажимаем кнопку Анализировать.
Выскочит табличка:
Теперь нужно немного подождать. Время ожидания зависит от количества страниц вашего сайта. На момент написания статьи ограничение по страницам стоит 500. Буквально позавчера никакого ограничения не было…
В Моих проектах ваш сайт должен иметь статус Завершен!
Кликаем на Автоматический отчет.
Так как на atamovich.ru дублей нет, дальше я буду рассматривать другой сайт. Он работает на CMS Joomla.
Для того, чтобы узнать, есть ли дубли на сайте, необходимо прокрутить вниз встроеное окошко.
Нажимаем на последнюю ссылку «На сайте больше ** похожих или дублирующихся между собой страниц.«
Откроется новое окно. Слева, около нижней таблички, нажмите на «→ Полные дубликаты» . Откроется новое окно:
Не трудно понять, ЧТО именно является причиной дубликатов страниц.
Как удалить дубли страниц с сайта?
В первую очередь, нужно проанализировать все эти страницы и выявить общий элемент, который и дублирует страницы.
На скриншоте выше, можете увидеть повторяющийся кусок ссылки ?tmpl=component
Проанализировав дальше, я выявил несколько таких «кусков»:
/mailto
?fontstyle=
?tmpl=component
Теперь у нас есть информация, знаем проблему. Как будем решать?
Открываем robots.txt и дописываем туда несколько строк:
Disallow: /*mailto
Disallow: /*?fontstyle=
Disallow: /*?tmpl=component
В моем случае получились эти строки, в вашем, возможно, другие.
Символ * указывает на то, что до этого куска может быть все, что угодно.
Правильность написания robots.txt можно проверить в Яндекс.Вебмастере на специальной странице.
Там же можно проверить нужные страницы на открытость роботу. А то вдруг закроем слишком много 😉
Проверили в Яндексе, загрузили на сервер, теперь надо заново прогнать по системе сайтрепорт.рф для проверки правильности выполнения работы! Если все дубли исчезли, то работы выполнена на 5+!
Рекомендую!
Ваш Atamovich
Статья прямо в тему!
Я как раз сейчас столкнулась с такой проблемой: некоторое время назад «сломала» свой сайт и после восстановления на нем пропала последняя опубликованная статья.. пришлось дублировать
А недавно смотрю по поисковику — эта статья в первой двадцатке — кликаю и перехожу на пустую страницу с ошибкой «это статья никогда не была создана и т.д.» Обидно, но все понятно — зеркало) и поисковик продвигает статью, которой нет («..этот город, которого нет!…»)
отличная статья! Спасибо за полезный сервис и его описание.
Попробую, но не уверена, что смогу разобраться с кодами.
да, дубли — опасная штука. Хорошая статейка.
Давно искал информацию по удалению дублей страниц. Спасибо. Сайт добавил в закладки.
Спасибо, за информацию. Поддерживаю Ваш сайт, заходите и ко мне в гости, спасибо! http://helpmyblog.ru/blogs/2120
Пожалуйста, взаимно 🙂
Вернулся к твоему посту. С дублями всё ок, но выводит вот что:
На сайте найдены дублирующиеся теги Title (4). Следует заполнить Title так чтобы на каждой странице он был уникален.
Что посоветуешь?
При нажатии на эту строчку «На сайте найдены дублирующиеся теги Title (4)» откроется страница с этими Заголовками. Как говорится, отследить и устранить)))
С другой стороны 4шт не так критично, если не хочешь парится, можно просто забить)))
я сильно и не парюсь 🙂
Не знала, что есть такие сервисы, спасибо за ссылку)
Не смог протестить http://tsparts.ru/
Здрасьте. У меня на блоге стартовала бессрочная акция по бесплатному размещению ваших уникальных статей на моем ресурсе. Суть такая — вы мне уникальный текст, а я вам с этой статьи одну прямую индексируемую ссылку на ваш проект в сети. Ссылка размещается навсегда. Без редиректов и пр. Все честно. Все условия описаны в соответствующей статье у меня на сайте. Если кого заинтересует, милости прошу. Все быстро, качественно, а главное — бесплатно.
Полезная штуковина однака …
Не только полезная, а еще и безумно важная! 🙂
Полезная, безусловно, статья. Спасибо. Но вы уверены в синтаксисе robots.txt?
Насколько мне известно, а я, увидев ваш синтаксис, полез снова в соответствующие мануалы Google и Яндекса, запрещающая конструкция такова Disallow: /
То есть не Disallow: */mailto , а Disallow: /*mailto
не Disallow: *?fontstyle= , а Disallow: /*?fontstyle=
Если вы где-то прочитали про такой синтаксис и поэтому используете такое написание инструкций и уверены что он рабочий, пожалуйста, скиньте ссылку.
Да, вы правы. Если придраться к синтаксису, то нужно ставить слеш перед запрещаемым куском урла. Однако, если проверить через Я.Вебмастер, то он ошибок не выдает даже при «неправильном» синтаксисе, следовательно, можно и так.
Спасибо за комментарий, сейчас в статье поправлю:)
глючный сервис
проиндексировано Яндексом -0 вместо 548
внешних ссылок 18тыс с копейками вместо 35
короче после этого просто пробежался по показателям без всякого интереса
Да, иногда бывает, что глючит.
В основном сейчас использую именно для нахождения дублей, как текста, так и мета-тегов. Очень помогает.
Спасибо, очень помогла ваша статья разобраться с дублями и устранить их. И сервис оч. хороший, теперь только один раз можно бесплатно анализ сайта сделать, остальное платно.
Спасибо за ссылку на Сайтрепорт, не знала про этот сервис. Меня недавно забанил Яндекс, думала, что причина в дублированных страницах, искала инфо, как исправить. Отчет Сайтрепорта в диаграммах показывает сходство 0-69%, а в текстовом отчете по контенту написано: На сайте не обнаружено похожих или дублированных страниц. Поздравляем!
Это радует! Но я там увидела, что полно других проблем. Главная из которых, что из всех моих 22 страниц сайта, только 3 имеют код 200, а по остальным 19-ти сервер просто не ответил! Пишут, что это критично. Что делать с этим, не подскажете? Заранее благодарю!
Здравствуйте, Галина! Срочно меняйте хостера! Вам нужно перенести сайт на другой сервер, более стабильный. А то соотношение 3 к 19 совсем не дело!
Для примера, у меня вообще нет других ответов, кроме 200.
Но это Спринтхост, вроде надежный и стабильный. Я им написала вопрос в тех поддержку, но они не поняли, просят более подробно. Там, похоже, сейчас сбои какие-то. Может поэтому не было ответов на запросы Сайтрепорта. Это я себя утешаю. Поскольку, мне конечно же, не хочется менять хостера.
Или все-таки пора изучать общественное мнение на тему, какой хостинг лучше?
О спринтхосте можете почитать вот тут: http://sprinthost.hosting-obzor.ru/
или вот тут:http://hosting101.ru/sprinthost.ru
Кому верить — не знаю…
Сам я пользуюсь хостингом от КОМТЕТ, доволен как слон! Работает стабильно и быстро. Жаль, что у них партнерской программы нет, так бы вам реф.ссылку кинул:)