» » » Похожие (дублированные) страницы. Как выявить дубли контента
logotip

Похожие (дублированные) страницы. Как выявить дубли контента

Здравствуйте Уважаемые читатели SEO-Mayak.com. В статье  — «Файл robots.txt — запрет индексации для Яндекса и Google» я уже касался темы дублированных страниц и сегодня поговорим об этом более подробно.

Что такое дубли страниц? Это страницы с похожим или одинаковым текстом доступные по разным URL адресам. Например, очень часто встречающиеся дубли главной страницы  ресурса

Ниже мы рассмотрим несколько распространенных вариантов дублирования контента, а сейчас давайте поговорим о том, как влияют похожие страницы на продвижение сайта.

Поисковые системы давно научились определять уникальность текста по последовательности символов, т.е по одинаково составленным предложениям, откуда берется последовательность букв и пробелов. Если контент не уникальный (ворованный), то робот без труда это выяснит, а когда не уникальный текст встречается часто, то перспектива попадания такого ресурса под фильтр АГС  довольно высока.

dubli kontenta20

Давайте представим себе работу поискового робота. Зайдя на сайт он в первую очередь смотрит на файл robots.txt и от него получает инструкции:  что нужно индексировать и что для индексации закрыто. Следующим его действием будет обращение к файлу sitemap.xml, который покажет роботу карту сайта со всем разрешенными маршрутами. Почитайте статью — «Файл sitemap.xml для поисковиков Google и Яндекс.» Получив всю необходимую информацию, робот отправляется выполнять свои привычные функции.

Зайдя на определенную страницу он «впитывает» ее содержимое и сравнивает с уже имеющейся в его электронных мозгах информацией, собранной со всего бескрайнего простора интернета. Уличив текст в не уникальности поисковик не станет индексировать данную страницу и сделает пометку в своей записной книжке, в которую он заносит «провинившиеся» URL адреса.  Как Вы наверное уже догадались на эту страницу он больше не вернется, дабы не тратить свое драгоценное время.

Допустим, страница имеет высокую уникальность и робот ее проиндексировал, но пройдя по следующему URL того же ресурса он попадает на страницу с полностью или частично похожим текстом.  Как в такой ситуации поступит поисковик? Конечно он тоже не станет индексировать похожий тест, даже если оригинал находиться на том же сайте, но по другому URL. Робот наверняка останется недоволен бесполезно потраченным временем и обязательно сделает пометочку в своем блокноте. Опять же, если такой инцидент будет неоднократно повторяться, то ресурс может пасть в немилость к поисковой системе.

Вывод №1.  Похожие страницы расположенные по разными URL отнимают время, которое отводится роботу для индексации сайта. Дубли страниц он все равно индексировать не будет, но потратит часть временного лимита на ознакомление с ними и возможно не успеет добраться до действительно уникального контента.

Вывод№ 2. Дублированный контент отрицательно скажется но продвижении сайта в поисковой системе. Не любят поисковики не уникальные тексты!

Вывод №3. Надо обязательно проверять свой проект на дубли страниц, чтобы избежать проблем перечисленных выше.

Многие совершенно не заботятся об «чистоте» своего контента. Ради интереса я проверил несколько сайтов и был несколько удивлен положению дел с дублями страниц. На блоге одной женщины я вообще не обнаружил файла robots.txt.

Необходимо со всей серьезность бороться с дублями контента и начинать надо с их выявления.

Примеры часто встречающихся дублей контента и способы устранение проблемы

Дубль главной страницы. Пример:

  • http://сайт.com
  • http://сайт.com/index.php.

В этом случаи вопрос решается с помощью 301 редиректа  — «командой» для сервера через файл .htaccess. Как сделать 301 редирект (перенаправление) через файл .htaccess

Еще один пример дубля главной страницы:

  1. http://сайт.com
  2. http://www.сайт.com

Чтобы избежать подобного дублирования можно прописать основное зеркало сайта в файле robots.txt  в директиве — «Host» для Яндекс:

  1. Host: сайт.com

А также воспользоваться 301 редиректом  и указать поисковикам Яндекс и Google на главное зеркало сайта посредством инструментов для веб-мастеров.

Пример дубля главной страницы, который чуть не взорвал мне мозг при поиске решения выглядит так:

  1. http://сайт.com
  2. http://сайт.com/

Я где-то прочитал, что слеш в конце ссылки на главную страницу, создает дубль и поисковики воспринимают ссылки со слешом и без, как разные URL,  ведущие на страницу с одинаковым текстом. Меня забеспокоила даже не сама возможность дублирования, сколько потеря веса главной страницы в такой ситуации.

Я начал копать. По запросу к серверу по вышеупомянутым URL я получил ответ код 200. Код 200 означает — » Запрос пользователя обработан успешно и ответ сервера содержит затребованные данные». Из этого следует, что все-таки дубль на лицо.

Я даже попытался сделать 301 редирект (перенаправление), но команды не действовали, и желанного ответного кода 301 я так и получил. Решение проблемы состояло в отсутствии самой проблемы. Каламбур такой получился.  Оказывается, современные браузеры сами подставляют символ «/» в конце строки, делая его невидимым, что автоматически делает дубль невозможным. Вот так!

Ну и еще один пример дубля главной страницы:

  1. http://сайт.com
  2. https://сайт.com

Бывают случаи, что по ошибке веб-мастера или глюка поисковика или при других обстоятельствах в индекс попадает ссылка под защищенным протоколом https://. Что же делать в таком случаи и как избежать этого в будущем? Конечно надо удалить ссылки с протоколом https://из поиска, но делать придется в ручную средствами инструментов для веб-мастеров:

В поисковой системе Яндекс,  веб- мастер — мои сайты — удалить URL:

Dubli

В Google инструменты для веб мастеров — Оптимизация — Удались URL адреса:

Dubli kontenta

и в файле .htaccess прописать 301 редирект.

Теперь пройдемся по дублям встречающимся при не правильном составлении файла robots.txt . Пример:

  1. http://сайт.com/page/2
  2. http://сайт.com/2012/02
  3. http://сайт.com/category/название категории
  4. http://сайт.com/category/название категории/page/2

На первый взгляд не чего особенного, но это и есть классический пример частичного дублирования.

Что такое частичное дублирование? Это когда в индекс попадают страницы с анонсами постов. Причем размер таких анонсов бывают чуть ли  не в половину всей статьи. Не делайте объемных анонсов! Решение проблемы простое. В файле robots.txt прописываем следующее:

  1. Disallow: /page/
  2. Disallow: /20*
  3. Disallow: /category/

Пример полного дублирования:

  1. http://сайт.com/tag/название статьи
  2. http://сайт.com/название статьи/comment-page-1

Решение опять же находиться  в файле robots.txt

  1. Disallow: /tag/
  2. Disallow: /*page*

Я не веду речь про интернет магазины и другие сайты на коммерческой основе, там ситуация другая. Страницы с товарами, содержащие частично повторяющийся текст с множеством изображений, также создают дубли, хотя  визуально выглядит все нормально. В таких случаях в основном применяется специальный тег:

rel="canonical"

Который указывает поисковику на основную страницу, подробнее читайте тут.

Важно! Директивы, прописанные в файле robots.txt, запрещают поисковым роботам сканировать текст, что уберегает сайт от дублей, но те же директивы не запрещают индексировать URL страниц.

Подробнее читайте в статьях:

Supplemental index. Дополнительный (сопливый) индекс Google
Мета-тег robots. Правильная настройка индексации сайта

Как определить похожие страницы по фрагменту текста

Есть еще один довольно действенный способ определения «клонов» с помощью самих поисковых систем. В Яндексе в поле поиска надо вбить: link.сайт.com «Фрагмент теста». Пример:

Dubli kontenta

Яндекс нашел 2 совпадения потому, что я не закрыл от индексации категории и поэтому есть совпадение с анонсом на главной странице.  Но если  для кулинарного блога участие рубрик в поиске оправдано, то для других тематик, таких как SEO такой необходимости нет и категории лучше закрыть от индексации.

С помощью поиска Google проверить можно так: site:сайт.com  «Фрагмент текста». Пример:

Dubli kontenta

Программы и онлайн сервисы для поиска внутренних и внешних дублей контента по фрагментам текста

Я не буду в этой статье делать подробный обзор популярных программ и сервисов, остановлюсь лишь на тех, которыми сам постоянно пользуюсь.

Для поиска внутренних и внешних дублей советую использовать онлайн сервис www.miratools.ru. Помимо проверки текста сервис включает еще различные интересные возможности.

Программа для поиска дублей — Advego Plagiatus. Очень популярная программа, лично я ей пользуюсь постоянно. Функционал программы простой, чтобы проверить текст достаточно скопировать его и вставить в окно программы и нажать на старт.

Dubli kontenta

После проверки будет представлен отчет об уникальности проверяемого текста в процентах с ссылками на источники совпадений:

Dubli kontenta

Также, будут выделены желтым фоном конкретные фрагменты текста, по которым программы нашла совпадения:

Dubli kontenta

Очень хорошая программа, пользуйтесь и обязательно подпишитесь на обновления блога.

На сегодня у меня все. Успехов!

С уважением, Кириллов Виталий

Комментарии: 117

  1. Sasha:

    Отличная статья, спасибо!)

    Собираюсь все-таки сделать на «Главной» вывод последних записей. Для этого придется воспользоваться тегом «more». Где-то читала, что это создаст дубли. Как быть?) Что посоветуете?

    Заранее спасибо и удачи в продвижении. Блог действительно очень хороший и полезный.

    Ответить
    • админ:

      Тег является якорем,а поисковики давно уже научились распознавать якоря, поэтому дубля при использовании тега не возникнет. Все что пишут про некоторые веб-мастера, мягко сказать, заблуждение.

      Ответить
      • Наталья:

        Мне попадалась статья, что надо писать ручками завлекательный текст произвольный на вкладке HTML в редакторе после тега «more». Что я и делаю. Статья та к сожалению не сохранилась, чтоб подсмотреть почему так. Но да, говорилось что это исключит повтор (дублирование) + еще какую то фишку дополнительную создает. После изменения надписи на вкладке HTML в редакторе, чтобы надпись сохранилась обязательно надо нажать на «СОХРАНИТЬ» или «ОБНОВИТЬ» (если статья уже была опубликована). Я делаю так вообщем. Даже, если мера эта излишняя, то привлекательность придает именно анонсу своей надписью + ключевики можно дополнительные вставить — будет типа заголовка.

        Ответить
        • админ:

          Наталья, можно конечно заворачиваться каждый раз при написании статьи и вставлять в тег ключевые слова, это уже по желанию. Сути вопроса это не меняет. Тег — это якорь.

          Ответить
  2. Sasha:

    Виталий и Наталья, спасибо за ответы!) Попробую сегодня настроить.

    Ответить
  3. Анна:

    Хорошие советы. Я пользовалась раньше программой Advego Plagiatus, но потом она у меня стала что-то сильно капризничать и я перешла на другую программу проверки уникальности текста. Стараюсь всегда эту проверку делать, даже когда сама или моя подруга пишем полностью текст. Все равно иногда могут уйти куски в плагиат.

    Ответить
    • Виталий Кириллов:

      Анна, рад снова Вас видеть. Программой Advego Plagiatus или какой другой пользоваться просто необходимо.

      Ответить
  4. Анна:

    Нужно не просто писать уникальные тексты, нужно еще их защищать от плагиата.

    Ответить
  5. Юрий:

    Добрый день! Случайно попал на Ваш сайт и….. панеслась. Хотя он у Вас еще и молодой, но много полезного я для себя нашел!
    Первое что хочу спросить. Нужно одинаково прописывать в роботс как для User-agent: Yandex так и для User-agent: * ???
    И нужно ли мне прописывать
    Disallow: /tag/
    Disallow: /*page*
    Disallow: /page/
    Disallow: /20*
    Disallow: /category/

    Спасибо за понимание и жду ответ. Был бы признателен помощи!!!

    Ответить
    • Виталий Кириллов:

      Юрий, рад приветствовать Вас на своем блоге! Да, надо одинаково прописывать все кроме директивы Host, она предназначается только для Яндекса. Юрий, объясню по-порядку. Надо закрыть теги «Disallow: /tag/» чтобы не создавать дубли, тоже самое касается и :
      Disallow: /*page*
      Disallow: /page/
      Disallow: /20*
      Disallow: /category/
      Но лучше воспользуйтесь сервисом Яндекс Вебмастер и посмотрите нет ли в поиске дублей или неканонических (одинаковых) страниц.
      Успехов!

      Ответить
  6. Валентина:

    Виталий, Вы такой молодец! С большим интересом считаю Ваши статьи.
    Виталий, вопрос по поводу дубляжа страниц сайта.
    У меня и-нет маг. Если у меня есть 10 продуктов одного наименования, отличающихся только размером, как быть с описанием товара, неужели на все 10 штук писать разное описание?

    Ответить
    • Виталий Кириллов:

      Валентина, здесь надо смотреть индивидуально. Конечно лучше для Вас, чтобы не было дублей, но если товар одинаковый может лучше выбрать одну страницу для поиска, а остальные закрыть тегом rel=»canonical».

      Ответить
  7. Алексей Виноградов:

    Виталий, задался вопросом стоит ли закрывать все страницы навигации: категории, тэги, архивы, page. У меня всё закрыто, кроме постраничной навигации (page). Я думаю стоит ли и это закрыть в роботсе.
    На этих страницах хоть и есть 5-6% дублированного контента, но также присутствуют полностью релевантные (тематические) ссылки на статьи, которые должны придавать им веса.

    Ответить
    • Виталий Кириллов:

      Алексей, рад снова Вас видеть на блоге! Видите в чем дело. Разве вы хотите, чтобы ваши страницы участвовали в поиске? Я думаю, что это совершенно необязательно, и кроме того, это создает лишению работу поисковому роботу. Даже частичное дублирование может нести негативный эффект. Что касается релевантных ссылок, то лучше по-полной использовать перелинковку в самих статьях. Спасибо за вопрос.

      Ответить
  8. Людмила:

    Статья интересная, но мне очень сложно в этом разбираться.

    Ответить
    • Виталий Кириллов:

      Людмила, все равно рано или поздно придется разобраться.

      Ответить
  9. Дмитрий:

    Я тоже Advego пользуюсь. Программа простая до невозможности и очень удобная.

    Ответить
    • Виталий Кириллов:

      Согласен с Вами Дмитрий!

      Ответить
  10. Юрий:

    Виталий. У меня проблема, с которой не могу разобраться — дублирование, точнее даже в трех экземплярах одна и та же страница прописана в списке Яндекса. И таких страниц у меня более 1500. Это фотографии кованой продукции.

    modules.php?op=modload&name=4nAlbum&file=index&do=showpic&gid=114&pid=1567&orderby=dateD

    modules.php?op=modload&name=4nAlbum&file=index&do=showpic&gid=114&pid=1567&orderby=ratingA

    modules.php?op=modload&name=4nAlbum&file=index&do=showpic&gid=114&pid=1567&orderby=titleA

    Как мне исключить дублирование?

    Ответить
    • Виталий Кириллов:

      Напишите в файле robots.txt следующее: Disallow: /*?* Должно помочь закрыть для индексации и потом удалите эти URL через Яндекс вебмастер.

      Ответить
  11. Наталья:

    Все правильно, только как нас учили по Адвего-проверяю- текст- уникальный а вот сайт TEXT.RU через раз дает всего процентов 70. Вопрос Чернышевского «Что делать?»

    Ответить
    • Виталий Кириллов:

      Наталья, я всегда пользовался Адвего и проблем у меня с уникальностью статей никогда не было, самое главное не копировать текст, а писать самостоятельно и все будет нормально.

      Ответить
  12. Александр:

    У супруги на кулинарном сайте таких проблем нет.

    Ответить
    • Виталий Кириллов:

      Александр, раз снова видеть Вас на блоге. Нет проблем — это хорошо! 🙂

      Ответить
  13. Татьяна Румянцева:

    Виталий здравствуйте!
    На вашем сайте столько полезностей — что тут можно сидеть целыми днями и не выходить с него.
    Начинаешь читать одну статью — попути куча вопросов и пошло — поехало. Столько нужной инфы — все и не переваришь.
    Вот я и возвращаюсь к вам каждый день.
    Спасибо вам за то что делитесь щедро своими знаниями.
    Столько всего нужно знать — учись и учись!
    Спасибо вам. С ув. Т.С

    Ответить
    • Виталий Кириллов:

      Татьяна, спасибо за оценку моего скромного труда! Ведь я тоже когда-то бродил в темных очках по темной комнате.

      Ответить
  14. Оксана:

    Интересная и новая для меня информация!
    Попробую воспользоватся! Спасибо Вам!

    Ответить
    • Виталий Кириллов:

      Пожалуйста Оксана!

      Ответить
  15. Людмила:

    Виталий, спасибо за полезные разъяснения, у меня робот текси и хтаккес уже были готовые от профессионалов, так что особо не задумывалась над их содержанием, но все же не лишне узнать что в них «зашифровано» на самом деле!

    Ответить
    • Виталий Кириллов:

      Пожалуйста Людмила!

      Ответить
  16. Дима:

    Статья мне понравилась, нашел новую информацию для себя, спасибо за статью.

    Ответить
    • Виталий Кириллов:

      Дима, рад видеть Вас на блоге!

      Ответить
  17. Татьяна:

    Здравствуйте, Виталий!
    У меня вот такой вопрос. Выявились повторяющиеся заголовки в вебмастере гугла.
    Привожу пример.
    /category/ istorii
    / categorii/ raznoe/istorii
    Как с этим бороться? Пока я поставила в плагине XML Site Map галочки в тех категориях, которые дублируются разделе Excude categories и закрыла от индексации категории в плагине all in One Seo PAck. Поможет?
    Очень нравятся ваши статьи. Периодически захожу на Ваш сайт. Все, что нужно! Спасибо)
    Татьяна

    Ответить
    • Виталий Кириллов:

      Здравствуйте Татьяна!
      Вы все правильно сделали, но можно еще в файле robots.txt приписать следующую директиву:
      [php]Disallow: /category/[/php]

      Ответить
  18. Татьяна:

    Спасибо большое за столь быстрый ответ и рекомендации.
    Теперь ждать переиндексации от гугл или лучше заново отправить ему sitemap?

    Ответить
    • Виталий Кириллов:

      Лучше отправить файл заново.

      Ответить
  19. Роман:

    Здравствуйте, Виталий! Благодаря вашей статье про изображения, веду сейчас на сайте активную борьбу за их уникальность.
    Теперь в связи с дублями возник вопрос: не будет ли изображение в анонсе дублем изображению в посте? В том смысле, как на это смотрит поисковик?

    Ответить
    • Виталий Кириллов:

      Здравствуйте Роман, я думаю с этим все в порядке, даже не переживайте!

      Ответить
  20. Роман:

    ِСпасибо за ответ! Как всегда оперативный)
    Что ж, я рад, что не надо переживать по этому поводу, а то всю ночь думал, что придется все опять переделывать)

    Ответить
    • Виталий Кириллов:

      Пожалуйста Роман!

      Ответить
  21. Валентина:

    Здравствуйте, Виталий!
    Спасибо за ваш сайт. Более доступной информации не находила нигде. Это настоящее пособие для начинающих веб-мастеров. Помогите разобраться.
    У меня возник такой вопрос. Если поменять robots.txt , то нужно будет как-то с Яндексом и Гуглом разбираться по данному вопросу? Или просто меняем robots.txt, а остальное все пройдет на автомате?

    Ответить
    • Виталий Кириллов:

      Здравствуйте Валентина! Директивы файла robots.txt обязательны для поисковиков. Дополнительно отправлять файл поисковикам не надо.

      Ответить
  22. Елена:

    Спасибо, Виталий. Особенно за то, что об этих программах нам, зелёным, поведали.

    Ответить
  23. Анна:

    Виталий, еще такой вопрос : у меня получается 1,180 / 22 % страниц не под фильтрами в Гугле. Ломаю голову не знаю, что делать, что бы это могло быть? Посещалка из поисковиков заметно упала, или сейчас запросы сезонные или и в правду у меня дубли страниц. В Гуглвебмастер пишут, что гугл не может индексировать, так как запрет в роботсе стоит. А если я сейчас еще и запрет в роботсе пропишу то тогда и индексировать нечего будет.

    Ответить
    • Виталий Кириллов:

      У вас в роботс еще не все дубли закрыты, например ничего не сказано о тегах, и они индексируются. Например,
      Ваш домен/tag/bliny-na-vode/

      Ответить
  24. Евгений:

    Виталий, объясните пожалуйста.
    1. Что изменится, если не прописывать в роборсе Disallow: /category/ , а вместо этого на самой странице категории добавить:

    2. Если прописать Disallow: page, category, tag, /2013 и.т.д., то как бот доберется до самой статьи ? Получается что только через главную и карту сайта, вес тогда вообще передаваться не будет.

    Ответить
    • Виталий Кириллов:

      Евгений, я не понял первый вопрос.
      Робот обязательно доберется до основного контента, если правильно прописывать перечисленные вами директивы. Самое главное не закрыть лишнего.

      Ответить
      • Евгений:

        Код не прописался, извиняюсь.
        Вместо /category/ добавить meta name=»robots» content=»noindex,follow»

        Ответить
        • Виталий Кириллов:

          По-моему проще один раз закрыть категории в robots.txt, чем потом каждую страницу закрывать.

          Ответить
  25. Юрий:

    Здравствуйте,Виталий! Спасибо за позновательную статью.На странице вебмастера в Яндексе увидел,что многие мои страницы не индексируются,хотя когда там же в вебмастере проверяешь страницу, то система выдаёт ответ, что она разрешена для индексации.Как мне это понимать? Надо ли мне в свой robot.txt добавить эти строки:Disallow: /page/
    Disallow: /20*
    Disallow: /category/
    Спасибо

    Ответить
    • Виталий Кириллов:

      Здравствуйте Юрий! Страниц в индексе должно быть столько, сколько у Вас записей. Не понял на счет ответа системы о разрешении индексации.
      Если у вас есть постраничная навигация, то стоит ее закрыть от индексации:
      Disallow: /page/
      Архивы закрываются: Disallow: /20*
      Категории закрываются: Disallow: /category/
      И архивы и категории также являются частичными дублями и желательно их закрыть, но многие веб-мастера категории не закрывают, здесь сами решите надо Вам это или нет.

      Ответить
  26. Анна Вечеря:

    Здравствуйте еще раз, Виталий! я полностью сама пишу свои статьи, но Advego Plagiatus показывает низкую уникальность. до 15%. почему это может быть? это сильно плохо?Проверяла страницы на Copyscape, дублей не нашли

    Ответить
    • Виталий Кириллов:

      Здравствуйте Анна! Старайтесь переставлять слова и менять предложения, чтобы добиться высокой уникальности. Advego Plagiatus ищет не только на других сайтах, но и на Вашем тоже и поэтому могут совпадать различные регулярные выражения, которые присущи каждому веб-мастеру, а это неплохо может портить уникальность.
      Проверяйте все, но уникальность должна быть высокая!

      Ответить
  27. Ольга Богач:

    Здравствуйте, Виталий! У меня большие проблемы с сайтом. Почему-то индексируется очень много копий одной и той же статьи на моём сайте (больше 20). Главное, чем дальше, тем копий становится больше, при менее 100 написанных постов в индексе у Яндекса их уже 3000. Помогите, пожалуйста! Что может быть не так на сайте? Почему копий так много? Такие неприятности начали происходить после обновления плагина All In One SEO Pack. Я почитала Вашу статью по теме настройки плагина — там всё в порядке. В Яндекс Вебмастер я загрузила robots.txt. Он мне выдал ответ, но я в нём ничегошеньки не поняла.
    буду очень благодарна за ответ!

    Ответить
    • Виталий Кириллов:

      Здравствуйте Ольга! Во первых у вас не закрыты от индексации постраничная навигация и теги, возможно и еще что-нибудь. Мне трудно сходу сказать, что стало причиной появления таких ссылок, как эта — sosna-gornaya-ukrashenie-sada/9223372036854775804/, но надо обязательно разобраться. Станьте подписчиком блога и напишите мне через форму обратной связи. И мы с Вами пообщаемся!

      Ответить
      • Ольга Богач:

        Виталий, такие окончания постов, возможно, идут как файл сайт.ru/xmlrpc.php .
        Закрыла эти окончания в robots.txt. Посмотрим, что получится.

        Ответить
        • Виталий Кириллов:

          Ольга, у меня есть подозрение, что лишние ссылки могут генерировать изображения в различных слайдерах. Я не уверен, но проверьте. Еще ответы в древовидных комментариях создают такие страницы, как эта — povyshenie-plodorodija-pochvy-na-uchastke/9223372036854775804/?replytocom=2372#respond

          Ответить
        • Ольга Богач:

          Виталий, у меня тоже мысль насчёт ссылок из слайдера возникла. Вот только как их закрыть, пока не нашла ответа. Пробую в Яндекс Вебмастере работать с robots.txt.
          Файлы с ? у меня закрыты от индексации.

          Ответить
        • Ольга Богач:

          Виталий, похоже, это не слайдер генерирует лишние ссылки. Слайдер у меня идёт как плагин. Вот откуда возникла эта ссылка в поиске? Карта сайта | Своими руками дом и сад — Part 9223372036854775792. Платон Щукин мне ответил: «Для того чтобы такие страницы не индексировались роботом, Вам следует настроить сервер таким образом, чтобы при обращении к таким несуществующим страницам возвращался код ошибки 404».
          Как же это сделать?

          Ответить
          • Виталий Кириллов:

            Ольга, проверьте настройки плагина All in One SEO Pack
            По моему дело в нем!
            Вот выдержка из Вашего исходного кода:
            [php]<!— All in One SEO Pack 2.1.2 by Michael Torbert of Semper Fi Web Design[560,674] —>
            <link rel="author" href="http: //117820690902660205744" />
            <meta name="keywords" content="крапива полезные свойства, рецепты лечения крапивой, применение крапивы" />
            <link rel=’prev’ href=’http: //svoimirukamivdome.ru/krapiva-universalny-lekar/9223372036854775806/’ />

            <link rel="canonical" href="http: //svoimirukamivdome.ru/krapiva-universalny-lekar/9223372036854775807/" />[/php]

            Хотя еще могут быть и другие сюрпризы.

            Ответить
        • Ольга Богач:

          Виталий, плагин All in One SEO Pack у меня настроен по Вашей статье. Мне непонятно, почему меняющееся цифровое окончание считается каноническим урлом. Скорее всего сюрпризы в чём-то другом.

          Ответить
          • Виталий Кириллов:

            Ольга, а конкретно какие URL (дубли) находятся в индексе Яндекса?

            Ответить
        • Ольга Богач:

          Окончания такие: от /9223372036854775777/ до /9223372036854775808/ для всех постов и страниц.
          Некоторые такого вида: Спирея | Своими руками дом и сад | Страница 9223372036854775805 , другие такого вида (их меньше): Спирея | Своими руками дом и сад — Part 9223372036854775779

          Ответить
          • Виталий Кириллов:

            Ольга, до выяснения причин, пропишите запрещающую директиву в файле robots.txt следующим образом:
            Disallow: /922*
            Wordpress сам по себе не может создавать такие адреса, скорее всего это один из плагинов.

            Ответить
        • Ольга Богач:

          Спасибо, Виталий! В файле robots.txt прописала Disallow: */9223372036854775*/
          По-другому не получалось убрать страницы из индекса, хотя цифр, наверное, можно было написать значительно меньше.

          Ответить
          • Алена:

            Добрый день!
            столкнулась с той же проблемой индексации! Проштудировала весь Ваш сайт, Виталий, все проверила! А выход пришел как у Ольги ))также прописала Disallow: */9223372036854775*/ и страницы стали запрещены.

            Спасибо большое! очень полезный блог,а главное понятный 😉

            Алена

            Ответить
  28. Ольга Богач:

    Спасибо, Виталий! На блог подписалась. Закрыла от индексации постраничную навигацию и теги. Продолжу разговор через обратную связь.

    Ответить
  29. Василий:

    Здравствуйте! Помогите, пожалуйста, разобраться со следующими вопросами:
    Дубли сайта запретил в robots.txt, но они все равно в главном индексе и google webmasters показывает наличие дублей(количество их, как ни странно, постоянно меняется!?). Страницы сайта уже выпали из выдачи гугл(яндекс выдает нормально). Может это быть из-за того, что запрет прописывал после обновления сайта(делал ЧПУ и оптимизировал)и дубли(не ЧПУ) попали в индекс раньше? Насколько часто гугл обновляет индекс, или все дубли, которые уже попали в него останутся там навсегда и ничего не изменить? И что делать в такой ситуации, как избавиться от дублей?
    Кстати, файл sitemap еще не делал, не дошли руки.
    Извините за столь много вопросов. Заранее благодарен.

    Ответить
    • Виталий Кириллов:

      Василий, вы можете вручную удалить старые URL через Гугл-вебмастер, во вкладке «Удалить URL адреса».
      Если у Вас нет файла sitemap.xml, то робот не сразу узнает о произошедших изменениях на Вашем ресурсе.
      Советую Вам не паниковать, а спокойно во всем разобраться. Москва не сразу строилась!

      Ответить
  30. Саня:

    Добр день . Подскажите как выявить страницы на ссайте с одинаковым названием в title? в индексе было 300 стр. после чужой оптимизации часть страниц выпала. Начал искать причину и оказалось совпадают названия страниц. Как их найти? Спасибо

    Ответить
    • Виталий Кириллов:

      Саня, а разве нельзя «вручную» сравнить выпавшие страницы с теми, что остались в поиске и выявить совпадения. Также можно воспользоваться Яндекс Вебмастером.

      Ответить
  31. Андрей:

    Здравствуйте. Спасибо за статью много полезного нашел для себя. У меня такой вопрос. НА моем блоге начало появляться много дублей со к примеру страницы
    К примеру у нас есть страница broker_name/activtrades/ и у нее есть дубликат в такой форме /broker_name/activtrades/facebook
    Не могу разобраться почему. И как закрыть эту страницу от робота???

    Ответить
    • Виталий Кириллов:

      Здравствуйте Андрей! Не могу сказать на верняка, но мне показался подозрительным код формы регистрации, в частности такая строчка в исходном коде:

      <input type="hidden" name="redirect_to" value="/broker_name/activtrades/facebook" />

      Чтобы запретить индексацию данной страницы, достаточно в файле robots.txt прописать следующую директиву:

      Disallow: */facebook
      Ответить
  32. Алексей:

    Привет!
    Вот Вы пишите, что нужно удалить урл с картинок. Но тогда вель не будут открываться картинки на весь размер…В статье ведь они выводятся по умолчанию с width=»300″ height=»199″ . Как быть?

    Ответить
    • Виталий Кириллов:

      Алексей, всегда надо надо чем-то жертвовать выбирая приоритеты.

      Ответить
  33. Sasha:

    Давно не была в гостях на блоге), заработалась. А тут мне один онлайн-сервис чуть ли не прямым текстом сказал: пора бы ошибки на блоге поправить. Непонятно как, через полтора года ведения блога дубли обнаружились))). Удивилась. Потом заглянула в роботс.ткст — и удивилась еще больше:) Судя по всему, там ничего толком закрыто не было, категории так точно. Ай, какой СтартАп «молодец»… это ж как он этот файл делал, вообще непонятно. В итоге скопировала с сайта у одного сеошника роботс, естественно, вписав свои параметры где нужно, и теперь сижу жду, пока поисковые системы отреагируют на изменения. Надеюсь, поможет).

    Ответить
    • Виталий Кириллов:

      Согласен, СтартАп «молодцы»! Хорошо, что Вы обнаружили ошибки, лучше поздно, чем никогда).

      Ответить
  34. Sasha:

    Да), только не факт, что я их все-таки исправила. Пока никаких изменений не обнаружила. Но, возможно, просто страницы заново еще не индексировали. Надеюсь)

    Ответить
    • Виталий Кириллов:

      Если не поможет, моя статья Вам в помощь).

      Ответить
  35. Евгений:

    Виталий, добрый день. У меня проблемы с роботом Гугл адсенс, выглядит это так: http:// samsebehozain.ru/saiding
    http:// samsebehozain.ru/saiding/otdelka-fasada-chastnogo-doma?relatedposts_hit=1&relatedposts_origin=85&relatedposts_position=0

    Загрузить один URL. Он блокирует Урлы, которых у меня вроде бы нет, подскажите что можно сделать, может быть это дубли?

    Ответить
    • Виталий Кириллов:

      Очень похоже на ссылки, оставленные плагином Related Posts. У Вас установлен такой плагин?

      Ответить
  36. Алексей:

    Здравствуйте! Подскажите пожалуйста как можно избавиться от дублей когда урл заканчивается знаком вопроса (____.html?) Являются ли такие страницы дублями!? Если запретить в роботсе то я так понимаю они всё равно будут висеть в «соплях» Есть ли какой другой способ их удалить?

    Ответить
    • Виталий Кириллов:

      Здравствуйте! Избавиться от таких страниц не получиться, а вот закрывать их от индексации надо обязательно, чтобы те же самые дубли не возникли. Более подробно я писал здесь.

      Ответить
  37. Евгений:

    Добрый день, возник вопрос с командой Disallow: /20*
    Дело в том что сами статьи у меня находятся по адресу: мой-сайт.ру/год/месяц/день/ид_новости
    Архивы как я понял тут: мой-сайт.ру/год/месяц/день
    При добавлении этого правила перестают индексироваться и архивы и непосредственно сами посты. Вид постоянных ссылок нужен именно такой. Как быть в таком случае?

    Ответить
    • Виталий Кириллов:

      Евгений, ну не добавляйте эту директиву.

      Ответить
  38. Маряи:

    Здравствуйте, 🙂

    Из-за того что домен выключен пару дней, а это произошло во врем апдейта яндекса.
    Были исключены практически все страницы.

    Причина мне понятна.
    Вопрос — при последующем апдейте — он восстановит исключенные страницы?
    Сайт с уникальными статьями.

    Заранее спасибо за внимание и ответ.

    Ответить
    • Виталий Кириллов:

      Здравствуйте!
      Если на блоге все норм, то думаю, что все восстановиться!

      Ответить
      • Мария:

        Как оказалось дело совсем оказалось не в этом 16.02.2015 сайт работал исправно и с хостингом не было никаких проблем. И как я посмотрела 17-02 у яндекса был ап. Потом 24-02. У меня 200 страниц исключено из поиска. Посещаемость снизилась почти до нуля. А на днях установила новую тему, и сделал дополнение в рубриках, перерубрикацию, навела порядок в рубриках. Ссылки у меня нормальные- домен +название статьи, без категорий. Сайт взрослый больше 4 лет, статьи более 600 уникальные. Никогда спам ссылок не ставила, продажей ссылок не занималась. Чего мой сайт так выбило?

        Ответить
        • Виталий Кириллов:

          Мария, у меня после апдейтов Яндекса блог не раз терял позиции. Думаю это связанно с обнулением каких-то факторов, так как через пару недель все мои «обиженные» статьи возвращались на прежние позиции и посещаемость восстанавливалась. Наверное есть смысл выждать время, а если за две недели ничего не поменяется, тогда бить тревоги. Поверьте сайт на внешние дубли и проанализируйте настройки индексации сайта. Посмотрите сколько робот Яндекса загрузил страниц, а сколько попало в поиск, и есть ли среди исключенных, неканонические страницы.

          Ответить
          • Мария:

            Спасибо, Виталий, я проверю, напишу.
            ТОлько сегодня удивилась ещё тому, что при попвтке добавить новую статью в аддурл яндекса.
            Он мне выдал:

            Недоступен сервер, на котором находится сайт.

            Хотя сайт онлайн. ТОже самое и гугл поиском оттуда вылетели все страницы

            Ответить
            • Виталий Кириллов:

              Тем более надо подождать!

              Ответить
  39. Олеся:

    Спасибо большое Виталий!Очень интересная статья.Прочитала от и до. Много узнала нового и нужного для своего сайта.

    Ответить
  40. Рита:

    Здравствуйте, Виталий! Уже не один месяц меня мучает вопрос дублированного контента. И вроде все правильно сделала( у Борисова статья была на счет replytocom) С репликами справилась, но дубли получаются и не только от комментариев, я это поняла давно. Но вот похоже, что ответ на свою проблему нашла в вашей статье. Она заключается в адресе сайта. Вот адрес моего сайта скопированный с главной страницы ritabk.ru/ Как видите со слешом А в robots Host: ritabk.ru А если вот так и прописать Host: ritabk.ru Или что делать? Потом в роботс запрешены фиды. Однако они все равно индексируются и все категории тоже. Мало того есть и дубли. Как поправить роботс?
    Это мой роботс. Посмотрите, пожалуйста. Меня это так извело. Вроде понимаю все, а почему появляются дубли не понимаю.

    Ответить
    • Виталий Кириллов:

      Здравствуйте Рита! О настойке индексации сайта я написал несколько статей.
      Мета-тег robots — очень советую почитать.
      Supplemental index
      Если будут вопросы, задавайте.

      Ответить
  41. Татьяна:

    Здравствуйте, Виталий!
    Меня давно мучает вопрос нужно ли открывать для индексации архивы, если я периодически переделываю старые статьи. На данный ответ поддержка Яндекса ответила так: «Если такие страницы должны индексироваться и участвовать в поиске, запрет из их исходного кода необходимо убрать. »
    Я не совсем поняла это ответ. А вопрос был такой: «Я намеренно запретила к индексации старые архивы, но правильно ли это, если я вношу изменения в старые статьи?»
    Надеюсь, что мне поможете! Спасибо!
    Татьяна

    Ответить
    • Виталий Кириллов:

      Здравствуйте Татьяна!
      Если страница запрещена от индексации, то изменения также не будут индексироваться.

      Ответить
  42. Татьяна:

    Виталий, это понятно. У меня вопрос такой: я запрещаю к индексации АРХИВ за декабрь 2013 года (когда страница была создана), но правлю эту страницу в апреле 2015 года ( при этом сама страница от индексации не закрыта), то будут ли учтены изменения на странице поисковыми системами? Поднимется ли такая страница в рейтинге при ее оптимизации?

    Ответить
    • Виталий Кириллов:

      Татьяна, изменение или дополнение какой-либо страницы никогда не каралось, ведь это естественный процесс. Другое дело на сколько эти изменения существенны, возможно полностью поменяется тест или еще будут какие либо серьезные правки. В таком случаи я затруднюсь Вам дать дельный совет.

      Ответить
  43. Татьяна:

    Простите, Виталий, как вы думаете, страница дублируется в архиве?

    Ответить
    • Виталий Кириллов:

      Дубли страниц возникают лишь в том случаи, когда один и тот-же текст находится под разными URL.

      Ответить
  44. Татьяна:

    То есть у каждого по-разному, видимо. Не совсем поняла(( Буду разбираться… Спасибо.

    Ответить
  45. Гость:

    Корректность обработки 404-ошибки

    Ответить
  46. Анна:

    Виталий, добрый день!
    Спасибо за статью.
    Помогите, пожалуйста.
    У меня в дубле главная страница. bychet.ru/ и bychet.ru/index.html
    Прописала файл .htaccess.
    Теперь я могу удалить URL из индекса Яндекса и Google bychet.ru/index.html или Ждать когда робот самостоятельно их уберет из индекса?
    Надеюсь на Вашу поддержку и понимание.

    Ответить
    • Виталий Кириллов:

      Анна, удалить URL адреса можно через панель вебмастера в Гугле и Яндексе.

      Ответить
  47. Игорь:

    Здравствуйте. Мой сайт не хочет нормально индексироваться. Можете хоть подсказать направление в котором копать, уже всю голову сломал, не могу понять в чем дело. Google ещё кое-как индексирует, а вот Яндекс проиндексировал всего 2 страницы. Подскажите пожалуйста в чем дело.

    Ответить
  48. Артем Михайлов:

    Виталий, добрый день! С большущим интересом прочитал данную статью и нашел для себя один момент. дело в том, что я тоже ломаю голову по поводу слеша на конце урл главной страницы)) Обе страницы дают ответ сервера 200 ОК. Но меня больше всего напрягает, что в коде страницы в теге rel=canonical прописывается URL со слешем (формируется Yoast SEO Plugin), хотя на других страницах (категории, записи) все четко как надо. Я зря беспокоюсь?

    Ответить
  49. Наталья:

    Виталий, здравствуйте! Помогите решить одну проблему. Вроде у вас была статья на эту тему, но что-то не могу найти(
    Проблема в следующем: у меня появились ссылки и страницы вида /#comments, /comment-page-1/#comments. Как правильно избавиться от дублей? Правильно я помню: нужно прописать мета-тег «robots» на страницах и rel=»nofollow» в ссылках? С ссылками я разберусь, а как вставить на эти страницы мета-тег простым способом не соображу. А сложные не хочу использовать, кажется, что простой способ лежит на поверхности)
    Напомните, пожалуйста) И еще, файл robots.txt для этих целей трогать нельзя?

    Ответить
    • Виталий Кириллов:

      Наталья здравствуйте. Ссылка с #comments на конце — это якорь и дублем не считается, тоже самое, что #more или любой другой якорь. Но есть хотите можно попробовать и такие страницы закрыть. Протестируйте вот такой код:

      function mayak_url(){
      if (strpos($_SERVER['SERVER_NAME'].$_SERVER['REQUEST_URI'], '/#comments')) 
      echo "".'<meta name="robots" content="noindex,nofollow" />'."\n";	
      }
      add_action('wp_head', 'mayak_url', 3);
      

      Что касается comment-page-1, то тут должна сработать функция:

      function mayak_meta_robots () {
      if (get_query_var('cpage')) 
      echo "".'<meta name="robots" content="noindex,nofollow" />'."\n";
      }
      add_action('wp_head', 'mayak_meta_robots', 3); 
      

      Попробуйте.

      Ответить
      • Наталья:

        Спасибо за ответ, Виталий!
        get_query_var(‘cpage’) — как раз то простое решение, которое я искала! Спасибо, помогло!
        Насчет якоря, да, действительно, не стоит наверное, их закрывать. Мало ли что получится, если поисковик найдет страницу с якорем закрытую от индексации и такую же страницу без якоря открытую) Но код я попробовала все равно, он не совсем работает, потому что переменная $_SERVER[‘REQUEST_URI’] возвращает ссылку без якоря. Ну, я уже в это не стала вникать)
        Еще, Виталий, один вопрос. Посмотрела ваш код, вы закрыли ссылки на страницы пагинации и категории, заменив тэг <a> на span с классом hidden-link. Это все вы сделали с помощью регулярных выражений, подобно, как вы это делали с replytocom? Или просто в самом коде заменили a на span?
        Кстати, у вас в хлебных крошках тэг <a> все-таки присутствует, и почему у вас на главной нет мета-тега robots? Так надо? (Извините, что копаюсь в коде, просто так легче разобраться, чем по сто раз спрашивать))

        Ответить
        • Виталий Кириллов:

          Наталья функцию с $_SERVER['REQUEST_URI'] я не тестировал на URL с якорем, поэтому предложил Вам просто на вскидку, чтобы Вы проверили. С обычными урами она работает исправно.
          Что касается скрытия ссылок в постраничной навигации. Нет, как раз в этом случаи все обошлось без использования регулярок, просто поменял теги в функции вывода навигации. Надеюсь с методом скрытия ссылок по технологии Ajax Вы знакомы, я писал об этом.
          С хлебными крошками я решил пока не заморачиваться, надо еще доработать микроразметку в них, никак руки не доходят, а то валидатор ругается, а уже потом думать о скрытии. Думаю там тоже особых сложностей возникнуть не должно, ведь все теги заложены в функцию.
          На счет главной страницы не понял. Зачем ее закрывать мета-тегом robots? Или Вы что-то другое имели в виду?

          Ответить
          • Наталья:

            Все, разобралась! Еще ваша статья о сквозных ссылках помогла) У меня такая же функция вывода пагинации, так что сделала все, как у вас)) Все работает. Спасибо еще раз большое!!! Прям хочется вас как-то отблагодарить))
            А почему спросила насчет главной, я почему-то думала, что на всех страницах должен быть этот мета-тег, если не с «nofollow, noindex» то с «index, follow». Но вспомнила, вы вроде писали об этом статью, что по умолчанию если нет этого мета-тега, то страницы индексируются)

            Ответить
  50. Вадим:

    _seo-mayak.com/2016 на вашем сайте нашел дубль архива дат такие же дубли нашел и у себя Подскажите как от них можно избавиться?

    Ответить
    • Виталий Кириллов:

      Данная страница не представляет опасности если закрыта от индексации мете-тегом robots.

      Ответить
      • Вадим:

        спасибо! подскажите пожалуйста как быть с такими дублями сайт.ru/запись/1 — полная копия сайт.ru/запись/

        Ответить
        • Виталий Кириллов:

          Почитайте эту статью.

          Ответить
          • Вадим:

            а есть ли способ как сделать переброс с сайт.ru/запись/1 на сайт.ru/запись

            Ответить
  51. александр:

    Здравствуйте, не подскажите у меня такая ситуация.
    Если скопировать текст в начале статьи и поятавить его в поисковую строку яндекса. То яша выдаёт я страницы. Первая -это главная с анонсом. Вторая -сама статья из рубрики. как убрать главную с анонсом. Такое распространяется на все статьи. Иногда вообще главная есть а сама статья где то позади(

    Ответить

Оставить комментарий

Внимание комментатор! Прежде чем вставить: HTML, JavaScript или PHP код в свой комментарий, преобразуй его в html сущность!

Subscribe without commenting

» Подписаться на комментарии по RSS