Здравствуйте Уважаемые читатели SEO-Mayak.com. В статье — «Файл robots.txt — запрет индексации для Яндекса и Google» я уже касался темы дублированных страниц и сегодня поговорим об этом более подробно.
Что такое дубли страниц? Это страницы с похожим или одинаковым текстом доступные по разным URL адресам. Например, очень часто встречающиеся дубли главной страницы ресурса
Ниже мы рассмотрим несколько распространенных вариантов дублирования контента, а сейчас давайте поговорим о том, как влияют похожие страницы на продвижение сайта.
Поисковые системы давно научились определять уникальность текста по последовательности символов, т.е по одинаково составленным предложениям, откуда берется последовательность букв и пробелов. Если контент не уникальный (ворованный), то робот без труда это выяснит, а когда не уникальный текст встречается часто, то перспектива попадания такого ресурса под фильтр АГС довольно высока.
Давайте представим себе работу поискового робота. Зайдя на сайт он в первую очередь смотрит на файл robots.txt и от него получает инструкции: что нужно индексировать и что для индексации закрыто. Следующим его действием будет обращение к файлу sitemap.xml, который покажет роботу карту сайта со всем разрешенными маршрутами. Почитайте статью — «Файл sitemap.xml для поисковиков Google и Яндекс.» Получив всю необходимую информацию, робот отправляется выполнять свои привычные функции.
Зайдя на определенную страницу он «впитывает» ее содержимое и сравнивает с уже имеющейся в его электронных мозгах информацией, собранной со всего бескрайнего простора интернета. Уличив текст в не уникальности поисковик не станет индексировать данную страницу и сделает пометку в своей записной книжке, в которую он заносит «провинившиеся» URL адреса. Как Вы наверное уже догадались на эту страницу он больше не вернется, дабы не тратить свое драгоценное время.
Допустим, страница имеет высокую уникальность и робот ее проиндексировал, но пройдя по следующему URL того же ресурса он попадает на страницу с полностью или частично похожим текстом. Как в такой ситуации поступит поисковик? Конечно он тоже не станет индексировать похожий тест, даже если оригинал находиться на том же сайте, но по другому URL. Робот наверняка останется недоволен бесполезно потраченным временем и обязательно сделает пометочку в своем блокноте. Опять же, если такой инцидент будет неоднократно повторяться, то ресурс может пасть в немилость к поисковой системе.
Вывод №1. Похожие страницы расположенные по разными URL отнимают время, которое отводится роботу для индексации сайта. Дубли страниц он все равно индексировать не будет, но потратит часть временного лимита на ознакомление с ними и возможно не успеет добраться до действительно уникального контента.
Вывод№ 2. Дублированный контент отрицательно скажется но продвижении сайта в поисковой системе. Не любят поисковики не уникальные тексты!
Вывод №3. Надо обязательно проверять свой проект на дубли страниц, чтобы избежать проблем перечисленных выше.
Многие совершенно не заботятся об «чистоте» своего контента. Ради интереса я проверил несколько сайтов и был несколько удивлен положению дел с дублями страниц. На блоге одной женщины я вообще не обнаружил файла robots.txt.
Необходимо со всей серьезность бороться с дублями контента и начинать надо с их выявления.
Примеры часто встречающихся дублей контента и способы устранение проблемы
Дубль главной страницы. Пример:
- http://сайт.com
- http://сайт.com/index.php.
В этом случаи вопрос решается с помощью 301 редиректа — «командой» для сервера через файл .htaccess. Как сделать 301 редирект (перенаправление) через файл .htaccess
Еще один пример дубля главной страницы:
- http://сайт.com
- http://www.сайт.com
Чтобы избежать подобного дублирования можно прописать основное зеркало сайта в файле robots.txt в директиве — «Host» для Яндекс:
- Host: сайт.com
А также воспользоваться 301 редиректом и указать поисковикам Яндекс и Google на главное зеркало сайта посредством инструментов для веб-мастеров.
Пример дубля главной страницы, который чуть не взорвал мне мозг при поиске решения выглядит так:
- http://сайт.com
- http://сайт.com/
Я где-то прочитал, что слеш в конце ссылки на главную страницу, создает дубль и поисковики воспринимают ссылки со слешом и без, как разные URL, ведущие на страницу с одинаковым текстом. Меня забеспокоила даже не сама возможность дублирования, сколько потеря веса главной страницы в такой ситуации.
Я начал копать. По запросу к серверу по вышеупомянутым URL я получил ответ код 200. Код 200 означает — » Запрос пользователя обработан успешно и ответ сервера содержит затребованные данные». Из этого следует, что все-таки дубль на лицо.
Я даже попытался сделать 301 редирект (перенаправление), но команды не действовали, и желанного ответного кода 301 я так и получил. Решение проблемы состояло в отсутствии самой проблемы. Каламбур такой получился. Оказывается, современные браузеры сами подставляют символ «/» в конце строки, делая его невидимым, что автоматически делает дубль невозможным. Вот так!
Ну и еще один пример дубля главной страницы:
- http://сайт.com
- https://сайт.com
Бывают случаи, что по ошибке веб-мастера или глюка поисковика или при других обстоятельствах в индекс попадает ссылка под защищенным протоколом https://. Что же делать в таком случаи и как избежать этого в будущем? Конечно надо удалить ссылки с протоколом https://из поиска, но делать придется в ручную средствами инструментов для веб-мастеров:
В поисковой системе Яндекс, веб- мастер — мои сайты — удалить URL:
В Google инструменты для веб мастеров — Оптимизация — Удались URL адреса:
И в файле .htaccess прописать 301 редирект.
Теперь пройдемся по дублям встречающимся при не правильном составлении файла robots.txt . Пример:
- http://сайт.com/page/2
- http://сайт.com/2012/02
- http://сайт.com/category/название категории
- http://сайт.com/category/название категории/page/2
На первый взгляд не чего особенного, но это и есть классический пример частичного дублирования.
Что такое частичное дублирование? Это когда в индекс попадают страницы с анонсами постов. Причем размер таких анонсов бывают чуть ли не в половину всей статьи. Не делайте объемных анонсов! Решение проблемы простое. В файле robots.txt прописываем следующее:
- Disallow: /page/
- Disallow: /20*
- Disallow: /category/
Пример полного дублирования:
- http://сайт.com/tag/название статьи
- http://сайт.com/название статьи/comment-page-1
Решение опять же находиться в файле robots.txt
- Disallow: /tag/
- Disallow: /*page*
Я не веду речь про интернет магазины и другие сайты на коммерческой основе, там ситуация другая. Страницы с товарами, содержащие частично повторяющийся текст с множеством изображений, также создают дубли, хотя визуально выглядит все нормально. В таких случаях в основном применяется специальный тег:
rel="canonical"
Который указывает поисковику на основную страницу, подробнее читайте тут.
Подробнее читайте в статьях:
Supplemental index. Дополнительный (сопливый) индекс Google
Мета-тег robots. Правильная настройка индексации сайта
Как определить похожие страницы по фрагменту текста
Есть еще один довольно действенный способ определения «клонов» с помощью самих поисковых систем. В Яндексе в поле поиска надо вбить: link.сайт.com «Фрагмент теста». Пример:
Яндекс нашел 2 совпадения потому, что я не закрыл от индексации категории и поэтому есть совпадение с анонсом на главной странице. Но если для кулинарного блога участие рубрик в поиске оправдано, то для других тематик, таких как SEO такой необходимости нет и категории лучше закрыть от индексации.
С помощью поиска Google проверить можно так: site:сайт.com «Фрагмент текста». Пример:
Программы и онлайн сервисы для поиска внутренних и внешних дублей контента по фрагментам текста
Я не буду в этой статье делать подробный обзор популярных программ и сервисов, остановлюсь лишь на тех, которыми сам постоянно пользуюсь.
Для поиска внутренних и внешних дублей советую использовать онлайн сервис www.miratools.ru. Помимо проверки текста сервис включает еще различные интересные возможности.
Программа для поиска дублей — Advego Plagiatus. Очень популярная программа, лично я ей пользуюсь постоянно. Функционал программы простой, чтобы проверить текст достаточно скопировать его и вставить в окно программы и нажать на старт.
После проверки будет представлен отчет об уникальности проверяемого текста в процентах с ссылками на источники совпадений:
Также, будут выделены желтым фоном конкретные фрагменты текста, по которым программы нашла совпадения:
Очень хорошая программа, пользуйтесь и обязательно подпишитесь на обновления блога.
До встречи!
С уважением, Кириллов Виталий
Отличная статья, спасибо!)
Собираюсь все-таки сделать на «Главной» вывод последних записей. Для этого придется воспользоваться тегом «more». Где-то читала, что это создаст дубли. Как быть?) Что посоветуете?
Заранее спасибо и удачи в продвижении. Блог действительно очень хороший и полезный.
Тег является якорем,а поисковики давно уже научились распознавать якоря, поэтому дубля при использовании тега не возникнет. Все что пишут про некоторые веб-мастера, мягко сказать, заблуждение.
Мне попадалась статья, что надо писать ручками завлекательный текст произвольный на вкладке HTML в редакторе после тега «more». Что я и делаю. Статья та к сожалению не сохранилась, чтоб подсмотреть почему так. Но да, говорилось что это исключит повтор (дублирование) + еще какую то фишку дополнительную создает. После изменения надписи на вкладке HTML в редакторе, чтобы надпись сохранилась обязательно надо нажать на «СОХРАНИТЬ» или «ОБНОВИТЬ» (если статья уже была опубликована). Я делаю так вообщем. Даже, если мера эта излишняя, то привлекательность придает именно анонсу своей надписью + ключевики можно дополнительные вставить — будет типа заголовка.
Наталья, можно конечно заворачиваться каждый раз при написании статьи и вставлять в тег ключевые слова, это уже по желанию. Сути вопроса это не меняет. Тег — это якорь.
Виталий и Наталья, спасибо за ответы!) Попробую сегодня настроить.
Хорошие советы. Я пользовалась раньше программой Advego Plagiatus, но потом она у меня стала что-то сильно капризничать и я перешла на другую программу проверки уникальности текста. Стараюсь всегда эту проверку делать, даже когда сама или моя подруга пишем полностью текст. Все равно иногда могут уйти куски в плагиат.
Анна, рад снова Вас видеть. Программой Advego Plagiatus или какой другой пользоваться просто необходимо.
Нужно не просто писать уникальные тексты, нужно еще их защищать от плагиата.
Добрый день! Случайно попал на Ваш сайт и….. панеслась. Хотя он у Вас еще и молодой, но много полезного я для себя нашел!
Первое что хочу спросить. Нужно одинаково прописывать в роботс как для User-agent: Yandex так и для User-agent: * ???
И нужно ли мне прописывать
Disallow: /tag/
Disallow: /*page*
Disallow: /page/
Disallow: /20*
Disallow: /category/
Спасибо за понимание и жду ответ. Был бы признателен помощи!!!
Юрий, рад приветствовать Вас на своем блоге! Да, надо одинаково прописывать все кроме директивы Host, она предназначается только для Яндекса. Юрий, объясню по-порядку. Надо закрыть теги «Disallow: /tag/» чтобы не создавать дубли, тоже самое касается и :
Disallow: /*page*
Disallow: /page/
Disallow: /20*
Disallow: /category/
Но лучше воспользуйтесь сервисом Яндекс Вебмастер и посмотрите нет ли в поиске дублей или неканонических (одинаковых) страниц.
Успехов!
Виталий, Вы такой молодец! С большим интересом считаю Ваши статьи.
Виталий, вопрос по поводу дубляжа страниц сайта.
У меня и-нет маг. Если у меня есть 10 продуктов одного наименования, отличающихся только размером, как быть с описанием товара, неужели на все 10 штук писать разное описание?
Валентина, здесь надо смотреть индивидуально. Конечно лучше для Вас, чтобы не было дублей, но если товар одинаковый может лучше выбрать одну страницу для поиска, а остальные закрыть тегом rel=»canonical».
Виталий, задался вопросом стоит ли закрывать все страницы навигации: категории, тэги, архивы, page. У меня всё закрыто, кроме постраничной навигации (page). Я думаю стоит ли и это закрыть в роботсе.
На этих страницах хоть и есть 5-6% дублированного контента, но также присутствуют полностью релевантные (тематические) ссылки на статьи, которые должны придавать им веса.
Алексей, рад снова Вас видеть на блоге! Видите в чем дело. Разве вы хотите, чтобы ваши страницы участвовали в поиске? Я думаю, что это совершенно необязательно, и кроме того, это создает лишению работу поисковому роботу. Даже частичное дублирование может нести негативный эффект. Что касается релевантных ссылок, то лучше по-полной использовать перелинковку в самих статьях. Спасибо за вопрос.
Статья интересная, но мне очень сложно в этом разбираться.
Людмила, все равно рано или поздно придется разобраться.
Я тоже Advego пользуюсь. Программа простая до невозможности и очень удобная.
Согласен с Вами Дмитрий!
Виталий. У меня проблема, с которой не могу разобраться — дублирование, точнее даже в трех экземплярах одна и та же страница прописана в списке Яндекса. И таких страниц у меня более 1500. Это фотографии кованой продукции.
modules.php?op=modload&name=4nAlbum&file=index&do=showpic&gid=114&pid=1567&orderby=dateD
modules.php?op=modload&name=4nAlbum&file=index&do=showpic&gid=114&pid=1567&orderby=ratingA
modules.php?op=modload&name=4nAlbum&file=index&do=showpic&gid=114&pid=1567&orderby=titleA
Как мне исключить дублирование?
Напишите в файле robots.txt следующее: Disallow: /*?* Должно помочь закрыть для индексации и потом удалите эти URL через Яндекс вебмастер.
Все правильно, только как нас учили по Адвего-проверяю- текст- уникальный а вот сайт TEXT.RU через раз дает всего процентов 70. Вопрос Чернышевского «Что делать?»
Наталья, я всегда пользовался Адвего и проблем у меня с уникальностью статей никогда не было, самое главное не копировать текст, а писать самостоятельно и все будет нормально.
У супруги на кулинарном сайте таких проблем нет.
Александр, раз снова видеть Вас на блоге. Нет проблем — это хорошо! 🙂
Виталий здравствуйте!
На вашем сайте столько полезностей — что тут можно сидеть целыми днями и не выходить с него.
Начинаешь читать одну статью — попути куча вопросов и пошло — поехало. Столько нужной инфы — все и не переваришь.
Вот я и возвращаюсь к вам каждый день.
Спасибо вам за то что делитесь щедро своими знаниями.
Столько всего нужно знать — учись и учись!
Спасибо вам. С ув. Т.С
Татьяна, спасибо за оценку моего скромного труда! Ведь я тоже когда-то бродил в темных очках по темной комнате.
Интересная и новая для меня информация!
Попробую воспользоватся! Спасибо Вам!
Пожалуйста Оксана!
Виталий, спасибо за полезные разъяснения, у меня робот текси и хтаккес уже были готовые от профессионалов, так что особо не задумывалась над их содержанием, но все же не лишне узнать что в них «зашифровано» на самом деле!
Пожалуйста Людмила!
Статья мне понравилась, нашел новую информацию для себя, спасибо за статью.
Дима, рад видеть Вас на блоге!
Здравствуйте, Виталий!
У меня вот такой вопрос. Выявились повторяющиеся заголовки в вебмастере гугла.
Привожу пример.
/category/ istorii
/ categorii/ raznoe/istorii
Как с этим бороться? Пока я поставила в плагине XML Site Map галочки в тех категориях, которые дублируются разделе Excude categories и закрыла от индексации категории в плагине all in One Seo PAck. Поможет?
Очень нравятся ваши статьи. Периодически захожу на Ваш сайт. Все, что нужно! Спасибо)
Татьяна
Здравствуйте Татьяна!
Вы все правильно сделали, но можно еще в файле robots.txt приписать следующую директиву:
[php]Disallow: /category/[/php]
Спасибо большое за столь быстрый ответ и рекомендации.
Теперь ждать переиндексации от гугл или лучше заново отправить ему sitemap?
Лучше отправить файл заново.
Здравствуйте, Виталий! Благодаря вашей статье про изображения, веду сейчас на сайте активную борьбу за их уникальность.
Теперь в связи с дублями возник вопрос: не будет ли изображение в анонсе дублем изображению в посте? В том смысле, как на это смотрит поисковик?
Здравствуйте Роман, я думаю с этим все в порядке, даже не переживайте!
ِСпасибо за ответ! Как всегда оперативный)
Что ж, я рад, что не надо переживать по этому поводу, а то всю ночь думал, что придется все опять переделывать)
Пожалуйста Роман!
Здравствуйте, Виталий!
Спасибо за ваш сайт. Более доступной информации не находила нигде. Это настоящее пособие для начинающих веб-мастеров. Помогите разобраться.
У меня возник такой вопрос. Если поменять robots.txt , то нужно будет как-то с Яндексом и Гуглом разбираться по данному вопросу? Или просто меняем robots.txt, а остальное все пройдет на автомате?
Здравствуйте Валентина! Директивы файла robots.txt обязательны для поисковиков. Дополнительно отправлять файл поисковикам не надо.
Спасибо, Виталий. Особенно за то, что об этих программах нам, зелёным, поведали.
Виталий, еще такой вопрос : у меня получается 1,180 / 22 % страниц не под фильтрами в Гугле. Ломаю голову не знаю, что делать, что бы это могло быть? Посещалка из поисковиков заметно упала, или сейчас запросы сезонные или и в правду у меня дубли страниц. В Гуглвебмастер пишут, что гугл не может индексировать, так как запрет в роботсе стоит. А если я сейчас еще и запрет в роботсе пропишу то тогда и индексировать нечего будет.
У вас в роботс еще не все дубли закрыты, например ничего не сказано о тегах, и они индексируются. Например,
Ваш домен/tag/bliny-na-vode/
Виталий, объясните пожалуйста.
1. Что изменится, если не прописывать в роборсе Disallow: /category/ , а вместо этого на самой странице категории добавить:
2. Если прописать Disallow: page, category, tag, /2013 и.т.д., то как бот доберется до самой статьи ? Получается что только через главную и карту сайта, вес тогда вообще передаваться не будет.
Евгений, я не понял первый вопрос.
Робот обязательно доберется до основного контента, если правильно прописывать перечисленные вами директивы. Самое главное не закрыть лишнего.
Код не прописался, извиняюсь.
Вместо /category/ добавить meta name=»robots» content=»noindex,follow»
По-моему проще один раз закрыть категории в robots.txt, чем потом каждую страницу закрывать.
Здравствуйте,Виталий! Спасибо за позновательную статью.На странице вебмастера в Яндексе увидел,что многие мои страницы не индексируются,хотя когда там же в вебмастере проверяешь страницу, то система выдаёт ответ, что она разрешена для индексации.Как мне это понимать? Надо ли мне в свой robot.txt добавить эти строки:Disallow: /page/
Disallow: /20*
Disallow: /category/
Спасибо
Здравствуйте Юрий! Страниц в индексе должно быть столько, сколько у Вас записей. Не понял на счет ответа системы о разрешении индексации.
Если у вас есть постраничная навигация, то стоит ее закрыть от индексации:
Disallow: /page/
Архивы закрываются: Disallow: /20*
Категории закрываются: Disallow: /category/
И архивы и категории также являются частичными дублями и желательно их закрыть, но многие веб-мастера категории не закрывают, здесь сами решите надо Вам это или нет.
Здравствуйте еще раз, Виталий! я полностью сама пишу свои статьи, но Advego Plagiatus показывает низкую уникальность. до 15%. почему это может быть? это сильно плохо?Проверяла страницы на Copyscape, дублей не нашли
Здравствуйте Анна! Старайтесь переставлять слова и менять предложения, чтобы добиться высокой уникальности. Advego Plagiatus ищет не только на других сайтах, но и на Вашем тоже и поэтому могут совпадать различные регулярные выражения, которые присущи каждому веб-мастеру, а это неплохо может портить уникальность.
Проверяйте все, но уникальность должна быть высокая!
Здравствуйте, Виталий! У меня большие проблемы с сайтом. Почему-то индексируется очень много копий одной и той же статьи на моём сайте (больше 20). Главное, чем дальше, тем копий становится больше, при менее 100 написанных постов в индексе у Яндекса их уже 3000. Помогите, пожалуйста! Что может быть не так на сайте? Почему копий так много? Такие неприятности начали происходить после обновления плагина All In One SEO Pack. Я почитала Вашу статью по теме настройки плагина — там всё в порядке. В Яндекс Вебмастер я загрузила robots.txt. Он мне выдал ответ, но я в нём ничегошеньки не поняла.
буду очень благодарна за ответ!
Здравствуйте Ольга! Во первых у вас не закрыты от индексации постраничная навигация и теги, возможно и еще что-нибудь. Мне трудно сходу сказать, что стало причиной появления таких ссылок, как эта — sosna-gornaya-ukrashenie-sada/9223372036854775804/, но надо обязательно разобраться. Станьте подписчиком блога и напишите мне через форму обратной связи. И мы с Вами пообщаемся!
Виталий, такие окончания постов, возможно, идут как файл сайт.ru/xmlrpc.php .
Закрыла эти окончания в robots.txt. Посмотрим, что получится.
Ольга, у меня есть подозрение, что лишние ссылки могут генерировать изображения в различных слайдерах. Я не уверен, но проверьте. Еще ответы в древовидных комментариях создают такие страницы, как эта — povyshenie-plodorodija-pochvy-na-uchastke/9223372036854775804/?replytocom=2372#respond
Виталий, у меня тоже мысль насчёт ссылок из слайдера возникла. Вот только как их закрыть, пока не нашла ответа. Пробую в Яндекс Вебмастере работать с robots.txt.
Файлы с ? у меня закрыты от индексации.
Виталий, похоже, это не слайдер генерирует лишние ссылки. Слайдер у меня идёт как плагин. Вот откуда возникла эта ссылка в поиске? Карта сайта | Своими руками дом и сад — Part 9223372036854775792. Платон Щукин мне ответил: «Для того чтобы такие страницы не индексировались роботом, Вам следует настроить сервер таким образом, чтобы при обращении к таким несуществующим страницам возвращался код ошибки 404».
Как же это сделать?
Ольга, проверьте настройки плагина All in One SEO Pack
По моему дело в нем!
Вот выдержка из Вашего исходного кода:
[php]<!— All in One SEO Pack 2.1.2 by Michael Torbert of Semper Fi Web Design[560,674] —>
<link rel="author" href="http: //117820690902660205744" />
<meta name="keywords" content="крапива полезные свойства, рецепты лечения крапивой, применение крапивы" />
<link rel=’prev’ href=’http: //svoimirukamivdome.ru/krapiva-universalny-lekar/9223372036854775806/’ />
<link rel="canonical" href="http: //svoimirukamivdome.ru/krapiva-universalny-lekar/9223372036854775807/" />[/php]
Хотя еще могут быть и другие сюрпризы.
Виталий, плагин All in One SEO Pack у меня настроен по Вашей статье. Мне непонятно, почему меняющееся цифровое окончание считается каноническим урлом. Скорее всего сюрпризы в чём-то другом.
Ольга, а конкретно какие URL (дубли) находятся в индексе Яндекса?
Окончания такие: от /9223372036854775777/ до /9223372036854775808/ для всех постов и страниц.
Некоторые такого вида: Спирея | Своими руками дом и сад | Страница 9223372036854775805 , другие такого вида (их меньше): Спирея | Своими руками дом и сад — Part 9223372036854775779
Ольга, до выяснения причин, пропишите запрещающую директиву в файле robots.txt следующим образом:
Disallow: /922*
Wordpress сам по себе не может создавать такие адреса, скорее всего это один из плагинов.
Спасибо, Виталий! В файле robots.txt прописала Disallow: */9223372036854775*/
По-другому не получалось убрать страницы из индекса, хотя цифр, наверное, можно было написать значительно меньше.
Добрый день!
столкнулась с той же проблемой индексации! Проштудировала весь Ваш сайт, Виталий, все проверила! А выход пришел как у Ольги ))также прописала Disallow: */9223372036854775*/ и страницы стали запрещены.
Спасибо большое! очень полезный блог,а главное понятный 😉
Алена
Спасибо, Виталий! На блог подписалась. Закрыла от индексации постраничную навигацию и теги. Продолжу разговор через обратную связь.
Здравствуйте! Помогите, пожалуйста, разобраться со следующими вопросами:
Дубли сайта запретил в robots.txt, но они все равно в главном индексе и google webmasters показывает наличие дублей(количество их, как ни странно, постоянно меняется!?). Страницы сайта уже выпали из выдачи гугл(яндекс выдает нормально). Может это быть из-за того, что запрет прописывал после обновления сайта(делал ЧПУ и оптимизировал)и дубли(не ЧПУ) попали в индекс раньше? Насколько часто гугл обновляет индекс, или все дубли, которые уже попали в него останутся там навсегда и ничего не изменить? И что делать в такой ситуации, как избавиться от дублей?
Кстати, файл sitemap еще не делал, не дошли руки.
Извините за столь много вопросов. Заранее благодарен.
Василий, вы можете вручную удалить старые URL через Гугл-вебмастер, во вкладке «Удалить URL адреса».
Если у Вас нет файла sitemap.xml, то робот не сразу узнает о произошедших изменениях на Вашем ресурсе.
Советую Вам не паниковать, а спокойно во всем разобраться. Москва не сразу строилась!
Добр день . Подскажите как выявить страницы на ссайте с одинаковым названием в title? в индексе было 300 стр. после чужой оптимизации часть страниц выпала. Начал искать причину и оказалось совпадают названия страниц. Как их найти? Спасибо
Саня, а разве нельзя «вручную» сравнить выпавшие страницы с теми, что остались в поиске и выявить совпадения. Также можно воспользоваться Яндекс Вебмастером.
Здравствуйте. Спасибо за статью много полезного нашел для себя. У меня такой вопрос. НА моем блоге начало появляться много дублей со к примеру страницы
К примеру у нас есть страница broker_name/activtrades/ и у нее есть дубликат в такой форме /broker_name/activtrades/facebook
Не могу разобраться почему. И как закрыть эту страницу от робота???
Здравствуйте Андрей! Не могу сказать на верняка, но мне показался подозрительным код формы регистрации, в частности такая строчка в исходном коде:
Чтобы запретить индексацию данной страницы, достаточно в файле robots.txt прописать следующую директиву:
Привет!
Вот Вы пишите, что нужно удалить урл с картинок. Но тогда вель не будут открываться картинки на весь размер…В статье ведь они выводятся по умолчанию с width=»300″ height=»199″ . Как быть?
Алексей, всегда надо надо чем-то жертвовать выбирая приоритеты.
Давно не была в гостях на блоге), заработалась. А тут мне один онлайн-сервис чуть ли не прямым текстом сказал: пора бы ошибки на блоге поправить. Непонятно как, через полтора года ведения блога дубли обнаружились))). Удивилась. Потом заглянула в роботс.ткст — и удивилась еще больше:) Судя по всему, там ничего толком закрыто не было, категории так точно. Ай, какой СтартАп «молодец»… это ж как он этот файл делал, вообще непонятно. В итоге скопировала с сайта у одного сеошника роботс, естественно, вписав свои параметры где нужно, и теперь сижу жду, пока поисковые системы отреагируют на изменения. Надеюсь, поможет).
Согласен, СтартАп «молодцы»! Хорошо, что Вы обнаружили ошибки, лучше поздно, чем никогда).
Да), только не факт, что я их все-таки исправила. Пока никаких изменений не обнаружила. Но, возможно, просто страницы заново еще не индексировали. Надеюсь)
Если не поможет, моя статья Вам в помощь).
Виталий, добрый день. У меня проблемы с роботом Гугл адсенс, выглядит это так:
http:// samsebehozain.ru/saiding
http:// samsebehozain.ru/saiding/otdelka-fasada-chastnogo-doma?relatedposts_hit=1&relatedposts_origin=85&relatedposts_position=0
Загрузить один URL. Он блокирует Урлы, которых у меня вроде бы нет, подскажите что можно сделать, может быть это дубли?
Очень похоже на ссылки, оставленные плагином Related Posts. У Вас установлен такой плагин?
Здравствуйте! Подскажите пожалуйста как можно избавиться от дублей когда урл заканчивается знаком вопроса (____.html?) Являются ли такие страницы дублями!? Если запретить в роботсе то я так понимаю они всё равно будут висеть в «соплях» Есть ли какой другой способ их удалить?
Здравствуйте! Избавиться от таких страниц не получиться, а вот закрывать их от индексации надо обязательно, чтобы те же самые дубли не возникли. Более подробно я писал здесь.
Добрый день, возник вопрос с командой Disallow: /20*
Дело в том что сами статьи у меня находятся по адресу: мой-сайт.ру/год/месяц/день/ид_новости
Архивы как я понял тут: мой-сайт.ру/год/месяц/день
При добавлении этого правила перестают индексироваться и архивы и непосредственно сами посты. Вид постоянных ссылок нужен именно такой. Как быть в таком случае?
Евгений, ну не добавляйте эту директиву.
Здравствуйте, 🙂
Из-за того что домен выключен пару дней, а это произошло во врем апдейта яндекса.
Были исключены практически все страницы.
Причина мне понятна.
Вопрос — при последующем апдейте — он восстановит исключенные страницы?
Сайт с уникальными статьями.
Заранее спасибо за внимание и ответ.
Здравствуйте!
Если на блоге все норм, то думаю, что все восстановиться!
Как оказалось дело совсем оказалось не в этом 16.02.2015 сайт работал исправно и с хостингом не было никаких проблем. И как я посмотрела 17-02 у яндекса был ап. Потом 24-02. У меня 200 страниц исключено из поиска. Посещаемость снизилась почти до нуля. А на днях установила новую тему, и сделал дополнение в рубриках, перерубрикацию, навела порядок в рубриках. Ссылки у меня нормальные- домен +название статьи, без категорий. Сайт взрослый больше 4 лет, статьи более 600 уникальные. Никогда спам ссылок не ставила, продажей ссылок не занималась. Чего мой сайт так выбило?
Мария, у меня после апдейтов Яндекса блог не раз терял позиции. Думаю это связанно с обнулением каких-то факторов, так как через пару недель все мои «обиженные» статьи возвращались на прежние позиции и посещаемость восстанавливалась. Наверное есть смысл выждать время, а если за две недели ничего не поменяется, тогда бить тревоги. Поверьте сайт на внешние дубли и проанализируйте настройки индексации сайта. Посмотрите сколько робот Яндекса загрузил страниц, а сколько попало в поиск, и есть ли среди исключенных, неканонические страницы.
Спасибо, Виталий, я проверю, напишу.
ТОлько сегодня удивилась ещё тому, что при попвтке добавить новую статью в аддурл яндекса.
Он мне выдал:
Недоступен сервер, на котором находится сайт.
Хотя сайт онлайн. ТОже самое и гугл поиском оттуда вылетели все страницы
Тем более надо подождать!
Спасибо большое Виталий!Очень интересная статья.Прочитала от и до. Много узнала нового и нужного для своего сайта.
Здравствуйте, Виталий! Уже не один месяц меня мучает вопрос дублированного контента. И вроде все правильно сделала( у Борисова статья была на счет replytocom) С репликами справилась, но дубли получаются и не только от комментариев, я это поняла давно. Но вот похоже, что ответ на свою проблему нашла в вашей статье. Она заключается в адресе сайта. Вот адрес моего сайта скопированный с главной страницы
ritabk.ru/
Как видите со слешом А в robots Host: ritabk.ru А если вот так и прописать Host:ritabk.ru
Или что делать? Потом в роботс запрешены фиды. Однако они все равно индексируются и все категории тоже. Мало того есть и дубли. Как поправить роботс?Это мой роботс. Посмотрите, пожалуйста. Меня это так извело. Вроде понимаю все, а почему появляются дубли не понимаю.
Здравствуйте Рита! О настойке индексации сайта я написал несколько статей.
Мета-тег robots — очень советую почитать.
Supplemental index
Если будут вопросы, задавайте.
Здравствуйте, Виталий!
Меня давно мучает вопрос нужно ли открывать для индексации архивы, если я периодически переделываю старые статьи. На данный ответ поддержка Яндекса ответила так: «Если такие страницы должны индексироваться и участвовать в поиске, запрет из их исходного кода необходимо убрать. »
Я не совсем поняла это ответ. А вопрос был такой: «Я намеренно запретила к индексации старые архивы, но правильно ли это, если я вношу изменения в старые статьи?»
Надеюсь, что мне поможете! Спасибо!
Татьяна
Здравствуйте Татьяна!
Если страница запрещена от индексации, то изменения также не будут индексироваться.
Виталий, это понятно. У меня вопрос такой: я запрещаю к индексации АРХИВ за декабрь 2013 года (когда страница была создана), но правлю эту страницу в апреле 2015 года ( при этом сама страница от индексации не закрыта), то будут ли учтены изменения на странице поисковыми системами? Поднимется ли такая страница в рейтинге при ее оптимизации?
Татьяна, изменение или дополнение какой-либо страницы никогда не каралось, ведь это естественный процесс. Другое дело на сколько эти изменения существенны, возможно полностью поменяется тест или еще будут какие либо серьезные правки. В таком случаи я затруднюсь Вам дать дельный совет.
Простите, Виталий, как вы думаете, страница дублируется в архиве?
Дубли страниц возникают лишь в том случаи, когда один и тот-же текст находится под разными URL.
То есть у каждого по-разному, видимо. Не совсем поняла(( Буду разбираться… Спасибо.
Корректность обработки 404-ошибки
Виталий, добрый день!
Спасибо за статью.
Помогите, пожалуйста.
У меня в дубле главная страница. bychet.ru/ и bychet.ru/index.html
Прописала файл .htaccess.
Теперь я могу удалить URL из индекса Яндекса и Google bychet.ru/index.html или Ждать когда робот самостоятельно их уберет из индекса?
Надеюсь на Вашу поддержку и понимание.
Анна, удалить URL адреса можно через панель вебмастера в Гугле и Яндексе.
Здравствуйте. Мой сайт не хочет нормально индексироваться. Можете хоть подсказать направление в котором копать, уже всю голову сломал, не могу понять в чем дело. Google ещё кое-как индексирует, а вот Яндекс проиндексировал всего 2 страницы. Подскажите пожалуйста в чем дело.
Виталий, добрый день! С большущим интересом прочитал данную статью и нашел для себя один момент. дело в том, что я тоже ломаю голову по поводу слеша на конце урл главной страницы)) Обе страницы дают ответ сервера 200 ОК. Но меня больше всего напрягает, что в коде страницы в теге rel=canonical прописывается URL со слешем (формируется Yoast SEO Plugin), хотя на других страницах (категории, записи) все четко как надо. Я зря беспокоюсь?
Виталий, здравствуйте! Помогите решить одну проблему. Вроде у вас была статья на эту тему, но что-то не могу найти(
Проблема в следующем: у меня появились ссылки и страницы вида /#comments, /comment-page-1/#comments. Как правильно избавиться от дублей? Правильно я помню: нужно прописать мета-тег «robots» на страницах и rel=»nofollow» в ссылках? С ссылками я разберусь, а как вставить на эти страницы мета-тег простым способом не соображу. А сложные не хочу использовать, кажется, что простой способ лежит на поверхности)
Напомните, пожалуйста) И еще, файл robots.txt для этих целей трогать нельзя?
Наталья здравствуйте. Ссылка с #comments на конце — это якорь и дублем не считается, тоже самое, что #more или любой другой якорь. Но есть хотите можно попробовать и такие страницы закрыть. Протестируйте вот такой код:
Что касается comment-page-1, то тут должна сработать функция:
Попробуйте.
Спасибо за ответ, Виталий!
get_query_var(‘cpage’) — как раз то простое решение, которое я искала! Спасибо, помогло!
Насчет якоря, да, действительно, не стоит наверное, их закрывать. Мало ли что получится, если поисковик найдет страницу с якорем закрытую от индексации и такую же страницу без якоря открытую) Но код я попробовала все равно, он не совсем работает, потому что переменная $_SERVER[‘REQUEST_URI’] возвращает ссылку без якоря. Ну, я уже в это не стала вникать)
Еще, Виталий, один вопрос. Посмотрела ваш код, вы закрыли ссылки на страницы пагинации и категории, заменив тэг <a> на span с классом hidden-link. Это все вы сделали с помощью регулярных выражений, подобно, как вы это делали с replytocom? Или просто в самом коде заменили a на span?
Кстати, у вас в хлебных крошках тэг <a> все-таки присутствует, и почему у вас на главной нет мета-тега robots? Так надо? (Извините, что копаюсь в коде, просто так легче разобраться, чем по сто раз спрашивать))
Наталья функцию с $_SERVER['REQUEST_URI'] я не тестировал на URL с якорем, поэтому предложил Вам просто на вскидку, чтобы Вы проверили. С обычными урами она работает исправно.
Что касается скрытия ссылок в постраничной навигации. Нет, как раз в этом случаи все обошлось без использования регулярок, просто поменял теги в функции вывода навигации. Надеюсь с методом скрытия ссылок по технологии Ajax Вы знакомы, я писал об этом.
С хлебными крошками я решил пока не заморачиваться, надо еще доработать микроразметку в них, никак руки не доходят, а то валидатор ругается, а уже потом думать о скрытии. Думаю там тоже особых сложностей возникнуть не должно, ведь все теги заложены в функцию.
На счет главной страницы не понял. Зачем ее закрывать мета-тегом robots? Или Вы что-то другое имели в виду?
Все, разобралась! Еще ваша статья о сквозных ссылках помогла) У меня такая же функция вывода пагинации, так что сделала все, как у вас)) Все работает. Спасибо еще раз большое!!! Прям хочется вас как-то отблагодарить))
А почему спросила насчет главной, я почему-то думала, что на всех страницах должен быть этот мета-тег, если не с «nofollow, noindex» то с «index, follow». Но вспомнила, вы вроде писали об этом статью, что по умолчанию если нет этого мета-тега, то страницы индексируются)
_seo-mayak.com/2016 на вашем сайте нашел дубль архива дат такие же дубли нашел и у себя Подскажите как от них можно избавиться?
Данная страница не представляет опасности если закрыта от индексации мете-тегом robots.
спасибо! подскажите пожалуйста как быть с такими дублями сайт.ru/запись/1 — полная копия сайт.ru/запись/
Почитайте эту статью.
а есть ли способ как сделать переброс с сайт.ru/запись/1 на сайт.ru/запись
Здравствуйте, не подскажите у меня такая ситуация.
Если скопировать текст в начале статьи и поятавить его в поисковую строку яндекса. То яша выдаёт я страницы. Первая -это главная с анонсом. Вторая -сама статья из рубрики. как убрать главную с анонсом. Такое распространяется на все статьи. Иногда вообще главная есть а сама статья где то позади(
Здравствуйте, Виталйи! Огромное спасибо за такой замечательный блог, содержащий ответы на многочисленные вопросы начинающих вебмастеров! Периодически прибегаю к Вам на сайт, чтобы найти нужный ответ. 🙂
Вот сегодня случилось так, что ищу-ищу через форму поиска ответ, и не могу… 🙂 Задам вопрос здесь. Может, дадите ссылочку, куда пойти почитать.
Итак. Есть блог на WordPress на русском языке. Появилось желание создать копию на английском, чтобы привлечь международную аудиторию. Целый день читаю, как это сделать — какой-то бред по установке плагинов мультиязычности… 🙁
Моя же идея следующая. Сейчас имеются на сайте 300 статей. Постепенно вручную буду переводить их на английский. Варианты установки англоязычной версии у меня 3:
1) en.site.ru
2) отдельная версия site.com
В принципе, меня бы устроил первый способ. Что для этого нужно сделать? Предполагаю, что создать папку на сервере, и полностью залить туда движок WordPress в англоязычной версии + файлы темы сайта + перевести меню, названия страниц на английский язык. Правильно я понимаю?
Вопрос №1: в этом случае нужно будет туда же заново устанавливать все плагины, что используются в русскоязычной версии?
Вопрос №2: коды статистики от Яндекс и Гугл придется тоже отдельные ставить?
САМЫЙ ГЛАВНЫЙ ВОПРОС, на который не могу найти ответ!!!
У меня будет, в принципе, уникальный текст на английском языке. Но, мне нужны будут одни и те же картинки, которые хранятся в папке Uploads основного сайта. У меня опасение, что Гугл и Яндекс будут считать что английская версия использует неуникальный контент (ведь русская версия давно индексирована) и будет её понижать в ранжировании. Как решить эту проблему дублирования контента при создании английской версии сайта?
Спасибо заранее!
Сергей
Здравствуйте Сергей!
С какой-либо долей уверенности я Вам ответить не смогу, так как ни разу не делал двуязычный сайт на WordPress.
🙂 Спасибо, уже более-менее разобрался. Гуглу неважно, будет ли у вас поддомен, подпапка или отдельный сайт на английском языке. Главное, и на русской версии и на английской вставить тег атрибут rel=»alternate» data-linklang=»x».
Ну, только я не разобрался еще вставлять ли только ссылку на главную страницу, или на копию конкретной.
И тогда поисковик понимает, что у вас — копии для разных регионов (даже не будет проблем, если 2 сайта на русском языке, копируют друг друга полностью, и отличаются только тем, что на одном цены на товар даны в рублях, на другом — в евро).
Если интересно, вот видео с семинара, проводимого представителем Гугл, где он объясняет, как сделать многоязычные сайты.
youtu.be/VQfJm4I888c?list=PLhayO-i5JAvLeN1BptNKcWsxgwo-9TV5E