» » » Supplemental index. Дополнительный (сопливый) индекс Googleа
logotip

Supplemental index. Дополнительный (сопливый) индекс Googleа

Всем привет! Сегодня на seo-mayak.com очень интересная тема, которая волнует большинство веб-мастеров и говорить мы будем о Supplemental index.

Кто не в курсе, Supplemental index — это дополнительный индекс поисковой системы Google, которому русскоязычные веб-мастера, со свойственным им красноречием, приклеили название — сопливый индекс.

Специалисты Google выдумали Supplemental index для хранения некачественного контента, в который попадет все, что проиндексировал Googlebot и что, по его мнению, недостойно основной выдачи.

Объясняется это все борьбой за качество результатов поиска. Дело то в общем хорошее, но только вот народ в находится недоумении.

Не выдуманная история одного блогера

Один обычный человек, никакой там не программист, решил стать блогером. Он создал сайт, написал сто статей, так сказать честно работал и наивно полагал, что на его ресурсе теперь должно быть сто страниц.

И вот, в один прекрасный день, наш новоиспеченный блогер решил провести анализ своего сайта. Для реализации задуманного, он воспользовался одним из онлайн сервисов, после чего долго сидел, смотря на цифру 2300, демонстрирующую количество страниц в индексе Google.

— Откуда столько?

Немного пораскинув мозгами, решил наш блогер проверить, как обстоят дела на сайтах его друзей, потом проверил конкурентов и везде положение дел с индексацией в Gooпle было схожим.

— Наверно так и надо…

Подумал наш блогер, и успокоился. Ведь его мозг так и не смог найти ответ, откуда взялась эта цифра.

Наш блогер был талантливым человеком! Писал настолько воодушевляющие и душещипательно, что благодарные читатели щедро награждали его своими комментариями.

Пролетело несколько месяцев и в ожидании посещаемости с Гугла он опять решил провести анализ. И какого же было его удивление, когда он обнаружил, что в индексе Гугла находятся уже не 2300, а 10000 страниц.

Тут  наш блогер не на шутку забеспокоился и принялся штудировать интернет, в надежде получить ответы, на свои вопросы.

supplemental index

Он прочел дюжину статей по теме и наконец понял, что дела плохи и рассчитывать на высокие позиции в Гугле его сайт не может, так как в Supplemental index находится слишком много страниц.

Данную историю можно продолжить и рассказать о том, как наш блогер перепробовал массу вариантов, предлагаемых «бывалыми», применял даже нестандартные подходы, в общем что он только не делал, но проблема ни как не решалась.

Я думаю эта история многим знакома и дальше ее продолжать не стоить. А теперь серьезно.

Пора разобраться, чем руководствуется Гугл, при индексации сайтов? Почему в Supplemental index попадает такое количество страниц, откуда они берутся? В конце концов должно же быть какое-то противоядие?

Противоядие конечно есть! Но прежде надо выявить причины, уяснить правила, ведь как у нас говориться — «Незнание законов не освобождает от ответственности». Поехали!

Отношение Google к директивам файла robots.txt

В одной из своих статей я писал, что поисковые роботы, зайдя на любой интернет-ресурс, первым делом ищут файл robots.txt и исходя из прописанных в нем директив, индексируют или не индексируют те или иные страницы.

Все правильно и Гугл сам об этом говорит:

Файл robots.txt позволяет ограничить доступ к сайту для роботов поисковых систем, сканирующих Интернет. Перед обращением к сайту эти роботы ищут файл robots.txt, который запрещает им доступ к определенным страницам.

Но тут же оговаривается:

Хотя роботы основных поисковых систем следуют директивам файла robots.txt, некоторые могут интерпретировать их по-своему.

Интересно получается, налицо политика двойных стандартов! Чувствуется западный подход! Что интересно, под некоторыми поисковыми системами, Гугл подразумевает себя. Читаем дальше:

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

Вот еще цитата:

Однако даже если вы запретите поисковым роботам сканировать содержание сайта с помощью файла robots.txt, это не исключает, что Google обнаружит его другими способами и добавит в индекс.

Цитаты взяты из следующих мануалов Google:

Блокировка и удаление страниц из индекса с помощью файла robots.txt
Блокировка сканирования Google

Интересно получается, «Google не сканирует и не индексирует содержание страниц заблокированных в файле robots.txt…»  —  в тоже время это не уберегает страницы от индексации.

«…URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс» — что это за другие страницы?

Выходит так, что под другими страницами, Гугл понимает, как внешние, так и внутренние страницы. Т.е, внутренние ссылки могут привести к индексации страниц, заблокированных в robots.txt. Да уж, дела. Так вот она где собака зарыта!

Получается, что все наши усилия, направленные на борьбу с дублями страниц такими, как: страницы категорий, страницы меток и т.д, через директивы в файле robots.txt просто не имеют смысла? Ведь все рано, на те же категории ведут ссылки: с меню навигации, с карты сайта для посетителей, да и в записях не редко приходится ссылаться на рубрики.

Здесь надо понимать следующее. Директивы в robots.txt вовсе не бесполезны, так как они действительно уберегают сайт от внутренних дублей.

Внимательно вчитайтесь в данные строки: — «… Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt…». Т.е, текст самой статьи не индексируется, а в индекс попадет только URL, заголовок и текст ссылок, возможно и сами ссылки.

Поэтому, в «сопливой» выдаче вместо сниппета, под URL или заголовком, помещается следующий текст:

supplemental index1

Что переводится так — «Описание веб-страницы не доступно из-за ограничения в robots.txt».

Робот не может выбрать сниппет по той причине, что ему просто не из чего выбирать, так как сам текст он не сканировал и ничего о нем не знает, хотя страницу он все равно загрузил.

Тогда возникает один общий вопрос:

ЧТО ДЕЛАТЬ?

А также пара дополнительных:

1. Если дублей нет, то стоить ли бороться с supplemental index и если стоит, то как?
2. Какое влияние оказывают «сопли» на ранжирование сайта в основной выдачи Гугла и оказывают ли вообще?

Вопросы довольно не простые. Ну что же, давайте попробуем в этом разобраться.

Влияние Supplemental index на ранжирование в основной выдаче Google

Мнения, касающиеся влияния Supplemental index на ранжирование сайтов в Гугле бытуют разные. Одни пугают честной народ «Пингвином» (жесткий фильтр Гугла), другие наоборот успокаивает, мол плохо конечно, но и критичного ничего в этом нет, а кто-то вообще на сопли не обращает никакого внимания.

А что же говорит сам Гугл по этому поводу? А ничего не говорит. По крайней мере я ничего не нашел. Конечно, есть статьи разных наших и западных сеошников, которых рассуждают о предназначении Supplemental index, но мнения высказываются настолько разные, а порой прямо противоположные, что поймать рыбку в такой мутной воде не представляется возможным.

Ничего не остается, как включить мозги, активировать логику, призвать в помощь накопленный опыт и попытаться самому разобраться в вопросе влияния «соплей» на «здоровье» тех или иных интернет-ресурсов.

Давайте с помощью расширения RDS bar проанализируем пару популярных сайтов. Интересно как у них обстоят дела с индексацией в Гугле.

Возьмем кулинарную тематику:

mata teg robots2

Как видите Гугл проиндексировал 403000 URL, из них в основной индекс попало всего 9% страниц.

Если исходить из той логики, что Supplemental index оказывает негативное влияние на ранжировании, то данный ресурс явно не здоров. Но почему тогда посещаемость в районе 180000 уников в сутки? Кстати счетчики у сайта открыты, так что можете полюбопытствовать.

Возьмем еще один популярный сайт IT тематики:

mata teg robots3

Здесь процент страниц, находящихся в основном индексе немного выше, но и общая цифра в два раза больше, хотя сути это не меняет. А суть следующая. Вы не найдете сайты, у которых было бы 100% страниц в основном индексе Google. Есть конечно сайты у которых менее 50% страниц «в соплях», но таких не так много.

Какой вывод можно из этого сделать? Наверное можно предположить, что Supplemental index не влияет на ранжирование. Хотелось бы конечно в это верить, но я бы не стал торопиться.

Здесь надо учесть, как мне кажется, один очень важный момент. Данные сайты довольно возрастные и они уже заслужили безусловное доверие поисковых систем.

Кроме того известно, что при ранжировании сайтов, поисковые алгоритмы учитывают сотни, а может даже тысячи факторов и одним из таких факторов вполне может быть процент страниц в Supplemental index.

По моему мнению, в повышенной зоне риска находятся прежде всего молодые сайты, у которых еще нет никаких заслуг, а основные показатели близки к нулю и при этом в «соплях» находится в десятки раз больше страниц, чем в основном индексе. Конечно такое положение дел не сулит ничего хорошего.

Теперь я опять вернусь к мануалу Google, а конкретно к следующим строкам — «В результате URL страницы, а также другие общедоступные сведения, например текст ссылок..». СТОП!

Что за текст ссылок? Если робот индексирует текст ссылок, то велика вероятность, что и сами ссылки он также индексирует, причем это приводится в качестве примера. В общем никто точно не знает, что там еще индексирует Гугл, но мне понятно одно: чем меньше URL моего блога попадут в сопливый индекс, тем для него будет лучше.

А теперь пришло время рассказать об обещанном противоядии от «соплей».

Как бороться с Supplemental index

Итак, страницы, доступ к которым заблокирован в файле robots.txt, но на которые ведут внутренние или внешние ссылки, индексируются Гуглом заносятся в Supplemental index.

Получается, что файл robots.txt, так сказать, для Google не авторитет и прописанные в нем директивы запрещают лишь сканирование текста документа.

Но что же тогда может служить безусловным запретом на индексирование? Давайте опять обратимся к мануалам Google:

Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex или x-robots-tag. По мере сканирования страниц, робот Googlebot обнаружит метатег noindex и не станет отображать страницу в индексе. HTTP-заголовок x-robots-tag рекомендуется использовать, чтобы исключить из индекса файлы, формат которых отличается от HTML (например, изображения или другие типы документов).

Выходит, что  безусловный запрет на индексацию страницы могут наложить только мета тег noindex или x-robots-tag.

Наткнувшись на такие мета теги, робот Гугла не станет индексировать страницу и добавлять ее в Supplemental index, но здесь важно понимать, что при этом он должен ее обязательно просканировать, иначе он просто не увидит запрещающий мета тег. А для того, чтобы робот смог просканировать страницу, к ней должен быть открыт доступ в файле robots.txt.

В подтверждение приведу еще одну цитату:

Обратите внимание, что для обнаружения метатега noindex страница должна быть просканирована. Но Googlebot может не заметить мета тег noindex и страница попадет в наш индекс. Если она продолжает появляться в результатах поиска, вероятно, мы ещё не просканировали ваш сайт после добавления тега. Кроме того, если вы использовали файл robots.txt для блокирования этой страницы, мы также не сможем найти этот тег.

Мануал Google «Как с помощью метатега запретить индексирование страницы поисковыми роботами»

Важно! Необдуманное удаление запрещающих директив в файле robots.txt, позволит роботам индексировать тексты дублирующий страниц, что может привести к санкциям от поисковых систем!

Но какой из предложенных мета тегов выбрать? Ответ мы можем найти в том же мануале:

Чтобы заблокировать всех роботов, добавьте следующий метатег в раздел <head> страницы:

<meta name="robots" content="noindex">

От себя здесь добавлю, что не лишнем будет добавить к мета тегу robots параметр nofollow:

<meta name="robots" content="noindex,nofollow">

В следующей статье, которая будет полностью посвящена мета тегу robots и способам его применения, я более подробно все объясню.

Также в не далеком будущем я обязательно расскажу, как предотвратить попадание в Supplemental index страниц, создаваемых функцией древовидных комментариев на WordPress, так называемых replytocom. В общем не примените подписаться на обновления блога, будет интересно!

А теперь я хочу коротко обмолвится об еще одном способе борьбы с Supplemental index — это внутренние  301 редиректы.

Данный способ, также предотвращает попадание страниц Supplemental index, но  имеет один существенный недостаток.

Любой редирект создает нагрузку на сервер, так как перенаправление осуществляется непосредственно на стороне сервера, что может обернутся снижением скорости загрузки страниц. А показатель скорости загрузки, особенно в последнее время, оказывает все большее влияние на ранжирование сайта в поисковой выдаче. Так что советую при настройки индексации сайта, по возможности обойтись без редиретов.

До встречи!

С уважением, Виталий Кириллов

(предыдущая статья)

Комментарии: 39

  1. Наталья:

    Виталий, нахлынули воспоминания о моей борьбе с «соплями». Позвольте с ними поделиться). Дело было так…
    На моем сайте все ссылки были кириллические. И однажды я прочитала, что для сео это не хорошо. В срочном порядке плагином сделала транслитерацию ссылок. Ну, и естественно в индексе оказалось в два раза больше страниц. У меня удивление было подобно тому, как Вы описали в начале статьи))
    Положение дел было плачевное. В основном индексе – оказалось 1% страниц. Посещаемость упала до 0. Что я только не делала… Запрет на индексацию в robots, удаление страниц в вебмастере… Терпеливо ждала 90 дней и даже больше. Но ничего не менялось.
    В общем, ждать с моря погоды мне надоело, и я зарегистрировала новый домен, сделала переадресацию, правильно настроила файл robots… В итоге, на сегодняшний день за год работы сайта из 447 страниц 73% в основном индексе, посещаемость восстановилась.
    А в соплях оказались страницы, которые я не знаю как туда попали (wp-content/plugins/copy-link, wp-content/plugins/wp-postratings…). Но сегодня Вы мне открыли глаза! Спасибо! Есть над чем работать)

    Ответить
    • Виталий Кириллов:

      Здравствуйте Наталья! Свой опыт борьбы с «соплями» наверное имеет каждый веб-мастер, поэтому история действительно не придуманная).
      Наталья, тема «соплей» еще не закончена и я посвящу ей еще пару статей, так что может еще что полезное для себя узнаете).

      Ответить
  2. Александр Силиванов:

    Приветствую, Виталий! Шуму о «соплях» в индексе Гугла в настоящее время действительно много. Поэтому разобраться в этом не предвзято действительно нужно.
    Все же мне кажется, что обещания немедленного роста трафика из поиска Гугла после удаления этих «хвостов» … несколько преувеличены. Но если есть возможность их «отрубить» — почему бы не сделать это?
    У меня сейчас, помимо реальных 140 статей, в «соплях» примерно 290 ЮРЛов. Просматриваю более-менее регулярно — все это заблокировано в robots.

    Ответить
    • Виталий Кириллов:

      Здравствуйте Александр! Отрубанием хвостов или борьбой с «соплями» мы будем заниматься в следующей статье, посвященной мета тегу robots.

      Ответить
  3. Андрей Назыров:

    Про западные стандарты это в точку 🙂
    Тоже прошел это удалил дубли после статьи Борисова. Теперь жду переиндексации, посмотрим что покажет Гугл.

    Ответить
  4. Александр Силиванов:

    Виталий, я это понял. 🙂 Ждем!
    Дублей replytocom у меня нет. По чьей-то рекомендации я с самого начала не подключал древовидные комментарии. (Возможно — по Вашей). А когда заставила нужда — поставил плагин. А прочее — пока не принимал мер. Хотя статью Борисова прочел достаточно внимательно.

    Ответить
  5. bytrina:

    Информация для меня новая, спасибо придется разбираться со своим сайтом.

    Ответить
  6. Arthur:

    А если вместо тега robots, использовать рел «каноникал», чтобы предотвратить дубли? Или я не прав?

    Ответить
    • Виталий Кириллов:

      Тег «каноникал» не является обязательным для поисковиков, он носит рекомендательный характер. Я бы не стал всецело на него полагаться.

      Ответить
  7. Денис:

    Очень интересная и мега-полезная информация! Я на своем блоге уже давно по-закрывал и по-открывал в роботсе, и мета тег стоит у меня на страницах. И дубли все закрыл, какие только можно. А все равно большинство страниц в соплях, гугл так и говорит, что большая часть индекса сопливая. И разумеется в выдаче поиска конечно меня не найти из за этого. Не знаю что уже делать… Возможно нужно еще ждать когда робот гугла придет просканирует все страницы.

    Ответить
    • Виталий Кириллов:

      Конечно понадобится время на то, чтобы страницы выпали из «соплей», но как я уже говорил, выпадут они обязательно.

      Ответить
  8. seo-dji:

    А у моего сайта 100 в основном индексе — все написаны ручками и головой. Так что если не бесплатная CMS и всё настроено грамотно — 100 % как говорится не фантастика.

    Ответить
    • Виталий Кириллов:

      Не знаю, о коком своем сайте Вы говорите, я посмотрел у Вас 47% в основной выдачи.

      Ответить
  9. Павел:

    Добрый вечер Виталий!

    Если вам не сложно, прокомментируйте пожалуйста мою ситуацию.

    Сайт интернет магазина, в индексе яндекса 503 страницы, в индексе гугла 1850 (78% из которых в основном индексе, если верить РДС бару).

    «Ручками» насчитал не более 400 полезных страниц, это все карточки товаров, категории, подкатегории, страницы типа «О нас», «Оплата» итп.

    Вопрос, почему такая разница между реальным числом «полезных» страниц сайта и числом страниц в индексе Г и в индексе Я? Могут ли попасть в основной индекс Г дублирующие страницы, типа сортировки товаров по цене/популярности/алфавиту и другой подобный «мусор»?

    Спасибо заранее если найдёте возможность ответить!

    Ответить
    • Виталий Кириллов:

      Здравствуйте Павел! Гугл индексирует страницу, если на нее ведут ссылки с вашего сайта или с других ресурсов. Если при сортировке товаров у Вас меняется URL страницы, то 100% Гугл это индексирует, опять же, если нет никаких запрещающих директив.

      Ответить
  10. Павел:

    Спасибо за быстрый ответ!

    На мои технические страницы действительно ведут внутренние ссылки, значит и в индекс их засасывает. Эта неприятная ситуация произошла по вине разработчиков новой версии сайта, запущенной в мае прошлого года.

    Считаю это 100% огрехом разработчиков, которые должны знать о таких простых вещах и принимать меры, тем более что сайты они делают на своём самописе, за годы работы и большом кол-ве выполненых работ такие косяки давно должны были быть устранены.

    На данный момент на технических страницах по моим просьбам были внедрены мета роботс теги ноиндекс нофоллоу. Страницы сейчас закрыты в роботс.тхт, в понедельник открою их, поскольку сам не могу разобраться что можно открывать, а что нет (я в пхп и джс полный ноль). Там есть такие запреты как:

    Disallow: /catalog/*?viewmod=
    Disallow: /catalog/*?viewonly=
    Disallow: /catalog/*&viewonly=
    Disallow: /catalog/*/*,*
    Disallow: /catalog/*/*,*/p_*.html

    Не совсем уверен что это за типы страниц, а так бы в исходном коде посмотрел есть ли на них мета роботс нофоллоу ноиндекс.

    Странно то, что яндекс лучше понимает запреты на уровне роботс.тхт и не совал свой робото-нос куда не нужно.

    Вот так, разработчики ложили на то что будет с сайтом в будущем, делают по принципу лишь бы работало, а я теперь гадаю насколько повлияло их рукожопие на ранжирование сайта и сколько потенциальной прибыли с магазина прошло мимо моего кармана.

    Ответить
    • Павел:

      ПС.
      Забыл упомянуть ещё вот что. Я просил разработчиков внедрить теги каноникал для технических страниц, в тот момент не зная, что каноникал не даст мне 100% гарантии следования своему назначению.

      Разработчики же внедрили кроме каноникала и ноиндекс нофоллоу, «шоб було» :))) Теперь в исходниках технических страниц есть такая строка:

      Интересно, ноиндекс нофоллоу «забьёт» каноникала?

      Ответить
      • Виталий Кириллов:

        Код строки не прошел. Воспользуйтесь преобразователем. Мета тег robots имеет безусловный приоритет над атрибутом canonical.

        Ответить
    • Виталий Кириллов:

      Павел, к сожалению разработчики сайтов страдают простой неграмотностью, в плане настройки индексации проектов и считают, что файл robots.txt защитит от всех проблем. Не только у Вас случилась такая ситуация. Напишите мне на почту адрес Вашего магазина я посмотрю.

      Ответить
  11. Gennadiy:

    Какой нафиг сапплеменал в 2015 ??
    Всем привет! Вижу, что статья написано давно, но хочу внести ясность.
    1) Оператор site: показывает погоду!
    2) Нет понятия основной и дополнительный (сопли) индекс
    3) Посмотреть общее количество проиндексированных страниц вы можете ВМТ — индекс Гугл — статус индексирования

    Ответить
  12. Виталий:

    Виталий,

    почему Гугл проиндексировал мой robots.txt и показывает его в выдаче?
    prntscr.com/a09a7h, я никакие запреты на это файл не выставлял и ссылки на него никакие не ведут.

    Как я понял, чтобы заблокировать всех роботов в файл header вставить <meta name="robots" content="noindex,nofollow" />, правильно?

    У меня плагин Yoast SEO уже установил:

    <meta name="robots" content="noodp"/>

    Эти два кокда ругаться не будут?
    Спасибо!

    Ответить
    • Виталий Кириллов:

      Виталий, если Вы хотите вообще запретить индексацию сайта, то да в header.php надо вставить мета тег robots с параметрами noindex и nofollow.
      Нет, ругаться не будут.

      Ответить
  13. Виталий:

    Виталий, Вашу шутку оценил ))),
    но если серьёзно, то для файла robots.txt, ведь нет странички с , куда вставлять запрет на индексацию?

    Также как и с плагинами и темами prntscr.com/a0hpl5

    Ответить
    • Виталий Кириллов:

      Конечно нет! На сам файл robots.txt нельзя наложить запрет на индексацию.

      Ответить
  14. Виталий:

    т.е. показ в выдаче файла robots.txt и других служебных файлов — это нормальная штука и бороться с ней никак нельзя? ((((

    Спасибо за совет!

    Ответить
  15. greench:

    Я полностью открыл роботс для псов, на все дубли и картинки сделал редирект 301, сейчас все дубли вылетают из выдачи. Вот так выглядит мой htaccess

    RewriteEngine On
    RewriteCond %{HTTP_HOST} ^www.ladies-charm.ru$ [NC]
    RewriteRule ^(.*)$ http://ladies-charm.ru/$1 [R=301,L]
    RewriteBase /
    RewriteRule ^index\.php$ — [L]
    RewriteCond %{QUERY_STRING} ^replytocom= [NC]
    RewriteRule (.*) $1? [R=301,L]
    RewriteRule (.+)/feed /$1 [R=301,L]
    RewriteRule (.+)/attachment /$1 [R=301,L]
    RewriteRule (.+)/comment-page /$1 [R=301,L]
    RewriteRule (.+)/comments /$1 [R=301,L]
    RewriteRule (.+)/trackback /$1 [R=301,L]
    RewriteCond %{QUERY_STRING} ^attachment_id= [NC]
    RewriteRule (.*) $1? [R=301,L]
    RewriteCond %{REQUEST_FILENAME} !-f
    RewriteCond %{REQUEST_URI} !(.*)/$
    RewriteRule ^(.*[^/])$ $1/ [L,R=301]
    RewriteCond %{REQUEST_FILENAME} !-f
    RewriteCond %{REQUEST_FILENAME} !-d
    RewriteRule . /index.php [L]

    order deny,allow
    Deny from all

    # END WordPress

    Далее в файле index (не в теме) а в файле самого сайта нужно заменить содержимое на это

    <?php
    // если запрос начинается с ?s= — это поиск по сайту, разрешаем
    if ( '/?s=' != substr($_SERVER['REQUEST_URI'], 0 ,4) && empty($_GET['preview']) ) {
    // теперь проверим ситуацию с прочими запросами
    $t = explode('?', $_SERVER['REQUEST_URI']);
    // есть get-параметры
    if ( ! empty($t[1]) ) {
    // редиректим на адрес
    header('Location: ' . $t[0], 1, 301);
    exit;
    }
    }
    define('WP_USE_THEMES', true);

    /** Loads the WordPress Environment and Template */
    require( dirname( __FILE__ ) . '/wp-blog-header.php' );

    Прощайте дубли

    Ответить
    • Виталий Кириллов:

      Вы полностью открыли файл robots.txt и теперь роботы тратят отведенный им временной лимит на хождению по файлам движка. Не вариант!

      Ответить
      • greench:

        Сделал так
        User-agent: Mediapartners-Google
        Disallow:

        User-agent: *
        Host: мой домен
        Sitemap: http://мой домен/sitemap.xml/
        Sitemap: http://мой домен/sitemap.xml.gz/

        User-agent: Googlebot-Image
        Allow: /wp-content/uploads/

        User-agent: YandexImages
        Allow: /wp-content/uploads/

        Пока вроде с индексацией всё ок, псы не плохо хавают страницы, но очень медленно выкидывают дубли. В гугле пришлось вручную некоторые дубли удалять.

        Ответить
        • Виталий Кириллов:

          Добавьте директиву к User-agent: *
          Disallow: /wp-
          Этим Вы закроете файлы движка.

          Ответить
  16. алексей:

    Виталий привет! Подскажите, у меня Гугл ВСЕ статьи кидает в основной индекс и параллельно их же в Supplemental index.Сайт молодой. Это вообще нормально для молодого сайта?

    Ответить
    • Виталий Кириллов:

      Здравствуйте Алексей!
      До трех месяцев вообще ничего не надо анализировать, надо работать над самим сайтом. Наполнять контентом, исправлять всякие шероховатости. Аналитикой можно заниматься после 3х месяцев. К этому времени поисковики уже более менее сайт проиндексируют.

      Ответить
  17. Марина:

    Виталий здравствуйте,извиняюсь за кучу возможно глупых вопросов,но честно говоря боле толково сайта и его хозяина я не встретила на инет просторах) Многое, если не все передрано у Вас! За что Вам спасибо! Итак вопрос: у меня все мои 10 статей молодого сайта(dizainnogteiy.ru),находятся и в основном и в дополнительном индексах гугла,это противоречит всему тому что я читала))Должно быть либо либо)при этом количество индексированных страниц в гугл вебмастере равно нулю!Однако в поисковой выдаче все мои статьи присутствуют! Вообщем какие-то аномалии) Или все это может быть следствием молодого сайта т.е песочницей? Хотелось бы услышать ваше авторитетное мнение!
    С Уважением Марина!!

    Ответить
    • Виталий Кириллов:

      Здравствуйте Марина!
      Вы сам ответили на свой вопрос. Думаю тревогу пака бить рано. Пишите полезные, интересные и читабельные статьи. На раннем этапе это самое главное. Наполняйте сайт.

      Ответить
      • Марина:

        Большое спасибо Вам за ответы!!!

        Ответить
  18. Daria:

    Здравствуйте, уважаемый Виталий! У меня беда другого рода — RDS-бар неожиданно показал, что из основного индекса пропали чуть ли не сто уникальных статей. Еще недавно они там были, а теперь нет. Вот, например, исчезла control-point.ru/namibiya/namibiya-stolitsa-vindhuk/ Что делать, где искать причины? Нет ли у вас, Виталий, каких-либо соображений на этот счет?

    Ответить
    • Виталий Кириллов:

      Здравствуйте Дарья!
      Сколько страниц вообще должно быть в поиске?

      Ответить
      • Daria:

        Виталий, в поиске их должно быть 236 (231 пост и 5 страниц). В яндексе все так и есть, так было и в гугле до недавнего времени.

        Ответить
        • Виталий Кириллов:

          А что это за URL такой у Вас?
          control-point.ru/sitemap_index.xml
          В гугл вы какую xml карту добавляли?

          Ответить
          • Daria:

            Виталий, в гугл добавляла карту sitemap.xml, а этот файл я не знаю, может его формирует плагин. В вебмастере гугл написано — 236 проиндексированных страниц, да только где же они

            Ответить

Оставить комментарий

Внимание комментатор! Прежде чем вставить: HTML, JavaScript или PHP код в свой комментарий, преобразуй его в html сущность!

Subscribe without commenting

» Подписаться на комментарии по RSS