» » » Файл robots.txt — запрет индексации для Яндекса и Google. Создание правильного robots.txt для WordPress
logotip

Файл robots.txt — запрет индексации для Яндекса и Google. Создание правильного robots.txt для WordPress

Здравствуйте уважаемые читатель SEO-Mayak.com! Сегодня я коснусь такой немаловажной темы, как «Индексация сайта поисковыми роботами». Вернее, речь пойдет как раз о запрете для индексации файлов не относящихся к контенту.

Зачем запрещать индексацию? Отвечая на этот вопрос я сразу оговорюсь, не надо запрещать поисковикам индексировать блог, необходимо наоборот всячески этому способствовать. Закрывать от индексации нужно только те файлы, которые не содержат полезную информацию. К таким относятся: системные файлы WordPress, а также дубли контента и некоторые другие файлы.

Наша задача правильно указать дорогу поисковым роботам к действительно важным файлам и «опустить шлагбаум» на пути к всякому «мусору». Для этого в арсенале у вебмастеров есть два незаменимых инструмента. С их помощью можно правильно организовать движение поисковиков по блогу, расставить «дорожные знаки» и приоритеты.

Первый инструмент — это файл robots.txt, который как раз и служит неким «регулировщиком», разрешающим роботам идти в одно место и запрещающего им идти в другое. Об этом файле и пойдет речь дальше.

Второй инструмент — это файл Sitemap.xml, который создает «дорожную разметку» (карту сайта) и значительно упрощает поисковикам навигацию по блогу. (Файл sitemap.xml для поисковиков Google и Яндекс)

Почему надо обязательно создавать файл robots.txt

fail robots wordpress

Допустим, забрел поисковый робот на сайт или блог не важно, на котором по вине администратора или другого лица не был создан файл robots.txt. Что делает робот в первую очередь? В первую очередь он как раз ищет файл robots.txt, но так как такого файла нет, робот принимается знакомится с сайтом руководствуясь своими собственными секретными алгоритмами.

Вместо того, чтобы индексировать опубликованный материл, робот гуляет по каталогу wp-admin или wp-includes в поисках что-то похожего на контент. А через некоторое фиксированное время «Центр Управления» дает команду роботу следовать на сайт к Василию Пупкину и робот, так и не добравшись до главной цели своего визита — контента, отправиться гулять дальше по просторам интернета.

Но когда он вернется, а вернется он теперь нескоро, повториться вновь та же самая история, а горе-администратор будет греть себе голову, почему его сайт плохо индексируется.

Из этого всего можно сделать несколько полезных выводов:

Вывод №1. Время, отводящееся поисковой машине для индексации ресурса строго лимитировано.

Вывод №2. Робот наверняка сообщит в своем рапорте «Центру Управления» о сайте в котором нечего индексировать и ЦУ поправит расписание следующего посещения с пометкой — «Посещать реже».

Вывод№3. При многократном повторении такой ситуации ЦУ обязательно примет меры по ниспровержению позиций такого не благонадежного ресурса и задвинет в глубь поиска от греха по-дальше.

Так вот, чтобы не ощущать себя в роли «горе администратора» надо обязательно создать файл robots.txt и правильно расставить в нем «запрещающие знаки», тем самым указывать самую короткую дорогу до контента, который действительно необходимо индексировать.

Создаем правильный robots.txt для WordPress

Новичкам наверное сложно понять процесс создания файла robots.txt, хотя в принципе сильно хитрого ничего нет. Постараюсь разложить все по полочкам.

Файл robots.txt должен находиться в корне сайта. Как закачивать файлы на сервер читайте в статье — «FTP клиент Filezilla»

создается с помощью обычного текстового документа имеющего формат .txt  в котором прописываются следующий директивы:

Директива — «User-agent:»

Директива «User-agent» служит для указания названия поискового робота, например:

User-agent: Yandex

Все директивы, которые расположены ниже будут относится непосредственно к роботу Яндекса.

Или:

User-agent: Googlebot

В этом случаю дальнейшие директивы будут обращены к Гуглу.

Можно написать и так:

User-agent: *

Спецсимвол «*» можно перевести как — «Любой текст», т.е таким спецсимволом можно заменить название всех остальных поисковых роботов, чтобы не прописывать для каждого отдельные директивы в силу их незначительности среди двух гигантов Яндекс и Google. Последние в свою очередь игнорируют спецсимвол «*» и увидя свое «имя» в файле robots.txt и станут слепо следовать директивам, назначенным для этого имени .

Наверное вам будет интересно узнать названия роботов остальных известных поисковых систем, список ниже:

  1. Alexa — ia_archiver;
  2. AltaVista — Scooter;
  3. AOL — Slurp;
  4. Aport — Aport;
  5. Ask — Teoma;
  6. Bing — bingbot;
  7. Live — MSNBot;
  8. MSN — MSNBot;
  9. Lycos — Lycos;
  10. Nigma — Nigma.ru;
  11. Yahoo! — Slurp (или Yahoo! Slurp);
  12. Вебальта — WebAlta (WebAlta Crawler/2.0);
  13. Мэйл.ру — Mail.Ru;
  14. Рамблер — StackRambler.

Надо отметить, что каждый крупный поисковик имеет команду роботов «помощников» и все они  имеют свое индивидуальное предназначение. На буду перебирать все поисковики, остановлюсь лишь на роботах Яндекса:

  1. YandexBot — основной индексирующий робот;
  2. YandexMedia — робот, индексирующий мультимедийные данные;
  3. YandexImages — индексатор Яндекс картинок;
  4. YandexCatalog — «простукивалка»  Яндекс каталога;
  5. YandexDirect — робот, индексирующий страницы сайтов, участвующих в рекламной сети Яндекса;
  6. YandexBlogs — робот поиска по блогам, индексирующий комментарии постов;
  7. YandexNews — робот Яндекс.новостей;
  8. YandexPagechecker — робот, обращающийся к странице при валидации микроразметки через форму «Валидатор микроразметки».

Для всех перечисленных роботов можно задавать отдельные директивы.

Директива — «Disallow:»

Директива  «Disallow:»  запрещает роботу индексировать указанную часть сайта или весь сайт целиком, смотря какое значение содержит данная директива. Например:

  1. User-agent: Yandex
  2. Disallow: /

Директива «Disallow:» содержит спецсимвол «/», который является запрещающим знаком, а так как после него ни чего не указано, робот понимает это, как команду запрещающую индексацию всего сайта в целом.

Если после спецсимвола «/» прописать название какого-нибудь каталога, например:

  1. User-agent: Yandex
  2. Disallow: /wp-admin

Для робота это будет означать запрет индексации всего, что находиться в каталоге wp-admin. Не трудно догадаться, что таким способом можно блокировать путь робота к каталогам или отдельным файлам, а также пути в URL адресе. Например, этот URL будет блокирован:

  1. seo-mayak.com/wp-admin/post.php

Но как же быть если надо разрешить роботу зайти в определенный каталог и уже потом запретить ему дальнейшее продвижение по некоторым направлениям? Делается это просто:

  1. User-agent: Yandex
  2. Disallow: /wp-admin
  3. Disallow: /wp-content/plugins

Как Вы уже догадались, прописывается путь до каталога, который надо блокировать.

Также можно запретить индексацию по символам таких, как «?», встречающимся в URL ведущем на определенные страницы:

  1. User-agent: Yandex
  2. Disallow: /wp-admin
  3. Disallow: /wp-content/plugins
  4. Disallow: /*?*

Давайте разберемся в последней директиве, что там за знаки такие. Как я уже писал выше, спецсимвол «*» обозначает любой текст — значит запрещаются любые URL, которые включают в себя символ «?», причем этот символ должен находиться между любыми другими символами. Пример:

  1. seo-mayak.com/post.php?post=618

Если в некоторых «нежелательных» URL  символ  «?» находиться в конце, то прописывать надо так:

  1. User-agent: Yandex
  2. Disallow: /wp-admin
  3. Disallow: /wp-content/plugins
  4. Disallow: /*?*
  5. Disallow: /*?

Надеюсь, объяснил понятно.

Теперь наверное у многих может возникнуть вопрос — «А зачем запрещать роботу индексировать URL, ведь это и есть контент?»

Дело в том, что один и тот же контент очень часто бывает доступен по разным URL и это приводит к его дублированию в рамках одного сайта. Дубли бывают полными или частичными (под частичными дублями подразумеваются анонсы записей) Поисковые системы негативно относятся к таким проявления и если дубликатов много, то в худшем случаи сайт может загреметь под фильтр.

Поэтому просканируйте Ваш сайт на дубликаты и запретите их индексацию в файле robots.txt с помощью символов входящих в URL. Про дубли страниц читайте в статье — «Похожие, дублированные страницы. Как выявить дубли контента«.

Идем дальше. Дошла очередь до еще одного спецсимвола — «$», который указывает роботу на избирательный заперт индексации . Пример:

  1. User-agent: Yandex
  2. Disallow: /page$

В данном примере спец символ «$» указал на запрет индексации URL содержащего в себе последовательность букв «page» но не запретил индексировать page.php,что позволяет белее тонко производить настройку файла robots.txt.

Директива — «Allow:»

Если директива «Disallow:» являются запрещающей, то «Allow:» — разрешающей. К ней можно прописывать те же значения как и к «Disallow:»

  1. User-agent: Yandex
  2. Allow: /wp-content

Директива — «Host:»

Директива «Host:» предназначена только для Яндекса и указывает ему на главное зеркало сайта, которое и будет индексироваться роботом исключая все остальные зеркала, что также предохраняет от дублирования контента. Еще необходимо сделать 301 редирект  через файл .htaccess. Прописывают эту директиву так:

  1. User-agent: Yandex
  2. Disallow: /wp-admin
  3. Disallow: /wp-content/plugins
  4. Disallow: /*?*
  5. Disallow: /*?
  6. Host: сайт.ru

Или так:

  1. User-agent: Yandex
  2. Disallow: /wp-admin
  3. Disallow: /wp-content/plugins
  4. Disallow: /*?*
  5. Disallow: /*?
  6. Host: www.сайт.ru

Без http:// и без https://.

Директива — «Sitemap:»

Директива «Sitemap:» указывает путь ко второму незаменимому инструменту, ускоряющему индексацию — это файлы sitemap.xml и файл sitemap.xml.gz создающие карту сайта для поисковиков. Пример:

  1. User-agent: Yandex
  2. Disallow: /wp-admin
  3. Disallow: /wp-content/plugins
  4. Disallow: /*?*
  5. Disallow: /*?
  6. Host: сайт.ru
  7. Sitemap: http://сайт.ru/sitemap.xml

Я прошелся по основным директивам, которые применяются при создании файла robots.txt, но хочу дать еще один совет. Файл robots.txt доступен для просмотра любому пользователю интернета достаточно набрать в адресной строке сайт.ru/robots.txt и Вы сможете посмотреть robots.txt  у любого сайта, кстати мой блог не исключение.

Важно! О том как правильно настроить индексацию сайта, читайте в статье — «Мета-тег robots. Правильная настройка индексации сайта».

Также советую прочитать  — «Supplemental index. Дополнительный (сопливый) индекс Google».

В заключении хочу сказать, что за процессом индексации надо поглядывать и в случаи необходимости вносить изменения в файл robots.txt.

Проверить файл robots.txt можно можно по следующим адресам:

Яндекс вебмастер —  анализ robots.txt

fail robots1

1. Вписываете URL блога без http:// и без https://

2. Нажимаете кнопку — «Загрузить robots.txt с сайта».

3. После того как файл загрузиться нажимаете кнопку — «Проверить».

Google Инструменты для вебмастеров — Заблокированные URL

fail robots4

Если имеются вопросы, готов выслушать. Высказывайтесь пожалуйста в комментариях.

Читайте также, как создать динамическую XML карту сайта.

До встречи!

С уважением, Кириллов Виталий

Комментарии: 281

  1. Наталья:

    Нашла проиндексированные страницы постранички (1,2,3 и т.д.)
    Запретила через
    Disallow: /page/
    Disallow: /*page*/
    сперва в файлике robots.txt
    Дубли страниц через яндекс.вебмастер вручную попросила удалить. ссылки внесла и мне сообщили, что при следующем обходе робота эти страницы удалятся.

    а вот нашлись еще проиндексированные страницы на котором по одной картинке. Сперва не поняла как такое вообще может быть, ведь остальные картинки проиндексированы нормально именно как картинки, а не как страницы контента. Нашла ссылки на этих картинках, а вообще я ссылки убираю из медиафайлов (убираю привязку), и только на этих картинках привязка была. Робот почему то решил их проиндексировать как страницы. Теперь вопрос как ему запретить на будущее это делать и удалить через вебмастер вручную не удалось, т.к. сперва необходимо прописать их в файле robots.txt по правилам яндекса.

    Ответить
    • админ:

      Наталья напишите, как выглядит окончание URL этих картинок.

      Ответить
  2. Наталья:

    Например:
    uvlekatelnie-bonsai.ru/relaks-v-stile-xellouin-ch-2-tancuyushhie-mertvecy-snova-vmeste.html/anastasis

    Ответить
    • админ:

      Наталья, чтобы закрыть от индексации эту страницу в файле robots.txt надо прописать так: Disallow: /*anastasis

      Ответить
  3. Наталья:

    Большое спасибо! прописала, вставила в роботс и затем через сервисы удалось поставить ненужные для индексации ссылки на удаление. Потом роботс думаю можно будет почистить от этих меток.

    Ответить
  4. Роман:

    Это самая понятная статья о файле robots которая мне попадалась. Респект автору!

    Ответить
    • Виталий Кириллов:

      Роман, рад видеть Вас на своем блоге и спасибо за оценку моего скромного труда!

      Ответить
  5. Людмила Алешина:

    Слушайте, Виталий. у меня та же самая история с картинками, тоже выходят отдельной страничкой сайта, как у Наташи, не могу сообразить, как это изменить?Боюсь вообще в настройки robots влезать)))

    Ответить
    • Виталий Кириллов:

      Укажите Яндексу в файле robots.txt в стоке Host свой домен без www. А насчет картинок я по-моему в ответе на комментарий Натальи привел пример, как прописать в файле роботс чтобы запретить индексацию таких страниц, но вы мне можете прислать окончание URL своих проблемных страниц и я напишу, лично для вас, как прописать запрет в robots.txt Самое главное, чтобы в будущем избежать таких проблем, не ставьте ссылки в фотографиях!

      Ответить
  6. Наталья:

    а почему

    Host: сайт.ru

    в файлике нужно указывать только для Яндекса?

    Ответить
    • Виталий Кириллов:

      Наталья, директива Нost предназначается только для Яндекса и указывает ему на главное зеркало сайта. Статья про главное зеркало.

      Ответить
  7. Наталья:

    Виталий, у меня к Вам такой вопрос. на своем домене сделала поддомен для отдельного сайта для дочки, установила вордпресс на поддомен. и вот теперь думаю, а для него нужно делать отдельно robots.txt ? и если да, то куда его пихать, не пойму немного

    Ответить
    • Виталий Кириллов:

      Наталья, файл robots.txt должен быть расположен в корневой папке, где находятся папки wp-content и wp-admin. Нужно ли его делать? Смотря для каких целей Вы создаете сайт на домене 3 уровня.

      Ответить
      • Игорь:

        Виталий, здравствуйте. Вопрос наверное немного не в тему. У меня сайты созданы в мультисети вордпресс. Я бы хотел для каждого из них сделать отдельные файлы карты сайта и robots.txt. Директорий у этих сайтов нет. Как быть? Подскажите решение.

        Ответить
        • Виталий Кириллов:

          Игоря, я не знаю.

          Ответить
  8. Наталья:

    Виталий, свежие вопросы

    Disallow: /*?

    Что будет если название статьи заканчивается вопросительным знаком. Это получится, что ее запрещаем к индексации?
    В каких еще случаях бывает знак ?
    Я не имею ввиду, когда после ? есть еще какие либо символы. С этим все по тексту статьи понятно

    Есть еще такое: Disallow: /?s=

    Знаешь что означает?

    Ответить
    • Виталий Кириллов:

      Наталья, через Гугл веб-мастер, при проверки sitemap.xml можно посмотреть какие страницы заблокированы случайно в robots.txt. Там предупреждения должны быть.
      Насчет Disallow: /?s= с ходу сказать не могу, какие URL запрещаются этой директивой, просто по каждому сайту надо конкретно смотреть.

      Ответить
  9. Наталья:

    Я нашла про Disallow: /?s=
    На любом блоге это запрещает роботам индексацию со страниц ПОИСКА.

    Ответить
  10. Татьяна:

    Здравствуйте, Виталий!
    А как нужно запретить индексацию картинок избирательно. У меня они индексируются как страницы. На изображении (картинке) 2 вида ссылок. Не поняла из предыдущих комментариев, какую из них надо убрать.
    И что означает «не ставьте ссылки в фотографиях»?
    Пример
    /vecher-angliyskoy-poezii.html/obshhaya-kartina#main
    /wp-content/uploads/2013/04/Obshhaya-kartina.jpg
    Спасибо)

    Ответить
    • Виталий Кириллов:

      Здравствуйте Татьяна, обе ссылки необходимо удалить, так как она ведет на страницу без контента, а это очень плохо. И мало того, ссылка с картинки забирает вес со страницы никуда его не передавая. Вот как должен выглядеть код картинки без ссылки.
      [php]<img width="448" height="336" src="URL картинки/название картинки.jpg" class="attachment-1200×1200" alt="na pamyat’ o vechere…."/>[/php]

      Ответить
  11. Татьяна:

    Спасибо большое, Виталий! С этим разобралась. А как сделать так, чтобы фотографии не индексировались как страницы? Запретить их индексацию или дело в настройках. У меня WordPress 3.5.1. Подскажите, пожалуйста.

    Ответить
    • Виталий Кириллов:

      Татьяна, чтобы скрыть картинки от индексации, для этого используют jQuery. Скоро у меня выйдет статья на эту тему.

      Ответить
  12. Татьяна:

    Спасибо, подпишусь на обновления вашего блога. У Вас есть чему поучиться!
    Жду статью))

    Ответить
  13. Валентина:

    Виталий, а uyutnidom.com/retsept-utki-s-hrustyashhey-korochkoy.html#more-3975 не нужно прятать от робота? Ваш робот, закрыл все, что раньше было доступно, но вот more меня смущает, кроме этого установлены видео, баннеры со сторонних сайтов, как с ними быть?

    Ответить
    • Виталий Кириллов:

      Валентина тег more является якорем и дубля не создает. Так что не волнуйтесь на счет этого, а что вас баннеры и видео смущают?

      Ответить
  14. Валентина:

    Пишет, что сторонний ресурс, нужно ли их скрывать от робота?

    Ответить
    • Виталий Кириллов:

      Валентина,баннеры и видео никаково отношения к файлу robots.txt не имеют.

      Ответить
  15. Валентина:

    Виталий, я скрыла от робота страницу, так гугл мне уже 7 предупреждений прислал, что делать? Открыть страницу?

    Ответить
    • Виталий Кириллов:

      Валентина, что за предупреждения прислал Вам Гугл, и как Вы скрыли страницу? Возможно Вы неумышленно скрыли еще какие-то страницы.

      Ответить
  16. Алексей:

    Здравствуйте!
    Спасибо за статью!
    У меня такой вопрос.
    Сделал жене блог на wordpress. У нее много постов, но мало текста, больше картинки. И получается так, что в рубриках весь текст, а где «Подробнее» только дополнительные картинки.
    Значит надо как-то закрыть рубрики от индексирования.
    Там вложенные рубрики получаются.
    Сделал так:
    Disallow: /category/
    Но еще остается рубрика/подрубрика/статья.
    Причем урлы есть как с /category/рубрика/, рак и просто /рубрика/*
    Что-то еще надо закрывать тут или нет?

    Ответить
    • Виталий Кириллов:

      Алексей, я маленько не понял. У вас что урлы на русском?

      Ответить
      • Алексей:

        Нет, латиницей ЧПУ. Это я так, для примера написал.
        Можете посмотреть блог. Там особенно в рубрике http:// natalylehar.ru/category/moi-raboty/ еще подрубрики есть. Но и просто в таком урле есть статьи: http:// natalylehar.ru/moi-raboty/busy/busyi-izabel-kvarts-krakle-i-belyiy-agat.html
        Я закрыл:
        Disallow: /category/
        Надо ли закрывать это:
        Disallow: /moi-raboty
        И оставлять только подкатегории, или оставить так. Будут ли дублироваться если оставить или нет?

        Ответить
        • Виталий Кириллов:

          Алексей, URL, которые оканчиваются на html закрывать не надо. Достаточно будет просто запретить индексировать категории.

          Ответить
  17. Алексей:

    Спасибо за ответ.
    Категории-то я запретил.
    Теперь, как я понимаю только на главной останется дублирующий контент анонсов статей7
    А можно ли сделать так, чтобы только анонсы были закрыты от индексации? Тогда можно категории открыть и сделать хорошее их описание, тоже можно продвигать и категории тоже.

    Ответить
    • Виталий Кириллов:

      Я бы не советовал закрывать анонсы на главной,так как они большого вреда не нанесут, скорее наоборот помогут в продвижении. Самое главное не делать больших анонсов, 3 — 4 предложения вполне достаточно.

      Ответить
  18. Алексей:

    Так в том и суть, я писал уже, что анонсы это фактически ВСЯ статья получается, т.е. просто описание украшения. Есть и большие статьи, но их мало. А так получается полностью дублированный контент, кроме пары картинок.

    Ответить
    • Виталий Кириллов:

      Просто сделайте главной страницей, например, последнюю статью. Запрещать индексацию главной страницы НЕЛЬЗЯ.

      Ответить
  19. Светлана:

    Виталий, спасибо большое за такую ценную информацию. Подскажите, пожалуйста, нужно ли закрывать комментарии от индексации. У меня в robots стоят такая строка:
    Disallow: */comments
    Это значит, что все комментарии у меня закрыты вместе с ссылками моих комментаторов?

    Ответить
    • Виталий Кириллов:

      Светлана, эта директива закрывает дубли страниц комментариев. Например, на одной странице может располагаться 50 комментариев, следующие уже будут на другой странице и получиться дубль.

      Ответить
      • Светлана:

        Спасибо большое за пояснения! Я очень Вам признательна!

        Ответить
  20. Елена:

    Виталий, насчёт картинок, ссылки надо убирать? например, на фотографии ссылка http:// elenavo.ru/wp-content/uploads/2013/07/61.jpg, её нужно совсем удалить?

    Ответить
    • Виталий Кириллов:

      Ссылки в фотографиях лучше не ставить.

      Ответить
      • Светлана:

        Виталий, тогда как наши картинки в постах будут попадать в поиск по картинкам? У меня довольно часто приходят на блог из поиска по картинкам.

        Ответить
        • Виталий Кириллов:

          Светлана, Вы просто убираете ссылку с картинки и это никак не сказывается на поиск по изображениям.

          Ответить
        • Светлана:

          Виталий, за индексацию картинок отвечает атрибут ALT и название картинки?

          Ответить
          • Виталий Кириллов:

            Светлана, атрибут alt является обязательным, название должно быть английскими буквами, а вот title может быть на русском.

            Ответить
  21. Светлана:

    ALT должен быть таким же, как и Title, только английскими буквами, или достаточно только ключевой фразы в ALT?

    Ответить
    • Виталий Кириллов:

      Я обычно в alt вбиваю ключевое слово на английском, а в title тоже самое на русском.

      Ответить
      • Светлана:

        Виталий, спасибо огромное за Ваши профессиональные объяснения! Я желаю Вам самого лучшего и самого активного продвижения Вашего сайта!

        Ответить
        • Виталий Кириллов:

          Пожалуйста Светлана!
          И Вам успехов!

          Ответить
  22. Ната:

    Виталий, спасибо за очень ценную статью.
    Подскажите, пожалуйста: хотела заблокировать файлы с расширением .PHP.
    Прописала в robots Disallow: /wp-content/*.рнр
    При проверке файла яндекс пишет: «Возможно, был использован недопустимый символ»
    Что не так?

    И еще: у меня настроены ЧПУ вида http: //garden-live.ru/sample-post/
    Яндекс вебмастер показывает несколько сотен исключенных страниц с окончанием вида
    /?p=1024 (пишет, что запрещены в robots)
    Ссылки ведут на статьи блога (страницы проиндексированы и ссылка нормального вида)
    Это какие-то дубли или что? И что с этим делать?

    Ответить
  23. Елена:

    Виталий, а как прописать в роботсе запрет на индексацию страницы Disallow: / а после часть url после слеша, например Disallow: /razvivayushhie-multfilmy/ ? Спасибо.

    Ответить
    • Виталий Кириллов:

      Можно так, а можно и по-короче, например:
      Disallow: /razvivayushhie*/
      Но все URL, содержащие это слово, будут запрещены для индексации.

      Ответить
  24. Елена:

    и прописать нужно 2 раза — один раз для всех поисковиков, один раз для яндекса?

    Ответить
    • Виталий Кириллов:

      Елена, про Гугл тоже забывать не стоит! Т.е надо прописать три раза.

      Ответить
  25. Елена:

    Спасибо за ответы, Виталий!

    Ответить
  26. Евгений Ванин:

    Здравствуйте ! Подскажите а нужно ли индексировать фид блога , у меня сейчас не индексируется , как это сказывается на скорости индексации в яндексе полной статьи ?

    Ответить
    • Виталий Кириллов:

      Евгений, надо запрещать индексацию фида, так как это дубль.

      Ответить
  27. Евгений Ванин:

    Подскажите пожалуйста, в моём файле стоит запрет на индексацию feed ,это правильно или для индексации лучше что бы индексировал ?

    Ответить
  28. Евгений Ванин:

    Спасибо!А то дилема возникла.Думал что что то не так сделал

    Ответить
  29. Сергей:

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/cache/
    Disallow: /wp-content/themes/
    Disallow: /wp-trackback
    Disallow: /wp-feed
    Disallow: /wp-comments
    Disallow: /category/
    Disallow: /author/
    Disallow: /page/
    Disallow: /tag/
    Disallow: /feed/
    Disallow: */feed
    Disallow: */trackback
    Disallow: */comments
    Disallow: /*?
    Disallow: /*?*
    Disallow: /*.php

    Какого-то … гугл скушал все тэги и категории, хотя они закрыты от индексации. Теперь куча страниц в supplemental выдаче. Что делать? Может отдельно для гугла правила прописать? С яндексом все нормально.

    Ответить
    • Виталий Кириллов:

      Дело в том, что в сопли Гугла дело довольно не простое. Я тоже борюсь с этой проблемой и наверное вскоре разражусь статьей, где расскажу о своем опыте лечения сопливой болезни.
      Сергей, вы сильно не переживайте, попадание страниц в сопливый индекс не сказывается на позициях ресурса в поисковой выдаче.

      Ответить
  30. Сергей:

    Здраствуйте. У меня на страницах вордпресс используется функция get_the_excerpt. Та часть статьи которую выводит это функция в анонсе будет считаться дублем? если да, то как поисковикам запретить индексировать страницу на которой выводятся анонсы новостей?

    Ответить
    • Виталий Кириллов:

      Сергей, анонсы на главной это вполне нормально, надо запрещать индексацию дублей анонсов.

      Ответить
  31. Сергей:

    Здравствуйте еще раз. На главной я вывожу все анонсы, а на отдельных страницах по категориям, получается что к примеру у меня анонс к игре 7-ой элемент на главной и на странице фентази. Это ведь уже является дублем? Я хочу запретить индексировать страницу фентази. Как это сделать через robots.txt? Вот мой сайт, есле вдруг понадобится: gameshits.ru

    Ответить
    • Виталий Кириллов:

      Здравствуйте! Судя по тому, что у вас очень небольшие тексты, а анонсы включают в себя 1/3 всего текста, то конечно на такие страницы надо ставить запрет индексации. Просто в файле robots.txt прописать директиву Disallow: для всех страниц-рубрик, т.е для страницы Фентези надо прописать так:
      Disallow: /fehntezi
      Остальные страницы вписываем аналогичным образом.
      Проверьте обязательно нет ли у Вас URL страниц, которые начинаются с названий рубрик, а то и они могут случайно попасть под запрет.

      Ответить
  32. Елена:

    У меня проблема в индексации страниц в яндексе. Во-первых моя ошибка в том, что я на страницах ставила фотографии со ссылками. Теперь потихоньку это исправляю, то есть пока исправила половину, осталось еще столько же. Второе, что я сделала — это поменяла обычные на ссылки с окончанием html. И вот тут то и начались проблемы с яндексом. Он мне показал, что файл роботс.тхт запрещает к индексации почти все страницы сайта. А я никак не могу понять, что там не так с моим роботс.тхт. Не могли бы Вы мне помочь, посмотреть и указать ошибки?
    К Платону кстати, писала письмо, мне ответили что пересмотрят индексацию моего сайта. Они действительно пересмотрели. Но теперь не лучше, а еще хуже. Пока что яшей индексируется только 2 страницы, роботом загружено еще 90, но все они с ошибкой 404 и тоже не индексируются. Даже не знаю, что делать. Пока исправляю все ошибки на сайте и хочу узнать что не так с этим роботс.тхт. А потом буду еще писать к платону.
    Буду очень благодарна, если что-то подскажете.

    Ответить
    • Виталий Кириллов:

      Елена, по всей вероятности Ваш блог попал под фильтр Яндекса. Пишите Платону, пусть намекнут, что не так с блогом. Я сам не так давно с ними ввел долгую переписку и скоро будет статья на эту тему.

      Ответить
  33. Анастасия Владыкина:

    Спасибо большое, Виталий. Очень подробная и толковая статья. Раньше не понимала особо в чем назначение robots.txt Сейчас все встало на места. Заодно и решилась проблема с добавлением карты сайта в Гугл Вебмастер, карта не добавлялась, поскольку стояли ограничения в robots.txt на «?» в ссылках, а у меня постоянные ссылки не были приведены просто еще в правильную форму с помощью Cyr-to-lat. Так что еще раз, большое спасибо!

    Ответить
  34. Ruslan:

    ок, как насчет папки и файлов attachment? следует ли их закрывать от индексации в robots?, ведь одно и то же изображение может генериться под несколькими урлами

    Ответить
    • Виталий Кириллов:

      Ruslan, Я бы вообще не советовал делать ссылки в изображениях, так как это ссылка ведущая в никуда, но для некоторых тематик возможно это необходимо. Для каждого проекта надо индивидуально подстраивать файл robots.txt. Если у Вас создаются дубли, то конечно надо ставить запрет на индексацию.

      Ответить
  35. Алёна:

    Виталий, сегодня проверила какие страницы индексирует Яндекс и увидела вот такую http://mami.by/tag/podgotovka-k-rodam/. Оказывается все статьи вот так повторяются, да еще выводятся некрасиво. Подскажите, как прописать в robots.txt, чтобы запретить к индексации подобные ссылки?

    Ответить
    • Виталий Кириллов:

      Алена, такие ссылки формируют теги и чтобы запретить их индексацию в файле robots.txt надо прописать следующую директиву:
      [php]Disallow: /tag/[/php]

      Ответить
      • Алёна:

        Я догадывалась, что надо написать tag, но не знала надо ли после него / ставить.
        Спасибо, Виталий!

        Ответить
      • Алёна:

        А еще, Виталий, нашла вот такие ссылки — mami.by/2013/01/, а как их закрывать?
        А откуда взялась вот такая ссылка — mami.by/%D0%BF%D0%B8%D1%82%D0%B0%D0%BD%D0%B8%D0%B5-%D0%BF%0A%D1%80%D0%B8-%D0%B1%D0%B5%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D1%0A%81%D1%82%D0%B8/_dsc7627/
        вообще понятия не имею. Я бы вообще удалила бы эту картинку, т.е. чтобы она была в статье, а отдельно не открывалась. На как, может подскажите, Виталий?

        Ответить
        • Виталий Кириллов:

          Алена, кракозябры появляются, когда в URL присутствуют русские символы. Если это ссылка на картинку, переименуйте символы на английские, а затем удалите ссылку из изображения, которая начинается с href="http…."

          Ответить
  36. Александр:

    Приветствую, Виталий!
    А для запрета индексации всего блога достаточно написать в robots:
    Disallow:/ ?

    Ответить
  37. Александр:

    Или еще какие-то меры предпринять надо? Преждевременная индексация блога на поддомене мне сейчас абсолютно не нужна.

    Ответить
    • Виталий Кириллов:

      Для запрета индексации всего блога в файле robots.txt надо прописать следующее:
      User-Agent: *
      Disallow:/
      Больше в файле ничего не должно быть.

      Ответить
      • Александр:

        Спасибо, Виталий, именно этот комментарий мне помог закрыть от индексации сайт. До этого я не понял, где должно быть
        User-Agent: *
        Disallow:/
        Оказывается вместо всего остального 🙂

        Ответить
        • Виталий Кириллов:

          Пожалуйста Александр, рад видеть Вас на блоге!

          Ответить
  38. Александр:

    Спасибо!

    Ответить
  39. Тамара:

    Виталий!
    После полугодового индексирования моего сайта вдруг начали выпадать из индекса страницы. При проверке роботса Яндекс.Вэбмастер сообщил, что мой роботс запрещает сайт к индексированию. Как такое может быть?

    Я заменила роботс на чуть поправленный, написала в яндекс, но нет ни ответа, ни измененеий. Сегодня я ещё раз пересмотрела роботс и заменила его на другой. Яндекс.Вэбмастер пишет:
    строки 15-30
    User-agent: Yandex
    Disallow: /cgi-bin

    Что это значит?
    Написала письмо в Яндекс-поддержку о том, что я поработала над ошибками, заменила роботс и дала три статьи, как они просят, для проверки индексирования. Всё ли я сделала, что требовалось?

    Ответить
    • Виталий Кириллов:

      Я посмотрел Ваш robots, он конечно не идеален, но в нем нет ничего запрещающего индексацию контента. Тамара, у Вас одна страница в индексе Яндекса. Это значит, что сайт под фильтром. Я писал статью на эту тему, почитайте!

      Ответить
  40. Тамара:

    Виталий, Платон отвечает, что сейчас запрета к индексации в роботсе нет, поэтому сайт будет индексироваться, но надо подождать как минимум две недели, пока страницы не начнут появляться в индексе.
    Это фильтр?

    И вопрос. Вы пишете, что заливать роботс на хостинг надо через «FTP клиент Filezilla». Это обязательно? Я просто поместила файл в корень через файловый менеджер. Это правильно?

    Ответить
    • Виталий Кириллов:

      Тамара, посмотрим что будет через 2 недели. Файл robots вы загрузили правильно.

      Ответить
  41. Антон:

    Здравствуйте!
    Подскажите, почему то у меня на сайте в виджете adsense quick на главной странице сайта не отображается реклама Google, также почему то она перестала отображаться на другой странице. С чем это может быть связано, я подозреваю, что или с неправильным файлом robots.txt или с sitemap.xml.
    Robots.txt:
    User-agent: *
    Allow: */uploads
    Disallow: /cgi-bin
    Disallow: /wp-
    Disallow: */feed
    Disallow: /search
    Disallow: /xmlrpc.php
    Disallow: /tag
    Disallow: /category
    Disallow: /archive
    Disallow: */trackback
    Disallow: /*?*

    Host: 4y5.ru

    Sitemap: http:// 4y5.ru/sitemap.xml

    Ответить
    • Виталий Кириллов:

      Здравствуйте Антон!
      Директива
      Disallow: /wp-
      никуда не годится.

      Ответить
  42. Татьяна:

    Подскажите, а зачем вы отдельно для гугла и яндекса прописали директивы, а потом ещё и для всех сразу?

    Ответить
    • Виталий Кириллов:

      Татьяна, каждый робот в первую очередь руководствуется директивами, заданными именно для него. Не стоит обижать Гугл и ставить его в один ряд с остальными поисковиками.

      Ответить
  43. Ренат:

    Добрый день, Виталий!

    Хорошие статьи у вас, доходчиво и есть чему поучиться.
    Только у меня не получается с самого начала — не могу найти где хранится robots.txt в моей WP-теме, чтоб его изменить. А просто создать новый и «запихать» его в корень как-то не хочется при наличии «родного» — я надеюсь его все-таки найти).

    Помогите пожалуйста.

    Ответить
    • Виталий Кириллов:

      Ренат извините за задержку с ответом, были причины. Файл robots.txt располагается в корне сайта, т.е там, где находятся папки wp-admin wp-content и т.д.

      Ответить
  44. Салават:

    Почитал. Мне стало страшно от этого ужасного хтмл. Уразумению моему сие недоступно. Но штука занятная. Обязательно почитаю эту тему.

    Ответить
    • Александр:

      Салават, ну, не так страшен …хтмл, как его малюют! Разберетесь!

      Ответить
  45. Ольга Богач:

    Виталий, а как запретить индексировать файл с таким окончанием сайт.ru/xmlrpc.php
    И вообще, почему перевод с английского из программы переводчик Гугл вдруг стал индексироваться? Возможно, настройки в плагине XML Sitemaps, связанные с robots, были неверные?

    Ответить
    • Виталий Кириллов:

      Ольга, правильно будет так:
      Disallow: /xmlrpc*
      Индексироваться будет все, даже файлы движка, если не запрещать индексацию.

      Ответить
  46. Марина:

    Здравствуйте!
    В поиске нашла Ваш сайт. У меня тоже проблемы с robots.txt. До этого все работало нормально, а теперь выдает Яндекс ошибку: Указанный URL запрещен к индексации в файле robots.txt на сайте. Причем, вылетают статьи, которые я размещаю платно. Не сможете ли Вы мне помочь в этом вопросе?
    С уважением, Марина!

    Ответить
    • Виталий Кириллов:

      Здравствуйте Марина! Ваш файл robots.txt требует срочного лечения. Скопируйте мой вариант и многие проблемы исчезнут. Но еще раз хочу подчеркнуть, что для каждого сайта robots надо составлять индивидуально.

      Ответить
  47. Наташа Давыдова:

    Здравствуйте.
    Скажите, пожалуйста, а ели файлом robots.txt запрещено примерно 1830 страниц — это нормально? Или что-то неправильно настроено?

    Ответить
    • Виталий Кириллов:

      Здравствуйте Наталья! А сколько у Вас всего страниц на сайте?

      Ответить
      • Наташа Давыдова:

        У меня Загружено роботом 2009, в поиске — 114, исключено роботом — 1892.
        Всего статей на сайте — 86, страниц -10.

        Ответить
        • Виталий Кириллов:

          Наташа, я посмотрел файл robots.txt Вашего сайта. Так как некоторые директивы в нем прописаны на русском, то конечно файл настроен неправильно.

          Ответить
  48. Олеся:

    Здравствуйте, Виталий, спасибо за доступное подробное описание создания файла robots.txt
    Если данный файл составлен неправильно, то яндекс вебмастер покажет ошибку?
    В яндексвебмастере проверяется только дерректива для роботов яндекса?

    В моем файле robots.txt меня смущает вот такой момент:

    User-agent: Mediapartners-Google
    Disallow:
    User-agent: *
    Disallow: /wp-login.php
    …….
    допускается ли пустое место после Disallow: ?

    Ответить
    • Виталий Кириллов:

      Здравствуйте Олеся! Ошибки бывают разные и Яндекс, к примеру, не сочтет за ошибку запрещающую директиву на какую-нибудь нужную страницу, а поймет это как желание владельца ресурса и просто примет к сведению.
      Надо полагать, что Яндекс Вебмастер создан для Яндекса и как смотрят, на тот или иной момент, другие роботы, он вам не расскажет. Чтобы посмотреть как реагирует робот Google, то для этого надо обратиться в Google вебмастер.
      Пустое место после Disallow:, (т.е пробел) — допускается.

      Ответить
  49. Олеся:

    Спасибо за быстрый ответ, у меня еще вопрос, в яндекс вебмастере в разделе «индексирование сайта-страницы в поиске» помимо прочих страниц выдает и страницу с картой сайта вот с таким адресом мойсайт.ru/sitemap.xml
    Это так и должно быть или эту страницу тоже нужно закрывать в файле robots.txt ?

    Ответить
    • Виталий Кириллов:

      Олеся, не надо закрывать эту страницу) Это же карта сайта предназначенная специально для поисковиков)

      Ответить
  50. Олеся:

    Виталий, ваш пост писался в декабре 2012, а насколько представленный файл актуален на сегодняшний день? И в моем файле роботса бот гугла указан Mediapartners-Google а у вас в фйле стоит Googlebot , это одно и тоже или есть отличия?

    Ответить
    • Виталий Кириллов:

      Олеся, файл robots.txt, приведенный в статье актуален и по сей день. Googlebot — это основной робот обходчик Google. Если Вас интересуют все роботы Гугла, то информацию о них вы можете посмотреть тут. Там же вы найдете описание функций робота Mediapartners-Google.

      Ответить
  51. Олеся:

    Виталий, про разных роботов гугла прочитала, но так и не поняла для чего у меня в файле robots.txt стоит только Mediapartners-Google а Googlebot нет вообще.
    Т.е не могу понять возможна ли такая трактовка этого файла с применением Mediapartners-Google вместо Googlebot и что это мне дает эта замена?

    Ответить
    • Виталий Кириллов:

      Исходя из документации, робот Mediapartners-Google индексирует рекламные объявления от Google. Например, если на блоге закрыты от индексации рубрики, теги и постраничная навигация, директивами:

      User-agent: Googlebot
      Disallow: /category/
      Disallow: /page/
      Disallow: /tag/
      

      То реклама от Google AdSense на данных страницах показываться не будет. А если установить отдельную (пустую) разрешающую директиву для Mediapartners-Google:

      User-agent: Mediapartners-Google
      Disallow:
      User-agent: Googlebot
      Disallow: /category/
      Disallow: /page/
      Disallow: /tag/
      

      То объявления на данных страницах появятся. Вот для чего нужен робот Mediapartners-Google.
      В вашем robots нет директив отдельно для Google, вместо этого используется:

      User-agent: *
      

      Что означает — любой робот.

      Ответить
  52. Олеся:

    теперь понятно, спасибо большое!

    Ответить
  53. Олеся:

    с этим файлом вышел вот такой казус:
    в robots.txt прописано

    Disallow: /page/
    Disallow: /*page*/

    …и страница с концовкой мойсайт.ru/spagetti-v-multivarke/ — запрещается этим правилом, так содержит в себе «page»

    Как в таком случае поступать?

    Ответить
    • Виталий Кириллов:

      Олеся, уберите директиву:
      Disallow: /*page*/
      Она предназначена, для запрета индексации страниц с комментариями, т.е. когда комментариев много и они начинают делится на страницы, вот тогда эта директива актуальна.

      Ответить
  54. Олеся:

    Виталий, убрала в robots.txt директиву Disallow: /*page*/ , теперь когда проверяю sitemap.xml через яндекс вебмастер и ввожу адрес страницы …мойсайт.ru/spagetti-v-multivarke/ , то доступ пишет «разрешен» (до этого был запрещен), но в гугл в инструментах для вебмастеров по прежнему выдает предупреждение «Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt» и указывает эту страницу …мойсайт.ru/spagetti-v-multivarke/
    Что же гуглу не нравится?

    Ответить
    • Виталий Кириллов:

      Олеся, а вы поменяли содержание robots.txt в вебмастере Гугла?

      Ответить
  55. Олеся:

    нет не забыла поменять, проверила сейчас еще раз, гугл все равно выдает предупреждение именно по этой странице

    Ответить
    • Виталий Кириллов:

      Олеся я не вижу в Вашем robots.txt никаких директив, которые могли бы запрещать индексацию данной страницы. Если Вы вставили новый файл robots.txt в Гугл вебмастер, в поле вкладки «Заблокированные URL», в котором уже нет директивы:
      Disallow: /*page*/
      То как Гугл может ругаться на несуществующую директиву?

      Ответить
  56. Олеся:

    вот и я не пойму, в том что у меня нет этой дерективы в файле роботс вы сами можете посмотреть http: // www. retseptdlyamultivarki.ru/robots.txt, но вот скрин о том что выдает гугл при этом http: // gyazo.com/ 7972d7eb8c91d4ae1c60d1dff9740364

    Ответить
    • Виталий Кириллов:

      Олеся, да Вы не там robots проверяете. Надо пройти: Сканирование -> Заблокированные URL, скопировать содержание файла роботс и вставить в поле. А в поле снизу вставить URL, который по Вашему предположению блокирован и тогда Гугл укажет вам точно, какая директива его блокирует и даже покажет номер строки. Олеся, Вам бы надо выделить время и разобраться в инструментах Гугл Вебмастер!

      Ответить
  57. Олеся:

    Виталий, вы правы в том что с гуглвебмастером мне еще нужно разбирться, но дело в том, что на том скане я проверяла карту sitemap.xml , которую только позавчера переделала, сделав ее динамической с помощью плагина All In One SEO Pack по вашей статье, а потом пошла ее проверять в гуглвебмастер.

    Сейчас проверила robots.txt и заблокированный url как вы написали выше и опять гуглвебмастер выдает что страница запрещена.

    Но посмотрев далее я увидела что там указана дата закачки robots.txt 19.02.14 а в это время у меня в этом файле еще была дирректория Disallow: /*page*/

    Возможно ли в гуглвебмастере обновить robots.txt ручками как это делается в яндексвебмастере или нужно просто подождать пока гугл сделает это сам?

    Ответить
    • Виталий Кириллов:

      Олеся, надо просто скопировать содержание нового файла robots, вставить в поле инструмента «Заблокированные URL» проверить URL и если Гугл скажет, что URL открыть для индексации, то можно на этом успокоится!

      Ответить
  58. Олеся:

    таким образом я проверила и успокоилась ))) и спасибо что быстро и понятно отвечаете на комментарии, не на всех сайтах это встретишь!

    Ответить
    • Виталий Кириллов:

      Олеся, я тоже когда-то был зеленым и также приставал к более опытным веб-мастерам с вопросами. И я как никто я понимаю, что новичку очень трудно разобраться в море противоречивой информации, коей кишит поисковая выдача.

      Ответить
  59. Анна:

    Виталий здравствуйте. Я на днях решила открыть категории ранее запрещеные в роботсе ведь у меня кулинарный сайт и тут же резко упала посещалка с яндекса. Как вы думаете это связано с этим или нет?

    Ответить
    • Виталий Кириллов:

      Анна, трудно сказать однозначно, возможно надо подождать, чтобы собрать больше информации. Может это временный спад.

      Ответить
  60. Александр Силиванов:

    Виталий, приветствую!
    Делаю для некоторых статей содержание. При переходе по ссылке из пункта содержания в ЮРЛе добавляется значок # и ID, присвоенный этому разделу.
    Как правильно закрыть в файле robots такой текст, чтобы не было дубля? Disallow: #/?
    Или Disallow:/*# ?

    Ответить
    • Александр Силиванов:

      Вопросительные знаки, конечно, не относятся к файлу robots — это просто знак вопроса.

      Ответить
    • Виталий Кириллов:

      Александр, значок # — это обозначение якоря. Приведите мне в пример окончание ссылки, я посмотрю.

      Ответить
      • Александр Силиванов:

        Ну, например, окончание ссылки получается таким — interesnye-lishajniki.html#ud3.
        ud3 — это ID, присвоенный части статьи.

        Ответить
        • Виталий Кириллов:

          Александр, как понять части статьи? Если в статье задан якорь, то обращение к этому якорю идет как раз через символ # и такой URL не является дублем.

          Ответить
  61. Александр Силиванов:

    Уже сообразил. Обращение к якорю после тега more также ведь идет через символ #

    Ответить
  62. Виталий:

    Здравствуйте. Подскажите как сделать, чтоб индексировалась страница моего сайта с фотографиями?
    С Ув.

    Ответить
    • Виталий Кириллов:

      Виталий, Ваш сайт находится по фильтрами поисковых систем, поэтому страницы не индексируются.

      Ответить
  63. Алексей:

    Здравствуйте! Если убрать урл с картинок, то как их можно посмотреть во весь размер?

    Ответить
  64. Алексей:

    Подскажите плиз как в коде и где именно (в каком файле) удалить вывод ссылок в картинках? чтобы в каждой странице не удалять руками эти ссылки

    Ответить
    • Виталий Кириллов:

      Алексей, можно по поподробнее!

      Ответить
  65. Alex Alex:

    Здравствуйте! Инструкция у Вас — очень понятна для новичков, но вот нигде не нашел информации о том, понимает ли robots.txt не одну, а две звездочки?
    Или как вообще поступить:
    Проблема такая — по страницам Жилых Комплексов в индекс случайно залетели страницы конкретных квартир, которые в индексе не нужны. Например страница ЖК — http://www.mxcity.ru/realty/zhk-11780/, а страницы квартир — http://www.mxcity.ru/realty/zhk-11780/kv147821/, http://www.mxcity.ru/realty/zhk-11780/kv147829/

    Можно ли прописать
    Dissalow: /realty/zhk-*/kv*

    или нужно прописывать к каждой странице ЖК директиву:
    Dissalow: /realty/zhk-11780/kv*
    Dissalow: /realty/zhk-bagatel/kv*

    Заранее спасибо за ответ!

    Ответить
    • Виталий Кириллов:

      Здравствуйте!
      Можно прописать запрет так:
      Dissalow: */kv*

      Ответить
  66. Alex Alex:

    Спасибо огромное!

    Ответить
  67. Александр:

    Здравствуйте.
    У меня сайт в доменной зоне «.рф», русское название Яндекс не понимает — в окне для роботс.тхт — квадратики. Я прописал адрес сайта на англ.языке, который мне прислали по почте от хостера(по нему выходит на русское имя сайта)- я прописал правильно хост? Или есть какие-либо нюансы в файле роботс.тхт для доменной зоны «.рф»?

    p.s.- посмотрел по инету, как прописаны адреса зоны «.рф» у других блогов/сайтов, но к моему удивлению обнаружил, что у многих вообще нет такого файла, а других буквально пару строчек и никаких строк на хост.

    Спасибо.

    Ответить
    • Виталий Кириллов:

      Здравствуйте Александр! Вы прописали хост правильно!

      Ответить
  68. Sasha:

    Спасибо большое за ссылку!) А обязательно после category и других ставить в конце /? Там, откуда я скачивала, слешей в конце нет. Может, их все-таки нужно поставить, или это не имеет значения?

    Ответить
    • Виталий Кириллов:

      Обратите внимание на URL страниц с категориями, с постраничной навигацией и т.д. Вы увидите, что «category» или «page» находятся между двумя слешами. В статье я подробно описал синтаксис файла robots.txt. Также можно проверить любую директиву в Гугл вебмастер на странице «Заблокированные URL».

      Ответить
      • Sasha:

        Поняла, нужно будет дополнить. А как много времени обычно уходит на то, чтоб Яндекс заметил перемены в этом файле?)

        Ответить
        • Виталий Кириллов:

          По хорошему, надо вручную удалить дубли, через Яндекс вебмастер, тогда и ждать не придется.

          Ответить
  69. Ирина:

    Виталий, и ещё раз добрый вечер!

    У меня установлен плагин all in one seo pack, карту сайта xml нашла через файл зиллу в папке plugins/папка плагина.

    Если прописать запрет на индексирование всей папки plugins, роботы перестанут карту сайта индексировать. Можно ли её вынести за пределы папки плагина в корневую директорию? Или нет, учитывая, что она динамически генерируемая?

    Ещё вопрос, где найти robots.txt?? В папке сео плагина его нет, хотя в панели яндекс вебмастер показывает, что файл присутствует.

    Заранее признательна за Ваш ответ!

    Ирина

    Ответить
    • Виталий Кириллов:

      Ирина еще раз здравствуйте!
      С чего Вы взяли, что нашли XML карту по указанному Вами адресу? Она, как Вы правильно заметили, должна располагаться в корне сайта. Ничего переносить не надо, прочитайте мою статью про динамическую карту сайта.
      Файл Robots.txt сам не создается, если конечно он не динамический, вы его должны создать сами и расположить в корне сайта.

      Ответить
  70. Ирина:

    Виталий, большое спасибо за Ваш ответ.

    Ну, я нашла некий файл с расширением xml и думала, что это карта сайта и есть:)

    А файл роботс находит яндекс через панель вебмастеров и показывает, что там даже проставлен запрет на индексировать двух директорий (хотя я вижу, что яндекс их все равно индексирует спокойно…)

    Сделаю как Вы говорите: ничего трогать не буду, создам карту и роботс и положу в корень сайта.

    Большое спасибо за помощь!!

    Ответить
  71. Odessit:

    Добрый день, вижу что Вы можете мне помочь в моём вопросе (я на это очень надеюсь). У меня кулинарный блог и как я понимаю, сам текст комментариев не надо закрывать от индексации (если это вообще возможно), так как я заметил, что именно из комментариев, бывает по какому-то запросу статья оказывается на хорошем месте в поиске (видел такое неоднократно на других сайтах). А что делать с ссылками на сами комментарии? Или они не создают дубли?
    Вот я смотрю на ваш робост, вы можете мне ответить, за что отвечает каждое правило?
    Disallow: /wp-comments
    Disallow: /comments
    Disallow: /comment

    Как я понял из комментариев, Disallow: */comments закрывает дубли страниц, если комментариев много и они разбиты на несколько страниц. Спасибо.

    Ответить
    • Виталий Кириллов:

      Здравствуйте!

      Disallow: /comment — закрывает страницу с комментарием, но надо заметить, что вездесущий Google все равно будет индексировать данные страницы и отправлять в свой сопливый индекс. Но если их не закрыть , то создастся дубль, что еще хуже.
      Disallow: /comments — Вы все правильно поняли!

      Ответить
  72. Odessit:

    Спасибо за ответ. Тогда созрел вопрос, почему у вас на данном блоге нет Disallow: /comment, не боитесь дублей?

    Ответить
    • Виталий Кириллов:

      Я совсем недавно изменил свой robots, так как провожу эксперимент и закрыл дубли другим способом. По результатам эксперимента обязательно напишу статью.

      Ответить
  73. янис:

    Здравствуйте Виталий! Вот роботс-это моя головная боль…Скажите, как правильно написать директиву Allow, чтобы разрешить картинки к индексации, они у меня находятся в папке wp-content/uploads/2014 (вот именно в 2014), а в uploads есть файлы, которые я не хочу открывать к индексации, мне надо открыть только 2014 с картинками, а остальное чтобы закрыто было…я прописал Allow:/wp-content/uploads/2014, но вот правильно ли это??

    Ответить
    • Виталий Кириллов:

      Здравствуйте Янис! Если вы хотите запретить индексацию файлов, например расположенных в папках 2013 или 1013 и разрешить индексацию только 2014, то прописать надо так:
      Disallow: /2012
      Disallow: /2013
      Allow:/ 2014
      Хотя разрешающую директиву можно и не прописывать, достаточно запретить индексацию файлов из папок 2012 и 2013.

      Ответить
  74. янис:

    Ну я вот именно про такой путь: wp-content/uploads/2014, у меня стоит запрет на Disallow: /wp-content/,а папка с картинками(2014)как видите идет по этому пути, в результате я прописал:
    Allow: /wp-content/uploads/2014
    Disallow: /wp-content/-это правильно??
    Или можно вот так:
    Allow: /2014
    Disallow: /wp-content/
    ??

    Ответить
    • Виталий Кириллов:

      Я понял Вас Янис, лучше пропишите полный путь:
      Allow:/wp-content/uploads/2014

      Ответить
  75. янис:

    мне тоже так кажется, тем более проверял через анализ роботс яндекса, гугл уже индексирует, но вот яндекс тормозит на счет картинок, хотя я это прописал давно, уже несколько апов прошло..

    Ответить
  76. Triana:

    Здравствуйте. Я не особый специалист и к тому же обзавелась странной проблемой. Боюсь все испортить, по этому хочу прежде спросить.
    Есть у меня сайт, к нему субдомен, который я пытаюсь продвигать.
    И вот гуглвэбмастер обнаруживает на субдомене кучу не найденных страниц.
    Не знаю как, но к любым url от субдомена в конце просто добавился адрес главного сайта.

    Например ru.st******************/www.st**********com
    Как мне исключить из индексации именно странички с таким окончанием?

    Ответить
    • Виталий Кириллов:

      Здравствуйте Triana! Точнее пожалуйста, какие окончания Вы имеете в виду?

      Ответить
  77. Triana:

    Допустим….

    главный: site.com
    субдомен: ru.site.com

    На русском в конце абсолютно разных URL почему-то появляется /site.com

    Например: ru.site.com/старый-новый-год/www.site.com

    и в итоге уже есть 72 ошибки 404

    Как можно хотя бы исключить их в роботс?
    Или что могло быть причиной? Какое-то недоразумение)
    Можно просто взять и удалить эти URL?

    Ответить
    • Виталий Кириллов:

      Если, эти страницы выдают ошибку 404, то закрывать их не надо, а надо искать битые ссылки.

      Ответить
  78. Triana:

    Ух…) Наконец-то, все исправила)
    Говорила, что недоразумение.
    Добавила ссылку на главный сайт в меню, которое есть на всех-всех страницах субдомена.
    И ошибки умножались с каждым днем. Даже не берусь считать, за 200 штук было точно.
    Всего лишь написала его с www. а надо было без.

    Огромное Вам спасибо!) Удачи и процветания)
    Как хорошо теперь жить без этой головной боли)

    Ответить
  79. Алексей:

    Здравствуйте, Виталий.
    Насколько я понял Ваш конёк это WordPress. У меня вопрос по другой CMS, у меня WebAsyst Shop Script 5. У этой системы файл robots.txt в явном виде не присутствует, однако в настройках сайта есть определенное окно, в котором и создается этот файл. Не могли бы Вы посмотреть мой robots.txt. Я закрыл (во всяком случае пытался) все административные настройки, оставил только public и папку XML. WebAsyst рекомендует другие настройки. Что лучше?

    Ответить
    • Виталий Кириллов:

      Алексей в Вашем robots.txt не указан путь до файла sitemap.xml.

      Ответить
  80. Алексей:

    Здравствуйте.
    Совсем забыл. Вот мой сайт:
    chukokkala.ru/
    а вот что рекомендует WebAsyst:
    webasyst.ru/help/149/shop-script-5-robots-txt/
    И ещё вопрос:
    у меня есть необходимость закрыть для индексирования страницы с отзывами о товаре. URL у них такой:
    chukokkala.ru/shop/30/reviews/
    Как мне правильно закрыть все страницы с reviews ?
    Заранее благодарен.

    Ответить
    • Виталий Кириллов:

      Алексей я к сожалению не знаком с WebAsyst Shop Script 5 и не могу дать точные рекомендации.
      Если Вам надо закрыть именно этот отзыв, то директива должна выглядеть так:

      Disallow: shop/30/reviews/

      Ответить
  81. Алексей:

    Здравствуйте, Виталий.
    Спасибо за ответ. Я бы многое сейчас отдал, чтобы не быть знакомым с Shop Script 5, а заодно и со службой поддержки WebAsyst. Но к сожалению паровоз ушёл. С файлом sitemap.xml сейчас буду разбираться.
    Я наверное неправильно задал вопрос. Дело в том, что в выражении:
    chukokkala.ru/shop/30/reviews/
    30 — номер отдельной страницы товара (или его ID). Если я буду закрывать отзывы указанным способом, то на каждый товар в robots.txt придется прописать отдельную строку:
    Disallow: shop/30/reviews/
    Disallow: shop/30+1/reviews/
    Disallow: shop/30+2/reviews/

    Нельзя ли закрыть все reviews (как существующих товаров, так и тех, которые только будут созданы) как-нибудь так:

    Disallow: /reviews $

    Правильно ли это?
    Заранее благодарен.

    Ответить
    • Виталий Кириллов:

      Если я Вас правильно понял, то запрет должен выглядеть так:
      Disallow: /reviews
      Будет достаточно!

      Ответить
  82. Алексей:

    Премного благодарен. Вчера воспользовался Вашим советом — загрузил себе LastPass ну очень нравится. Спасибо

    Ответить
  83. Алексей:

    Есть ещё вопрос:
    На моём ресурсе сразу три поселения: блог, магазин и хостинг фоток. Каждому поселению соответствует свой файл sitemap:
    http://chukokkala.ru/sitemap.xml
    Как правильно это отразить в robots? Указать все строчки на каждый файл? Или указать URL, который ведет на все три?

    Ответить
    • Виталий Кириллов:

      Укажите URL, который ведет на все три.

      Ответить
  84. Алексей:

    Добрый вечер, Виталий.

    Если я Вас правильно понял, то запрет должен выглядеть так:
    Disallow: /reviews
    Будет достаточно!

    не закрывает отзывы это выражение.
    Вот

    Ответить
    • Виталий Кириллов:

      Попробуйте так:
      Disallow: */reviews

      Ответить
  85. Алексей:

    Нашёл я решение в настройках модуля. Так что проблема решена…

    Ответить
  86. Алексей:

    Виталий,
    спасибо Вам за внимание. Я нашёл иной способ борьбы с отзывами, просто убрал возможность их появления в настройках CMS. Правда много проиндексированных Яшей и пр. страниц ведут именно на отзывы (reviews), коих уже нет. Обидно. Главное робот дошел до этой страницы, а предыдущие (самые необходимые) пропустил.
    С нижайшим почтением к Вашему труду

    Ответить
  87. Василий:

    Доброй ночи. Очень рад что нашел Ваш блог! Живой блог!!! С удовольствием читаю. И только что благодаря Вам создал такий файли как роботс и сайтмэп. Но Есть (она не может не есть) у меня такая трабла с сайтом. Пробую добавить его в гугл вебмастер на Маркер (Вид поиска) и он мне определяет устаревшую страницу. Также заметил, что при нажатии на поделится в фейсбук или одноклассники он выдает мне устаревшую картинку с сайта bodas.net (вставлял от них эту картинку как награду). С главной страницы убрал одну фото галерею, а гугл в Маркере ее снова ставит, поменял название сайт (и в шаблоне и в SEO, и описании) и ничего. Думал кэш, чистил браузер, пробовал другой, чистил кэш сайта (плагинами) а воз и ныне там. Неделю уже меняю все на сайте, перенес альбомы, коечто удалил, чтото добавил. А гугл и соц.сети этого не видят. Что делать??? ❓ ❓ ❓ Помогите пожалуйста. Если нету времени подробно, то хотябы в каком направлении искать??? Спасибо

    Ответить
    • Виталий Кириллов:

      Здравствуйте Василий! Ваш сайт плохо индексируется из-за этого все проблемы. Посмотрите когда последний раз заходили к Вам роботы Яндекса и Гугла.

      Ответить
  88. Алексей:

    Здравствуйте, Виталий.
    Сегодня я получил рассылку с Вашего блога в которой были ссылки на два последних сообщения из этого раздела. Откровенно говоря, когда я подписывался на рассылку, я предполагал, что буду получать ссылки на Ваши новые статьи. Проблемы начинающих веб-мастеров мне интересны только с точки зрения развития собственных проектов. Что надо сделать чтобы ограничить рассылку только Вашими статьями?

    Ответить
    • Виталий Кириллов:

      Алексей, вы наверное подписались на комментарии к этой статье, просто отпишитесь от получения комментариев.

      Ответить
  89. Нина:

    Добрый день. Файл access.log содержит множество строчек следующего типа:
    37.140.141.11 — — [12/Sep/2014:02:39:20 +0400] «GET /shop/?filter_size=523&filter_length=460,392 HTTP/1.0» 200 59004 «-» «Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)»
    37.140.141.11 — — [12/Sep/2014:02:39:27 +0400] «GET /shop/?filter_length=396,462,463,464,393 HTTP/1.0» 200 62626 «-» «Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)»

    Подскажите как в файле robots.txt это можно заблокировать?

    Ответить
  90. Erem:

    Привет. Прошу меня скажите,как сделать правильный робот.тхт, чтобы индексация былo только для статье ,фото ,категории и тег. А остальные запретить ?

    Ответить
  91. Алексей:

    Здравствуйте.
    Никак не могу решить вопрос. Может тут мне помогут. Скажите пожалуйста как запретить пользователям открывать файл robots.txt? Например сейчас любой может перейти по ссылке http://имясайта.ru/robots.txt и увидеть какие страницы я прячу

    User-agent: *
    Disallow: /superzag

    И перейдя по адресу http://имясайта.ru/superzag может перейти на страницу которую я разрешаю просматривать только подписавшимся на мой блог пользователям.

    Можно как то сделать что бы люди не могли отрывать robots.txt? Что бы при попытке открыть
    их переадресовывало на другую страницу. Или может даже выдавало ошибку 404. Да что угодно
    лишь бы никто не видел этот файл.

    Но для поисковых роботов все должно быть как положено, что бы они нормально воспринимали
    роботс файл.

    Ответить
  92. Игорь:

    Здравствуйте, Виталий!
    Подскажите пожалуйста, нужно ли закрывать от индексации страницы авторов сайта в файле Robots.txt?
    У меня на сайте у авторов (в данный момент только у меня, как админа) есть отдельные страницы с уникальными урлами, где представлены все статьи с их кратким описанием.
    Данная страница у меня попала в индекс.
    В связи с чем получились дубли, на сколько я понимаю.
    Нужно ли в Robots.txt прописать строку: Disallow: /author/*/* ??

    Ответить
  93. Ольга:

    Здравствуйте, Виталий!
    Разобраться в Роботсе мне, особо одаренной в области сайтостроения, очень сложно. Не могли бы вы посмотреть мой роботс? Пожалуйста! Он был составлен на старый шаблон темы сайта. Тему я поменяла сама. Cейчас устанавливаю и настраиваю правильные плагины по вашим статьям. С файлом роботс я запуталась и боюсь что-либо в нём менять сама.
    — старый файл роботс подходит для новой темы или нет?
    — Что закрыто в этом файле?, по-моему закрыто всё! и рубрики, и коменты и ….
    и ещё я проверила, как вы написали в статье, свой файл роботс, Яндекс мне выдал вот это:

    15-28
    User-agent: Yandex
    Disallow: /cgi-bin

    Host: igolo4ka1.ru
    30-31
    Sitemap: http://igolo4ka1.ru/sitemap.xml.gz
    Sitemap: http://igolo4ka1.ru/sitemap.xml

    — и что эти строчки значат? Хорошо это или плохо?

    Заранее спасибо за ответ. Очень хочу разобраться с вашей помощью. ТИЦ скатился до нуля, PR до 1.

    Ответить
    • Виталий Кириллов:

      Здравствуйте Ольга! Настраивать индексацию сайта лучше с помощью мета-тега robots. Как это делается, читайте здесь. Там же Вы найдете идеальный вариант robots.txt.

      Ответить
  94. Ольга:

    Не нажала кнопку Оповещать о новых комментариях. Жму!

    Ответить
  95. Тимур:

    Информатика — Kazportal.kz
    kazportal.kz/category/informatika/ — Перевести эту страницу
    Описание веб-страницы недоступно из-за ограничений в файле robots.txt. Подробнее…

    Что это значит, и как решить ? Заранее благодарен

    Ответить
    • Виталий Кириллов:

      Это значит, что данный URL заблокирован в файле robots.txt и робот не может прочесть содержимое данной страницы.

      Ответить
  96. Тимур:

    Если вводит в google saite:kazportal.kz/
    в результатах 6 страниц
    и внизу пишет что еще 7 страниц были найдены очень похожие на этих 6 страниц, поэтому они скрыты
    Это что значит пожалуйста помогите, я новичок в этом деле

    Ответить
  97. Тимур:

    Я прочитал вашу статью с большим интересом, за это спасибо вам, но я хочу чтобы робот проиндексировал весь контент (страниц и рубрик), вы можете посмотреть на мой файл robots.txt, и подсказать чтобы все индексировалась ?

    Заранее огромное спасибо !!!!!

    Ответить
    • Виталий Кириллов:

      Тимур, у вас нет запретов на индексацию рубрик и страниц. Вы можете проверить индексацию в Гугл вебмастер (сканирование -> инструмент проверки файла robots.txt).

      Ответить
  98. Тимур:

    Я проверил как вы сказали, на все страницы и рубрик и проверил каждую запись на всё у меня доступ разрешен, но когда я ввожу в поиск: saite:kazportal.kz/ мне выдает 7 страниц, а рубрики скрыты внизу, посмотрите пожалуйста что это значит, помогите пожалуйста

    Ответить
    • Виталий Кириллов:

      Тимур, какой возраст у Вашего сайта?

      Ответить
  99. Тимур:

    Купил домен и хост неделью назад

    Ответить
    • Виталий Кириллов:

      Ну тогда чего Вы хотите. На индексацию молодых сайтов уходит до 3 месяцев. Наберитесь терпения и лучше закройте дубли, а то загремите под АГС.

      Ответить
  100. Тимур:

    А какие дубли? У меня вроде нет же дубли страниц

    Ответить
    • Виталий Кириллов:

      Так правильно откуда им взяться, если у Вас на страницах даже текста нет. Вы в исходный код заглядывали (Ctrl +U). Сайта строение не такое простое дело, как Вам кажется Тимур и сайты строятся годами, а не за 7 дней.

      Ответить
  101. Тимур:

    Извините меня что беспокою каждый раз, но на сайте у меня плагин стоит для текстов, точнее для doc формата, вы хотите сказать что гугл не индексирует эти записи ??

    Ответить
    • Виталий Кириллов:

      Конечно нет, как он их будет индексировать если нечего индексировать. Робот читает исходный код!

      Ответить
  102. Зуля:

    Добрый день, Виталий.
    Спасибо за статью. У меня такой вопрос. На моем сайте на странице bibinur.ru/krasota.html располагаются только анонсы статей, которые я бы хотела закрыть от индексации. А желаемые статьи для индексации находятся здесь bibinur.ru/krasota/ukhod-za-litsom/uchazhivaem-za-kozhey-zimoy.html .
    Как запретить к индексации саму страницу krasota, но не запрещать к индексации uchazhivaem-za-kozhey-zimoy.html ?
    Заранее спасибо.

    Ответить
    • Виталий Кириллов:

      Здравствуйте Зуля!
      Странно у Вас ЧПУ настроены. У вас и bibinur.ru/krasota.html, а есть и просто bibinur.ru/krasota, причем открываются одинаковые страницы. Прежде чем настраивать индексацию, вам с ЧПУ надо разобраться и со страницей ошибки 404.

      Ответить
      • Зуля:

        Спасибо большое за быстрый ответ. Буду разбираться.

        Ответить
  103. Макс:

    Спасибо, подробненько так!

    Ответить
  104. Сергей:

    Здравствуйте. А можете вставить в свою статью файл robots.txt для wordpress в котором были бы все обязательные к закрытию элименты блога. А то мой блог попал под агс яндекса из за того, что он нашёл 1000 ссылок на мой сайт (мой блог сам на себя ссылался). Вот к чему привела беспечность. Для вордпресса обязательно нужно составлять robots.txt.

    Ответить
    • Виталий Кириллов:

      Здравствуйте Сергей! Как правильно настроить индексацию сайта я писал тут.

      Ответить
  105. Сергей:

    Здравствуйте.
    Я хочу закрыть индексацию пары страниц своего сайта для всех роботов.
    Для этого я должен закрыть их здесь User-agent: *
    и продублировать здесь User-agent: Yandex.
    (Для других роботов у меня отдельных директив нет)
    Я правильно думаю, подскажите пожалуйста.

    Ответить
    • Виталий Кириллов:

      Сергей, вовсе не обязательно это делать через файл robots.txt. Если Вы используете плагин All in One SEO Pack, то можно закрыть любую страницу с помощью мета-тега robots, проставив галочки в соответствующий пунктах, непосредственно под записью.

      Ответить
  106. Тимур:

    У меня такой вопрос, я сделал постраничную навигация сайта, теперь не могу понять стоит ли эти страницы закрыть от индексации, (page1, page2, page3, и.т.д.), точнее я уже закрыл в роботс Disallow: /*page, правильно ли это, будет ли гугл индексировать записи ?

    Ответить
    • Виталий Кириллов:

      Тимур, если Вы закроете страницы пагинации в файле robots.txt, то они окажутся в «сопливом» индексе Гугла, так как на них ведут внутренние ссылки. Для этих целей белее подходит мета-тег robots.

      Ответить
  107. Alx:

    Подскажите пожалуйста, я уже с ума сошел — при проверке на вебмастере яндекса, вместо роботса закачивается код страницы… в чем может быть проблема?

    Ответить
    • Виталий Кириллов:

      У вас файл robots.txt в какой директории находиться?

      Ответить
  108. Владимир:

    Добрый день. Подскажите, пожалуйста, почему яндекс не хочет индексировать ни одной картинки на моем сайте? С Гуглом проблем нет.
    Может необходимо внести изменения в robots.txt ?

    Ответить
    • Виталий Кириллов:

      Ну почему же не одной, проиндексировано 23 картинки. Файл роботс тут не причем, просто картинки не уникальные. Об уникальности картинок я писал тут.

      Ответить
      • Владимир:

        А с помощью чего Вы их обнаружили? В Яндекс.Картинки вбивая в строку поиска host:домен, показывает только 4 картинки

        Ответить
        • Виталий Кириллов:

          site:домен без http

          Ответить
  109. Fiouyrt:

    Добрый вечер, подскажи как закрыть в роботс комментарии, вот окончание /#comment-11 возможно ли или легче убрать виджет с тулбара последними комментариями?

    Ответить
    • Виталий Кириллов:

      Здравствуйте! Последни комментарии лучше убрать.

      Ответить
      • Fiouyrt:

        Спасибо за ответ, после того как Вам написал вопрос, подумал немного и убрал) удачного развития вам вашего блога

        Ответить
  110. Сергей К.:

    дравствуйте!

    Спасибо за полезную статью. Теперь знаю, что для моего сайта сделали неправильный файл robots.txt . Посмотрел, такие вопросы Вам вроде ещё не задавали. Поэтому просьба разъяснить следующее:

    1. На сайте с WordPress с ЧПУ мне нужно закрыть от индексации наряду со служебными разделами WP также результаты поиска по сайту и дубли. Если написать в robots.txt эти две директивы:
    Disallow: /?s=
    Disallow: /*?*
    то не будут ли исключены из индекса нужные мне УРЛы, в адресах которых присутствует буква «s» ?

    2. Мой сайт создан не для блога, на нем нет регистрации для посетителей, соответственно нет логин / пароль для входа, нет возможности для комментариев и т.д. В таком случае нужны ли вообще в robots.txt эти директивы во всех вариациях:
    Disallow: /wp-login.php
    Disallow: /wp-register.php
    Disallow: /trackback
    Disallow: /trackback/
    Disallow: */trackback
    Disallow: */trackback/
    Disallow: */*/trackback
    Disallow: /feed/
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /?feed=
    Disallow: /comments/
    Disallow: */comments/

    Если нужны, то какие именно?

    3. Если из-за неправильного robots.txt сейчас имеются дубли, то они вскоре выпадут из индекса после того, как robots.txt будет исправлен? Или нужно принимать специальные меры?

    Заранее спасибо.

    Ответить
  111. Сергей К.:

    Здравствуйте, Виталий!

    Спасибо за ответ.

    Ещё один вопрос, на который не могу найти ответ. Был бы благодарен за Ваше мнение. Напомню, что мой сайт — не блог, а сайт небольшого агентства недвижимости.

    Сайт на WordPress, подкорректировал robots согласно рекомендациям, а также примерам на различных сайтах. Наряду с прочими директивами имеются и вот эти:
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/themes/

    Проверяю мои страницы в webmaster Гугла в разделе «Посмотреть как Googlebot». При таком robors на страницах отображаются только тексты, то есть сайт выглядит как полу-фабрикат. А фотографии, дизайн, элементы оформления, таблицы и т.д. не видны. Указывается, что блокировка этих элементов происходит из-за директив:
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/themes/

    В этой связи вопрос. Так и должно быть, что сайт выглядит для поисковиков усеченным? Или всё же он будет понижен в результатах выдачи поисковиков из-за того, что он выглядит в их глазах ущербным? Если последнее верно, то что нужно сделать, чтобы исправить ситуацию?

    Сергей К.

    Ответить
    • Виталий Кириллов:

      Здравствуйте Сергей!
      В файле robots.txt надо запрещать индексацию только служебных файлов, к коим и относятся файлы, расположенные в каталогах:
      Disallow: /wp-includes/
      Disallow: /wp-content/plugins/
      Disallow: /wp-content/themes/
      Нет, за это никаких санкций со стороны поисковиков, быть не должно.

      Ответить
  112. Сергей К.:

    Большое спасибо за ответ. Всего Вам доброго.

    Ответить
  113. Max:

    На данный момент гугл ругается, что сайт выглядит ущербным и требует окрывать доступ к css и javascript, и не соблюдение этого может ухудшить позиции сайта в Поиске

    Ответить
    • Виталий Кириллов:

      Все верно, надо просто открыть Гуглу все файлы, которые он требует. Какие файлы открывать, можно посмотреть в Гугл Вебмастер (Индекс Google — Заблокированные ресурсы). Кроме css и js файлов Гугл требует открыть и служебные изображения.

      Ответить
  114. Ольга Happy:

    Здравствуйте, скажите, пожалуйста, в чем может быть проблема. Сегодня зашла в гугл-вебмастер и там появилось сообщение от 06.09.15, что доступ запрещен к:
    wp-content/uploads/2015/08/
    файл robot.txt не меняла, в таком состоянии находится в течение последних 5-6 месяцев.

    Ответить
    • Виталий Кириллов:

      Ольга, в файле robots.txt запретов нет по данному URL. Здесь что-то другое.

      Ответить
      • Ольга Happy:

        Спасибо, буду искать причину

        Ответить
  115. Ксенья Юрьевна:

    Виталий! Это ваша статья, я на нее подписывалась и читала несколько раз. Встретилась в Интернете мне случайно, этот человек ее у вас украл и написал почти слово в слово. Разберитесь, если хотите, посылаю вам ссылку.
    memorialplace.ru/meta-teg-robots-pravilnaya-nastroyka-indeksatsii-sayta.html

    Ответить
    • Виталий Кириллов:

      Да чего с ним делать, загремит под фильтр и все дела.

      Ответить
  116. Николай:

    Вопрос по роботу есть ли какая то команда что бы запретить к инедексации урл на русском? Ну ти сайт/tara/бутыль не индексировалась а сайт/tara/butil индексировалась? ну и соотвествено так для всех урлов на латинице запрет

    Ответить
    • Виталий Кириллов:

      Николай, тут надо идти другим путем. Если Вы сменили URL у страницы, то URL на русском должен отдавать ошибку 404. В таком случаи эти страницы можно удалить из поиска через панель вебмастера Яндекса и Гугла. Также необходимо исправить все внутренние ссылки (если таковые имеются), ведущие на удаленные страницы. В дальнейшем урлы на русском индексироваться не будут.

      Ответить
  117. Саня:

    Добрый вечер, подскажите, не будет ли ошибкой добавить в robots.txt для вордпресс: Disallow: /*.php Спасибо

    Ответить
    • Виталий Кириллов:

      Ошибки не будет, но кроме этого необходимы директивы, закрывающие каталоги (папки) в корне сайта.

      Ответить
  118. Саня:

    Здравствуйте, если можно, для чайника, немножко по-подробней)
    «необходимы директивы, закрывающие каталоги (папки) в корне сайта»
    Заранее Вам благодарен

    Ответить
    • Виталий Кириллов:

      В корне сайта находятся папки (каталоги) такие как: wp-admin, wp-content, wp-includes, могут быть и другие.
      Все перечисленные выше папки можно закрыть одной директивой:
      Disallow: /wp-
      НО! Надо обязательно точечно открыть доступ к папке с изображениями, с помощью разрешающей директивы:
      Allow: /wp-content/uploads
      Также для Гугла желательно открыть доступ к css и js файлам.

      Ответить
      • Сергей:

        Здравствуйте. А почему нельзя закрывать от индексации папку uploads? Статьи ведь с этими изображениями индексируются? Спасибо.

        Ответить
        • Виталий Кириллов:

          Здравствуйте Сергей! Изображения в статьях индексируются потому, что открыт путь до файла, где они хранятся. Если закрыть папку uploads, то статьи будут индексироваться уже без изображений. Проверить можно в Гугл вебмастере (Сканирование -> Посмотреть как Googlebot -> Получить и отобразить).

          Ответить
  119. Саня:

    Большущее Вам спасибо!
    Еще еще у меня есть вопрос по пагинации, недавно я на всех своих сайтах добавил: Disallow: */page/* для того чтобы в индекс не попадали лишние страницы.
    Правильно ли я поступил? Спасибо

    Ответить
    • Виталий Кириллов:

      Не совсем правильно. Страницы пагинации лучше закрыть с помощью мета-тега robots.

      Ответить
  120. Сергей:

    Добрый день!
    Спасибо большое за ваш сайт.
    Я изучил вашу статью, просмотрел ваш файл robots.txt

    Скажите, пожалуйста, согласно этим настройкам, получается, что вы позволяете индексировать некоторые файлы, которые находится по адресу /wp-, а ведь все файлы сайта лежат по адресу /wp-content/themes/mytheme*.

    Получается, что все страницы всё равное индексируются, т.к. их настоящий адрес идёт без /wp-, верно?

    Ответить
    • Виталий Кириллов:

      Здравствуйте Сергей!
      Директива «Disallow: /wp-» закрывает все файлы и папки движка, имеющие префикс wp, в том числе файлы темы.
      Страницы сайта, которые нежелательны в поиске, я закрываю мета-тегом robots.

      Ответить
  121. Сергей:

    Здравствуйте. На моем сайте много статей, которые в основном состоят из фотографий. В файле роботс у меня написано:
    User-agent: Googlebot-Image
    Allow: /wp-content/uploads/
    User-agent: YandexImages
    Allow: /wp-content/uploads/
    В результате оказалось проиндексировано очень много всего. По некоторым причинам мне бы этого не хотелось. Правильно я думаю, что если эти записи убрать, то собственно фотографии выпадут из индекса, но сами статьи (с фотографиями, это главное!) останутся в индексе? Спасибо.

    Ответить
    • Виталий Кириллов:

      Сергей, пишите директивы сразу для всех поисковых систем? вот так:
      User-agent: *
      И вообще записывайтесь на курс «Сопровождение сайта». Чувствую вы вообще заблудились.

      Ответить
  122. Елена:

    Здравствуйте, Виталий. Подскажите пожалуйста. Гугл сайт проиндексировал, а вот Яндекс отказывается.ссылается на то что «индексирование страниц запрещено в вашем файле robots.txt.» Посмотрите пожалуйста файл, где закралась ошибка? И правильно ли прописана директива Host:?

    Ответить
    • Виталий Кириллов:

      Здравствуйте Елена! Я посмотрел Ваш robots.txt и даже знаю, где Вы его взяли. В поле Host домен пишется без слеша на конце, но это не может запретить индексацию для Яндекса.

      Ответить
      • Елена:

        Поле Host я конечно поправила. Что вы посоветуете мне сделать?какие должны быть следующие шаги?И раз Вы знаете от куда у меня шаблон, что Вы о нем думаете?

        Ответить
        • Виталий Кириллов:

          Советую Вам написать в службу поддержки Яндекса, и попросить разъяснить ситуации. ответ конечно будет шаблонным, но Вы хоть поймете, попал Ваш сайт под санкции или нет.
          Я посмотрел, в поиске Яши нет ни одной страницы , даже главной, что даже при фильтре АГС не должно быть.
          Сейчас идет глобальная перестройка алгоритмов Яндекса, да и Гугла тоже, думаю возможны погрешности, в которую по случайности мог угодить Ваш сайт.
          Что делать с сайтом в первую очередь? Надо обязательно провести глубокую оптимизацию сайта, устранить все технические ошибки, серьезно подумать о юзабилити и стараться наращивать поведенческий фактор. В общем советую потратится на свой проект, ради его здоровья. Самостоятельно, без специальных знаний и опыта, такие работы, конечно, произвести сложно, но это Вам решать.
          Что касается файла robots. С недавних пор шаблонных вариантов robots.txt не существует. Каждый сайт уникален, а поисковики требуют доступ ко все CSS и JS файлам, иначе к топу вы не подберетесь, а у Вас все запечатано наглухо, а системные файлы в корне сайта, почему-то не закрыты.
          Не хотел Вас расстраивать, сказал, как есть!

          Ответить
          • Елена:

            Виталий спасибо за обстоятельный ответ. Буду думать

            Ответить
    • Александр:

      У меня такая же проблема произошла замучился с картой, но все оказалось очень просто, сам додумал. Я тоже шаблонный робот скопировал там закрыт от индекса компонент Disallow: /components/
      а карта сайта это все же компонент, соответственно надо разрешить карту индексировать
      Allow: (/index.php?option=com_xmap) в скобки вставляете страницу XMAP и вуаля
      Тип файла Файл Sitemap
      Размер 77,01 КБ
      Количество ссылок 466
      Ошибок не найдено

      Ответить
  123. Лана Вита:

    Виталий, приветствую вас)) помогите с файлом роботс разобраться))) пока он был не корректированный люди приходили по запросам из поиска Яндекса, а сейчас как-то мало идут, совпало с тем, что я внесла изменения. Может чего перемудрила)) или совпало так. и еще у меня очень много загруженных страниц показывает а в поиске меньше половины. Может я дубли какие не закрыла)) безгранично благодарна за помощь))

    Ответить
    • Виталий Кириллов:

      Лана, надо анализ делать. Каждый сайт индивидуален шаблонных вариантов файла robots.txt более не существует.

      Ответить
      • Лана Вита:

        Благодарю, Виталий за оперативную реакцию)) а ваши услуги по анализу сколько стоят и что включают в себя?

        Ответить
  124. Григорий:

    Виталий, скажите, как запретить ряд слов, присутствующих в линках к индексу? они могут располагаться в конце, в середине, в начале. Сделал так /*navington* , но все равно находятся, может есть смысл закрыться слэшем?

    Ответить
    • Виталий Кириллов:

      Это смотря какая структура URL, вы приведите кусок.

      Ответить
      • Григорий:

        многоуровневая структура, может быть такая
        /catalog/detskie-koljaski/aksessuary-k-koljaskam/ljulka-dlja-koljaski-navington-genua-madagascar
        такая
        /brands/navington
        или такая
        /brands/navington/aksessuary-k-koljaskam

        Ответить
  125. Артем:

    Здравствуйте, у меня проблема пришло сообщениеот вебмастера что сайт закрыт в роботс а он не закрыт. Можете посмотреть пожалуйста( questozavr.ru

    Ответить
    • Виталий Кириллов:

      Здравствуйте! В robots у Вас запрета на индексацию сайта нет.

      Ответить
  126. sanya:

    Здравстуйте, Виталий, что-то Яша недавно проиндексировал на многих моих сайтах feedы:

    -site.ru/categoriya/podcategoriya/statya.html/feed/
    -site.ru/categoriya/podcategoriya/feed/
    -site.ru/categoriya/feed/
    -site.ru/feed/

    Я закрыл в robots.txt:

    -Disallow: /*/*/*/feed/
    -Disallow: /*/*/feed/
    -Disallow: /*/feed/
    -Disallow: /feed/

    Скажите правильно ли я поступил, можно ли это упростить, и как еще можно побороть такие дубли(кроме роботс.тхт?
    Заранее благодарен 🙂

    Ответить
    • Виталий Кириллов:

      Здравствуйте!
      Правильно так:
      Disallow: */feed
      Disallow: /feed
      Вы можете проверить перекрыт ли тот или иной урл в Гугл вебмастере, в разделе «Сканирование» -> «Инструмент проверки файла robots».

      Ответить
      • sanya:

        Большое спасибо, скажите Виталий, почему без слеша в конце?

        Ответить
        • Виталий Кириллов:

          Если директива оканчивается «пустым символом», например:
          Disallow: */feed
          То подразумевается любой символ после feed, в том числе и слеш.
          По другому можно было написать так:
          Disallow: */feed*
          Что одно и тоже.

          Ответить
  127. Игорь:

    Здравствуйте. Сделал рекомендуемое. И вот что получилось: Рис.1 prntscr.com/czpfw7 Рис.2 prntscr.com/czpgad И что это значит ? Спасибо.

    Ответить
  128. Андрей:

    Добрый день, а подскажите чайнику в бронепоезде, можно ли настроить робота так чтобы страницы там где есть цены индексировались а где их нет не индексировались при условии что кол-во страниц с ценами меняется каждый день но не на 100%. А то както глупо выходит робот индексирует все страницы по очереди но через 2 недели проиндексировав 10% обиделся и перестал индексировать остальное а страниц 11 милионов

    Ответить
  129. Игорь:

    Подскажите замечал, что у многих блокируется wp-comments. Я так поминаю эта строка отвечает за комменты, её нужно блокировать или нет?

    Ответить
    • Виталий Кириллов:

      Да, надо!

      Ответить
      • Игорь:

        Ок, спасибо Виталий! 🙂

        Ответить
  130. Александр:

    Доброго времени суток.
    Вот какая проблема. Сайт имел 100-120 посещений в сутки, но после того, как отредактировал robots.txt (хотел избавиться от дублей), случайно заблокировал почти все страницы (из 2500 страниц в индексации остались 90). Заметив это, тут же вернул старый robots.txt. Вот в чём вопросы: как скоро yandex бот вновь проиндексирует страницы? ухудшится ли их положение в поисковой выдаче? можно ли как-то ускорить процесс индексации?
    Спасибо.

    Ответить
    • Виталий Кириллов:

      Александр, робот Яндекса делает все очень медленно, думаю минимум 3 месяца надо, чтобы все вернулось на круги своя, а может и больше.
      Что касается настройки индексации, то вам сюда.

      Ответить
  131. Анна:

    Здравствуйте. Подскажите пожалуйста как запретить в роботс ссылки на картинки в статьях. У меня в выдаче много таких ссылок вида: duxzdorovya.ru/kak-izbavitsya-ot-volos-na-nogax/shugaring/

    Ответить
    • Виталий Кириллов:

      Здравствуйте Анна!
      Вот почитайте и выполните действия, которые описаны в этой статье.

      Ответить
  132. Николай:

    Доброго времени!

    У меня на сайте ourdomain.ru Яндекс и Гугул видят robots.txt не тот, что у меня в корне сайта, а кокойто посторонний. Ни водной папке темы я второго robots не нашел. Как избавиться от неизвестного файла? Где его искать?
    С уважением, Николай.

    Ответить
  133. Дмитрий:

    Добрый день, Виталий. Подскажите пожалуйста как сделать чтобы записи можно делать на разных страницах сайта wordpress, а не только на главной. Спасибо большое за ответ

    Ответить
  134. Сергей:

    Добрый день. Подскажите, пожалуйста.
    Как закрыть от индексации страницы такого вида

    домен/#1543258897.1198
    домен/#1543258897.267

    Самих этих страниц нет, открывается главная.

    Ответить
    • Виталий Кириллов:

      Здравствуйте Сергей!

      Все урлы, начинающиеся с решетки — являются якорями.

      Закрывать их не надо, но на странице должен быть выведен атрибут canonical.

      Ответить
  135. Kot:

    Спасибо, понятно все расписал

    Ответить

Оставить комментарий

Внимание комментатор! Прежде чем вставить: HTML, JavaScript или PHP код в свой комментарий, преобразуй его в html сущность!

Subscribe without commenting

» Подписаться на комментарии по RSS