Здравствуйте уважаемые читатель SEO-Mayak.com! Сегодня я коснусь такой немаловажной темы, как «Индексация сайта поисковыми роботами». Вернее, речь пойдет как раз о запрете для индексации файлов не относящихся к контенту.
Зачем запрещать индексацию? Отвечая на этот вопрос я сразу оговорюсь, не надо запрещать поисковикам индексировать блог, необходимо наоборот всячески этому способствовать. Закрывать от индексации нужно только те файлы, которые не содержат полезную информацию. К таким относятся: системные файлы WordPress, а также дубли контента и некоторые другие файлы.
Наша задача правильно указать дорогу поисковым роботам к действительно важным файлам и «опустить шлагбаум» на пути к всякому «мусору». Для этого в арсенале у вебмастеров есть два незаменимых инструмента. С их помощью можно правильно организовать движение поисковиков по блогу, расставить «дорожные знаки» и приоритеты.
Первый инструмент — это файл robots.txt, который как раз и служит неким «регулировщиком», разрешающим роботам идти в одно место и запрещающего им идти в другое. Об этом файле и пойдет речь дальше.
Второй инструмент — это файл Sitemap.xml, который создает «дорожную разметку» (карту сайта) и значительно упрощает поисковикам навигацию по блогу. (Файл sitemap.xml для поисковиков Google и Яндекс)
Почему надо обязательно создавать файл robots.txt
Допустим, забрел поисковый робот на сайт или блог не важно, на котором по вине администратора или другого лица не был создан файл robots.txt. Что делает робот в первую очередь? В первую очередь он как раз ищет файл robots.txt, но так как такого файла нет, робот принимается знакомится с сайтом руководствуясь своими собственными секретными алгоритмами.
Вместо того, чтобы индексировать опубликованный материл, робот гуляет по каталогу wp-admin или wp-includes в поисках что-то похожего на контент. А через некоторое фиксированное время «Центр Управления» дает команду роботу следовать на сайт к Василию Пупкину и робот, так и не добравшись до главной цели своего визита — контента, отправиться гулять дальше по просторам интернета.
Но когда он вернется, а вернется он теперь нескоро, повториться вновь та же самая история, а горе-администратор будет греть себе голову, почему его сайт плохо индексируется.
Из этого всего можно сделать несколько полезных выводов:
Вывод №1. Время, отводящееся поисковой машине для индексации ресурса строго лимитировано.
Вывод №2. Робот наверняка сообщит в своем рапорте «Центру Управления» о сайте в котором нечего индексировать и ЦУ поправит расписание следующего посещения с пометкой — «Посещать реже».
Вывод№3. При многократном повторении такой ситуации ЦУ обязательно примет меры по ниспровержению позиций такого не благонадежного ресурса и задвинет в глубь поиска от греха по-дальше.
Так вот, чтобы не ощущать себя в роли «горе администратора» надо обязательно создать файл robots.txt и правильно расставить в нем «запрещающие знаки», тем самым указывать самую короткую дорогу до контента, который действительно необходимо индексировать.
Создаем правильный robots.txt для WordPress
Новичкам наверное сложно понять процесс создания файла robots.txt, хотя в принципе сильно хитрого ничего нет. Постараюсь разложить все по полочкам.
Файл robots.txt должен находиться в корне сайта. Как закачивать файлы на сервер читайте в статье — «FTP клиент Filezilla»
создается с помощью обычного текстового документа имеющего формат .txt в котором прописываются следующий директивы:
Директива — «User-agent:»
Директива «User-agent» служит для указания названия поискового робота, например:
Все директивы, которые расположены ниже будут относится непосредственно к роботу Яндекса.
Или:
В этом случаю дальнейшие директивы будут обращены к Гуглу.
Можно написать и так:
Спецсимвол «*» можно перевести как — «Любой текст», т.е таким спецсимволом можно заменить название всех остальных поисковых роботов, чтобы не прописывать для каждого отдельные директивы в силу их незначительности среди двух гигантов Яндекс и Google. Последние в свою очередь игнорируют спецсимвол «*» и увидя свое «имя» в файле robots.txt и станут слепо следовать директивам, назначенным для этого имени .
Наверное вам будет интересно узнать названия роботов остальных известных поисковых систем, список ниже:
- Alexa — ia_archiver;
- AltaVista — Scooter;
- AOL — Slurp;
- Aport — Aport;
- Ask — Teoma;
- Bing — bingbot;
- Live — MSNBot;
- MSN — MSNBot;
- Lycos — Lycos;
- Nigma — Nigma.ru;
- Yahoo! — Slurp (или Yahoo! Slurp);
- Вебальта — WebAlta (WebAlta Crawler/2.0);
- Мэйл.ру — Mail.Ru;
- Рамблер — StackRambler.
Надо отметить, что каждый крупный поисковик имеет команду роботов «помощников» и все они имеют свое индивидуальное предназначение. На буду перебирать все поисковики, остановлюсь лишь на роботах Яндекса:
- YandexBot — основной индексирующий робот;
- YandexMedia — робот, индексирующий мультимедийные данные;
- YandexImages — индексатор Яндекс картинок;
- YandexCatalog — «простукивалка» Яндекс каталога;
- YandexDirect — робот, индексирующий страницы сайтов, участвующих в рекламной сети Яндекса;
- YandexBlogs — робот поиска по блогам, индексирующий комментарии постов;
- YandexNews — робот Яндекс.новостей;
- YandexPagechecker — робот, обращающийся к странице при валидации микроразметки через форму «Валидатор микроразметки».
Для всех перечисленных роботов можно задавать отдельные директивы.
Директива — «Disallow:»
Директива «Disallow:» запрещает роботу индексировать указанную часть сайта или весь сайт целиком, смотря какое значение содержит данная директива. Например:
- User-agent: Yandex
- Disallow: /
Директива «Disallow:» содержит спецсимвол «/», который является запрещающим знаком, а так как после него ни чего не указано, робот понимает это, как команду запрещающую индексацию всего сайта в целом.
Если после спецсимвола «/» прописать название какого-нибудь каталога, например:
- User-agent: Yandex
- Disallow: /wp-admin
Для робота это будет означать запрет индексации всего, что находиться в каталоге wp-admin. Не трудно догадаться, что таким способом можно блокировать путь робота к каталогам или отдельным файлам, а также пути в URL адресе. Например, этот URL будет блокирован:
- seo-mayak.com/wp-admin/post.php
Но как же быть если надо разрешить роботу зайти в определенный каталог и уже потом запретить ему дальнейшее продвижение по некоторым направлениям? Делается это просто:
- User-agent: Yandex
- Disallow: /wp-admin
- Disallow: /wp-content/plugins
Как Вы уже догадались, прописывается путь до каталога, который надо блокировать.
Также можно запретить индексацию по символам таких, как «?», встречающимся в URL ведущем на определенные страницы:
- User-agent: Yandex
- Disallow: /wp-admin
- Disallow: /wp-content/plugins
- Disallow: /*?*
Давайте разберемся в последней директиве, что там за знаки такие. Как я уже писал выше, спецсимвол «*» обозначает любой текст — значит запрещаются любые URL, которые включают в себя символ «?», причем этот символ должен находиться между любыми другими символами. Пример:
- seo-mayak.com/post.php?post=618
Если в некоторых «нежелательных» URL символ «?» находиться в конце, то прописывать надо так:
- User-agent: Yandex
- Disallow: /wp-admin
- Disallow: /wp-content/plugins
- Disallow: /*?*
- Disallow: /*?
Надеюсь, объяснил понятно.
Теперь наверное у многих может возникнуть вопрос — «А зачем запрещать роботу индексировать URL, ведь это и есть контент?»
Дело в том, что один и тот же контент очень часто бывает доступен по разным URL и это приводит к его дублированию в рамках одного сайта. Дубли бывают полными или частичными (под частичными дублями подразумеваются анонсы записей) Поисковые системы негативно относятся к таким проявления и если дубликатов много, то в худшем случаи сайт может загреметь под фильтр.
Поэтому просканируйте Ваш сайт на дубликаты и запретите их индексацию в файле robots.txt с помощью символов входящих в URL. Про дубли страниц читайте в статье — «Похожие, дублированные страницы. Как выявить дубли контента«.
Идем дальше. Дошла очередь до еще одного спецсимвола — «$», который указывает роботу на избирательный заперт индексации . Пример:
- User-agent: Yandex
- Disallow: /page$
В данном примере спец символ «$» указал на запрет индексации URL содержащего в себе последовательность букв «page» но не запретил индексировать page.php,что позволяет белее тонко производить настройку файла robots.txt.
Директива — «Allow:»
Если директива «Disallow:» являются запрещающей, то «Allow:» — разрешающей. К ней можно прописывать те же значения как и к «Disallow:»
- User-agent: Yandex
- Allow: /wp-content
Директива — «Host:»
Директива «Host:» предназначена только для Яндекса и указывает ему на главное зеркало сайта, которое и будет индексироваться роботом исключая все остальные зеркала, что также предохраняет от дублирования контента. Еще необходимо сделать 301 редирект через файл .htaccess. Прописывают эту директиву так:
- User-agent: Yandex
- Disallow: /wp-admin
- Disallow: /wp-content/plugins
- Disallow: /*?*
- Disallow: /*?
- Host: сайт.ru
Или так:
- User-agent: Yandex
- Disallow: /wp-admin
- Disallow: /wp-content/plugins
- Disallow: /*?*
- Disallow: /*?
- Host: www.сайт.ru
Без http:// и без https://.
Директива — «Sitemap:»
Директива «Sitemap:» указывает путь ко второму незаменимому инструменту, ускоряющему индексацию — это файлы sitemap.xml и файл sitemap.xml.gz создающие карту сайта для поисковиков. Пример:
- User-agent: Yandex
- Disallow: /wp-admin
- Disallow: /wp-content/plugins
- Disallow: /*?*
- Disallow: /*?
- Host: сайт.ru
- Sitemap: http://сайт.ru/sitemap.xml
Я прошелся по основным директивам, которые применяются при создании файла robots.txt, но хочу дать еще один совет. Файл robots.txt доступен для просмотра любому пользователю интернета достаточно набрать в адресной строке сайт.ru/robots.txt и Вы сможете посмотреть robots.txt у любого сайта, кстати мой блог не исключение.
Также советую прочитать — «Supplemental index. Дополнительный (сопливый) индекс Google».
В заключении хочу сказать, что за процессом индексации надо поглядывать и в случаи необходимости вносить изменения в файл robots.txt.
Проверить файл robots.txt можно можно по следующим адресам:
Яндекс вебмастер — анализ robots.txt
1. Вписываете URL блога без http:// и без https://
2. Нажимаете кнопку — «Загрузить robots.txt с сайта».
3. После того как файл загрузиться нажимаете кнопку — «Проверить».
Google Инструменты для вебмастеров — Заблокированные URL
Если имеются вопросы, готов выслушать. Высказывайтесь пожалуйста в комментариях.
Читайте также, как создать динамическую XML карту сайта.
До встречи!
С уважением, Кириллов Виталий
Нашла проиндексированные страницы постранички (1,2,3 и т.д.)
Запретила через
Disallow: /page/
Disallow: /*page*/
сперва в файлике robots.txt
Дубли страниц через яндекс.вебмастер вручную попросила удалить. ссылки внесла и мне сообщили, что при следующем обходе робота эти страницы удалятся.
а вот нашлись еще проиндексированные страницы на котором по одной картинке. Сперва не поняла как такое вообще может быть, ведь остальные картинки проиндексированы нормально именно как картинки, а не как страницы контента. Нашла ссылки на этих картинках, а вообще я ссылки убираю из медиафайлов (убираю привязку), и только на этих картинках привязка была. Робот почему то решил их проиндексировать как страницы. Теперь вопрос как ему запретить на будущее это делать и удалить через вебмастер вручную не удалось, т.к. сперва необходимо прописать их в файле robots.txt по правилам яндекса.
Наталья напишите, как выглядит окончание URL этих картинок.
Например:
uvlekatelnie-bonsai.ru/relaks-v-stile-xellouin-ch-2-tancuyushhie-mertvecy-snova-vmeste.html/anastasis
Наталья, чтобы закрыть от индексации эту страницу в файле robots.txt надо прописать так: Disallow: /*anastasis
Большое спасибо! прописала, вставила в роботс и затем через сервисы удалось поставить ненужные для индексации ссылки на удаление. Потом роботс думаю можно будет почистить от этих меток.
Это самая понятная статья о файле robots которая мне попадалась. Респект автору!
Роман, рад видеть Вас на своем блоге и спасибо за оценку моего скромного труда!
Слушайте, Виталий. у меня та же самая история с картинками, тоже выходят отдельной страничкой сайта, как у Наташи, не могу сообразить, как это изменить?Боюсь вообще в настройки robots влезать)))
Укажите Яндексу в файле robots.txt в стоке Host свой домен без www. А насчет картинок я по-моему в ответе на комментарий Натальи привел пример, как прописать в файле роботс чтобы запретить индексацию таких страниц, но вы мне можете прислать окончание URL своих проблемных страниц и я напишу, лично для вас, как прописать запрет в robots.txt Самое главное, чтобы в будущем избежать таких проблем, не ставьте ссылки в фотографиях!
а почему
Host: сайт.ru
в файлике нужно указывать только для Яндекса?
Наталья, директива Нost предназначается только для Яндекса и указывает ему на главное зеркало сайта. Статья про главное зеркало.
Виталий, у меня к Вам такой вопрос. на своем домене сделала поддомен для отдельного сайта для дочки, установила вордпресс на поддомен. и вот теперь думаю, а для него нужно делать отдельно robots.txt ? и если да, то куда его пихать, не пойму немного
Наталья, файл robots.txt должен быть расположен в корневой папке, где находятся папки wp-content и wp-admin. Нужно ли его делать? Смотря для каких целей Вы создаете сайт на домене 3 уровня.
Виталий, здравствуйте. Вопрос наверное немного не в тему. У меня сайты созданы в мультисети вордпресс. Я бы хотел для каждого из них сделать отдельные файлы карты сайта и robots.txt. Директорий у этих сайтов нет. Как быть? Подскажите решение.
Игоря, я не знаю.
Виталий, свежие вопросы
Disallow: /*?
Что будет если название статьи заканчивается вопросительным знаком. Это получится, что ее запрещаем к индексации?
В каких еще случаях бывает знак ?
Я не имею ввиду, когда после ? есть еще какие либо символы. С этим все по тексту статьи понятно
Есть еще такое: Disallow: /?s=
Знаешь что означает?
Наталья, через Гугл веб-мастер, при проверки sitemap.xml можно посмотреть какие страницы заблокированы случайно в robots.txt. Там предупреждения должны быть.
Насчет Disallow: /?s= с ходу сказать не могу, какие URL запрещаются этой директивой, просто по каждому сайту надо конкретно смотреть.
Я нашла про Disallow: /?s=
На любом блоге это запрещает роботам индексацию со страниц ПОИСКА.
Здравствуйте, Виталий!
А как нужно запретить индексацию картинок избирательно. У меня они индексируются как страницы. На изображении (картинке) 2 вида ссылок. Не поняла из предыдущих комментариев, какую из них надо убрать.
И что означает «не ставьте ссылки в фотографиях»?
Пример
/vecher-angliyskoy-poezii.html/obshhaya-kartina#main
/wp-content/uploads/2013/04/Obshhaya-kartina.jpg
Спасибо)
Здравствуйте Татьяна, обе ссылки необходимо удалить, так как она ведет на страницу без контента, а это очень плохо. И мало того, ссылка с картинки забирает вес со страницы никуда его не передавая. Вот как должен выглядеть код картинки без ссылки.
[php]<img width="448" height="336" src="URL картинки/название картинки.jpg" class="attachment-1200×1200" alt="na pamyat’ o vechere…."/>[/php]
Спасибо большое, Виталий! С этим разобралась. А как сделать так, чтобы фотографии не индексировались как страницы? Запретить их индексацию или дело в настройках. У меня WordPress 3.5.1. Подскажите, пожалуйста.
Татьяна, чтобы скрыть картинки от индексации, для этого используют jQuery. Скоро у меня выйдет статья на эту тему.
Спасибо, подпишусь на обновления вашего блога. У Вас есть чему поучиться!
Жду статью))
Виталий, а
uyutnidom.com/retsept-utki-s-hrustyashhey-korochkoy.html#more-3975
не нужно прятать от робота? Ваш робот, закрыл все, что раньше было доступно, но вот more меня смущает, кроме этого установлены видео, баннеры со сторонних сайтов, как с ними быть?Валентина тег more является якорем и дубля не создает. Так что не волнуйтесь на счет этого, а что вас баннеры и видео смущают?
Пишет, что сторонний ресурс, нужно ли их скрывать от робота?
Валентина,баннеры и видео никаково отношения к файлу robots.txt не имеют.
Виталий, я скрыла от робота страницу, так гугл мне уже 7 предупреждений прислал, что делать? Открыть страницу?
Валентина, что за предупреждения прислал Вам Гугл, и как Вы скрыли страницу? Возможно Вы неумышленно скрыли еще какие-то страницы.
Здравствуйте!
Спасибо за статью!
У меня такой вопрос.
Сделал жене блог на wordpress. У нее много постов, но мало текста, больше картинки. И получается так, что в рубриках весь текст, а где «Подробнее» только дополнительные картинки.
Значит надо как-то закрыть рубрики от индексирования.
Там вложенные рубрики получаются.
Сделал так:
Disallow: /category/
Но еще остается рубрика/подрубрика/статья.
Причем урлы есть как с /category/рубрика/, рак и просто /рубрика/*
Что-то еще надо закрывать тут или нет?
Алексей, я маленько не понял. У вас что урлы на русском?
Нет, латиницей ЧПУ. Это я так, для примера написал.
Можете посмотреть блог. Там особенно в рубрике http:// natalylehar.ru/category/moi-raboty/ еще подрубрики есть. Но и просто в таком урле есть статьи: http:// natalylehar.ru/moi-raboty/busy/busyi-izabel-kvarts-krakle-i-belyiy-agat.html
Я закрыл:
Disallow: /category/
Надо ли закрывать это:
Disallow: /moi-raboty
И оставлять только подкатегории, или оставить так. Будут ли дублироваться если оставить или нет?
Алексей, URL, которые оканчиваются на html закрывать не надо. Достаточно будет просто запретить индексировать категории.
Спасибо за ответ.
Категории-то я запретил.
Теперь, как я понимаю только на главной останется дублирующий контент анонсов статей7
А можно ли сделать так, чтобы только анонсы были закрыты от индексации? Тогда можно категории открыть и сделать хорошее их описание, тоже можно продвигать и категории тоже.
Я бы не советовал закрывать анонсы на главной,так как они большого вреда не нанесут, скорее наоборот помогут в продвижении. Самое главное не делать больших анонсов, 3 — 4 предложения вполне достаточно.
Так в том и суть, я писал уже, что анонсы это фактически ВСЯ статья получается, т.е. просто описание украшения. Есть и большие статьи, но их мало. А так получается полностью дублированный контент, кроме пары картинок.
Просто сделайте главной страницей, например, последнюю статью. Запрещать индексацию главной страницы НЕЛЬЗЯ.
Виталий, спасибо большое за такую ценную информацию. Подскажите, пожалуйста, нужно ли закрывать комментарии от индексации. У меня в robots стоят такая строка:
Disallow: */comments
Это значит, что все комментарии у меня закрыты вместе с ссылками моих комментаторов?
Светлана, эта директива закрывает дубли страниц комментариев. Например, на одной странице может располагаться 50 комментариев, следующие уже будут на другой странице и получиться дубль.
Спасибо большое за пояснения! Я очень Вам признательна!
Виталий, насчёт картинок, ссылки надо убирать? например, на фотографии ссылка http:// elenavo.ru/wp-content/uploads/2013/07/61.jpg, её нужно совсем удалить?
Ссылки в фотографиях лучше не ставить.
Виталий, тогда как наши картинки в постах будут попадать в поиск по картинкам? У меня довольно часто приходят на блог из поиска по картинкам.
Светлана, Вы просто убираете ссылку с картинки и это никак не сказывается на поиск по изображениям.
Виталий, за индексацию картинок отвечает атрибут ALT и название картинки?
Светлана, атрибут alt является обязательным, название должно быть английскими буквами, а вот title может быть на русском.
ALT должен быть таким же, как и Title, только английскими буквами, или достаточно только ключевой фразы в ALT?
Я обычно в alt вбиваю ключевое слово на английском, а в title тоже самое на русском.
Виталий, спасибо огромное за Ваши профессиональные объяснения! Я желаю Вам самого лучшего и самого активного продвижения Вашего сайта!
Пожалуйста Светлана!
И Вам успехов!
Виталий, спасибо за очень ценную статью.
Подскажите, пожалуйста: хотела заблокировать файлы с расширением .PHP.
Прописала в robots Disallow: /wp-content/*.рнр
При проверке файла яндекс пишет: «Возможно, был использован недопустимый символ»
Что не так?
И еще: у меня настроены ЧПУ вида http: //garden-live.ru/sample-post/
Яндекс вебмастер показывает несколько сотен исключенных страниц с окончанием вида
/?p=1024 (пишет, что запрещены в robots)
Ссылки ведут на статьи блога (страницы проиндексированы и ссылка нормального вида)
Это какие-то дубли или что? И что с этим делать?
Ната почитайте мою статью /seo-prodvizhenie/tonkosti-prodvizheniya/poxozhie-dublirovannye-stranicy-kak-vyyavit-dubli-stranic-kontenta.html
Там я все подробно расписал.
Если останутся вопросы, задавайте.
Виталий, а как прописать в роботсе запрет на индексацию страницы Disallow: / а после часть url после слеша, например Disallow: /razvivayushhie-multfilmy/ ? Спасибо.
Можно так, а можно и по-короче, например:
Disallow: /razvivayushhie*/
Но все URL, содержащие это слово, будут запрещены для индексации.
и прописать нужно 2 раза — один раз для всех поисковиков, один раз для яндекса?
Елена, про Гугл тоже забывать не стоит! Т.е надо прописать три раза.
Спасибо за ответы, Виталий!
Здравствуйте ! Подскажите а нужно ли индексировать фид блога , у меня сейчас не индексируется , как это сказывается на скорости индексации в яндексе полной статьи ?
Евгений, надо запрещать индексацию фида, так как это дубль.
Подскажите пожалуйста, в моём файле стоит запрет на индексацию feed ,это правильно или для индексации лучше что бы индексировал ?
Спасибо!А то дилема возникла.Думал что что то не так сделал
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: /feed/
Disallow: */feed
Disallow: */trackback
Disallow: */comments
Disallow: /*?
Disallow: /*?*
Disallow: /*.php
Какого-то … гугл скушал все тэги и категории, хотя они закрыты от индексации. Теперь куча страниц в supplemental выдаче. Что делать? Может отдельно для гугла правила прописать? С яндексом все нормально.
Дело в том, что в сопли Гугла дело довольно не простое. Я тоже борюсь с этой проблемой и наверное вскоре разражусь статьей, где расскажу о своем опыте лечения сопливой болезни.
Сергей, вы сильно не переживайте, попадание страниц в сопливый индекс не сказывается на позициях ресурса в поисковой выдаче.
Здраствуйте. У меня на страницах вордпресс используется функция get_the_excerpt. Та часть статьи которую выводит это функция в анонсе будет считаться дублем? если да, то как поисковикам запретить индексировать страницу на которой выводятся анонсы новостей?
Сергей, анонсы на главной это вполне нормально, надо запрещать индексацию дублей анонсов.
Здравствуйте еще раз. На главной я вывожу все анонсы, а на отдельных страницах по категориям, получается что к примеру у меня анонс к игре 7-ой элемент на главной и на странице фентази. Это ведь уже является дублем? Я хочу запретить индексировать страницу фентази. Как это сделать через robots.txt? Вот мой сайт, есле вдруг понадобится: gameshits.ru
Здравствуйте! Судя по тому, что у вас очень небольшие тексты, а анонсы включают в себя 1/3 всего текста, то конечно на такие страницы надо ставить запрет индексации. Просто в файле robots.txt прописать директиву Disallow: для всех страниц-рубрик, т.е для страницы Фентези надо прописать так:
Disallow: /fehntezi
Остальные страницы вписываем аналогичным образом.
Проверьте обязательно нет ли у Вас URL страниц, которые начинаются с названий рубрик, а то и они могут случайно попасть под запрет.
У меня проблема в индексации страниц в яндексе. Во-первых моя ошибка в том, что я на страницах ставила фотографии со ссылками. Теперь потихоньку это исправляю, то есть пока исправила половину, осталось еще столько же. Второе, что я сделала — это поменяла обычные на ссылки с окончанием html. И вот тут то и начались проблемы с яндексом. Он мне показал, что файл роботс.тхт запрещает к индексации почти все страницы сайта. А я никак не могу понять, что там не так с моим роботс.тхт. Не могли бы Вы мне помочь, посмотреть и указать ошибки?
К Платону кстати, писала письмо, мне ответили что пересмотрят индексацию моего сайта. Они действительно пересмотрели. Но теперь не лучше, а еще хуже. Пока что яшей индексируется только 2 страницы, роботом загружено еще 90, но все они с ошибкой 404 и тоже не индексируются. Даже не знаю, что делать. Пока исправляю все ошибки на сайте и хочу узнать что не так с этим роботс.тхт. А потом буду еще писать к платону.
Буду очень благодарна, если что-то подскажете.
Елена, по всей вероятности Ваш блог попал под фильтр Яндекса. Пишите Платону, пусть намекнут, что не так с блогом. Я сам не так давно с ними ввел долгую переписку и скоро будет статья на эту тему.
Спасибо большое, Виталий. Очень подробная и толковая статья. Раньше не понимала особо в чем назначение robots.txt Сейчас все встало на места. Заодно и решилась проблема с добавлением карты сайта в Гугл Вебмастер, карта не добавлялась, поскольку стояли ограничения в robots.txt на «?» в ссылках, а у меня постоянные ссылки не были приведены просто еще в правильную форму с помощью Cyr-to-lat. Так что еще раз, большое спасибо!
ок, как насчет папки и файлов attachment? следует ли их закрывать от индексации в robots?, ведь одно и то же изображение может генериться под несколькими урлами
Ruslan, Я бы вообще не советовал делать ссылки в изображениях, так как это ссылка ведущая в никуда, но для некоторых тематик возможно это необходимо. Для каждого проекта надо индивидуально подстраивать файл robots.txt. Если у Вас создаются дубли, то конечно надо ставить запрет на индексацию.
Виталий, сегодня проверила какие страницы индексирует Яндекс и увидела вот такую
http://mami.by/tag/podgotovka-k-rodam/
. Оказывается все статьи вот так повторяются, да еще выводятся некрасиво. Подскажите, как прописать в robots.txt, чтобы запретить к индексации подобные ссылки?Алена, такие ссылки формируют теги и чтобы запретить их индексацию в файле robots.txt надо прописать следующую директиву:
[php]Disallow: /tag/[/php]
Я догадывалась, что надо написать tag, но не знала надо ли после него / ставить.
Спасибо, Виталий!
А еще, Виталий, нашла вот такие ссылки —
mami.by/2013/01
/, а как их закрывать?А откуда взялась вот такая ссылка —
mami.by/%D0%BF%D0%B8%D1%82%D0%B0%D0%BD%D0%B8%D0%B5-%D0%BF%0A%D1%80%D0%B8-%D0%B1%D0%B5%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%BD%D0%BE%D1%0A%81%D1%82%D0%B8/_dsc7627/
вообще понятия не имею. Я бы вообще удалила бы эту картинку, т.е. чтобы она была в статье, а отдельно не открывалась. На как, может подскажите, Виталий?
Алена, кракозябры появляются, когда в URL присутствуют русские символы. Если это ссылка на картинку, переименуйте символы на английские, а затем удалите ссылку из изображения, которая начинается с href="http…."
Приветствую, Виталий!
А для запрета индексации всего блога достаточно написать в robots:
Disallow:/ ?
Или еще какие-то меры предпринять надо? Преждевременная индексация блога на поддомене мне сейчас абсолютно не нужна.
Для запрета индексации всего блога в файле robots.txt надо прописать следующее:
User-Agent: *
Disallow:/
Больше в файле ничего не должно быть.
Спасибо, Виталий, именно этот комментарий мне помог закрыть от индексации сайт. До этого я не понял, где должно быть
User-Agent: *
Disallow:/
Оказывается вместо всего остального 🙂
Пожалуйста Александр, рад видеть Вас на блоге!
Спасибо!
Виталий!
После полугодового индексирования моего сайта вдруг начали выпадать из индекса страницы. При проверке роботса Яндекс.Вэбмастер сообщил, что мой роботс запрещает сайт к индексированию. Как такое может быть?
Я заменила роботс на чуть поправленный, написала в яндекс, но нет ни ответа, ни измененеий. Сегодня я ещё раз пересмотрела роботс и заменила его на другой. Яндекс.Вэбмастер пишет:
строки 15-30
User-agent: Yandex
Disallow: /cgi-bin
…
Что это значит?
Написала письмо в Яндекс-поддержку о том, что я поработала над ошибками, заменила роботс и дала три статьи, как они просят, для проверки индексирования. Всё ли я сделала, что требовалось?
Я посмотрел Ваш robots, он конечно не идеален, но в нем нет ничего запрещающего индексацию контента. Тамара, у Вас одна страница в индексе Яндекса. Это значит, что сайт под фильтром. Я писал статью на эту тему, почитайте!
Виталий, Платон отвечает, что сейчас запрета к индексации в роботсе нет, поэтому сайт будет индексироваться, но надо подождать как минимум две недели, пока страницы не начнут появляться в индексе.
Это фильтр?
И вопрос. Вы пишете, что заливать роботс на хостинг надо через «FTP клиент Filezilla». Это обязательно? Я просто поместила файл в корень через файловый менеджер. Это правильно?
Тамара, посмотрим что будет через 2 недели. Файл robots вы загрузили правильно.
Здравствуйте!
Подскажите, почему то у меня на сайте в виджете adsense quick на главной странице сайта не отображается реклама Google, также почему то она перестала отображаться на другой странице. С чем это может быть связано, я подозреваю, что или с неправильным файлом robots.txt или с sitemap.xml.
Robots.txt:
User-agent: *
Allow: */uploads
Disallow: /cgi-bin
Disallow: /wp-
Disallow: */feed
Disallow: /search
Disallow: /xmlrpc.php
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback
Disallow: /*?*
Host: 4y5.ru
Sitemap: http:// 4y5.ru/sitemap.xml
Здравствуйте Антон!
Директива
Disallow: /wp-
никуда не годится.
Подскажите, а зачем вы отдельно для гугла и яндекса прописали директивы, а потом ещё и для всех сразу?
Татьяна, каждый робот в первую очередь руководствуется директивами, заданными именно для него. Не стоит обижать Гугл и ставить его в один ряд с остальными поисковиками.
Добрый день, Виталий!
Хорошие статьи у вас, доходчиво и есть чему поучиться.
Только у меня не получается с самого начала — не могу найти где хранится robots.txt в моей WP-теме, чтоб его изменить. А просто создать новый и «запихать» его в корень как-то не хочется при наличии «родного» — я надеюсь его все-таки найти).
Помогите пожалуйста.
Ренат извините за задержку с ответом, были причины. Файл robots.txt располагается в корне сайта, т.е там, где находятся папки wp-admin wp-content и т.д.
Почитал. Мне стало страшно от этого ужасного хтмл. Уразумению моему сие недоступно. Но штука занятная. Обязательно почитаю эту тему.
Салават, ну, не так страшен …хтмл, как его малюют! Разберетесь!
Виталий, а как запретить индексировать файл с таким окончанием сайт.ru/xmlrpc.php
И вообще, почему перевод с английского из программы переводчик Гугл вдруг стал индексироваться? Возможно, настройки в плагине XML Sitemaps, связанные с robots, были неверные?
Ольга, правильно будет так:
Disallow: /xmlrpc*
Индексироваться будет все, даже файлы движка, если не запрещать индексацию.
Здравствуйте!
В поиске нашла Ваш сайт. У меня тоже проблемы с robots.txt. До этого все работало нормально, а теперь выдает Яндекс ошибку: Указанный URL запрещен к индексации в файле robots.txt на сайте. Причем, вылетают статьи, которые я размещаю платно. Не сможете ли Вы мне помочь в этом вопросе?
С уважением, Марина!
Здравствуйте Марина! Ваш файл robots.txt требует срочного лечения. Скопируйте мой вариант и многие проблемы исчезнут. Но еще раз хочу подчеркнуть, что для каждого сайта robots надо составлять индивидуально.
Здравствуйте.
Скажите, пожалуйста, а ели файлом robots.txt запрещено примерно 1830 страниц — это нормально? Или что-то неправильно настроено?
Здравствуйте Наталья! А сколько у Вас всего страниц на сайте?
У меня Загружено роботом 2009, в поиске — 114, исключено роботом — 1892.
Всего статей на сайте — 86, страниц -10.
Наташа, я посмотрел файл robots.txt Вашего сайта. Так как некоторые директивы в нем прописаны на русском, то конечно файл настроен неправильно.
Здравствуйте, Виталий, спасибо за доступное подробное описание создания файла robots.txt
Если данный файл составлен неправильно, то яндекс вебмастер покажет ошибку?
В яндексвебмастере проверяется только дерректива для роботов яндекса?
В моем файле robots.txt меня смущает вот такой момент:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /wp-login.php
…….
допускается ли пустое место после Disallow: ?
Здравствуйте Олеся! Ошибки бывают разные и Яндекс, к примеру, не сочтет за ошибку запрещающую директиву на какую-нибудь нужную страницу, а поймет это как желание владельца ресурса и просто примет к сведению.
Надо полагать, что Яндекс Вебмастер создан для Яндекса и как смотрят, на тот или иной момент, другие роботы, он вам не расскажет. Чтобы посмотреть как реагирует робот Google, то для этого надо обратиться в Google вебмастер.
Пустое место после Disallow:, (т.е пробел) — допускается.
Спасибо за быстрый ответ, у меня еще вопрос, в яндекс вебмастере в разделе «индексирование сайта-страницы в поиске» помимо прочих страниц выдает и страницу с картой сайта вот с таким адресом мойсайт.ru/sitemap.xml
Это так и должно быть или эту страницу тоже нужно закрывать в файле robots.txt ?
Олеся, не надо закрывать эту страницу) Это же карта сайта предназначенная специально для поисковиков)
Виталий, ваш пост писался в декабре 2012, а насколько представленный файл актуален на сегодняшний день? И в моем файле роботса бот гугла указан Mediapartners-Google а у вас в фйле стоит Googlebot , это одно и тоже или есть отличия?
Олеся, файл robots.txt, приведенный в статье актуален и по сей день. Googlebot — это основной робот обходчик Google. Если Вас интересуют все роботы Гугла, то информацию о них вы можете посмотреть тут. Там же вы найдете описание функций робота Mediapartners-Google.
Виталий, про разных роботов гугла прочитала, но так и не поняла для чего у меня в файле robots.txt стоит только Mediapartners-Google а Googlebot нет вообще.
Т.е не могу понять возможна ли такая трактовка этого файла с применением Mediapartners-Google вместо Googlebot и что это мне дает эта замена?
Исходя из документации, робот Mediapartners-Google индексирует рекламные объявления от Google. Например, если на блоге закрыты от индексации рубрики, теги и постраничная навигация, директивами:
То реклама от Google AdSense на данных страницах показываться не будет. А если установить отдельную (пустую) разрешающую директиву для Mediapartners-Google:
То объявления на данных страницах появятся. Вот для чего нужен робот Mediapartners-Google.
В вашем robots нет директив отдельно для Google, вместо этого используется:
Что означает — любой робот.
теперь понятно, спасибо большое!
с этим файлом вышел вот такой казус:
в robots.txt прописано
Disallow: /page/
Disallow: /*page*/
…и страница с концовкой мойсайт.ru/spagetti-v-multivarke/ — запрещается этим правилом, так содержит в себе «page»
Как в таком случае поступать?
Олеся, уберите директиву:
Disallow: /*page*/
Она предназначена, для запрета индексации страниц с комментариями, т.е. когда комментариев много и они начинают делится на страницы, вот тогда эта директива актуальна.
Виталий, убрала в robots.txt директиву Disallow: /*page*/ , теперь когда проверяю sitemap.xml через яндекс вебмастер и ввожу адрес страницы …мойсайт.ru/spagetti-v-multivarke/ , то доступ пишет «разрешен» (до этого был запрещен), но в гугл в инструментах для вебмастеров по прежнему выдает предупреждение «Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt» и указывает эту страницу …мойсайт.ru/spagetti-v-multivarke/
Что же гуглу не нравится?
Олеся, а вы поменяли содержание robots.txt в вебмастере Гугла?
нет не забыла поменять, проверила сейчас еще раз, гугл все равно выдает предупреждение именно по этой странице
Олеся я не вижу в Вашем robots.txt никаких директив, которые могли бы запрещать индексацию данной страницы. Если Вы вставили новый файл robots.txt в Гугл вебмастер, в поле вкладки «Заблокированные URL», в котором уже нет директивы:
Disallow: /*page*/
То как Гугл может ругаться на несуществующую директиву?
вот и я не пойму, в том что у меня нет этой дерективы в файле роботс вы сами можете посмотреть http: // www. retseptdlyamultivarki.ru/robots.txt, но вот скрин о том что выдает гугл при этом http: // gyazo.com/ 7972d7eb8c91d4ae1c60d1dff9740364
Олеся, да Вы не там robots проверяете. Надо пройти: Сканирование -> Заблокированные URL, скопировать содержание файла роботс и вставить в поле. А в поле снизу вставить URL, который по Вашему предположению блокирован и тогда Гугл укажет вам точно, какая директива его блокирует и даже покажет номер строки. Олеся, Вам бы надо выделить время и разобраться в инструментах Гугл Вебмастер!
Виталий, вы правы в том что с гуглвебмастером мне еще нужно разбирться, но дело в том, что на том скане я проверяла карту sitemap.xml , которую только позавчера переделала, сделав ее динамической с помощью плагина All In One SEO Pack по вашей статье, а потом пошла ее проверять в гуглвебмастер.
Сейчас проверила robots.txt и заблокированный url как вы написали выше и опять гуглвебмастер выдает что страница запрещена.
Но посмотрев далее я увидела что там указана дата закачки robots.txt 19.02.14 а в это время у меня в этом файле еще была дирректория Disallow: /*page*/
Возможно ли в гуглвебмастере обновить robots.txt ручками как это делается в яндексвебмастере или нужно просто подождать пока гугл сделает это сам?
Олеся, надо просто скопировать содержание нового файла robots, вставить в поле инструмента «Заблокированные URL» проверить URL и если Гугл скажет, что URL открыть для индексации, то можно на этом успокоится!
таким образом я проверила и успокоилась ))) и спасибо что быстро и понятно отвечаете на комментарии, не на всех сайтах это встретишь!
Олеся, я тоже когда-то был зеленым и также приставал к более опытным веб-мастерам с вопросами. И я как никто я понимаю, что новичку очень трудно разобраться в море противоречивой информации, коей кишит поисковая выдача.
Виталий здравствуйте. Я на днях решила открыть категории ранее запрещеные в роботсе ведь у меня кулинарный сайт и тут же резко упала посещалка с яндекса. Как вы думаете это связано с этим или нет?
Анна, трудно сказать однозначно, возможно надо подождать, чтобы собрать больше информации. Может это временный спад.
Виталий, приветствую!
Делаю для некоторых статей содержание. При переходе по ссылке из пункта содержания в ЮРЛе добавляется значок # и ID, присвоенный этому разделу.
Как правильно закрыть в файле robots такой текст, чтобы не было дубля? Disallow: #/?
Или Disallow:/*# ?
Вопросительные знаки, конечно, не относятся к файлу robots — это просто знак вопроса.
Александр, значок # — это обозначение якоря. Приведите мне в пример окончание ссылки, я посмотрю.
Ну, например, окончание ссылки получается таким — interesnye-lishajniki.html#ud3.
ud3 — это ID, присвоенный части статьи.
Александр, как понять части статьи? Если в статье задан якорь, то обращение к этому якорю идет как раз через символ # и такой URL не является дублем.
Уже сообразил. Обращение к якорю после тега more также ведь идет через символ #
Здравствуйте. Подскажите как сделать, чтоб индексировалась страница моего сайта с фотографиями?
С Ув.
Виталий, Ваш сайт находится по фильтрами поисковых систем, поэтому страницы не индексируются.
Здравствуйте! Если убрать урл с картинок, то как их можно посмотреть во весь размер?
Подскажите плиз как в коде и где именно (в каком файле) удалить вывод ссылок в картинках? чтобы в каждой странице не удалять руками эти ссылки
Алексей, можно по поподробнее!
Здравствуйте! Инструкция у Вас — очень понятна для новичков, но вот нигде не нашел информации о том, понимает ли robots.txt не одну, а две звездочки?
Или как вообще поступить:
Проблема такая — по страницам Жилых Комплексов в индекс случайно залетели страницы конкретных квартир, которые в индексе не нужны. Например страница ЖК —
http://www.mxcity.ru/realty/zhk-11780/
, а страницы квартир —http://www.mxcity.ru/realty/zhk-11780/kv147821/
,http://www.mxcity.ru/realty/zhk-11780/kv147829/
Можно ли прописать
Dissalow: /realty/zhk-*/kv*
или нужно прописывать к каждой странице ЖК директиву:
Dissalow: /realty/zhk-11780/kv*
Dissalow: /realty/zhk-bagatel/kv*
Заранее спасибо за ответ!
Здравствуйте!
Можно прописать запрет так:
Dissalow: */kv*
Спасибо огромное!
Здравствуйте.
У меня сайт в доменной зоне «.рф», русское название Яндекс не понимает — в окне для роботс.тхт — квадратики. Я прописал адрес сайта на англ.языке, который мне прислали по почте от хостера(по нему выходит на русское имя сайта)- я прописал правильно хост? Или есть какие-либо нюансы в файле роботс.тхт для доменной зоны «.рф»?
p.s.- посмотрел по инету, как прописаны адреса зоны «.рф» у других блогов/сайтов, но к моему удивлению обнаружил, что у многих вообще нет такого файла, а других буквально пару строчек и никаких строк на хост.
Спасибо.
Здравствуйте Александр! Вы прописали хост правильно!
Спасибо большое за ссылку!) А обязательно после category и других ставить в конце /? Там, откуда я скачивала, слешей в конце нет. Может, их все-таки нужно поставить, или это не имеет значения?
Обратите внимание на URL страниц с категориями, с постраничной навигацией и т.д. Вы увидите, что «category» или «page» находятся между двумя слешами. В статье я подробно описал синтаксис файла robots.txt. Также можно проверить любую директиву в Гугл вебмастер на странице «Заблокированные URL».
Поняла, нужно будет дополнить. А как много времени обычно уходит на то, чтоб Яндекс заметил перемены в этом файле?)
По хорошему, надо вручную удалить дубли, через Яндекс вебмастер, тогда и ждать не придется.
Виталий, и ещё раз добрый вечер!
У меня установлен плагин all in one seo pack, карту сайта xml нашла через файл зиллу в папке plugins/папка плагина.
Если прописать запрет на индексирование всей папки plugins, роботы перестанут карту сайта индексировать. Можно ли её вынести за пределы папки плагина в корневую директорию? Или нет, учитывая, что она динамически генерируемая?
Ещё вопрос, где найти robots.txt?? В папке сео плагина его нет, хотя в панели яндекс вебмастер показывает, что файл присутствует.
Заранее признательна за Ваш ответ!
Ирина
Ирина еще раз здравствуйте!
С чего Вы взяли, что нашли XML карту по указанному Вами адресу? Она, как Вы правильно заметили, должна располагаться в корне сайта. Ничего переносить не надо, прочитайте мою статью про динамическую карту сайта.
Файл Robots.txt сам не создается, если конечно он не динамический, вы его должны создать сами и расположить в корне сайта.
Виталий, большое спасибо за Ваш ответ.
Ну, я нашла некий файл с расширением xml и думала, что это карта сайта и есть:)
А файл роботс находит яндекс через панель вебмастеров и показывает, что там даже проставлен запрет на индексировать двух директорий (хотя я вижу, что яндекс их все равно индексирует спокойно…)
Сделаю как Вы говорите: ничего трогать не буду, создам карту и роботс и положу в корень сайта.
Большое спасибо за помощь!!
Добрый день, вижу что Вы можете мне помочь в моём вопросе (я на это очень надеюсь). У меня кулинарный блог и как я понимаю, сам текст комментариев не надо закрывать от индексации (если это вообще возможно), так как я заметил, что именно из комментариев, бывает по какому-то запросу статья оказывается на хорошем месте в поиске (видел такое неоднократно на других сайтах). А что делать с ссылками на сами комментарии? Или они не создают дубли?
Вот я смотрю на ваш робост, вы можете мне ответить, за что отвечает каждое правило?
Disallow: /wp-comments
Disallow: /comments
Disallow: /comment
Как я понял из комментариев, Disallow: */comments закрывает дубли страниц, если комментариев много и они разбиты на несколько страниц. Спасибо.
Здравствуйте!
Disallow: /comment — закрывает страницу с комментарием, но надо заметить, что вездесущий Google все равно будет индексировать данные страницы и отправлять в свой сопливый индекс. Но если их не закрыть , то создастся дубль, что еще хуже.
Disallow: /comments — Вы все правильно поняли!
Спасибо за ответ. Тогда созрел вопрос, почему у вас на данном блоге нет Disallow: /comment, не боитесь дублей?
Я совсем недавно изменил свой robots, так как провожу эксперимент и закрыл дубли другим способом. По результатам эксперимента обязательно напишу статью.
Здравствуйте Виталий! Вот роботс-это моя головная боль…Скажите, как правильно написать директиву Allow, чтобы разрешить картинки к индексации, они у меня находятся в папке wp-content/uploads/2014 (вот именно в 2014), а в uploads есть файлы, которые я не хочу открывать к индексации, мне надо открыть только 2014 с картинками, а остальное чтобы закрыто было…я прописал Allow:/wp-content/uploads/2014, но вот правильно ли это??
Здравствуйте Янис! Если вы хотите запретить индексацию файлов, например расположенных в папках 2013 или 1013 и разрешить индексацию только 2014, то прописать надо так:
Disallow: /2012
Disallow: /2013
Allow:/ 2014
Хотя разрешающую директиву можно и не прописывать, достаточно запретить индексацию файлов из папок 2012 и 2013.
Ну я вот именно про такой путь: wp-content/uploads/2014, у меня стоит запрет на Disallow: /wp-content/,а папка с картинками(2014)как видите идет по этому пути, в результате я прописал:
Allow: /wp-content/uploads/2014
Disallow: /wp-content/-это правильно??
Или можно вот так:
Allow: /2014
Disallow: /wp-content/
??
Я понял Вас Янис, лучше пропишите полный путь:
Allow:/wp-content/uploads/2014
мне тоже так кажется, тем более проверял через анализ роботс яндекса, гугл уже индексирует, но вот яндекс тормозит на счет картинок, хотя я это прописал давно, уже несколько апов прошло..
Здравствуйте. Я не особый специалист и к тому же обзавелась странной проблемой. Боюсь все испортить, по этому хочу прежде спросить.
Есть у меня сайт, к нему субдомен, который я пытаюсь продвигать.
И вот гуглвэбмастер обнаруживает на субдомене кучу не найденных страниц.
Не знаю как, но к любым url от субдомена в конце просто добавился адрес главного сайта.
Например ru.st******************/www.st**********com
Как мне исключить из индексации именно странички с таким окончанием?
Здравствуйте Triana! Точнее пожалуйста, какие окончания Вы имеете в виду?
Допустим….
главный: site.com
субдомен: ru.site.com
На русском в конце абсолютно разных URL почему-то появляется /site.com
Например: ru.site.com/старый-новый-год/www.site.com
и в итоге уже есть 72 ошибки 404
Как можно хотя бы исключить их в роботс?
Или что могло быть причиной? Какое-то недоразумение)
Можно просто взять и удалить эти URL?
Если, эти страницы выдают ошибку 404, то закрывать их не надо, а надо искать битые ссылки.
Ух…) Наконец-то, все исправила)
Говорила, что недоразумение.
Добавила ссылку на главный сайт в меню, которое есть на всех-всех страницах субдомена.
И ошибки умножались с каждым днем. Даже не берусь считать, за 200 штук было точно.
Всего лишь написала его с www. а надо было без.
Огромное Вам спасибо!) Удачи и процветания)
Как хорошо теперь жить без этой головной боли)
Здравствуйте, Виталий.
Насколько я понял Ваш конёк это WordPress. У меня вопрос по другой CMS, у меня WebAsyst Shop Script 5. У этой системы файл robots.txt в явном виде не присутствует, однако в настройках сайта есть определенное окно, в котором и создается этот файл. Не могли бы Вы посмотреть мой robots.txt. Я закрыл (во всяком случае пытался) все административные настройки, оставил только public и папку XML. WebAsyst рекомендует другие настройки. Что лучше?
Алексей в Вашем robots.txt не указан путь до файла sitemap.xml.
Здравствуйте.
Совсем забыл. Вот мой сайт:
chukokkala.ru/
а вот что рекомендует WebAsyst:
webasyst.ru/help/149/shop-script-5-robots-txt/
И ещё вопрос:
у меня есть необходимость закрыть для индексирования страницы с отзывами о товаре. URL у них такой:
chukokkala.ru/shop/30/reviews/
Как мне правильно закрыть все страницы с reviews ?
Заранее благодарен.
Алексей я к сожалению не знаком с WebAsyst Shop Script 5 и не могу дать точные рекомендации.
Если Вам надо закрыть именно этот отзыв, то директива должна выглядеть так:
Disallow: shop/30/reviews/
Здравствуйте, Виталий.
Спасибо за ответ. Я бы многое сейчас отдал, чтобы не быть знакомым с Shop Script 5, а заодно и со службой поддержки WebAsyst. Но к сожалению паровоз ушёл. С файлом sitemap.xml сейчас буду разбираться.
Я наверное неправильно задал вопрос. Дело в том, что в выражении:
chukokkala.ru/shop/30/reviews/
30 — номер отдельной страницы товара (или его ID). Если я буду закрывать отзывы указанным способом, то на каждый товар в robots.txt придется прописать отдельную строку:
Disallow: shop/30/reviews/
Disallow: shop/30+1/reviews/
Disallow: shop/30+2/reviews/
Нельзя ли закрыть все reviews (как существующих товаров, так и тех, которые только будут созданы) как-нибудь так:
Disallow: /reviews $
Правильно ли это?
Заранее благодарен.
Если я Вас правильно понял, то запрет должен выглядеть так:
Disallow: /reviews
Будет достаточно!
Премного благодарен. Вчера воспользовался Вашим советом — загрузил себе LastPass ну очень нравится. Спасибо
Есть ещё вопрос:
На моём ресурсе сразу три поселения: блог, магазин и хостинг фоток. Каждому поселению соответствует свой файл sitemap:
http://chukokkala.ru/sitemap.xml
Как правильно это отразить в robots? Указать все строчки на каждый файл? Или указать URL, который ведет на все три?
Укажите URL, который ведет на все три.
Добрый вечер, Виталий.
Если я Вас правильно понял, то запрет должен выглядеть так:
Disallow: /reviews
Будет достаточно!
не закрывает отзывы это выражение.
Вот
Попробуйте так:
Disallow: */reviews
Нашёл я решение в настройках модуля. Так что проблема решена…
Виталий,
спасибо Вам за внимание. Я нашёл иной способ борьбы с отзывами, просто убрал возможность их появления в настройках CMS. Правда много проиндексированных Яшей и пр. страниц ведут именно на отзывы (reviews), коих уже нет. Обидно. Главное робот дошел до этой страницы, а предыдущие (самые необходимые) пропустил.
С нижайшим почтением к Вашему труду
Доброй ночи. Очень рад что нашел Ваш блог! Живой блог!!! С удовольствием читаю. И только что благодаря Вам создал такий файли как роботс и сайтмэп. Но Есть (она не может не есть) у меня такая трабла с сайтом. Пробую добавить его в гугл вебмастер на Маркер (Вид поиска) и он мне определяет устаревшую страницу. Также заметил, что при нажатии на поделится в фейсбук или одноклассники он выдает мне устаревшую картинку с сайта bodas.net (вставлял от них эту картинку как награду). С главной страницы убрал одну фото галерею, а гугл в Маркере ее снова ставит, поменял название сайт (и в шаблоне и в SEO, и описании) и ничего. Думал кэш, чистил браузер, пробовал другой, чистил кэш сайта (плагинами) а воз и ныне там. Неделю уже меняю все на сайте, перенес альбомы, коечто удалил, чтото добавил. А гугл и соц.сети этого не видят. Что делать??? ❓ ❓ ❓ Помогите пожалуйста. Если нету времени подробно, то хотябы в каком направлении искать??? Спасибо
Здравствуйте Василий! Ваш сайт плохо индексируется из-за этого все проблемы. Посмотрите когда последний раз заходили к Вам роботы Яндекса и Гугла.
Здравствуйте, Виталий.
Сегодня я получил рассылку с Вашего блога в которой были ссылки на два последних сообщения из этого раздела. Откровенно говоря, когда я подписывался на рассылку, я предполагал, что буду получать ссылки на Ваши новые статьи. Проблемы начинающих веб-мастеров мне интересны только с точки зрения развития собственных проектов. Что надо сделать чтобы ограничить рассылку только Вашими статьями?
Алексей, вы наверное подписались на комментарии к этой статье, просто отпишитесь от получения комментариев.
Добрый день. Файл access.log содержит множество строчек следующего типа:
37.140.141.11 — — [12/Sep/2014:02:39:20 +0400] «GET /shop/?filter_size=523&filter_length=460,392 HTTP/1.0» 200 59004 «-» «Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)»
37.140.141.11 — — [12/Sep/2014:02:39:27 +0400] «GET /shop/?filter_length=396,462,463,464,393 HTTP/1.0» 200 62626 «-» «Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)»
Подскажите как в файле robots.txt это можно заблокировать?
Привет. Прошу меня скажите,как сделать правильный робот.тхт, чтобы индексация былo только для статье ,фото ,категории и тег. А остальные запретить ?
Здравствуйте.
Никак не могу решить вопрос. Может тут мне помогут. Скажите пожалуйста как запретить пользователям открывать файл robots.txt? Например сейчас любой может перейти по ссылке
http://имясайта.ru/robots.txt
и увидеть какие страницы я прячуUser-agent: *
Disallow: /superzag
И перейдя по адресу
http://имясайта.ru/superzag
может перейти на страницу которую я разрешаю просматривать только подписавшимся на мой блог пользователям.Можно как то сделать что бы люди не могли отрывать robots.txt? Что бы при попытке открыть
их переадресовывало на другую страницу. Или может даже выдавало ошибку 404. Да что угодно
лишь бы никто не видел этот файл.
Но для поисковых роботов все должно быть как положено, что бы они нормально воспринимали
роботс файл.
Здравствуйте, Виталий!
Подскажите пожалуйста, нужно ли закрывать от индексации страницы авторов сайта в файле Robots.txt?
У меня на сайте у авторов (в данный момент только у меня, как админа) есть отдельные страницы с уникальными урлами, где представлены все статьи с их кратким описанием.
Данная страница у меня попала в индекс.
В связи с чем получились дубли, на сколько я понимаю.
Нужно ли в Robots.txt прописать строку: Disallow: /author/*/* ??
Игорь,страницы авторов лучше закрыть с помощью мета-тега robots.
Спасибо большое, Виталий!
Здравствуйте, Виталий!
Разобраться в Роботсе мне, особо одаренной в области сайтостроения, очень сложно. Не могли бы вы посмотреть мой роботс? Пожалуйста! Он был составлен на старый шаблон темы сайта. Тему я поменяла сама. Cейчас устанавливаю и настраиваю правильные плагины по вашим статьям. С файлом роботс я запуталась и боюсь что-либо в нём менять сама.
— старый файл роботс подходит для новой темы или нет?
— Что закрыто в этом файле?, по-моему закрыто всё! и рубрики, и коменты и ….
и ещё я проверила, как вы написали в статье, свой файл роботс, Яндекс мне выдал вот это:
15-28
User-agent: Yandex
Disallow: /cgi-bin
…
Host: igolo4ka1.ru
30-31
Sitemap:
http://igolo4ka1.ru/sitemap.xml.gz
Sitemap:
http://igolo4ka1.ru/sitemap.xml
— и что эти строчки значат? Хорошо это или плохо?
Заранее спасибо за ответ. Очень хочу разобраться с вашей помощью. ТИЦ скатился до нуля, PR до 1.
Здравствуйте Ольга! Настраивать индексацию сайта лучше с помощью мета-тега robots. Как это делается, читайте здесь. Там же Вы найдете идеальный вариант robots.txt.
Не нажала кнопку Оповещать о новых комментариях. Жму!
Информатика — Kazportal.kz
kazportal.kz/category/informatika/ — Перевести эту страницу
Описание веб-страницы недоступно из-за ограничений в файле robots.txt. Подробнее…
Что это значит, и как решить ? Заранее благодарен
Это значит, что данный URL заблокирован в файле robots.txt и робот не может прочесть содержимое данной страницы.
Если вводит в google saite:kazportal.kz/
в результатах 6 страниц
и внизу пишет что еще 7 страниц были найдены очень похожие на этих 6 страниц, поэтому они скрыты
Это что значит пожалуйста помогите, я новичок в этом деле
Вот статья почитайте.
Я прочитал вашу статью с большим интересом, за это спасибо вам, но я хочу чтобы робот проиндексировал весь контент (страниц и рубрик), вы можете посмотреть на мой файл robots.txt, и подсказать чтобы все индексировалась ?
Заранее огромное спасибо !!!!!
Тимур, у вас нет запретов на индексацию рубрик и страниц. Вы можете проверить индексацию в Гугл вебмастер (сканирование -> инструмент проверки файла robots.txt).
Я проверил как вы сказали, на все страницы и рубрик и проверил каждую запись на всё у меня доступ разрешен, но когда я ввожу в поиск: saite:kazportal.kz/ мне выдает 7 страниц, а рубрики скрыты внизу, посмотрите пожалуйста что это значит, помогите пожалуйста
Тимур, какой возраст у Вашего сайта?
Купил домен и хост неделью назад
Ну тогда чего Вы хотите. На индексацию молодых сайтов уходит до 3 месяцев. Наберитесь терпения и лучше закройте дубли, а то загремите под АГС.
А какие дубли? У меня вроде нет же дубли страниц
Так правильно откуда им взяться, если у Вас на страницах даже текста нет. Вы в исходный код заглядывали (Ctrl +U). Сайта строение не такое простое дело, как Вам кажется Тимур и сайты строятся годами, а не за 7 дней.
Извините меня что беспокою каждый раз, но на сайте у меня плагин стоит для текстов, точнее для doc формата, вы хотите сказать что гугл не индексирует эти записи ??
Конечно нет, как он их будет индексировать если нечего индексировать. Робот читает исходный код!
Добрый день, Виталий.
Спасибо за статью. У меня такой вопрос. На моем сайте на странице
bibinur.ru/krasota.html
располагаются только анонсы статей, которые я бы хотела закрыть от индексации. А желаемые статьи для индексации находятся здесьbibinur.ru/krasota/ukhod-za-litsom/uchazhivaem-za-kozhey-zimoy.html
.Как запретить к индексации саму страницу krasota, но не запрещать к индексации uchazhivaem-za-kozhey-zimoy.html ?
Заранее спасибо.
Здравствуйте Зуля!
Странно у Вас ЧПУ настроены. У вас и
bibinur.ru/krasota.html
, а есть и простоbibinur.ru/krasota
, причем открываются одинаковые страницы. Прежде чем настраивать индексацию, вам с ЧПУ надо разобраться и со страницей ошибки 404.Спасибо большое за быстрый ответ. Буду разбираться.
Спасибо, подробненько так!
Здравствуйте. А можете вставить в свою статью файл robots.txt для wordpress в котором были бы все обязательные к закрытию элименты блога. А то мой блог попал под агс яндекса из за того, что он нашёл 1000 ссылок на мой сайт (мой блог сам на себя ссылался). Вот к чему привела беспечность. Для вордпресса обязательно нужно составлять robots.txt.
Здравствуйте Сергей! Как правильно настроить индексацию сайта я писал тут.
Здравствуйте.
Я хочу закрыть индексацию пары страниц своего сайта для всех роботов.
Для этого я должен закрыть их здесь User-agent: *
и продублировать здесь User-agent: Yandex.
(Для других роботов у меня отдельных директив нет)
Я правильно думаю, подскажите пожалуйста.
Сергей, вовсе не обязательно это делать через файл robots.txt. Если Вы используете плагин All in One SEO Pack, то можно закрыть любую страницу с помощью мета-тега robots, проставив галочки в соответствующий пунктах, непосредственно под записью.
У меня такой вопрос, я сделал постраничную навигация сайта, теперь не могу понять стоит ли эти страницы закрыть от индексации, (page1, page2, page3, и.т.д.), точнее я уже закрыл в роботс Disallow: /*page, правильно ли это, будет ли гугл индексировать записи ?
Тимур, если Вы закроете страницы пагинации в файле robots.txt, то они окажутся в «сопливом» индексе Гугла, так как на них ведут внутренние ссылки. Для этих целей белее подходит мета-тег robots.
Подскажите пожалуйста, я уже с ума сошел — при проверке на вебмастере яндекса, вместо роботса закачивается код страницы… в чем может быть проблема?
У вас файл robots.txt в какой директории находиться?
Добрый день. Подскажите, пожалуйста, почему яндекс не хочет индексировать ни одной картинки на моем сайте? С Гуглом проблем нет.
Может необходимо внести изменения в robots.txt ?
Ну почему же не одной, проиндексировано 23 картинки. Файл роботс тут не причем, просто картинки не уникальные. Об уникальности картинок я писал тут.
А с помощью чего Вы их обнаружили? В Яндекс.Картинки вбивая в строку поиска host:домен, показывает только 4 картинки
site:домен без http
Добрый вечер, подскажи как закрыть в роботс комментарии, вот окончание /#comment-11 возможно ли или легче убрать виджет с тулбара последними комментариями?
Здравствуйте! Последни комментарии лучше убрать.
Спасибо за ответ, после того как Вам написал вопрос, подумал немного и убрал) удачного развития вам вашего блога
дравствуйте!
Спасибо за полезную статью. Теперь знаю, что для моего сайта сделали неправильный файл robots.txt . Посмотрел, такие вопросы Вам вроде ещё не задавали. Поэтому просьба разъяснить следующее:
1. На сайте с WordPress с ЧПУ мне нужно закрыть от индексации наряду со служебными разделами WP также результаты поиска по сайту и дубли. Если написать в robots.txt эти две директивы:
Disallow: /?s=
Disallow: /*?*
то не будут ли исключены из индекса нужные мне УРЛы, в адресах которых присутствует буква «s» ?
2. Мой сайт создан не для блога, на нем нет регистрации для посетителей, соответственно нет логин / пароль для входа, нет возможности для комментариев и т.д. В таком случае нужны ли вообще в robots.txt эти директивы во всех вариациях:
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /trackback
Disallow: /trackback/
Disallow: */trackback
Disallow: */trackback/
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /?feed=
Disallow: /comments/
Disallow: */comments/
Если нужны, то какие именно?
3. Если из-за неправильного robots.txt сейчас имеются дубли, то они вскоре выпадут из индекса после того, как robots.txt будет исправлен? Или нужно принимать специальные меры?
Заранее спасибо.
Сергей Здравствуйте. Прежде чем ответить на Ваш вопрос, советую прочитать 2 статьи:
Supplemental index. Дополнительный (сопливый) индекс Google
Мета-тег robots. Правильная настройка индексации сайта
Если вопросы останутся, задавайте.
Здравствуйте, Виталий!
Спасибо за ответ.
Ещё один вопрос, на который не могу найти ответ. Был бы благодарен за Ваше мнение. Напомню, что мой сайт — не блог, а сайт небольшого агентства недвижимости.
Сайт на WordPress, подкорректировал robots согласно рекомендациям, а также примерам на различных сайтах. Наряду с прочими директивами имеются и вот эти:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Проверяю мои страницы в webmaster Гугла в разделе «Посмотреть как Googlebot». При таком robors на страницах отображаются только тексты, то есть сайт выглядит как полу-фабрикат. А фотографии, дизайн, элементы оформления, таблицы и т.д. не видны. Указывается, что блокировка этих элементов происходит из-за директив:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
В этой связи вопрос. Так и должно быть, что сайт выглядит для поисковиков усеченным? Или всё же он будет понижен в результатах выдачи поисковиков из-за того, что он выглядит в их глазах ущербным? Если последнее верно, то что нужно сделать, чтобы исправить ситуацию?
Сергей К.
Здравствуйте Сергей!
В файле robots.txt надо запрещать индексацию только служебных файлов, к коим и относятся файлы, расположенные в каталогах:
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Нет, за это никаких санкций со стороны поисковиков, быть не должно.
Большое спасибо за ответ. Всего Вам доброго.
На данный момент гугл ругается, что сайт выглядит ущербным и требует окрывать доступ к css и javascript, и не соблюдение этого может ухудшить позиции сайта в Поиске
Все верно, надо просто открыть Гуглу все файлы, которые он требует. Какие файлы открывать, можно посмотреть в Гугл Вебмастер (Индекс Google — Заблокированные ресурсы). Кроме css и js файлов Гугл требует открыть и служебные изображения.
Здравствуйте, скажите, пожалуйста, в чем может быть проблема. Сегодня зашла в гугл-вебмастер и там появилось сообщение от 06.09.15, что доступ запрещен к:
wp-content/uploads/2015/08/
файл robot.txt не меняла, в таком состоянии находится в течение последних 5-6 месяцев.
Ольга, в файле robots.txt запретов нет по данному URL. Здесь что-то другое.
Спасибо, буду искать причину
Виталий! Это ваша статья, я на нее подписывалась и читала несколько раз. Встретилась в Интернете мне случайно, этот человек ее у вас украл и написал почти слово в слово. Разберитесь, если хотите, посылаю вам ссылку.
memorialplace.ru/meta-teg-robots-pravilnaya-nastroyka-indeksatsii-sayta.html
Да чего с ним делать, загремит под фильтр и все дела.
Вопрос по роботу есть ли какая то команда что бы запретить к инедексации урл на русском? Ну ти сайт/tara/бутыль не индексировалась а сайт/tara/butil индексировалась? ну и соотвествено так для всех урлов на латинице запрет
Николай, тут надо идти другим путем. Если Вы сменили URL у страницы, то URL на русском должен отдавать ошибку 404. В таком случаи эти страницы можно удалить из поиска через панель вебмастера Яндекса и Гугла. Также необходимо исправить все внутренние ссылки (если таковые имеются), ведущие на удаленные страницы. В дальнейшем урлы на русском индексироваться не будут.
Добрый вечер, подскажите, не будет ли ошибкой добавить в robots.txt для вордпресс: Disallow: /*.php Спасибо
Ошибки не будет, но кроме этого необходимы директивы, закрывающие каталоги (папки) в корне сайта.
Здравствуйте, если можно, для чайника, немножко по-подробней)
«необходимы директивы, закрывающие каталоги (папки) в корне сайта»
Заранее Вам благодарен
В корне сайта находятся папки (каталоги) такие как: wp-admin, wp-content, wp-includes, могут быть и другие.
Все перечисленные выше папки можно закрыть одной директивой:
Disallow: /wp-
НО! Надо обязательно точечно открыть доступ к папке с изображениями, с помощью разрешающей директивы:
Allow: /wp-content/uploads
Также для Гугла желательно открыть доступ к css и js файлам.
Здравствуйте. А почему нельзя закрывать от индексации папку uploads? Статьи ведь с этими изображениями индексируются? Спасибо.
Здравствуйте Сергей! Изображения в статьях индексируются потому, что открыт путь до файла, где они хранятся. Если закрыть папку uploads, то статьи будут индексироваться уже без изображений. Проверить можно в Гугл вебмастере (Сканирование -> Посмотреть как Googlebot -> Получить и отобразить).
Большущее Вам спасибо!
Еще еще у меня есть вопрос по пагинации, недавно я на всех своих сайтах добавил: Disallow: */page/* для того чтобы в индекс не попадали лишние страницы.
Правильно ли я поступил? Спасибо
Не совсем правильно. Страницы пагинации лучше закрыть с помощью мета-тега robots.
Добрый день!
Спасибо большое за ваш сайт.
Я изучил вашу статью, просмотрел ваш файл robots.txt
Скажите, пожалуйста, согласно этим настройкам, получается, что вы позволяете индексировать некоторые файлы, которые находится по адресу /wp-, а ведь все файлы сайта лежат по адресу /wp-content/themes/mytheme*.
Получается, что все страницы всё равное индексируются, т.к. их настоящий адрес идёт без /wp-, верно?
Здравствуйте Сергей!
Директива «Disallow: /wp-» закрывает все файлы и папки движка, имеющие префикс wp, в том числе файлы темы.
Страницы сайта, которые нежелательны в поиске, я закрываю мета-тегом robots.
Здравствуйте. На моем сайте много статей, которые в основном состоят из фотографий. В файле роботс у меня написано:
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: YandexImages
Allow: /wp-content/uploads/
В результате оказалось проиндексировано очень много всего. По некоторым причинам мне бы этого не хотелось. Правильно я думаю, что если эти записи убрать, то собственно фотографии выпадут из индекса, но сами статьи (с фотографиями, это главное!) останутся в индексе? Спасибо.
Сергей, пишите директивы сразу для всех поисковых систем? вот так:
User-agent: *
И вообще записывайтесь на курс «Сопровождение сайта». Чувствую вы вообще заблудились.
Здравствуйте, Виталий. Подскажите пожалуйста. Гугл сайт проиндексировал, а вот Яндекс отказывается.ссылается на то что «индексирование страниц запрещено в вашем файле robots.txt.» Посмотрите пожалуйста файл, где закралась ошибка? И правильно ли прописана директива Host:?
Здравствуйте Елена! Я посмотрел Ваш robots.txt и даже знаю, где Вы его взяли. В поле Host домен пишется без слеша на конце, но это не может запретить индексацию для Яндекса.
Поле Host я конечно поправила. Что вы посоветуете мне сделать?какие должны быть следующие шаги?И раз Вы знаете от куда у меня шаблон, что Вы о нем думаете?
Советую Вам написать в службу поддержки Яндекса, и попросить разъяснить ситуации. ответ конечно будет шаблонным, но Вы хоть поймете, попал Ваш сайт под санкции или нет.
Я посмотрел, в поиске Яши нет ни одной страницы , даже главной, что даже при фильтре АГС не должно быть.
Сейчас идет глобальная перестройка алгоритмов Яндекса, да и Гугла тоже, думаю возможны погрешности, в которую по случайности мог угодить Ваш сайт.
Что делать с сайтом в первую очередь? Надо обязательно провести глубокую оптимизацию сайта, устранить все технические ошибки, серьезно подумать о юзабилити и стараться наращивать поведенческий фактор. В общем советую потратится на свой проект, ради его здоровья. Самостоятельно, без специальных знаний и опыта, такие работы, конечно, произвести сложно, но это Вам решать.
Что касается файла robots. С недавних пор шаблонных вариантов robots.txt не существует. Каждый сайт уникален, а поисковики требуют доступ ко все CSS и JS файлам, иначе к топу вы не подберетесь, а у Вас все запечатано наглухо, а системные файлы в корне сайта, почему-то не закрыты.
Не хотел Вас расстраивать, сказал, как есть!
Виталий спасибо за обстоятельный ответ. Буду думать
У меня такая же проблема произошла замучился с картой, но все оказалось очень просто, сам додумал. Я тоже шаблонный робот скопировал там закрыт от индекса компонент Disallow: /components/
а карта сайта это все же компонент, соответственно надо разрешить карту индексировать
Allow: (/index.php?option=com_xmap) в скобки вставляете страницу XMAP и вуаля
Тип файла Файл Sitemap
Размер 77,01 КБ
Количество ссылок 466
Ошибок не найдено
Виталий, приветствую вас)) помогите с файлом роботс разобраться))) пока он был не корректированный люди приходили по запросам из поиска Яндекса, а сейчас как-то мало идут, совпало с тем, что я внесла изменения. Может чего перемудрила)) или совпало так. и еще у меня очень много загруженных страниц показывает а в поиске меньше половины. Может я дубли какие не закрыла)) безгранично благодарна за помощь))
Лана, надо анализ делать. Каждый сайт индивидуален шаблонных вариантов файла robots.txt более не существует.
Благодарю, Виталий за оперативную реакцию)) а ваши услуги по анализу сколько стоят и что включают в себя?
Все цены вы найдете на странице «Мои услуги«.
Виталий, скажите, как запретить ряд слов, присутствующих в линках к индексу? они могут располагаться в конце, в середине, в начале. Сделал так /*navington* , но все равно находятся, может есть смысл закрыться слэшем?
Это смотря какая структура URL, вы приведите кусок.
многоуровневая структура, может быть такая
/catalog/detskie-koljaski/aksessuary-k-koljaskam/ljulka-dlja-koljaski-navington-genua-madagascar
такая
/brands/navington
или такая
/brands/navington/aksessuary-k-koljaskam
Здравствуйте, у меня проблема пришло сообщениеот вебмастера что сайт закрыт в роботс а он не закрыт. Можете посмотреть пожалуйста( questozavr.ru
Здравствуйте! В robots у Вас запрета на индексацию сайта нет.
Здравстуйте, Виталий, что-то Яша недавно проиндексировал на многих моих сайтах feedы:
-site.ru/categoriya/podcategoriya/statya.html/feed/
-site.ru/categoriya/podcategoriya/feed/
-site.ru/categoriya/feed/
-site.ru/feed/
Я закрыл в robots.txt:
-Disallow: /*/*/*/feed/
-Disallow: /*/*/feed/
-Disallow: /*/feed/
-Disallow: /feed/
Скажите правильно ли я поступил, можно ли это упростить, и как еще можно побороть такие дубли(кроме роботс.тхт?
Заранее благодарен 🙂
Здравствуйте!
Правильно так:
Disallow: */feed
Disallow: /feed
Вы можете проверить перекрыт ли тот или иной урл в Гугл вебмастере, в разделе «Сканирование» -> «Инструмент проверки файла robots».
Большое спасибо, скажите Виталий, почему без слеша в конце?
Если директива оканчивается «пустым символом», например:
Disallow: */feed
То подразумевается любой символ после feed, в том числе и слеш.
По другому можно было написать так:
Disallow: */feed*
Что одно и тоже.
Здравствуйте. Сделал рекомендуемое. И вот что получилось: Рис.1 prntscr.com/czpfw7 Рис.2 prntscr.com/czpgad И что это значит ? Спасибо.
Добрый день, а подскажите чайнику в бронепоезде, можно ли настроить робота так чтобы страницы там где есть цены индексировались а где их нет не индексировались при условии что кол-во страниц с ценами меняется каждый день но не на 100%. А то както глупо выходит робот индексирует все страницы по очереди но через 2 недели проиндексировав 10% обиделся и перестал индексировать остальное а страниц 11 милионов
Подскажите замечал, что у многих блокируется wp-comments. Я так поминаю эта строка отвечает за комменты, её нужно блокировать или нет?
Да, надо!
Ок, спасибо Виталий! 🙂
Доброго времени суток.
Вот какая проблема. Сайт имел 100-120 посещений в сутки, но после того, как отредактировал robots.txt (хотел избавиться от дублей), случайно заблокировал почти все страницы (из 2500 страниц в индексации остались 90). Заметив это, тут же вернул старый robots.txt. Вот в чём вопросы: как скоро yandex бот вновь проиндексирует страницы? ухудшится ли их положение в поисковой выдаче? можно ли как-то ускорить процесс индексации?
Спасибо.
Александр, робот Яндекса делает все очень медленно, думаю минимум 3 месяца надо, чтобы все вернулось на круги своя, а может и больше.
Что касается настройки индексации, то вам сюда.
Здравствуйте. Подскажите пожалуйста как запретить в роботс ссылки на картинки в статьях. У меня в выдаче много таких ссылок вида: duxzdorovya.ru/kak-izbavitsya-ot-volos-na-nogax/shugaring/
Здравствуйте Анна!
Вот почитайте и выполните действия, которые описаны в этой статье.
Доброго времени!
У меня на сайте ourdomain.ru Яндекс и Гугул видят robots.txt не тот, что у меня в корне сайта, а кокойто посторонний. Ни водной папке темы я второго robots не нашел. Как избавиться от неизвестного файла? Где его искать?
С уважением, Николай.
Добрый день, Виталий. Подскажите пожалуйста как сделать чтобы записи можно делать на разных страницах сайта wordpress, а не только на главной. Спасибо большое за ответ
Добрый день. Подскажите, пожалуйста.
Как закрыть от индексации страницы такого вида
домен/#1543258897.1198
домен/#1543258897.267
Самих этих страниц нет, открывается главная.
Здравствуйте Сергей!
Все урлы, начинающиеся с решетки — являются якорями.
Закрывать их не надо, но на странице должен быть выведен атрибут canonical.
Спасибо, понятно все расписал