Seo-Бизнес блог Progress-project

Все о создании, продвижении сайтов и заработке в интернете

Обновлённый дизайн блога Progress-project
logotip «Progress-project»
logotip «Progress-project»

Настройка индексации сайта, создаём правильный файл robots.txt для WordPress

Здравствуйте, сегодня на abrek-ad-abra.ru речь у нас пойдёт о поисковой оптимизации сайта, вернее о том, как настроить его правильную индексацию, через файл robots.txt, запретив поисковому роботу индексировать все второстепенные (системные) файлы не являющиеся полезным контентом.
Давайте поговорим об этом немного подробней.

Почему на любом сайте необходимо обязательно создать файл robots.txt

Данный файл является своего рода рекомендательным обращением, где веб-мастер сообщает поисковым роботам какой именно раздел ресурса содержит полезный контент и будет наиболее полезен для поисковой выдачи а какой индексировать не нужно, так как он не какой ценности для посетителей не имеет или вовсе является дублем основного материала. Думаю, что здесь всё понятно.

Давайте представим картинку. Допустим, что ПС робот зашёл на ваш сайт но не нашёл на нём файла robots.txt, а ищет он первым делом именно его, как в этом случае следует поступать роботу?

В растерянности он начинает перемещаться абсолютно по всем папкам и файлам вашего CMS в надежде найти в них хоть, что то полезное для выдачи. При этом хочу заметить, что время на посещения каждого определённого сайта у поискового робота строго ограниченно и в место того, чтобы собирать на сайте полезный материал он начнёт тратить драгоценное и без того скудное время например на сканирование файлов движка или плагинов вашего сайта. И вполне вероятно, что по прошествии этого времени роботу придётся покинуть ваш ресурс и перейти на другой так и не добравшись до действительно важного контента. И если подобная ситуация будет повторяться несколько раз то такой сайт поисковая система непременно занесёт в чёрный список, как не имеющий полезного материала и являющимся мусорным.

Немаловажно и то, что в каждой поисковой системе,у основного бота имеется целая команда «помощников» строго выполняющих только своё предназначение.

Например Яндекс:

YandexBot — основной индексирующий робот;
YandexMedia — робот индексирующий мультимедийные данные;
YandexImages — индексатор Яндекс картинок;
YandexCatalog — «простукивалка» Яндекс каталога;
YandexDirect — робот индексирующий страницы сайтов участвующих в рекламной сети Яндекса;
YandexBlogs — робот поиска по блогам, индексирующий комментарии постов;
YandexNews — робот Яндекс новостей;
YandexPagechecker — робот обращающийся к странице при валидации микроразметки, через форму «Валидатор микроразметки».

Представляете сколько папок придётся перебрать допустим ПС боту YandexImages, зашедшему за уникальными изображениями на ваш сайт прежде, чем он доберётся до папки: «uploads».

Поэтому нам обязательно следует создать файл robots.txt в котором мы сможем запретить для индексации всё лишнее на своём сайте, тем самым указав кротчайший путь поисковым роботам до контента действительно нуждающегося в индексации.

Создание правильного robots.txt для сайта на WordPress

Итак, располагается файл robots.txt в корне сайта, создаётся, как обычный текстовый документ с расширением .txt, куда в последствии прописываются все необходимые директивы:

«User-agent». Данная директива нечто иное, как обращение к определённой поисковой системе например:

User-agent: Yandex

То есть всё, что будет прописано ниже, будет обращено к Яндексу или:

User-agent: Googlebot

Обращение к Google.

Для всех остальных не столь значимых поисковых систем обращение можно прописать так:

User-agent: *

«Disallow». Эта запрещающая для индексации директива в согласии с содержащимся в нём значением например:

User-agent: Yandex
Disallow: /

Как видите после запрещающего символа: «/» у нас нечего нет и это будет расценено ПС, как полный запрет на индексацию всего ресурса.

В случае если после данного знака у нас будет прописано например:

User-agent: Yandex
Disallow: /wp-admin

То запрет индексации будет распространяться только на указанную после знака папку или документ.

Если вам необходимо, чтобы поисковый бот всё же зашёл в конкретную папку, но при этом не стал индексировать какие либо под папки, делаем так:

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-content/plugins

Как вы наверное догадались только, что мы запретили индексировать папку с плагинами.

Таким же образом мы с вами можем задать запрет на индексацию определённых дублирующих URL, в которых встречаются символы например: «?», делается это следующим образом:

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /*?*

Смотрите, что у нас получилось, знак «*» говорит, что вместо него может быть абсолютно любой текст. То есть запрещается индексация любых url адресов имеющих знаки «?», дополнительно к этому данный знак обязательно должен быть между каким либо текстом например:

abrek-ad-abra.ru/post.php?post=416

В случае подобного url адреса где данный знак стоит в конце прописываем следующее:

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /*?*
Disallow: /*?

«Allow». В отличие от предыдущей данная директива не запрещает а наоборот позволяет индексировать содержание сайта. Способы применения всё те-же, что и в предыдущей:

User-agent: Yandex
Allow: /wp-content

«Host». Данная директива прописывается исключительно для ПС Яндекс, она указывает на главное зеркало сайта и так же способствует избавлению от некоторых дублей. Прописывается без указания протокола: https:// или https://:

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /*?*
Disallow: /*?
Host: сайт.ru

Либо так:

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /*?*
Disallow: /*?
Host: www.сайт.ru

Так же вам необходимо будет указать на главное зеркало сайта в панели вебмастера поисковых систем и сделать 301 редирект в .htaccess.

«Sitemap». Данной директивой мы указываем путь к карте сайта в формате .xml предназначенной для поисковых систем:

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /*?*
Disallow: /*?
Host: сайт.ru
Sitemap: https://сайт.ru/sitemap.xml

Конечно достаточно трудно начинающему вебмастеру сразу постичь все тонкости правильной настройке индексации сайта, как и создания с чистого листа файла robots.txt. Поэтому могу предложить вам уже готовый, стандартный файл robots.txt для wordpress, скопируйте код и вставьте его в любой текстовый редактор, сохраните с расширением .txt на вашем пк, измените: site.ru на адрес вашего сайта и загрузите на хостинг в корневую папку вашего ресурса. Для нормальной индексации вашего сайта этого будет вполне достаточно:

Стандартный Robots.txt, для WordPress!
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
 
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Host: site.ru
Sitemap: https://site.ru/sitemap.xml
 
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
 
User-agent: YandexImages
Allow: /wp-content/uploads/

Более тонкой настройки индексации можно достичь путём внедрения мета-тега: robots.

Чтобы просмотреть файл robots.txt любого интернет ресурса, впишите в адресную строку браузера:

https://site.ru/robots.txt

Изменив: «site.ru» на адрес необходимого вам сайта.

Проверить уже готовый robots.txt вашего сайта на правильность его составления вы можете в панели вебмастера поисковых систем по ссылке: «Яндекс Вебмастер, анализ robots.txt».

Укажите адрес, загрузите файл и нажмите проверить.

На этом по поводу создания файла robots.txt для сайта или блога под управлением CMS wordpress у меня всё. Хочу пожелать вам всего доброго до новых встреч!

С уважением, автор блога!
© progress-project
★Обновлено:2016-05-22

Введите свой e-mail:

Вы можете поделиться статьёй в социальных сетях:

Ваш комментарий

Внимание! Перед тем, как вставить в комментарий: html, php либо JavaScript, преобразуйте его в HTML сущность!

» Подписаться на комментарии по RSS
Поиск по блогу

Введите свой e-mail:

ВКонтакте Google+ Facebook RSS-лента сайта abrek-ad-abra.ru

Топ комментаторов

Виктор(6)
seoonly.ru(4)
Иван(3)
Олег(3)
Николай(3)

© 2015-2017

SEO-Бизнес блог «Progress-project».

Все материалы, опубликованные на сайте: принадлежат автору и охраняются в соответствии с законодательством РФ.

При использовании материалов сайта гиперссылка на обязательна!



seo-блог