Seo-Бизнес блог Progress-project

Все о создании, продвижении сайтов и заработке в интернете

Обновлённый дизайн блога Progress-project
logotip «Progress-project»
logotip «Progress-project»

Мета-тег robots. Более точная настройка индексации WordPress

Здравствуйте, буквально неделю назад на abrek-ad-abra.ru, была опубликована статья связанная с настройкой индексации блога, через robots.txt и тогда же я вскользь упомянул, что для более точной настройке индексации вашего проекта на CMS WordPress, есть смысл использования: мета-тега robots. Давайте сегодня подробней поговорим о данном мета-теге robots.

Итак о чём же идёт речь? Если вы заглянете в robots.txt данного ресурса то вы не увидите в нём длинного списка из директив запрещающих ПС роботам индексировать те или иные его разделы. На данном блоге файл robots.txt имеет следующий вид:

User-agent: *
Allow: /wp-content/uploads
Disallow: /wp-
Disallow: /*?
Disallow: /*?*
Host: abrek-ad-abra.ru
Sitemap: https://abrek-ad-abra.ru/sitemap.xml

Почему же так происходит? Нет я не открыл для индексации абсолютно все файлы блога, так как в этом случае в индекс могли бы попасть и все страницы с дублями, что привело бы к серьёзным негативным последствиям со стороны поисковых систем.

Просто на каждой дублирующей странице данного блога у меня прописан мета-тег robots. Вот так например данный мета-тег выводится на страницах с категориями (рубриками):

Теперь давайте я поведаю вам какие именно факторы поспособствовали для внедрения мной во все дублирующие страницы блога мета-тег robots.

Первое это то, что с недавних пор Google стал заносить закрытые для индекса в robots.txt страницы в свой дополнительный, так называемый (сопливый индекс): «Supplemental index» если на них имеются какие либо ссылки. Об этом мы с вами поговорим подробней в одной из следующих наших статей.

И второе это то, что при использовании мета-тега robots поисковая система запрет на индексацию видит уже непосредственно после загрузке страницы во время её сканирования, что в свою очередь даёт дополнительную возможность добавлять в индекс какую либо информацию или дополнительные элементы блога.

На достаточно многих известных SEO блогах вебмастера советуют использовать для индексации своих веб ресурсов на WordPress возможности плагина: «All in One SEO Pack». Активировав дополнительный модуль под соответствующим названием: «Настройки индексирования». Хочу вас предостеречь от использования данного способа индексации. Проведя небольшой эксперимент я пришёл к выводу, что данный способ также не даёт 100% гарантии от попадания дублей в индекс. Так, как упомянутый мной плагин на страницах с дублями выводит следующий код:

<meta name="robots" content="noindex, follow">

Как вы сами можете видеть в случае с Яндексом, код выводимый плагином способен уберечь от попадания в индекс только текст дублирующей странички, но при этом робот проиндексирует все имеющиеся на ней линки, что будет не совсем хорошо. Google же вовсе будет игнорировать тег noindex, что касаемо атрибута follow то он не запрещает а наоборот позволяет переходить по всем имеющимся на странице линкам и индексировать их. То есть в этом случае в индекс у вас попадёт полностью вся страница абсолютно со всем её содержимым.

В нашем же случае, как можно видеть и на скриншоте выше на дублирующих страничках мета-тег robots будет выводиться так:

<meta name="robots" content="noindex, nofollow">

Что уже наверняка защитит сайт от дублей. Давайте теперь немного ближе познакомимся с данным мета-тегом robots.

Возможности мета-тега robots

Как я уже говорил при помощи данного мета-тега robots мы с вами можем произвести настройку индексации сайта намного точней чем при использовании стандартного файла robots.txt.

Вот некоторые базовые параметры которые мы можем использовать с мета-тегом robots:

index — индексировать текст страницы.
noindex — не индексировать текст страницы.
follow — следовать по ссылкам и индексировать их.
nofollow — не следовать по ссылкам и не индексировать их.
all — индексировать текст страницы а также следовать по ссылкам и индексировать их.
none — не индексировать текст страницы а также не следовать по ссылкам и не индексировать их.

Внедряем мета-тег robots в дублирующие страницы сайта

И так давайте выясним какие именно функции обычно на WordPress создают дубли:

is_category() — функция вывода страниц с категориями;
is_archive() — функция вывода любых архивов;
is_year() — функция вывода архивов по годам;
is_month() — функция вывода архивов по месяцам;
is_day() — функция вывода архивов по дням;
is_date() — функция вывода архивов по датам;
is_author() — функция вывода архивов по авторам;
is_tag() — функция вывода страниц с метками;
is_tax () — функция вывода таксономии произвольных типов записей;
is_attachment() — функция вывода страниц с прикрепленными файлами;
is_paged() — функция вывода постраничной навигации;
is_feed () — функция вывода страницы фида;
is_search()> — функция вывода страниц внутреннего поиска.

С функциями создающими дубли мы с вами немного разобрались теперь нам необходимо прописать во всех дублирующих страницах между «<head> и </head>» наш мета-тега robots с запрещающими в нём атрибутами: «nofollow» и «noindex».

И чтобы это всё сделать в автоматическом режиме нам нужен код специальной функции которая и будет выводить мета-тег robots на необходимых страничках с дублями.

Находим среди файлов темы и открываем для редактирования: «functions.php» где в самом верху сразу после <?php вставляем:

function progress_meta_robots () {
if (is_archive() or is_category() or is_feed () or is_author() or is_date() or is_day() or is_month() or is_year() or is_tag() or is_tax() or is_attachment() or is_paged() or is_search()) 
{
echo "".'<meta name="robots" content="noindex,nofollow" />'."\n";
}
}
add_action('wp_head', 'progress_meta_robots');

Сохраняем в внесённые в файл изменения. Теперь в исходном коде всех дублирующих страниц выводимых функциями рассмотренными выше у нас будет выводиться мета-тег robots вместе с запрещающими для индексации атрибутами.

  • Если вы до внедрения данного мета-тега robots использовали модуль плагина «All in One SEO Pack» — «Настройки индексирования» обязательно снимите все галочки в данном разделе.

Вот так просто мы защитили свой блог от дополнительного (сопливого индекса) Google, теперь файл robots.txt сайта вы можете изменить до примера приведённого мной выше. Желаю всего доброго до новых встреч!

С уважением, автор блога!
© progress-project
★Обновлено:2016-05-20

Введите свой e-mail:

Вы можете поделиться статьёй в социальных сетях:

Ваш комментарий

Внимание! Перед тем, как вставить в комментарий: html, php либо JavaScript, преобразуйте его в HTML сущность!

» Подписаться на комментарии по RSS
Поиск по блогу

Введите свой e-mail:

ВКонтакте Google+ Facebook RSS-лента сайта abrek-ad-abra.ru

Топ комментаторов

Виктор(6)
seoonly.ru(4)
Иван(3)
Олег(3)
Николай(3)

© 2015-2017

SEO-Бизнес блог «Progress-project».

Все материалы, опубликованные на сайте: принадлежат автору и охраняются в соответствии с законодательством РФ.

При использовании материалов сайта гиперссылка на обязательна!



seo-блог