Seo-Бизнес блог Progress-project

Все о создании, продвижении сайтов и заработке в интернете

Обновлённый дизайн блога Progress-project
logotip «Progress-project»
logotip «Progress-project»

Дополнительный (сопливый индекс) от Google — «Supplemental index»

Здравствуйте уважаемые друзья, рад приветствовать вас на «Progress-project» abrek-ad-abra.ru. Сегодня у нас, как всегда достаточно важная тема, мы будем говорить о дополнительном так называемом (сопливом индексе) поисковой системы Google, под названием «Supplemental index».

В этот дополнительный индекс Google заносит весь по его мнению некачественный контент или веб странички в целом. С тем условием, что материалы могут быть выданы пользователю по определённому запросу только в том случае если во всемирной паутине не найдётся, что то более качественное. Согласитесь чем то схоже с фильтром Яндекса «ты последний». Думаю всем понятно, что при таких условиях материалы попавшие в индекс «Supplemental index» не будут выдаваться никогда.

У этого гиганта хватает мощи хранить в своём КЭШ сразу два индекса. Судя по всему это проще, чем заново каждый раз проводить весь анализ ресурсов. А значит и вытащить страницы попавшие в (сопливый индекс) будет гораздо сложней.

Ссылки с таких страничек не передают статического веса и вообще таких страниц для Google, как бы вовсе нет, он просто берёт их во внимание. И когда страничек попавших в (сопли) становится много это начинает негативно влиять на весь ресурс в целом.

Попасть в дополнительный (сопливый индекс) могут не уникальные материалы или посты короткого содержания. Конечно не кто не знает максимально допустимое количество символов в статье, но я думаю это должно быть не менее, чем 2000 знаков. Всех же секретов связанных с индексом «Supplemental index» Google не раскрывает. Но кое что мне всё же удалось выяснить.

Особое отношение Google к robots.txt и его директивам

Проведя небольшой анализ своих сайтов а так же ресурсов своих друзей и знакомых я пришёл к выводу, что приведённые мной выше кандидаты страниц на попадания в (сопли) это только малое из зол, основной пласт страничек находящихся в «Supplemental index» это дубли получаемые в результате особого отношения Google к запрещающим директивам robots.txt, давайте подробней поговорим об этом.

И так почти на всех проанализированных мной ресурсах в индексе Google оказалось значительно большее число страниц, чем реально на них существующих. То есть это были дубли страниц которых реально в природе просто нет.

Вот пример страницы находящийся в дополнительном индексе:

Как ведите саму страницу Google нам показать не может вроде бы исходя из того, что это не позволяет robots.txt. На самом же деле этой странице попросту не существует, но несмотря на это в дополнительном поиске есть реальная на неё ссылка. Давайте разберёмся почему же так происходит и что это за особое отношения данной поисковой системы к файлу robots.txt? Для этого обратимся к самому Google:

Удаление страниц из индекса с помощью robots.txt.

Сканирования Google.

Я выделил несколько цитат из данных мануалов по поводу отношения Google к robots.txt:

Файл robots.txt позволяет ограничить доступ к сайту для роботов поисковых систем, сканирующих Интернет. Перед обращением к сайту эти роботы ищут файл robots.txt, который запрещает им доступ к определенным страницам.

И здесь, как бы всё правильно, но далее идёт оговорка:

Хотя роботы основных поисковых систем следуют директивам файла robots.txt, некоторые могут интерпретировать их по-своему.

Под словом некоторые я так понимаю имеется в виду сам Гугл, далее:

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

Или вот ещё:

Однако даже если вы запретите поисковым роботам сканировать содержание сайта с помощью файла robots.txt, это не исключает, что Google обнаружит его другими способами и добавит в индекс.

Получается, что Гугл может проиндексировать закрытую страничку в robots.txt, попав на неё с какой либо ссылке вашего ресурса. Что делает борьбу с дублями страниц создаваемыми рубриками, метками и тому подобным, закрытием их через robots.txt просто бесполезным, так как на них всё равно имеются линки.

Я думаю не стоит объяснять какое влияние оказывает «Supplemental index» на ранжирование ресурса а лучше сразу перейти к вопросу связанному непосредственно с борьбой с дополнительным (сопливым индексом).

Как предотвратить попадания страниц в Supplemental index

Мы выяснили, что все странички закрытые нами в файле robots.txt попадают прямиком в (сопли) и директивы данного файла способны защитить от индексации только текст, но не как не ссылки и заголовки. Как же нам полностью закрыть страницы от (сопливого индекса)? Обратимся с этим вопросом снова к Гугл:

Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex или x-robots-tag. По мере сканирования страниц, робот Googlebot обнаружит метатег noindex и не станет отображать страницу в индексе. HTTP-заголовок x-robots-tag рекомендуется использовать, чтобы исключить из индекса файлы, формат которых отличается от HTML (например, изображения или другие типы документов).

Получается, что единственным лекарством от (соплей) для нашего блога является мета-тег «noindex», но при этом чтобы робот смог увидеть его присутствие на страницах, доступ к ним должен быть открыт в robots.txt.

Вот этому подтверждение:

Обратите внимание, что для обнаружения метатега noindex страница должна быть просканирована. Но Googlebot может не заметить мета тег noindex и страница попадет в наш индекс. Если она продолжает появляться в результатах поиска, вероятно, мы ещё не просканировали ваш сайт после добавления тега. Кроме того, если вы использовали файл robots.txt для блокирования этой страницы, мы также не сможем найти этот тег.
https://support.google.com/webmasters/answer/93710?hl=ru&ref_topic=4598466.

Здесь же я и нашёл ответ какой именно мета-тег следует применять:

Чтобы заблокировать всех роботов, добавьте следующий метатег в раздел <head> страницы:

<meta name="robots" content="noindex">

Считаю, что здесь так же будет кстати и тег «nofollow». Как именно организовать на своём сайте вывод мета-тега robots читайте здесь.

А на сегодня у меня всё, следите за обновлениями, до новых встреч!

С уважением, автор блога!
© progress-project
★Обновлено:2016-08-11

Введите свой e-mail:

Вы можете поделиться статьёй в социальных сетях:

Комментарии к статье

2 комментарияна “Дополнительный (сопливый индекс) от Google — «Supplemental index»”
  1. Иван:

    Спасибо за статью, даже не знал о «сопливом» индексе. Пошел проверять свой сайт.

    Ответить
    • Administrator:

      Да Иван поисковые системы довольно часто приподняться нам различные сюрпризы и зачастую они бывают весьма неприятными в виде разных фильтров и санкцией. Делается это по словам самих же ПС ради постоянного улучшения поисковой выдачи. И тут нам попросту нечего не остаётся делать, только как принимать их условия игры.

      Ответить

Ваш комментарий

Внимание! Перед тем, как вставить в комментарий: html, php либо JavaScript, преобразуйте его в HTML сущность!

» Подписаться на комментарии по RSS
Поиск по блогу

Введите свой e-mail:

ВКонтакте Google+ Facebook RSS-лента сайта abrek-ad-abra.ru

Топ комментаторов

Виктор(6)
seoonly(4)
Николай(3)
Олег(3)
Иван(3)

© 2015-2017

SEO-Бизнес блог «Progress-project».

Все материалы, опубликованные на сайте: принадлежат автору и охраняются в соответствии с законодательством РФ.

При использовании материалов сайта гиперссылка на обязательна!



seo-блог