Главная
SEO
Особенности статуса в Google «Страница просканирована, но пока не проиндексирована»

Особенности статуса в Google «Страница просканирована, но пока не проиндексирована»

Vlad Kirilenko 30/03/2022

1062 1

Like

Особенности статуса в Google «Страница просканирована, но пока не проиндексирована»

Определение этого статуса в Справке Google выглядит следующим образом:

Рядовому пользователю мало что говорит подобное объяснение. Площадка Google не расшифровывает, что произошло и как решить возникшую проблему владельцу сайта. Она лишь указывает на то, что Googlebot совершил сканирование страницы, но почему-то не проиндексировал ее.

По нашей информации, подобный статус – наиболее часто встречающаяся ошибка в отчете об индексировании.

Так как рано или поздно вы обязательно столкнетесь с такой ошибкой, следует понять, как эффективно найти решение в подобной ситуации. Ведь страница, не прошедшая индексацию, не отображается в поисковой выдаче и не сможет приносить владельцу сайта органический трафик из поисковика.

Ниже мы расскажем про особенности почему возникает подобная ситуация и опишем способы ее решения.

Как найти статус «Страница просканирована, но пока не проиндексирована»

Подобный статус находится в двух местах: отчете об индексировании и в веб-сервисе Google Search Console, позволяющем веб-разработчикам проверять URL и осуществлять другие важные задачи.

Отчет об индексировании

Унифицированный указатель ресурса, имеющий такой статус, включен в категорию исключенных. Кроме того, по мнению Google отсутствие такой страницы в индексе не является ошибкой.

Справочная документация выдает такое определение этого статуса:

После того как пользователь щелкнет по статусу, он увидит перечень всех подобных URL. Для веб-мастера следует сначала разобраться со страницами, представляющими наибольшую ценность для веб-ресурса.

Отчет доступен для выгрузки. Однако следует учесть, что экспортировать разрешено не более 1000 URL. Чтобы обойти это ограничение, можно отфильтровать URL по Sitemap, таким образом увеличив их количество. К примеру, если у веб-ресурса есть несколько файлов Sitemap, содержащих 1000 URL, которые можно скачать отдельно.

Инструмент проверки URL

Увидеть просканированные, однако не прошедшие индексацию страницы можно также, воспользовавшись инструментом проверки URL.

В отчете (верхний раздел) указано, можно ли найти страницу в Гугл. Если URL, который проверяется, внесен в категорию «Исключено» в отчете об индексировании, то система выдаст сообщение, что страницы нет в индексе, хотя это не является ошибкой.

Баг в отчете: страница действительно проиндексирована

Когда вебмастер видит подобный статус, самое главное, что он должен сделать – проверить есть или нет страница в индексе. В ряде случаев бывает, что она помечается как просканированная, а инструмент проверки URL отмечает, что страница действительно проиндексирована.

Также при помощи этого инструмента можно получить и другую информацию:

программные ошибки в индексации;
баги структурированных данных;
оптимизация для мобильных и прочее.

Еще можно посмотреть загруженные страницы, сделать запрос на индексирование и посмотреть обработанный вариант веб-страницы.

Следует учесть, что информация о статусе индексации веб-страницы в инструменте проверки URL и в отчете об индексации может отличаться друг от друга. Подобные различия объясняются тем, что в 1-м случае информация обновляется по-иному в сравнении со 2-м и с гораздо меньшей скоростью. Такое положение вещей может быть, как медленной работой системы, так и ошибкой в отчетности.

Этой проблеме в прошлом году уделили внимание и специалисты, в частности Lily Ray:

Какие шаги предпринять для устранения проблемы и к какому отчету больше доверие

Мы рекомендуем при анализе ситуации брать во внимание информацию, полученную инструментом проверки URL, так как он показывает более актуальные и свежие данные.

Почему появляется ошибка и что предпринять для ее исчезновения

В Google нет точного ответа, почему определенная страница получает подобный статус. Но существуют определенные причины, из-за которых может возникнуть эта ошибка:

медленная индексация;
проверяемая страница оказалась низкого качества;
недостаточно хорошая архитектура веб-ресурса;
страница была деиндексирована;
наличие дублированного контента.

Задержка индексации

Такое положение вещей складывается из-за огромного количества страниц в Internet, которые Google должен обработать для определения тех страниц, которые будут проиндексированы прежде всего.

Зарубежные вебмастера проводили исследование, в результате которого была получена следующая информация:

Google осуществляется индексирование лишь 56% индексируемых URL-адресов через сутки после размещения;

только спустя две недели поисковая система индексирует 87% URL

Поэтому после публикации страницы следует подождать определенное время, и она может быть проиндексирована.

Пути решения

Вебмастер не сможет сразу справиться с этой проблемой, но существует несколько шагов для ее устранения в долгосрочной перспективе. Для этого нужно выполнить следующее:

Разработать стратегию индексирования, целью которой является помощь Google в установлении приоритетов особо важных страниц ресурса. Вебмастер решает, какие из страниц подлежат индексации и выбирает оптимальные способы оповещения об этом Гугл.
Проверить наличие гиперссылок на страницы, представляющие наибольшую ценность. Это нужно для поиска Google этих страниц и оптимального понимания их содержания.
Разработать качественно оптимизированную карту ресурса (Sitemap), где перечислить все URL-адреса, которые должны быть проиндексированы. Данный файл будет использоваться платформой как дорожная карта, что поможет быстрее искать страницы.

Несоответствие страниц критериям качества

Из-за ограниченного хранилища, Google не способен осуществить индексацию всех страниц в сети Internet. Вследствие этого система отфильтровывает контент, не соответствующий стандарту качества.

Задача Гугл – предоставление юзерам страниц с высококачественным контентом, оптимально отвечающим их намерениям. Простыми словами, если на странице размещен плохой контент, Гугл может не проиндексировать ее, оставляя запас для высококачественного контента.

Пути решения

Вебмастер или владелец интернет-ресурса должен осуществить проверку, опубликован ли на его сайте высококачественный контент и удовлетворяет ли он намерения юзеров. Если ответ отрицательный, следует позаботиться о размещении на ресурсе контента, отвечающего стандартам качества.

Для определения ценности контента, следует воспользоваться справочной документацией по обновлениям Google. Она дает перечень вопросов, позволяющих определить качество контента. Перечислим отдельные из них:

Есть ли на ресурсе уникальные материалы (факты, репортажи, аналитические данные, исследования).
Размещены ли на вашем ресурсе интересные факты и детальный анализ данных?
При наличии контента из сторонних источников, прошел ли он качественную переработку или нет?
Достаточно ли хороша ваша страница, чтобы вы поделились ею со своими друзьями, добавили в закладки, рекомендовали бы ее другим юзерам?

Для улучшения сайта вебмастера также могут почерпнуть информацию из Руководства для асессоров Google.

UGC-контент

Даже у генерируемого юзерами контента могут возникнуть проблемы с качеством. К примеру, на вашем форуме пользователь задает вопрос, но сразу на него никто не отвечает. Из-за отсутствия ответов Google может посчитать контент низкокачественным, не учитывая того, что спустя время в ветке возникнут ответы.

Что предпринять?

Социальный сервис обмена знаниями Quora нашел решение этой проблемы: каждый вопрос, оставшийся без ответа, обладает префиксом /unanswered/ в URL. К примеру:

Из-за блокировки файлом robots.txt страниц с подобным префиксом, Googlebot не способен осуществлять их сканирование. Но когда на вопрос в ветке начинают отвечать другие пользователи, URL видоизменяется и он уже может быть просканирован.

Удаление Google страницы из индекса

В ряде случаев бывает, что страница была проиндексирована ранее, однако через определенное время Google принял решение удалить ее с индекса. Тогда у страницы тоже появляется статус «Страница просканирована, но пока не проиндексирована».
Одна из причин такого положения вещей – Гугл производит замену страницы на контент высшего качества.

Не стоит забывать и про обновления поисковых алгоритмов. Иногда деиндексация может быть итогом одного из подобных update.

Страницы исчезают из индекса также из-за сбоев в работе Google. К примеру, система может удалить веб-ресурс, если у нее появляется подозрение его во взломе.

Пути решения

В большинстве случаев индексация страниц зависит от ее качества. Не стоит думать, что проблема не возникнет, если страница уже проиндексирована. Поэтому постоянно следите, чтобы на вашем ресурсе публиковался качественный контент, мониторьте сайт и производите различные нововведения.

После того как вопрос с контентом будет решен, сделайте снова запрос на индексацию URL. Так Гугл быстрее заметит произошедшие изменения.

Плохая архитектура веб-ресурса

По мнению Джона Мюллера, работающего в Google, еще одна причина появления подобного статуса – некачественная структура сайта.

К примеру, на вашем ресурсе есть страница с высококачественным контентом, однако Гугл может ее отыскать лишь через Sitemap. После посещения и сканирования Googlebot этой страницы, он принимает решение о том, что она не отвечает стандартам качества. Причина этого кроется в отсутствии внутренних ссылок. Googlebot не способен произвести правильную оценку страницы, если на ресурсе отсутствует семантическое или структурное содержание.

Пути решения

Вероятность индексации повышается, когда сайт имеет качественную архитектуру и продуманную структуру. В таком случае поисковые роботы находят контент и правильнее его понимают. Именно поэтому следует не забывать о внутренних ссылках на ваш сайт и продумать качественную архитектуру вашего ресурса.

Дублированный контент

В прошлом году Adam Gent опубликовал любознательный кейс. Веб-страница этого SEO-специалиста получила статус «Страница просканирована, но пока не проиндексирована» из-за того, что Google решил, что она является дубликатом.

Так как в приоритете Google показывать юзерам высококачественный оригинальный контент, если система обнаруживает, что определенные страницы являются идентичными, она может осуществить индексацию только одной из них.

В ряде случаев такие страницы в отчете индексирования обозначаются статусом «Страница является копией». Хотя так происходит далеко не всегда. Нередко им присваивается статус «Страница просканирована, но пока не проиндексирована».

Нет какого-либо четкого понимания почему Google так делает. Одной из возможных причин можно назвать то, что статус спустя время может измениться, если система обнаружит, что есть более подходящий URL.

Иногда такой статус – баг в работе Google. Назначая статус, система может просто совершить ошибку.

Есть несколько шагов, как проверить отображается ли дубль в поисковой выдаче:

Перейти на страницу, не прошедшую индексацию, выделить кусок текста и скопировать его.
Взять текст в «» и вставить его в поисковик (“Загуглить”).
Сделать анализ полученных итогов. Если в поисковой выдаче обнаружен иной URL с подобным текстом, ваша страница не прошла индексацию из-за выбора Гугл другого URL.

Пути решения

Проверьте, что вы создаете оригинальные страницы. При необходимости, разместите уникальный контент. Однако полностью избавиться от дублированного содержания не получится. Это особенно касается тех случаев, когда у владельца сайта есть desktop и mobile версии. Существуют некоторые фишки, как дать Google понимание того, какая из версий оригинальная.

При индексировании Google дубликатов, осуществите проверку таких составляющих:

канонических ссылок (они помогают поисковикам понять, отличие оригинальных версий страниц от дубликатов);
внутренних ссылок (проверьте внутренние ссылки – они должны указывать на оригинальное содержание страниц);
файлов Sitemap (в этих файлах должна отображаться исключительно каноническая версия веб-страницы).

Следует учесть, что все перечисленное является подсказками для системы, и Гугл не будет их учитывать в обязательном порядке. В кейсе Адама Гента описано, что Гугл избрал для индексирования RSS-фид, не беря в расчет то, что ряд факторов указывал на иной URL. Гент нашел выход из ситуации в настраивании ошибки 404, чтобы в итоге осталась лишь оригинальная версия веб-страницы. Еще он совершил настройку HTTP-заголовока X-Robots-Tag на URL фидах так, чтобы был запрет на индексирование.

Проблема статуса «Обнаружена, не проиндексирована»

Нередко статус «Страница просканирована, но пока не проиндексирована» путают с иной ситуацией, когда странице присваивается статус «Обнаружена, не проиндексирована».

В этих двух случаях система не производит индексацию страницы. Однако в 1-м случае поисковая система посетила и просканировала страницу, а во 2-м – имея информацию о URL, не осуществила сканирование.

Выводы:

Подытоживая вышеперечисленное, скажем, что статус «Страница просканирована, но пока не проиндексирована» большей частью возникает из-за низкокачественного контента. Однако этой проблеме также способствует и ряд иных факторов, в частности плохая структура веб-ресурса или размещение дублированного контента. Для устранения проблемы, следует:

добавить на веб-ресурс оригинальный контент, представляющий ценность для пользователей;
осуществить проверку архитектуры и удостовериться в наличии внутренних ссылок на ценные страницы сайта;
определить страницы, подлежащие и не подлежащие индексации.

Следуя этим простым рекомендациям, в долгосрочной перспективе можно избежать проблем с индексацией.

Оставить комментарий Отменить ответ

Marry

30/03/2022

Наконец-то я нашла подробную информацию о том, как найти статус “Страница просканирована, но пока не проиндексирована” в Google Search Console и как решить эту проблему. Оказывается, что такой статус является наиболее частой ошибкой в отчете об индексировании и что страница, не прошедшая индексацию, не отображается в поисковой выдаче. Статья была очень информативной и полезной для меня. Спасибо, Влад!

Ответить

Google

Like

Завоевание доверия в глазах Google: роль известности и прозрачности

В дополнение к концепции E-E-A-T (опыт, экспертиза, авторитетность, надежность), активно продвигаемой Google, существуют два дополнительных фактора, формирующих доверие к бренду или личности в интернете – известность и прозрачность. Эти критически важные элементы часто упускаются из виду, но они являются ключевыми для демонстрации надежности перед алгоритмами поисковой системы. Репутация как основа успеха Известность отражает степень влияния […]

Vlad Kirilenko 25/03/2024

1274

Google Analytics

Like

Google Analytics 4 устранит многолетний разрыв в отчетах с Google Рекламой

В стремлении обеспечить полную согласованность ключевых метрик между продуктами своей рекламной экосистемы, Google внедряет в Google Analytics 4 принципиально новый подход к отслеживанию и классификации целевых действий пользователей. Прежняя концепция “конверсий” уходит в прошлое – вместо нее для анализа поведения посетителей будут использоваться “ключевые события”. Эта унификация терминологии позволит окончательно устранить одну из главных болевых […]

Vlad Kirilenko 22/03/2024

1585

Like

Интеграция искусственного интеллекта в Google Maps

Современные технологии на службе удобства С каждым днем растет значение точных и оперативных данных о местах, компаниях и услугах. Это особенно актуально для больших городов и путешественников. Google, лидер в области картографических сервисов, представляет новый шаг в развитии своего продукта – интеграцию искусственного интеллекта (ИИ) в Google Maps. Данное нововведение призвано облегчить поиск необходимой информации, […]

Vlad Kirilenko 02/02/2024

1465

Google

Like

Виды поисковых запросов: ключ к эффективной SEO-стратегии

Как специалист в области SEO, вы знаете, что ключевым элементом успешной стратегии поисковой оптимизации является понимание различных типов поисковых запросов, с помощью которых пользователи ищут информацию в интернете. Разбираться в них необходимо для эффективной работы над контентом и структурой сайта, а также для построения маркетинговых кампаний, нацеленных на привлечение целевой аудитории. Основные типы поисковых запросов […]

Vlad Kirilenko 30/01/2024

1468