Меню

Проверяем Гугл индекс: сколько там страниц?

Продолжая работу над своим сайтом, по ходу дела расскажу о работе с дублями страниц. Поисковик Яндекс оперативно реагирует на изменения файла robots.txt, исправно убирая из индекса запрещенные страницы и каталоги. Если проверять Гугл индекс, здесь не все так просто. Далее по порядку: почему сложно работать с этим поисковиком, какие методы решения проблем есть.

Разбираемся, какие страницы находятся в основном индексе Гугла

Это достаточно просто определить, набрав в адресной строке браузера комбинацию site:http://incomeeasily.ru/&  (вместо моего домена прописываете собственный). Поисковик покажет полный список страниц, участвующих в поиске. Перед списком будет указано общее количество предоставленных страниц (Результатов: примерно "столько", это основной индекс Гугла). Пролистайте список до конца, увидите далее "скрытые" результаты. Это так называемый дополнительный индекс, или как его прозвали блоггеры, "сопли". Там находятся дубли страниц и те, что понижены в результатах за какие-то нарушения. Чтобы полнее владеть информацией, зайдите в панель вебмастера Google. Открываем Индекс Google-статус индексирования-расширенные данные.

Увидите общее количество проиндексированных страниц, исключенные страницы. Заблокированные URL — те, доступ к которым закрыт файлом Роботс. Общее количество — это сколько всего страничек поисковик добавил в индекс (основной и дополнительный). Здесь значатся также несуществующие уже (удаленные или переименованные), выдающие ошибку 404. Чтобы устранить эту проблему, зайдите Сканирование-ошибки сканирования панели вебмастера, просмотрите список URL,  выдающих ошибку 404, каждый добавьте в форму "Удалить URL" (пройдя по меню Индекс Google-удалить URL адреса) :

Таким же образом можно удалить из индекса любые страницы, которые вы запретите файлом Роботс или пропишете ноиндекс через метатеги. Однако это не все. Гугл даже после проведенных процедур удаления оставляет просканированные версии в кэше, скорее всего это будет дополнительный индекс. Тут уже ничего не поделаешь. Главное после не допускать дублирования. Кстати, убедиться, что станица не индексируется, легко: в поиске пропишите ее адрес, нажмите ввод. Если выдача Гугла ее не показала, все ок.

А сколько всего страниц в индексе Гугла?

Ответ тоже легко найти, забив в поиске Гугла комбинацию site:incomeeasily.ru (домен меняете на свой). Вверху списка число — количество всех загруженных страниц. Сюда входят также те, что исключены через robots.txt.

Этот список кстати поможет вам увидеть, какие существуют дубли страниц на сайте, увидев те пути, которые нужно закрыть, следует срочно добавить в текстовый файлик Роботс. Конечно, не все так просто в этом вопросе, но разобраться можно. Интересно, какие у вас возникают с этим трудности? Пишите комментарии, вместе разберемся!

Загрузка...
Оставить комментарий
  1. Спасибо за разъяснение. Раньше никогда не обращала внимание на эту цифру. А теперь знаю, как определить количество страниц в индексе Гугла.

    • Елена, рада видеть Вас :) . Очень понравился Ваш сайт. А по поводу индекса Гугла, то здесь конечно стоит разобраться. Я убрала у себя дубли, и статьи вышли из дополнительных результатов в основной индекс. Конечно, надо еще поковыряться, решить вопрос с дублями через якорь # . Многие говорят, что это несущественно, но я планирую решить эту неприятность.

  2. Давно искала подобную информацию, теперь буду заниматься этим вопросом

    • Ирина, непременно! Увидите, какие будут результаты! Для проверки Роботс пользуйтесь инструментами Гугла: "Заблокированные URL", Яндекса "Анализ robots.txt" панели вебмастеров. Просто вводите содержание нового Роботс, внизу добавляйте проверяемый адрес, жмите "проверить". Увидите, запрещает или разрешает файл индексацию данного адреса.

  3. А как найти страницы которые гугл выкинул из индекса?

    • Страницы не выкидываются, они переходят в дополнительный индекс. Там остаются те URL, которые Гугл считает некачественными, а также дубли страниц. Чтобы определить эти URL, нужно терпение: Создать список тех страниц, которые находятся в основном индексе. Зная количество публикаций и открытых к индексации страниц, отнимите из этого числа количество страниц в индексе, узнаете, сколько URL попало в дополнительный индекс. Определить каждый URL придется вручную, методом исключения.

  4. Мне, как начинающему блоггеру, знакомство с гугл аналитикс- только на первых порах. Многое там отличается от яндекса. Особенно ошибки, которых у меня вылезло кучи, почти к каждой страничке был прикреплен сей неприятный значок. До конца не разобрался. Спасибо за статью, буду и дальше изучать этот важный сервис.

  5. Надежда, для мепня тех вопросы всегда сложные и непонятные. В предыдущих комментариях я так подробно все расписывала, жаль, что они попали в спам и удалились. Попытаюсь еще раз написать. Но вряд ли у меня уже так подробно все получится спросить.
    Я определила в инструментах для без мастеров в Гугле ошибки URL у себя. 10 - не найдено, 1 переход не выполнен, 1 доступ запрещен и 1 ошибка сервера. я начала с этих 10. Вставила их в окошко для удаления URL и отпрвить запрос пару дней назад. Сегодня я повторила это еще раз, поскольку все осталось без изменения. Почему ничего не удалилось? Да, на некоторые ссылки всплывала информация, что она была внесена в список на удаляемые.

    • Зоя, то, что Вы перечислили, не стоит вносить на удаление. Конечно, если страницы выдают 404 ошибку, подать запрос на удаление можно и нужно. Но только в том случае, если страницы действительно больше не существуют (удалены на сайте). Ошибки сервера не нужно удалять. Просто в тот момент, когда Гугл скачивал информацию, сервер выдал ошибку. Зачем Вам удалять из индекса нормальную страницу? Запрос на удаление оправдан, если страниц больше не существует или они запрещены к индексации метатегом meta name="robots" content="noindex" (можно также бороться с дублями с помощью редиректов). К сожалению, запрет через robots.txt Гугл игнорирует и скачивает все в дополнительный индекс. Поэтому нет смысла подавать запросы на удаление урлов, которые поисковик сможет скачать заново.

  6. Надежда, я хотела удалить только те сссылки у которых как было написано был код 404. Из 10 я точно знаю, что 5 я удаляла с сайта точно. Их я и отправила на удаление в первую очередь.

    Вот такую ссылку тоже хотела удалить (http://belzo.ru/login.html- так она выглядит, когда я по ней пыталась пройти, но ничего не было найдено).

    Сегодня они все есть и никуда не удалились. Почему? пять страниц мне точно надо удалить, поскольку я удалила эти статьи.

    • Зоя, возможно, Вы не довели доконца операцию? Если страницы удалены на сайте, смело подавайте запрос на удаление из кеша поисковика. Если высветится сообщение, что запрос уже был отпрален, значит порядок. Кстати, в Вебмастере очень долго остается устаревшая информация. Лучше проверяйте свой дополнительный индекс с помощью комбинации site:belzo.ru в адресной строке браузера.

  7. Надежда, высвечивалось, что уже внесены в список на удаление и все.
    Буду ждать в вебмастере. Поскольку в дополнительном индексе у меня слишком много всего, что я не разберусь. Я не удаляла еще дубли вообще, потому что у меня не получается рабоать с FileZilla, а с редиректом и метатегами я вообще как в темном лесу.

    Если для начала получиться хоть это удалить, будет стимул изучать все дальше.

    • Зоя, будьте уверены, такого адреса уже нет. Гугл удаляет примерно за сутки, но не сразу снимает пометки в вебмастере.

  8. Чтобы проверить индексацию страницы сайта в Яндексе или Google, воспользуйтесь нашим SEO-инструментом в виде сайта и программы iChecker.biz для массовой проверки индексации URL-s в поисковых системах Яндекс и Google.

  9. Спасибо, надеюсь этот способ самый правильный. Как же определить дополнительный индекс?

  10. привет, спасибо, подскажи как можно спарсить урлы которые в индексе?

Здесь вы можете оставить комментарий

* Текст комментария
* Обязательные для заполнения поля

Внимание: все отзывы проходят модерацию.