Индексация сайта: что это, как проверить и ускорить

Страницу можно вылизать до блеска — тайтл, текст, разметка, скорость, — и не получить с неё ни одного перехода. Причина чаще всего скучная: её нет в индексе. Для Яндекса и Google страница, которую не обошёл робот, просто не существует.

Коротко

Индексация — это попадание страницы в базу поисковика. Нет в базе — нет в выдаче, и говорить о позициях бессмысленно.
Проверить статус — минута: оператор site: для прикидки и Яндекс.Вебмастер / Search Console для точного ответа по конкретному URL.
Девять из десяти «робот не дошёл» на деле оказываются noindex или закрытием в robots.txt, которые кто-то поставил и забыл.
Ускоряют индексацию через IndexNow, переобход в Вебмастере, свежий sitemap и внутренние ссылки на новую страницу.

Зачем это знать

SEO принято начинать с семантики, текстов и ссылок. Но всё это — борьба за место внутри индекса. Если страницы там нет, бороться не за что: ты оптимизируешь то, чего для поиска не существует.

Поэтому индексация идёт первой. Сначала убеждаешься, что робот видит страницы и кладёт их в базу, и только потом занимаешься позициями. Порядок, который экономит недели.

Что такое индексация

Поисковик не бегает по всему интернету в момент твоего запроса — это было бы слишком медленно. Он ищет по своей заранее собранной базе, индексу. Наполняет её робот-краулер: обходит страницы, скачивает, разбирает содержимое и складывает в индекс. Путь у каждой страницы один и тот же.

Опубликовал

страница появилась по URL

Робот обошёл

краулер скачал страницу

В индексе

разобрал и сохранил в базу

В выдаче

может ранжироваться

Сломаться может любой шаг. Чаще всего рвётся переход со второго на третий — робот страницу скачал, но в индекс не положил.

Индексация и ранжирование — разные вещи, которые часто путают. Индексация отвечает на вопрос «знает ли поисковик о странице». Ранжирование — «на каком месте её показать». Первое без второго бывает, второго без первого — нет.

Как проверить, в индексе ли страницы

Три способа, от быстрого и грубого к точному.

Оператор site: — быстрая прикидка

Оператор site: — десять секунд на прикидку. Введи в поиск site:твой-домен.ру и увидишь примерное число страниц в индексе. По разделу — site:твой-домен.ру/blog/. Конкретную страницу проверяют, вставив её полный адрес. Число приблизительное, Яндекс и Google округляют, но для ответа «раздел в индексе или нет» этого хватает.

# весь сайт
site:pawetta.com
# только раздел
site:pawetta.com/blog/
# конкретная страница
site:pawetta.com/blog/indeksaciya-sajta/

Один и тот же оператор работает и в Яндексе, и в Google — цифры будут разные, это нормально.

Выдача по запросу site:pawetta.com: строка «Нашлось 1 240 результатов» и сниппеты страниц сайта — Оператор `site:` в выдаче: строка «Нашлось N результатов» — это примерное число страниц домена в индексе. Значения для примера.

Вебмастер и Search Console — точная проверка

Яндекс.Вебмастер и Google Search Console — точный ответ. В Вебмастере раздел «Индексирование → Страницы в поиске» показывает, что реально в индексе, а «Проверить статус URL» — состояние конкретной страницы и причину, если её там нет. В Search Console то же делает «Проверка URL». Это не прикидка, а официальные данные поисковика о твоём сайте — с ними и нужно работать. Если ещё не подключил панели, начни с Яндекс.Вебмастера.

Отчёт «Страницы в поиске» в Яндекс Вебмастере: 1240 страниц в поиске из 1610 загруженных роботом, разрыв 370 страниц — не в индексе — Отчёт «Страницы в поиске» в Яндекс Вебмастере. Разрыв между «загружено роботом» и «в поиске» — это и есть твои незаиндексированные страницы; строки со статусом «малоценная» или «дубль» показывают причину. Значения для примера.

Отчёт «Страницы» в Google Search Console: 1180 проиндексировано, 430 не проиндексировано с разбивкой причин — обнаружена не проиндексирована, переадресация, robots.txt, noindex — Тот же срез в Google Search Console — отчёт «Страницы». Google прямо называет причину исключения по каждой группе: бери список и чини по нему. Значения для примера.

Смотри на разрыв между «загружено роботом» и «в поиске». Большой разрыв — это и есть твои незаиндексированные страницы. Именно там копать причину.

Что нужно	Яндекс.Вебмастер	Google Search Console
Проверить статус URL	Индексирование → Проверить статус URL	Проверка URL (строка сверху)
Все страницы в индексе	Индексирование → Страницы в поиске	Индексирование → Страницы
Запросить переобход	Индексирование → Переобход страниц	Проверка URL → Запросить индексирование
Причины исключения	Страницы в поиске → Исключённые	Страницы → «Не проиндексировано»
Загрузить sitemap	Индексирование → Файлы Sitemap	Индексирование → Файлы Sitemap

Подключай обе панели: Яндекс и Google индексируют сайт независимо, и причины исключения у них бывают разные.

Почему страница не в индексе

Прежде чем винить робота, проверь, не закрыл ли ты страницу сам. По моему опыту, это первая причина в большинстве случаев «куда делась страница». Вот что встречается чаще всего.

Тег noindex

Страница помечена <meta name="robots" content="noindex">. Самая частая и самая обидная причина: код стоит явно, но о нём забыли.

Закрыто в robots.txt

Раздел запрещён к обходу — робот физически не может зайти на страницу. Частый случай после переноса с тестового домена.

Дубль и canonical

Поисковик склеил страницу с другой и держит в индексе только одну. С фильтрами, сортировками и UTM такое — обычное дело.

Страница-сирота

На неё не ведёт ни одна внутренняя ссылка. Робот ходит по ссылкам — нет ссылок, нет и обхода.

Тонкая страница

Google пишет «обнаружено, не проиндексировано», Яндекс — «малоценная или маловостребованная». Поисковик решил, что страница не стоит места в базе.

Технический сбой

Ответ сервера 5xx в момент обхода, бесконечные редиректы, контент, который виден только после тяжёлого JS. Робот ушёл ни с чем.

Первые две причины — рукотворные. Начинать диагностику стоит именно с них.

Отдельная группа причин — коды ответа сервера. Поисковик по-разному реагирует на каждый, и от этого зависит, останется страница в индексе или выпадет. Проверить ответ можно в Я.Вебмастере, GSC или командой curl -I.

Код	Что значит	Что делает поисковик
200	Страница отдаётся нормально	Обходит и индексирует
301	Постоянный редирект	Склеивает со страницей-целью, передаёт ей сигналы
302	Временный редирект	Оставляет в индексе исходный URL — для переезда не годится
404	Страницы нет	Со временем убирает из индекса — не сразу
410	Удалена навсегда	Убирает из индекса быстрее, чем при 404
503	Временно недоступна (техработы)	Откладывает обход и возвращается позже; позиции не теряются, если ненадолго

Для переезда страницы — 301, для удаления навсегда — 410, на время техработ — 503. Главное правило: важная страница должна отдавать 200.

Диагностика · почему страница не в индексе

Ответь на пару вопросов — подскажу вероятную причину и что чинить. Идём от самого частого к редкому.

Если хочешь убрать страницу из поиска — закрывай её правильно: тегом noindex, а не строкой в robots.txt. robots.txt запрещает обход, но не индексацию: страница может остаться в выдаче без сниппета, со служебной подписью вместо описания. Логика контринтуитивная, но именно так это и работает.

JavaScript и mobile-first: почему современные сайты не индексируются

Две причины, которые не видны в исходном коде и потому особенно коварны. Сайт выглядит нормально в браузере, а робот его не индексирует — потому что робот смотрит на страницу иначе, чем ты.

JavaScript-рендеринг

Если контент подгружается скриптом уже после загрузки страницы (типичная история для сайтов на React, Vue, Angular и части конструкторов), робот может увидеть пустой каркас без текста. Яндекс JS исполняет ограниченно, Google — лучше, но с задержкой и не всегда полностью. Итог: страница в индексе есть, а текста в ней для поиска нет, либо она висит в статусе «обнаружено, не проиндексировано».

Лечится серверным рендерингом (SSR) или пререндером — чтобы робот получал готовый HTML с контентом сразу. Проверить, что именно видит поиск, можно через «Посмотреть, как робот» в инструментах Вебмастера и Search Console: если в отрендеренном HTML текста нет — проблема подтвердилась.

Mobile-first индексация

Google индексирует и ранжирует мобильную версию страницы, а не десктопную. Если на мобильной версии часть контента скрыта, урезана или вынесена под клик, для индекса этого контента фактически нет. Поэтому адаптив должен отдавать тот же текст и те же ссылки, что и десктоп, — не «облегчённую» версию. Яндекс отдельного mobile-first индекса не вводил, но мобильное удобство учитывает в ранжировании, так что правило универсальное.

Краулинговый бюджет — что это и как не сливать

Краулинговый бюджет — это сколько страниц робот готов обойти на сайте за единицу времени. Ресурс конечный: он зависит от авторитета домена, скорости ответа сервера и того, как часто меняется контент. Для сайта на 200 страниц это не проблема — робот обойдёт всё. Для крупного проекта на десятки тысяч URL бюджет становится узким горлышком.

Пример: у интернет-магазина 50 000 страниц фильтров и сортировок. Робот тратит обходы на этот мусор, а до нужных категорий и карточек добирается раз в месяц. Снаружи выглядит как «Яндекс не индексирует» — на деле бюджет сливается на хлам.

Как не сливать бюджет: закрой от индекса дубли, пагинацию и бесконечные комбинации фильтров (через noindex, canonical или robots.txt — смотря по задаче), держи в sitemap только живые полезные URL, ускорь ответ сервера и выстрой перелинковку так, чтобы важные страницы были в 2–3 кликах от главной. Тогда робот тратит обходы на то, что должно быть в поиске, а не на технический балласт.

Как настроить индексацию правильно

Управление индексацией держится на трёх файлах и тегах. Разберём, за что отвечает каждый и как не выстрелить себе в ногу. Подробный разбор первых двух — в отдельном гайде про robots.txt и sitemap.xml.

robots.txt — что разрешить, что закрыть

Это инструкция для робота, куда ходить можно, а куда нельзя. Закрывают служебные разделы (корзина, личный кабинет, результаты поиска по сайту, дубли с параметрами). Главная ошибка — закрыть Disallow: / на тестовом домене и забыть снять после переноса на боевой: тогда из индекса вылетает весь сайт. И помни: robots.txt запрещает обход, но не выкидывает из индекса — для этого нужен noindex.

sitemap.xml — как сделать правильно

Карта сайта — это список URL, которые ты хочешь видеть в индексе, с датами изменения. В неё попадают только живые страницы, отдающие код 200: без редиректов, без закрытых в noindex, без дублей. Честный lastmod помогает роботу понять, что обновилось. Sitemap нужно указать в robots.txt и загрузить в обеих панелях вебмастера.

canonical — когда и как ставить

Тег canonical говорит поисковику, какая из похожих страниц главная. Ставят его на страницах с фильтрами, сортировками, UTM-метками и пагинацией — чтобы вес собирался на одной канонической версии, а дубли не плодились в индексе. На уникальной странице canonical указывает сам на себя — это нормально и правильно.

Как ускорить индексацию

Когда со страницей всё в порядке и она просто ждёт своей очереди, обход можно поторопить. Магии тут нет — есть несколько рабочих способов, которые стоит применять вместе.

Способы ускорить — отмечай сделанное0 из 5

IndexNow. Пингуешь поисковики о новой или изменённой странице, и её ставят в очередь на обход почти сразу. Этот сайт так и работает — после публикации статья уходит на переобход автоматически.

Переобход вручную. В Яндекс.Вебмастере есть «Переобход страниц», в Search Console — «Запросить индексирование». Лимит в день небольшой, поэтому береги его для важных страниц.

Актуальный sitemap.xml. Карта сайта должна содержать живые страницы с честными датами изменения и быть указана в robots.txt и в Вебмастере. Это маршрут, по которому робот находит, что обходить.

Внутренние ссылки. Самый недооценённый способ. Поставь на новую страницу ссылки с уже проиндексированных — робот придёт по ним сам, без всяких пингов. Про это есть отдельный разбор: внутренняя перелинковка.

Не корми робота мусором. Краулинговый бюджет конечен. Дубли, пустые карточки и тысячи страниц фильтров съедают обходы, которые могли бы достаться полезным страницам.

Все способы в деле — дальше дело за поисковиком.

По одному работают слабо, вместе — закрывают почти всё. Прогресс сохраняется в твоём браузере.

Инструмент «Переобход страниц» в Яндекс Вебмастере: поле для URL, кнопка «Отправить», страница добавлена в очередь, осталось 18 из 20 на сегодня — «Переобход страниц» в Яндекс Вебмастере: вставляешь URL, и страница уходит в очередь на обход. Дневной лимит небольшой — береги его для важных страниц. Значения для примера.

Чего точно не нужно делать — покупать «прогон по индексации» и сервисы быстрого добавления страниц. В лучшем случае деньги на ветер, в худшем — лишний след, который поисковику не нравится. Если страница хорошая и открыта для обхода, она проиндексируется и так.

Как закрыть страницу от индексации

Обратная задача: страница есть, но в поиске ей не место — служебная, дубль, временная или устаревшая. Способов три, и они не взаимозаменяемы: каждый решает свою задачу. Самая частая ошибка — закрыть в robots.txt то, что нужно убрать из индекса. Не сработает: robots.txt запрещает обход, но уже проиндексированная страница может остаться в выдаче.

Способ	Что делает	Когда применять
meta noindex	убирает страницу из индекса, обход разрешён	страница нужна людям, но не нужна в выдаче
robots.txt Disallow	запрещает обход, но не гарантирует выход из индекса	служебные разделы, которые робот не должен сканировать
410 Gone / 404	сообщает, что страницы больше нет	страница удалена навсегда

Нужно убрать из выдачи — noindex. Нужно запретить обход — robots.txt. Страницы больше нет — отдавай 410. Не путай задачи.

Важный нюанс: чтобы noindex сработал, робот должен сначала зайти на страницу и увидеть тег. Если ты одновременно закроешь её в robots.txt, робот туда не зайдёт, тег не прочитает — и страница так и останется в индексе. Поэтому два способа вместе не применяют: либо noindex с открытым обходом, либо robots.txt.

Мифы об индексации

Четыре заблуждения, из-за которых теряют время и деньги. Разберём, как на самом деле.

Миф: «Чем больше страниц в индексе, тем лучше»

Реальность. В индексе должны быть только полезные страницы. Мусор — фильтры, дубли, пустые — размывает сайт и жрёт краулинговый бюджет.

Миф: «robots.txt убирает страницу из поиска»

Реальность. Он запрещает обход, но страница может остаться в индексе без сниппета, со служебной подписью. Убирает из индекса только noindex.

Миф: «Купил прогон по индексации — страницы залетят»

Реальность. Деньги на ветер. Открытая и нормальная страница индексируется сама, а плохую никакой прогон не вытянет.

Миф: «Если страница в индексе — значит, в топе»

Реальность. Индексация это вход в игру, а не позиция. В индексе можно висеть на 80-й странице. Дальше работают факторы ранжирования.

Частые вопросы

Как проверить, проиндексирована ли конкретная страница?

Вставь её полный URL в поиск с оператором site: или открой «Проверить статус URL» в Яндекс.Вебмастере либо «Проверка URL» в Google Search Console — там точный ответ и причина, если страницы в индексе нет.

Сколько времени занимает индексация сайта?

От нескольких часов до пары недель. Google обычно быстрее Яндекса, а новый сайт без истории индексируется дольше старого. Ускорить можно через IndexNow и переобход в Вебмастере.

Почему страница пропала из индекса?

Чаще всего из-за noindex, ответа сервера 5xx, склейки с дублем по canonical или пометки «малоценная страница». Точную причину показывает проверка статуса URL в Яндекс.Вебмастере или Google Search Console.

Как закрыть страницу от индексации?

Мета-тегом «robots» со значением noindex или заголовком X-Robots-Tag. robots.txt для этого не подходит: он запрещает обход, но не гарантирует, что страницы не будет в индексе.

Сколько страниц должно быть в индексе?

Столько, сколько у сайта полезных страниц. Если в индексе их больше реального числа — туда попал мусор: дубли, пагинация, страницы фильтров. Если меньше — часть страниц робот не дошёл обойти или они закрыты.

Влияет ли индексация на позиции в выдаче?

Напрямую нет — это не фактор ранжирования. Но без индексации позиций не существует в принципе: страница, которой нет в базе поисковика, не может занять место в выдаче. Это входной билет.

Что такое краулинговый бюджет?

Это лимит страниц, которые робот обходит за единицу времени. Зависит от авторитета сайта, скорости сервера и частоты обновлений. На маленьком сайте незаметен, на крупном — узкое место: мусорные страницы фильтров съедают обходы, и важные индексируются медленно.

Почему сайт на JavaScript плохо индексируется?

Если контент появляется только после исполнения скриптов, робот может увидеть пустой каркас без текста. Яндекс исполняет JS ограниченно, Google — с задержкой. Решение — серверный рендеринг (SSR) или пререндер, чтобы поиск получал готовый HTML сразу.

Главное

Если коротко

Проверь индекс через site: и Вебмастер. Если страниц меньше, чем нужно, первым делом ищи noindex и закрытие в robots.txt — а не вини робота. Когда со страницей всё в порядке, ускорь обход через IndexNow, переобход и внутренние ссылки. Индексация — не фактор ранжирования, а вход в игру: без неё остального просто нет.

Сайт в индексе, а трафика всё равно нет? Это уже вопрос к технике и контенту целиком — разберу на SEO-аудите: покажу, что закрыто, что дублируется и что чинить в первую очередь.

Индексация сайта: что это, как проверить и ускорить

Зачем это знать

Что такое индексация

Как проверить, в индексе ли страницы

Оператор site: — быстрая прикидка

Вебмастер и Search Console — точная проверка

Почему страница не в индексе

JavaScript и mobile-first: почему современные сайты не индексируются

JavaScript-рендеринг

Mobile-first индексация

Краулинговый бюджет — что это и как не сливать

Как настроить индексацию правильно

robots.txt — что разрешить, что закрыть

sitemap.xml — как сделать правильно

canonical — когда и как ставить

Как ускорить индексацию

Как закрыть страницу от индексации

Мифы об индексации

Частые вопросы

Главное

Читать дальше

robots.txt и sitemap.xml

Яндекс.Вебмастер с нуля

Внутренняя перелинковка