Canonical и дубли страниц: как найти и убрать

Дубли — это когда один и тот же контент доступен по нескольким URL. Поисковик видит десять копий вместо одной страницы, делит между ними вес и тратит обходы впустую. Покажу, откуда дубли лезут, как их выловить и чем закрывать — rel=canonical, 301 или noindex, потому что это три разных инструмента под три разные задачи.

Коротко

Дубль — один контент по разным URL: со слешем и без, с UTM-метками, с параметрами фильтров. Поиск не понимает, какую версию ранжировать.
rel=canonical не удаляет дубль и не запрещает обход — это подсказка «считай главной вот эту страницу». Поиск может её проигнорировать.
301 склеивает намертво и передаёт вес, noindex выкидывает из индекса, canonical объединяет сигналы. Под каждый случай — свой инструмент.
Самая частая ошибка — canonical, который ведёт на редирект, 404 или вообще чужую страницу.

Что такое дубли и почему они тебе вредят

Дубль — это один и тот же контент, доступный больше чем по одному адресу. Карточка товара открывается и по /catalog/krossovki, и по /catalog/krossovki?utm_source=vk, и по /catalog/krossovki/. Для тебя это одна страница. Для робота — три разных URL с одинаковым текстом.

Вред простой и измеримый. Первое — размытие сигналов. Ссылки, поведенческие, вес от внутренней перелинковки делятся между копиями вместо того, чтобы концентрироваться на одном URL. Вместо одной сильной страницы у тебя три слабые, и ни одна не выстреливает в топ.

Второе — краулинговый бюджет. Робот обходит сайт не бесконечно. Если половину лимита он тратит на копии с метками и параметрами, до реально важных страниц очередь доходит медленнее, и новые материалы дольше попадают в индекс. Про связь обхода и индексации я писал в материале про индексацию сайта.

Третье — поиск сам выбирает каноническую версию, если ты ему не подсказал. И выбирает не всегда ту, что ты хотел: в выдачу может попасть URL с параметром или версия для печати вместо чистого адреса.

Откуда они берутся

Дубли почти никогда не делают руками. Их плодит движок, аналитика и невнимательность. Вот все эти адреса могут отдавать один и тот же контент.

https://site.ru/krossovki
https://site.ru/krossovki/            # слеш на конце
http://site.ru/krossovki        # другой протокол
https://www.site.ru/krossovki    # www
https://site.ru/krossovki?utm_source=vk  # UTM-метка
https://site.ru/krossovki?sort=price    # сортировка
https://site.ru/Krossovki        # регистр

Для поиска это семь разных страниц. Для тебя — одна. Главные источники: технические зеркала, параметры и метки, пагинация и фильтры, версии для печати.

Отдельная история — пагинация и фильтры в каталоге: страницы ?page=2, комбинации «красный + 42 размер + до 5000» генерируют тысячи URL. Это большая тема, разбирал её в статье про продвижение интернет-магазина.

Типы дублей и чем их лечить

Тип дубля	Пример	Решение
http и https	http://site и https://site	301 на https
www и без www	www.site и site	301 на один вариант
слэш на конце	/page и /page/	301 на один формат
параметры, сортировка	/divany/?sort=price	canonical на чистый URL
utm и метки	/?utm_source=…	canonical на адрес без меток
пагинация	/divany/page/2/	canonical-самоссылка на саму страницу

Большинство дублей — технические: один и тот же контент по разным адресам. http/www/слэш склеиваются 301, параметры и метки — canonical.

Как работает rel=canonical

rel=canonical — это тег в <head>, которым ты сообщаешь поиску: «среди всех копий этого контента главной считай вот эту». Выглядит так:

<link rel="canonical" href="https://site.ru/catalog/krossovki" />

Ставишь его на все версии страницы, включая саму каноническую (она ссылается сама на себя). Робот собирает группу дублей, видит указатель и объединяет их сигналы на том URL, который ты назвал главным. Ссылочный вес и релевантность копятся на одной странице, а не растекаются.

Ключевой момент, на котором спотыкаются почти все: canonical — это рекомендация, а не команда. Поиск может её проигнорировать, если сочтёт, что страницы на самом деле разные. Об этом прямым текстом пишет Google в документации по канонизации. Canonical не закрывает страницу от обхода и не удаляет её из индекса — он только подсказывает, кого считать оригиналом.

Canonical, 301 или noindex — это разные задачи

Три инструмента, и путать их — значит делать хуже. 301 редирект — когда старого URL быть не должно вообще: сменил структуру, склеил зеркала. Пользователь и робот перебрасываются на новый адрес, вес передаётся почти полностью. rel=canonical — когда обе страницы должны открываться, но в индексе нужна одна: карточка с фильтром по цвету работает для пользователя, а в поиске нужна основная. noindex — когда страница нужна людям, но в индексе ей не место и склеивать не с чем: корзина, личный кабинет, результаты поиска по сайту. И не сочетай noindex с canonical на одной странице — это противоречивый сигнал.

Подбор · canonical, 301 или noindex?

Опиши свою ситуацию — подскажу инструмент и почему именно он.

Ситуация	Инструмент	Почему
Сменил URL, старого быть не должно	301	Склейка навсегда, передаёт вес
www / без www, http / https	301	Зеркала, одна версия навсегда
Карточка с UTM-меткой	canonical	Открывается, но в индексе оригинал
Фильтр / сортировка в каталоге	canonical	Нужна пользователю, не в выдаче
Корзина, кабинет, поиск по сайту	noindex	Нужна людям, не поиску, склеивать не с чем

Подробнее про индексацию служебных разделов — в разборе внутренней оптимизации.

Canonical, 301 или noindex — три инструмента под три разные задачи:

rel=canonical

Две почти одинаковые страницы, обе нужны живыми (сортировки, метки). Указываешь главную — вес копится на ней.

301-редирект

Старый адрес переехал насовсем (http→https, смена URL). Пользователя и вес перебрасывает на новый адрес.

noindex

Страница нужна людям, но не в поиске: фильтры, личный кабинет, страницы «спасибо». Живёт, но не индексируется.

Частая ошибка — лечить всё canonical. Переехало насовсем — это 301; нужно скрыть от поиска, но не удалять — noindex.

Как находить дубли

Глазами дубли не ищут — их слишком много и они прячутся. Рабочий набор такой.

Парсер сайта (Screaming Frog, Netpeak Spider). Прогоняешь весь сайт, сортируешь по Title и H1: одинаковые Title почти всегда означают дубли. Заодно парсер покажет цепочки редиректов и canonical, ведущие в никуда. Яндекс.Вебмастер и Google Search Console — в разделе исключённых страниц поиск прямо говорит, что он склеил и что считает каноническим. Это взгляд глазами самого поисковика, и он ценнее догадок; справка — на странице помощи Яндекс.Вебмастера. Оператор site: — вбиваешь site:твойдомен.ру и листаешь выдачу: иногда сразу видно URL с параметрами и версии для печати, попавшие в индекс.

Нашёл дубли — под каждый тип применяешь нужный инструмент из таблицы выше. Если объём большой и непонятно, за что хвататься, это типовая задача для SEO-аудита: там дубли вылавливаются системно, а не наугад.

Частые ошибки с canonical

Canonical легко поставить неправильно, и тогда он либо не работает, либо вредит.

Canonical на редирект или 404

Указатель должен вести на живую страницу с кодом 200. Иначе сигнал сломан, и поиск его игнорирует.

Цепочки и циклы

A → B → C. Робот не обязан идти по цепочке. Canonical всегда указывает на финальный URL напрямую.

Canonical на чужую страницу

Классика — все карточки ссылаются canonical на главную. Поиск проигнорирует или выкинет карточки из индекса.

Относительный URL, разный протокол

Указывай абсолютный адрес с https. И не веди canonical с https на http — это сломанный сигнал.

Сломанный canonical хуже, чем его отсутствие: ты думаешь, что проблема закрыта, а поиск решает сам.

Частые вопросы

Canonical удаляет дубль из индекса?

Нет. Это рекомендация склеить сигналы на главном URL, а не команда на удаление. Поиск может её проигнорировать. Если нужно убрать страницу из индекса гарантированно — используй noindex.

Можно ставить canonical и noindex вместе?

Нет. Это противоречивые сигналы: canonical говорит «склей с другой страницей», noindex — «убери из индекса». Поиск запутается. Выбирай что-то одно под задачу.

Чем 301 лучше canonical?

301 жёстко склеивает и передаёт вес почти полностью, но физически перебрасывает на новый URL — старого больше нет. Canonical оставляет обе страницы живыми. 301 — когда старый адрес не нужен, canonical — когда нужен.

Нужен ли canonical на странице, ссылающейся на саму себя?

Да, self-canonical — нормальная практика. Каноническая страница указывает canonical на себя. Это страхует от случайных дублей с параметрами и даёт поиску однозначный сигнал.

Как быстро проверить, какие дубли видит поиск?

Открой Яндекс.Вебмастер или Google Search Console — там есть отчёт об исключённых страницах с пометкой «дубль». Это взгляд глазами поисковика, точнее любых догадок.

Главное

Если коротко

Дубли крадут вес и краулинговый бюджет, а поиск без подсказки выбирает канон сам — и часто не тот. Сначала найди дубли парсером и Вебмастером, потом под каждый тип подбери инструмент: 301 — когда старого URL быть не должно, canonical — когда обе страницы нужны живыми, noindex — когда склеивать не с чем. И проверь, что ни один canonical не ведёт на редирект, 404 или чужую страницу — это ломает всю схему.