Дубли — это когда один и тот же контент доступен по нескольким URL. Поисковик видит десять копий вместо одной страницы, делит между ними вес и тратит обходы впустую. Покажу, откуда дубли лезут, как их выловить и чем закрывать — rel=canonical, 301 или noindex, потому что это три разных инструмента под три разные задачи.
- Дубль — один контент по разным URL: со слешем и без, с UTM-метками, с параметрами фильтров. Поиск не понимает, какую версию ранжировать.
rel=canonicalне удаляет дубль и не запрещает обход — это подсказка «считай главной вот эту страницу». Поиск может её проигнорировать.- 301 склеивает намертво и передаёт вес,
noindexвыкидывает из индекса, canonical объединяет сигналы. Под каждый случай — свой инструмент. - Самая частая ошибка — canonical, который ведёт на редирект, 404 или вообще чужую страницу.
Что такое дубли и почему они тебе вредят
Дубль — это один и тот же контент, доступный больше чем по одному адресу. Карточка товара открывается и по /catalog/krossovki, и по /catalog/krossovki?utm_source=vk, и по /catalog/krossovki/. Для тебя это одна страница. Для робота — три разных URL с одинаковым текстом.
Вред простой и измеримый. Первое — размытие сигналов. Ссылки, поведенческие, вес от внутренней перелинковки делятся между копиями вместо того, чтобы концентрироваться на одном URL. Вместо одной сильной страницы у тебя три слабые, и ни одна не выстреливает в топ.
Второе — краулинговый бюджет. Робот обходит сайт не бесконечно. Если половину лимита он тратит на копии с метками и параметрами, до реально важных страниц очередь доходит медленнее, и новые материалы дольше попадают в индекс. Про связь обхода и индексации я писал в материале про индексацию сайта.
Третье — поиск сам выбирает каноническую версию, если ты ему не подсказал. И выбирает не всегда ту, что ты хотел: в выдачу может попасть URL с параметром или версия для печати вместо чистого адреса.
Откуда они берутся
Дубли почти никогда не делают руками. Их плодит движок, аналитика и невнимательность. Вот все эти адреса могут отдавать один и тот же контент.
https://site.ru/krossovki https://site.ru/krossovki/ # слеш на конце http://site.ru/krossovki # другой протокол https://www.site.ru/krossovki # www https://site.ru/krossovki?utm_source=vk # UTM-метка https://site.ru/krossovki?sort=price # сортировка https://site.ru/Krossovki # регистр
Отдельная история — пагинация и фильтры в каталоге: страницы ?page=2, комбинации «красный + 42 размер + до 5000» генерируют тысячи URL. Это большая тема, разбирал её в статье про продвижение интернет-магазина.
| Тип дубля | Пример | Решение |
|---|---|---|
| http и https | http://site и https://site | 301 на https |
| www и без www | www.site и site | 301 на один вариант |
| слэш на конце | /page и /page/ | 301 на один формат |
| параметры, сортировка | /divany/?sort=price | canonical на чистый URL |
| utm и метки | /?utm_source=… | canonical на адрес без меток |
| пагинация | /divany/page/2/ | canonical-самоссылка на саму страницу |
Как работает rel=canonical
rel=canonical — это тег в <head>, которым ты сообщаешь поиску: «среди всех копий этого контента главной считай вот эту». Выглядит так:
<link rel="canonical" href="https://site.ru/catalog/krossovki" />
Ставишь его на все версии страницы, включая саму каноническую (она ссылается сама на себя). Робот собирает группу дублей, видит указатель и объединяет их сигналы на том URL, который ты назвал главным. Ссылочный вес и релевантность копятся на одной странице, а не растекаются.
Ключевой момент, на котором спотыкаются почти все: canonical — это рекомендация, а не команда. Поиск может её проигнорировать, если сочтёт, что страницы на самом деле разные. Об этом прямым текстом пишет Google в документации по канонизации. Canonical не закрывает страницу от обхода и не удаляет её из индекса — он только подсказывает, кого считать оригиналом.
Canonical, 301 или noindex — это разные задачи
Три инструмента, и путать их — значит делать хуже. 301 редирект — когда старого URL быть не должно вообще: сменил структуру, склеил зеркала. Пользователь и робот перебрасываются на новый адрес, вес передаётся почти полностью. rel=canonical — когда обе страницы должны открываться, но в индексе нужна одна: карточка с фильтром по цвету работает для пользователя, а в поиске нужна основная. noindex — когда страница нужна людям, но в индексе ей не место и склеивать не с чем: корзина, личный кабинет, результаты поиска по сайту. И не сочетай noindex с canonical на одной странице — это противоречивый сигнал.
| Ситуация | Инструмент | Почему |
|---|---|---|
| Сменил URL, старого быть не должно | 301 | Склейка навсегда, передаёт вес |
| www / без www, http / https | 301 | Зеркала, одна версия навсегда |
| Карточка с UTM-меткой | canonical | Открывается, но в индексе оригинал |
| Фильтр / сортировка в каталоге | canonical | Нужна пользователю, не в выдаче |
| Корзина, кабинет, поиск по сайту | noindex | Нужна людям, не поиску, склеивать не с чем |
Как находить дубли
Глазами дубли не ищут — их слишком много и они прячутся. Рабочий набор такой.
Парсер сайта (Screaming Frog, Netpeak Spider). Прогоняешь весь сайт, сортируешь по Title и H1: одинаковые Title почти всегда означают дубли. Заодно парсер покажет цепочки редиректов и canonical, ведущие в никуда. Яндекс.Вебмастер и Google Search Console — в разделе исключённых страниц поиск прямо говорит, что он склеил и что считает каноническим. Это взгляд глазами самого поисковика, и он ценнее догадок; справка — на странице помощи Яндекс.Вебмастера. Оператор site: — вбиваешь site:твойдомен.ру и листаешь выдачу: иногда сразу видно URL с параметрами и версии для печати, попавшие в индекс.
Нашёл дубли — под каждый тип применяешь нужный инструмент из таблицы выше. Если объём большой и непонятно, за что хвататься, это типовая задача для SEO-аудита: там дубли вылавливаются системно, а не наугад.
Частые ошибки с canonical
Canonical легко поставить неправильно, и тогда он либо не работает, либо вредит.
Частые вопросы
Canonical удаляет дубль из индекса?
Можно ставить canonical и noindex вместе?
Чем 301 лучше canonical?
Нужен ли canonical на странице, ссылающейся на саму себя?
Как быстро проверить, какие дубли видит поиск?
Главное
Дубли крадут вес и краулинговый бюджет, а поиск без подсказки выбирает канон сам — и часто не тот. Сначала найди дубли парсером и Вебмастером, потом под каждый тип подбери инструмент: 301 — когда старого URL быть не должно, canonical — когда обе страницы нужны живыми, noindex — когда склеивать не с чем. И проверь, что ни один canonical не ведёт на редирект, 404 или чужую страницу — это ломает всю схему.