Дубли страниц. Сервисы для поиска частичных дубликатов по контенту

Доброго времени суток!

Дубликаты страниц , или дубли — одна из тех проблем, о которой не подозревают многие вебмастера. Из-за такой ошибки, некоторые полезные WordPress-блоги теряют позиции по ряду запросов, и порою их владельцы даже не догадываются об этом. Каждый видит в статистике, что посещаемость веб-страницы упала, но разыскать и исправить ошибку могут не все. В этой статье пойдет речь о том, как найти дубли страниц сайта.

Что такое дубликаты страниц?

Дубли – это две и больше страниц с одинаковым контентом, но разными адресами. Существует понятие полных и частичных дублей. Если полные — это стопроцентный дублированный контент исходной (канонической ) страницы, то частичным дублем может стать страница, повторяющая ее отдельные элементы. Причины появления дублей могут быть разными. Это могут быть ошибки вебмастера при составлении или изменении шаблона сайта. Но чаще всего дубли возникают автоматически из-за специфики работы движков, таких как WordPress и Joomla. О том, почему это происходит, и как с этим справляться я расскажу ниже. Очень важно понимать, что вебсайты с такими повторениями могут попасть под и понижаться в выдаче, поэтому дублей стоит избегать.

Как проверить сайт на дубли страниц?

Практика показывает, что отечественный поисковик Яндекс относится к дублям не так строго, как зарубежный Гугл. Однако и он не оставляет такие ошибки вебмастеров без внимания, поэтому для начала нужно разобраться с тем, как найти дубликаты страниц.

Во-первых, нам нужно определить, какое количество страниц нашего сайта находится в индексе поисковых систем. Для этого воспользуемся функцией site:my-site.ru, где вместо my-site.ru вам нужно подставить свой url. Покажу, как это работает на примере своего блога. Начнем с Яндекса. Вводим в строку поиска site:сайт

Как видим, Яндекс нашел 196 проиндексированных страниц. Теперь проделаем то же самое с Google.

Мы получили 1400 страниц в общем индексе Гугл. Кроме основных страниц, участвующих в ранжировании, сюда попадают так называемые «сопли». Это дубли, либо малозначимые страницы. Чтобы проверить основной индекс в Google, нужно ввести другой оператор: site:сайт/&

Итого в основном индексе 165 страниц. Как видим, у моего блога есть проблема с количеством дублей. Чтобы их увидеть, нужно перейти на последнюю страницу общей выдачи и нажать «показать скрытые результаты ».

Снова перейдя в конец выдачи, вы увидите примерно такое:

Это и есть те самые дубли, в данном случае replycom . Такой тип дублей в WordPress создается при появлении комментариев на странице. Есть множество разных видов дублей, их названия и способы борьбы с ними, будут описаны в следующей статье.

Наверняка у вас возник вопрос, почему в Яндексе мы не увидели такого количества дублей, как в Google. Все дело в том, что в файле robots.txt (кто не знает что это, читайте « ») на блоге стоит запрет на индексацию подобных дублей с помощью директивы Disallow (подробнее об этом в следующем посте). Для Яндекса этого достаточно, но Гугл работает по своим алгоритмам и все равно учитывает эти страницы. Но их контент он не показывает, говорит, что «Описание веб-страницы недоступно из-за ограничений в файле robots.txt».

Проверка на дубли страниц по отрывку текста, по категориям дублей

Кроме вышеописанного способа, вы можете проверять отдельные страницы сайта на наличие дублей. Для этого в окне поиска Яндекс и Google, можно указать отрывок текста страницы, после которого употребить все тот же site:my-site.ru. Например, такой текст с одной из моих страничек: «Eye Dropper - это дополнение позволяет быстро узнать цвет элемента, чем-то напоминает пипетку в Photoshop». Его вставляем в поиск Гугл, а после через пробел site:my-site

Google не нашел дублей это страницы. Для Яндекса проделываем то же самое, только текст страницы берем в кавычки «».

Кроме фрагментов текста, вы можете вставлять ключевые фразы, по которым, к примеру, у вас снизились позиции.

Есть другой вариант такой же проверки через расширенный поиск. Для Яндекса — yandex.ru/advanced.html .

Вводим тот же текст, url сайта и жмем «Найти ». Получим такой же результат, как и с оператором site:my-site .

Либо такой поиск можно осуществить, нажав кнопку настроек в правой части окна Яндекс.

Для Гугла есть такая же функция расширенного поиска.

Теперь посмотрим, как можно выявить группу дублей одной категории. Возьмем, к примеру, группу tag.

И увидим на странице выдачи по данному запросу следующее:

А если попросить Гугл вывести скрытые результаты, дублей группы tag станет больше.

Как вы успели заметить, дубликатов страниц создается очень много и наша задача – предотвратить их попадание в индекс поисковиков.

Поиск дублей страниц сайта: дополнительные способы

Кроме ручных способов, есть также возможность автоматически проверить сайт на дубли страниц.

Например, это программа Xenu , предназначенная для технического аудита сайта. Кроме дубликатов страниц, она выявляет . Это не единственная программа для решения таких задач, но наиболее распространенная.

Также в поиске дублей страниц помогает Google Webmaster, здесь можно выявить страницы с повторяющимися мета-тегами:

Тут вы посмотрите список урлов с одинаковыми тайтлами или описанием. Часть из них может оказаться дублями.

На сегодня все. Теперь вы знаете, как найти дубликаты страниц. В мы подробно разберем, как предотвратить их появление и удалить имеющиеся дубли.

План статьи

Дубли страниц — страницы с одинаковым контентом, доступным по разным URL. Рассмотрим наиболее важные вопросы: как найти дубли страниц, чем вредны дубликаты страниц, частые причины дублирования, удаление дубликатов, примеры.

Чем вредны дубли страниц

Проблема дублей на сайте вызывает у поисковых систем ряд вопросов — какая страница является каноничной, какую страницу показывать в поисковой выдаче и является ли сайт, показывающий посетителям дубликаты страниц качественной площадкой.

Google борется с дубликатами страниц с помощью фильтра Panda, начиная с 2011 года. На данный момент фильтр является частью неотъемлемой частью формулы ранжирования. При наличии Панды, сайт теряет большую часть трафика из поисковой системы.

Яндекс в рекомендациях для вебмастеров рекомендует избегать дублей и предупреждает, что поисковая система выберет лишь одну страницу из дублирующихся в качестве канонической.

Частые причины дублирования страниц

Наиболее частой причиной дублирования страниц является особенность строения CMS, на которых разработан сайт. К примеру, в Joomla есть множество конструкций URL, по которым будет доступен один и тот же контент. Даже в последних версиях WordPress есть вариант доступности контента записей по конструкции site.ru/postID и site.ru/ЧПУ. А в магазинной CMS Opencart: при ЧПУ с включением названии категории — привязанность товара к разным категориям. Некоторые неопытные SEO-оптимизаторы берут за основу один контент и размножают его, меняя всего пару слов в тексте. По такому же принципу работают и дорвеи. Такое дублирование называется частичным и за такое дублирование на сайт также могут быть наложены санкции (Google Panda и др).

Вторая популярная версия дублирования — доступность страниц с www и без (www.site.ru и site.ru). При таком дублировании все версии сайта должны быть добавлены в Google Webmaster Tools, после чего уже избавляться от них.

Третья по популярности вариация дубликатов — наличие контента со слэшем в конце URL и без него.

Поиск и удаление дублей страниц на сайте входит в услугу . Экономьте, заказывая у индивидуального специалиста.

Сервисы и программы поиска

Наиболее быстрый и обычно, точный, способ — найти дубликаты страниц по Title и мета-тегам. Ниже — сервисы и программы, которыми пользуюсь сам.

Сервисы для поиска дублей по Title и мета-тегам:

  1. Инструмент «Аудит сайта» в сервисе Serpstat (комплексные сервисы для SEO, PPC ~$100/месяц).
  2. Аудит в сервисе Seotome (за 500 рублей — аудит 1 сайта).
  3. Другие, если знаете, пишите в комментариях.

Сервисы для поиска частичных дубликатов по контенту:

  1. Аудит в сервисе Seotome (за 500 рублей аудит 1 сайта). Показывает в процентном соотношении дублирование контента на страницах.

Программы для поиска дублей по Title и мета-тегам:

  1. Website Auditor от SEO Power Suite (Mac, Windows, Linux, ~$50/единоразово).
  2. Netpeak Spider (Windows only, $14/месяц).
  3. Comparser (Windows only, 2000 рублей).
  4. Xenu (Windows only, free).

Программы для поиска дублей по контенту:

Если знаете подобный софт — напишите в комментарии или по — добавлю в список.

Основные способы избавления от дублей страниц на сайте

  1. Использовать rel=»canonical», который указывает каноническую версию страницы. Лучший способ избавиться от дублей. При использовании canonical практика показала, что веса дублирующих страниц склеиваются, что хорошо для продвижения.
  2. Закрыть дублирующиеся страницы от индексации. Можно закрывать конструкциями в robots.txt (как пользоваться robots.txt) или наличием на странице мета-тега .
  3. Добавить 301 редирект с дублирующей страницы на основную. Подходит при дублировании www/без, слэш на конце/без. Настраивается в файле.htaccess или специальными плагинами.

Как найти дубли страниц: Примеры

Поиск дублей с помощью Serpstat

Поиск дублей с помощью Website Auditor

Поиск дублей с помощью Comparser

а если дубль по контенту, а урл другой, стоит каноникал и в робтсе закрыт, но страница в индексе, как это расценивать?

Каноникал решает проблему с дублированием.
Но если страница попала в индекс, а потом ее в robots.txt закрыли, то робот не может просканировать ее еще раз и пересчитать параметры.

Согласен с предыдущим ответом. Решить проблему можно послав запрос на удаление в поисковой консоли.

Maksim Gordienko

Почему для страниц пагинации рекомендуется использовать canonical, вместо удаления текста + noindex, follow + дописывание в начале Title конструкции "Страница N" на второй и последующих страницах пагинации (а можно еще и prev / next добавить)? Сталкивался с тем, что при размещении canonical товары со второй и последующих страниц плохо индексировались.

Была ли практика использования HTTP-заголовка X-Robots-Tag для запрета индексации страниц, так как при использовании robots часто всплывают такие страницы: http://my.jetscreenshot.com... ?

Каноникал - это всего лишь рекомендация. Еще можно использовать 301-редирект для релевантных страниц. По программам для поиска дублей - рекомендую Компарсер + показывает структуру сайта и еще несколько полезных фич есть. Серпстат - дорогой.

Используй лучше каноникал и прев-нектс и будет супер.

Maksim Gordienko

Сеопрофи, например, пишет что каноникал на пагинации имеет смысл ставить только если есть страница "показать все товары" (да и в рекомендациях Google не приводится пример с пагинацией в её классическом виде). А так, товары (содержимое) на второй странице отличается от первой, ставить каноникал нелогично.

Если нужно только дубли проверить, то лучше использовать специфический софт. Советую Netpeak Spider. Он сейчас активно развивается и проверяет очень много параметров на сайте https://netpeaksoftware.com... . Мы его постоянно используем в работе.
Serpstat хорош тем, что это платформа со множеством инструментов: аналитика запросов, ссылок, аудит, проверка позиций.

Підкажіть, буд ласка, ми видалили з сайту інтернет-магазину певні категорії, створили нові, в видалених категоріях були товари і ми цим товарам прописали нові категорії - після цього в нас створилися нові сторінки товарів вже де в урл нові категорії і утворилися дублі. Як краще зробити? Зробити урл товару статичним (а не динамічним) і з нових створених сторінок поставити 301 редиректи на старі? (інтернет-магазин існує 6 місяців) чи має змінюватися урл товару якщо змінили категорію? (в структурі урла товару є назва категорії).

1. Щоб уникнути дублювання URL товарів ми зазвичай поміщаємо їх в одну папку /product/, а категорії задаються в меню і хлібних крихтах.
2. Якщо нема можливості так зробити, то виберіть один із варіантів.
2.1. Використовуйте rel canonical на основную сторінку товару. Скоріше всього, в вашому випадку це нова сторінка, тому що нова категорія вказана в URL. Але ви самі вибирайте головну сторінку.
2.2. Використовуйте 301 редирект на головний URL. При цьому на сайті не повинно бути посилань на старі URL, тобто посилань на 301 редирект.
3. URL товарів краще робити статичными або User Friendly.
4. "чи має змінюватися урл товару якщо змінили категорію? (в структурі урла товару є назва категорії)."
Якщо нема можливості не задавати категорію в URL (як в п.1.), то при кожній зміні категорії в URL її теж треба міняти і налаштовувати 301 редирект на нову адресу.

Дякую за таке обширне пояснення)

Подскажите, как избежать дублей контента. Есть 33 позиции однотипного товара https://delivax.com.ua/pack...
Писать к каждому уникальное описание - сложно и вроде как не нужно. Но из-за того, что описание дублируется, из 33 позиций в индексе висит только 5. Стоит ли переживать по этому поводу и что с этим делать?

Поисковые алгоритмы постоянно развиваются, часто уже сами могут определить дубли страницы и не включать такие документы в основной поиск. Тем не менее, проводя экспертизы сайтов, мы постоянно сталкиваемся с тем, что в определении дублей алгоритмы еще далеки от совершенства.

Что такое дубли страниц?

Дубли страниц на сайте – это страницы, контент которых полностью или частично совпадает с контентом другой, уже существующей в сети страницы.

Адреса таких страниц могут быть почти идентичными.

Дубли:

  • с доменом, начинающимся на www и без www, например, www.site.ru и site.ru.
  • со слешем в конце, например, site.ru/seo/ и site.ru/seo
  • с.php или.html в конце, site.ru/seo.html и site.ru/seo.php

Одна и та же страница, имеющая несколько адресов с указанными отличиями восприниматься как несколько разных страниц – дублей по отношению друг к другу.

Какими бывают дубликаты?

Перед тем, как начать процесс поиска дублей страниц сайта, нужно определиться с тем, что они бывают 2-х типов, а значит, процесс поиска и борьбы с ними будет несколько отличным. Так, в частности, выделяют:

  • Полные дубли - когда одна и та же страница размещена по 2-м и более адресам.
  • Частичные дубли - когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.

Причины возникновения дублей

Сначала вам нужно разобраться, почему на вашем сайте появляются дубли. Это можно понять по урлу, в принципе.

  1. Дубли могут создавать ID-сессии. Они используются для контроля за действиями пользователя или анализа информации о вещах, которые были добавлены в корзину;
  2. Особенности CMS (движка). В WordPress обычно дублей страниц нет, а вот Joomla генерирует огромное количество дублей;
  3. URL с параметрами зачастую приводят к неправильной реализации структуры сайтов;
  4. Страницы комментариев;
  5. Страницы для печати;
  6. Разница в адресе: www – не www. Даже сейчас поисковые роботы продолжают путать домены с www, а также не www. Об этом нужно позаботиться для правильной реализации ресурса.

Влияние дублей на продвижение сайта

  • Дубли нежелательны с точки зрения SEO, поскольку поисковые системы накладывают на такие сайты санкции, отправляют их в фильтры, в результате чего понижается рейтинг страниц и всего сайта вплоть до изъятия из поисковой выдачи.
  • Дубли мешают продвижению контента страницы, влияя на релевантность продвигаемых страниц. Если одинаковых страниц несколько, то поисковику непонятно, какую из них нужно продвигать, в результате ни одна из них не оказывается на высокой позиции в выдаче.
  • Дубли снижают уникальность контента сайта: она распыляется между всеми дублями. Несмотря на уникальность содержания, поисковик воспринимает вторую страницу неуникальной по отношении к первой, снижает рейтинг второй, что сказывается на ранжировании (сортировка сайтов для поисковой выдачи).
  • За счет дублей теряется вес основных продвигаемых страниц: он делится между всеми эквивалентными.
  • Поисковые роботы тратят больше времени на индексацию всех страниц сайта, индексируя дубли.

Как найти дубли страниц

Исходя из принципа работы поисковых систем, становится понятно, что одной странице должна соответствовать только одна ссылка, а одна информация должна быть только на одной странице сайта. Тогда будут благоприятные условия для продвижения нужных страниц, а поисковики смогут адекватно оценить ваш контент. Для этого дубли нужно найти и устранить.

Программа XENU (полностью бесплатно)

Программа Xenu Link Sleuth (http://home.snafu.de/tilman/xenulink.html), работает независимо от онлайн сервисов, на всех сайтах, в том числе, на сайтах которые не проиндексированы поисковиками. Также с её помощью можно проверять сайты, у которых нет накопленной статистики в инструментах вебмастеров.

Поиск дублей осуществляется после сканирования сайта программой XENU по повторяющимся заголовкам и метаописаниям.

Программа Screaming Frog SEO Spider (частично бесплатна)

Адрес программы https://www.screamingfrog.co.uk/seo-spider/ . Это программа работает также как XENU, но более красочно. Программа сканирует до 500 ссылок сайта бесплатно, более объемная проверка требует платной подписки. Сам ей пользуюсь.

Программа Netpeak Spider (платная с триалом)

Яндекс Вебмастер

Для поиска дублей можно использовать Яндекс.Вебмастер после набора статистики по сайту. В инструментах аккаунта на вкладке Индексирование > Страницы в поиске можно посмотреть «Исключенные страницы» и выяснить причину их удаления из индекса. Одна из причин удаления это дублирование контента. Вся информация доступна под каждым адресом страницы.

Google Search Console

В консоли веб-мастера Google тоже есть инструмент поиска дублей. Откройте свой сайт в консоли Гугл вебмастер. На вкладке Вид в поиске > Оптимизация HTML вы увидите, если есть, повторяющиеся заголовки и метаописания. Вероятнее всего это дубли (частичные или полные).

Язык поисковых запросов

Используя язык поисковых запросов можно вывести список всех страниц сайта, которые есть в выдаче (оператор «site:» в Google и Yandex) и поискать дубли «глазами».

Сервисы онлайн

Есть сервисы, который проверяют дубли страниц на сайте онлайн. Например, сервис Siteliner.com (http://www.siteliner.com/). На нём можно найти битые ссылки и дубли. Можно проверить до 25000 страниц по подписке и 250 страниц бесплатно.

Российский сервис Saitreport.ru, может помочь в поиске дублей. Адрес сервиса: https://saitreport.ru/poisk-dublej-stranic

Удаление дублей страниц сайта

Способов борьбы с дубликатами не так уж и много, но все они потребуют от вас привлечения специалистов-разработчиков, либо наличия соответствующих знаний. По факту же арсенал для «выкорчевывания» дублей сводится к:

  1. Их физическому удалению - хорошее решение для статических дублей.
  2. Запрещению индексации дублей в - подходит для борьбы со служебными страницами, частично дублирующими контент основных посадочных.
  3. в файле-конфигураторе «.htaccess» - хорошее решение для случая с рефф-метками и ошибками в иерархии URL.
  4. Установке тега « » - лучший вариант для страниц пагинации, фильтров и сортировок, utm-страниц.
  5. Установке тега «meta name=»robots» content=»noindex, nofollow»» - решение для печатных версий, табов с отзывами на товарах.

Чек-лист по дублям страниц

Часто решение проблемы кроется в настройке самого движка, а потому основной задачей оптимизатора является не столько устранение, сколько выявление полного списка частичных и полных дублей и постановке грамотного ТЗ исполнителю.

Запомните следующее:

  1. Полные дубли - это когда одна и та же страница размещена по 2-м и более адресам. Частичные дубли - это когда определенная часть контента дублируется на ряде страниц, но они уже не являются полными копиями.
  2. Полные и частичные дубли могут понизить позиции сайта в выдаче не только в масштабах URL, а и всего домена.
  3. Полные дубликаты не трудно найти и устранить. Чаще всего причина их появления зависит от особенностей CMS сайта и навыков SEO разработчика сайта.
  4. Частичные дубликаты найти сложнее и они не приводят к резким потерям в ранжировании, однако делают это постепенно и незаметно для владельца сайта.
  5. Чтобы найти частичные и полные дубли страниц, можно использовать мониторинг выдачи с помощью поисковых операторов, специальные программы-парсеры, поисковую консоль Google и ручной поиск на сайте.
  6. Избавление сайта от дублей сводится к их физическому удалению, запрещению индексации дублей в файле «robots.txt», настройке 301 редиректов, установке тегов «rel=canonical» и «meta name=»robots» content=»noindex, nofollow»».

Дубли контента – это частично или полностью одинаковый текст, картинки и прочие элементы наполнения сайта, доступные по разным адресам страниц (URL). Наличие дублей может значительно затруднять поисковое продвижение сайта.

По оценке специалистов, дублированный контент – самая распространенная ошибка внутренней оптимизации, присутствующая на каждом втором веб-ресурсе.

Как проверить, есть ли дубли на вашем сайте, и каким образом от них избавиться? Об этом мы расскажем в новом выпуске нашей рассылки.

Какие бывают дубли

Дубли бывают четкие и нечеткие (или полные и неполные).

Четкие дубли – страницы-копии с абсолютно одинаковым контентом, содержимым мета-тега Description и заголовка Title, доступные по разным адресам. Например, у исходной страницы могут появиться следующие дубли:

  • зеркало с WWW или без;
  • страницы с разными расширениями (.html, .htm, index.php, GET-параметром «?a=b» и т. д.);
  • версия для печати;
  • версия для RSS;
  • прежняя форма URL после смены движка;
  • и так далее.

Нечеткие дубли – частично одинаковый контент на разных URL.

В качестве примеров таких дублей можно привести следующие варианты:

  • карточки однотипных товаров с повторяющимся или отсутствующим описанием;
  • анонсы статей, новостей, товаров в разных рубриках, на страницах тегов и постраничной разбивки;
  • архивы дат в блогах;
  • страницы, где сквозные блоки по объему превосходят основной контент;
  • страницы с разными текстами, но идентичными Title и Description.

Чем опасны дубли для продвижения

1. Затрудняется индексация сайта (и определение основной страницы)

Из-за дублей количество страниц в базе поисковых систем может увеличиться в несколько раз, некоторые страницы могут быть не проиндексированы, т. к. на обход сайта поисковому роботу выделяется фиксированная квота количества страниц.

Усложняется определение основной страницы, которая попадет в поисковую выдачу: выбор робота может не совпасть с выбором вебмастера.

2. Основная страница в выдаче может замениться дублем

Если дубль будет получать хороший трафик и поведенческие метрики, то при очередном апдейте он может заменять основную (продвигаемую) страницу в выдаче. При этом позиции в поиске «просядут», т.к. дубль не будет иметь ссылочной популярности.

3. Потеря внешних ссылок на основную страницу

4. Риск попадания под фильтр ПС

И Яндекс, и Google борются с неуникальным контентом, в связи с чем могут применить к «засоренному» сайту фильтры АГС и Panda.

5. Потеря значимых страниц в индексе

Неполные дубли (страницы категорий, новости, карточки товаров и т. д.) из-за малой уникальности имеют шанс не попасть в индекс поисковиков вообще. Например, это может случиться с частью товарных карточек, которые поисковый алгоритм сочтет дублями.

Как найти и устранить дубли на сайте

Будучи владельцем сайта, даже без специальных знаний и навыков вы сможете самостоятельно найти дубли на вашем ресурсе. Ниже дана инструкция по поиску и устранению дублированного контента.

Поиск полных дублей

Самый быстрый способ найти полные дубли на сайте – отследить совпадение тегов Title и Description. Для этого можно использовать панель вебмастера Google или популярный у оптимизаторов сервис Xenu. Поиск ведется среди проиндексированных страниц.

Минусы: не все дубли можно (и нужно) удалять (например версии страниц с рекламными метками); трудоемкая работа, занимающая при большом количестве страниц много времени. Не исключает появления новых дублей. Вес с дублей не передается основной странице.

  • Плюсы: не требует специальных навыков программирования.

6. Готовые решения для популярных CMS

Разработчики популярных CMS предусмотрели ряд решений, предотвращающих появление дублей. При этом вебмастерам при работе с движком необходимо внимательно выставлять настройки. Если вы что-то упустили из виду и дубли все же появились, никогда не поздно все исправить и устранить копии. Внятные инструкции по настройкам движка и использованию SEO-плагинов можно найти на профильных блогах и на форумах WordPress, Joomla, Drupal, Битрикс, а также других широко представленных CMS.

Полезные SEO-плагины для борьбы с дублями:

  • WordPress: All in One SEO Pack, Clearfy;
  • Drupal: Global Redirect, Page Title;
  • Joomla: Canonical Links All in One, JL No Dubles.

7. Борьба на уровне движка

Универсальное решение для самых разных CMS – предупредить появление новых дублей на уровне движка. Необходимо задать такое условие, при котором в процессе обработки адресных ссылок CMS будет отличать «хорошие» от «плохих» и отображать в строке браузера только те, которые разрешены правилом. Это позволит избежать формирования страниц-синонимов (со знаком «/» и без него, с ненужным окончанием.html, GET-параметрами и проч.), однако не защитит от возникновения дублей, если у страниц не будут уникализированы Title и Description.

Для реализации данного метода в файле.htaccess необходимо включить следующее правило:

RewriteEngine on RewriteCond %{REQUEST_FILENAME} !-d RewriteCond %{REQUEST_FILENAME} !-f RewriteRule ^(.*)$ index.php

Кроме этого, следует реализовать необходимые проверки в самом движке.

Метод отличается высокой сложностью и требует обращения к специалистам по разработке.

  • Минусы: крайне высокая степень сложности.
  • Плюсы: предотвращает появление страниц-синонимов.

Поиск неполных дублей

1. Ищем при помощи вебмастера Google или сервиса Xenu

Алгоритм действий в этих сервисах абсолютно такой же, как и для поиска полных дублей. Единственное отличие заключается в том, что среди найденных дублей необходимо отобрать те страницы, которые имеют идентичные Title и/или Description, но совершенно разный контент.

В результате поиска в Google мы обнаружили группу неполных дублей (Рис. 2).

Рис. 2. Совершенно разные новости с дублированными мета-данными

2. Ищем в строке поиска Яндекса или Google

Страницы с частично похожим контентом, но разными мета-данными указанным выше способом выявить не удастся. В этом случае придется работать вручную.

Для начала условно выделите зоны риска:

  • скудный контент (сквозные блоки по объему превосходят основной текст страницы);
  • копированный контент (описание схожих товаров);
  • пересечение контента (анонсы, рубрики/подкаталоги, фильтры, сортировка).

Из каждой группы выберите несколько страниц.

Для наглядной иллюстрации примера мы воспользовались одной из карточек товаров на сайте мебельного магазина, проходившего аудит в нашей рубрике «Экспертиза». Вероятность появления дублей здесь достаточно высока, так как в карточках преобладают картинки и сквозные блоки, а уникальный контент сведен к минимуму.

Указываем в строке поиска Google фрагмент текста из описания товара, заключенный в кавычки, и домен сайта с оператором site: (Рис. 3).