Чт. Май 16th, 2024
поисковая система

Данный пост касается одной из самых зубодробительных тем для каждого вебмастера, авторский контент и его непрерывное воровство, эх… прям слышу как у некоторых заскрипели зубы, в свою очередь хочу попросить молодых вебмастеров — ОТОЙДИТЕ ПОДАЛЬШЕ ОТ СКОЛЬЗКОЙ ДОРОЖКИ ВОРОВСТВА КОНТЕНТА. А вот как защититься от данного типа воровства я расскажу далее.

В последнее время, а если точнее, то в наш 2020 год, поисковые системы сильно эволюционировали в плане защиты авторства уникальных текстов, но так было далеко не всегда. Откуда же начать? Так-так … в начале было слово … нет слишком далеко копнул, надо поближе, наверно отсюда … Когда интернет распространился повсеместно началась эра создания своих порталов, сайтов, сайтиков, блогов и бложеньков … ну, в общем вы меня поняли.

Каждый такой более-менее успешный сайт оброс своей аудиторией и тогда умные люди смекнули, что показывая им рекламу можно брать за это денег с рекламодателей. В свою очередь ленивые и завистливые вебмастера увидели успех этих умных ребят и то, как их приятные сайты с полезной информацией приносят своим владельцем доход и, конечно же, захотели также. Да вот незадача, для этого же надо действительно трудится и писать хорошие статьи (как минимум), или все же можно просто выделить текст на странице другого автора и вставить его в свой сайт? Копипастить оказалось гораздо легче. Однако когда поисковые системы разнюхали, что тут что-то не то, и хорошие тексты становятся не уникальными, они начали наказывать воров, накладывая на них всякие фильтры и баны, однако не всегда вором признавали именно того, кто украл текст, начало получаться и так, что фильтр ложился на сайт автора — вот тогда и полетели первые невинные головы … и заскрипели первые невинные зубы :).

После таких фильтров старания копипастеров начали сходить на нет и им пришлось пойти путем плохого рерайта пополам с сионимайзом, в воровстве тут уже не признаешь, но и тексты стали хуже. В общем веселая история, но хотелось бы больше оговорить о разработанных механизмах защиты авторства контента.

Итак, Google объявил о том, что легкая жизнь копипастеров подошла к концу, теперь его роботы будут более внимательно относиться к контенту ресурсов, анализировать и сравнивать схожие тексты и предъявлять к выдаче по поисковому запросу оригинальный, по мнению Google, контент. Правда авторство будет определяться по времени размещения (как это написано в русском переводе их блога), но я предполагаю по времени вхождения в индекс, у кого быстрее тот и прав. Не очень радужная перспектива, особенно если блог копипастера индексируется быстрее. Однако Google также обещает отслеживать и оповещать вебмастров ресурсов через сопоставления адреса сайта с гугл-аккаунтами. Одних о том что найдет скопированный контент, а других о том, что их уловка не прошла с ссылкой на оригинальный источник. Это сделано для возможности последующего урегулирования возникающих недоразумений (не очень то приятный прогноз, раз гугл сразу подготовился к недоразумениям).

Яндекс, в свою очередь, подошел к решению этого вопроса с другой стороны. Он предложил вебмастерам самостоятельно сообщать поисковой системе о возникновении нового уникального контента через специальную форму, да еще и кучу условностей и ограничений наложил на этот метод.

Например:

  • Если ваш ресурс имеет показать ТИЦ (тематический индекс цитирования) меньше 10, то ваша заявка не будет рассмотрена.
  • Минимальный размер уникального текста должен составлять не меньше 2000 знаков, а максимальный не больше 32000 знаков.

И вообще все это может никак не повлиять на защиту вашего контента, так как Яндекс не дает гарантии работоспособности данного метода.
Это что касается воровства, копипаста и авторства. Что же тогда делать с дублями, чем они плохи, и как от них избавиться?

Больше всего вреда дубли наносят сайту при продвижении его в поисковых системах. Так как во-первых, на сайт может быть наложен фильтр типа АГС, который оставляет в основном индексе не больше 30 страниц от всего вашего сайта, во-вторых каждая дублирующая страница может заменить собой продвигаемую, такое часто случается когда страница доступа по нескольким адресам. Допустим эта статья доступна по адресам:

http://badbytes.ru/?p=83
http://badbytes.ru/seo/ob-avtorstve-dublyakh-i-tege-canonical

И если нарастить ссылочную массу на первый вариант адреса, то в случае когда второй вариант адреса займет в поисковой выдаче место первого, все усилия по продвижению сойдут на нет. Также поисковые системы ставят минусы сайтам с дублями в своей системе рейтингов, что пессимизирует выдачу вашего сайта по поисковым запросам. В общем ничего хорошего от дублей ожидать не приходиться, однако для всего есть лечение.

Лечиться дублирование страниц комплексным методом. Во-первых в файле rоbots.txt необходимо прописать что-то вроде следующего:

User-agent: *

Disallow: /cgi-bin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /tag/
Disallow: /trackback/
Disallow: /date/
Disallow: /category/
Disallow: /feed/

Правда сразу учтите, что это не универсальный способ для всех сайтов. у каждого сайта свои настройки данного файла и помочь составить нормальный robots.txt вам может только хороший специалист.

Во-вторых уже существующие дубли можно удалить с помощью специальной формы поисковой системы, у Яндекса, например, она выглядит так. В эту форму можно загрузить адреса страниц дублей если есть основание к их удалению из индекса (то есть либо ошибка 404, либо вы только что создали правило запрещающее индексацию).

В-третьих для страниц которые не хотелось бы показывать в индексе можно прописать мета-теги, закрыть часть нежелательного контента тегами noindex, nofollow .

Ну и собственно, в-четвертых дубли анонсов и схожие дубли можно перекрывать с помощью атрибута тега rel=”canonical”. Как это работает? В случае возникновения на сайте группы похожих по наполнению страниц, автор может выбрать предпочитаемый url для участия в поиске. Например, страница сайта доступна по двум адресам:

www.badbytes.ru/pages?id=2
www.badbytes.ru/blog

Если вы хотите чтобы в поиске участвовал url — /blog, то в другой странице достаточно указать
Также необходимо учитывать некоторые моменты, для правильной работы canonical:

  • URL первоисточника должен быть доступен для индексирования;
  • поисковая система не учтет атрибут canonical, если указывается url с другого хоста или поддомена хоста;
  • документ не может иметь несколько канонических url;

Надеюсь что этот материал был вам полезен.

Добавить комментарий