Шинглы как мера уникальности текста? Отнюдь.

26 09 2007

Пришла осень. По-мешкам картошку бросим. Это я так, шучу коряво. Решил давеча сходить в интернет. Почитать, что там пишут. Какие тенденции и вообще. Увидел знакомое слово шингл. Ну думаю, к чему бы это. Небось сателлитосроители из яндекса в гугл бежать собрались. И точно. Народ обсуждает, аж пыль стоит, как бы это алгоритмы проверки текста на уникальность гугловые обскакать. Одни кричат, что мол достаточно вполне, чтобы по шинглам в тексте совпадение было не более, чем на ХХХ%. Другие их по репе стучат - шинглы уже не актуально. Актуально - супершинглы. Третьи (их большинство) стоят с разинутыми ртами и пытаются понять, что это за зверь такой шингл, и чем он от шиншиллы отличается. И вообще какое эта вся фауна к уникальности текста имеет отношение. В общем шуму много, а толку, как обычно.

Для начала небольшая справка. Что такое шингл?

Shingle в переводе с европейского английского означает чешуйка. Более всего получило распространение как термин, обозначающий кровельную дранку. Кроме того так еще иногда называют короткую стрижку. За океаном это слово имеет еще одно значение. Так называют табличку или вывеску.
Итак табличка. Табличка на которой что-то написано. Что же именно, А написана на ней некая аббревиатура (к примеру контрольная сумма) которая однозначно определяет тот или иной участок текста. Понятно? Я думаю, что нет. Обьясню на примере. Вот наш текст: “Супер мега уникальный текст о гламурных котиках и собачках. То, что написано синим цветом и есть тот самый загадочный шингл. То бишь это просто какая-то выборка из текста. Мы можем посчитать контрольную сумму этой выборки и сохранить ее в сухом и прохладном месте. Она будет с высокой долей вероятности (пропорционально методу расчета контрольной суммы) характеризовать данный отрезок текста. Нарубив по тексту достаточное количество таких шинглов и сохранив и сравнив их контрольные суммы с контрольными суммами шинглов из другого текста мы сможем утверждать о степени похожести одного текста на другой.
Это теория. Практика же  вносит свои коррективы. К примеру нет четкого критерия по которому можно выбрать длинну шингла или его частоту его выборки из текста. Чем длинее шингл,  тем менее чувствительным становится текст к мелким правкам, но при этом повышается чувствительность к крупным.  Частота выборки шингла и степень их перекрытия прямо влияют на степень достоврености алгоритма и его вычислительную сложность.  В общем это все лирика. Физикам, непосредственно интересующимся проблемой стоит почитать работы Андрея Бордера.  А мне пора завершать справку, потому как непосредственно к статье она отношения не имеет.

Итак продолжу. Шум поднимается в основном вокруг методов обмана алгоритма проверки по шинглам.  Одни предлагают использовать синонимайзеры. Другие  - различные методики перемены слов в тексте. Третьи - прогон через автоматические переводчики.  Это весьма интересно и захватывающе. Но! Кто сказал что тот же гугл использует шинглы ( или только шинглы)? Существует масса методов, позволяющих определять степень уникальности, а заодно и еще кучу параметров текста. К примеру лексические алгоритмы. Кроме определения степени уникальности текста, они еще попутно могут определять тематическую принадлежность текста. При этом они вполне могут быть менее ресурсоемкими, чем алгоритм шинглов. Ну и кроме того  не стоит забывать о том, что  неустойчивом мире поисковых систем главное не результат, а метод его получения.  Хотите пример из жизни?  Пожалуйста.  Возьмите 10-15 последних статей с какого-нибудь  известного сайта с хорошим трастом и PR. Прогоните их через гугловый переводчик. Например английский->испанский->английский.  А из полученных текстов сделайте сайт. Можете протестировать этии страницы на предмет совпадения по шинглам любым онлайн или офлайн софтом.  Тексты будут уникальными. А теперь загоните ваш сайт в гугл, подождите, пока он проиндексируется и посмотрите в какую выдачу попадут ваши страницы по двух-трехсловным запросам из текста.  В дополнительную. Вот вам и шинглы и уникальность и автоматизация треклятая.

Надеюсь Вам будет над чем подумать на досуге.

Банановый рай как всегда с вами.
Удачи!


Actions

Informations

5 responses to “Шинглы как мера уникальности текста? Отнюдь.”

29 09 2007
X (14:07:24) :

гугловский переводчик юзать не надо, другие юзайте которых дофига

я юзаю другие переводчики и гугл сосёт много и часто

21 11 2007
Vladimir (19:45:56) :

С шинглами понятно, но не понятно как они определяют где начало шингла где конец. Например в одной статье начало и конец как приведено в примере, но в другой статье уже эти отрезки могут начинаться по другому. Соответсвенно и контрольная сумма будет другой.
Я в чём то не прав?

22 11 2007
????????? ??? (03:28:37) :

В расчетах участвует не один шингл, а некое множество шинглов, собранных с перекрытием по тексту. Соответственно мерой уникальности текста является число совпавших шинглов к общему числу шинглов.

11 03 2008
wasya (12:49:07) :

Так, если к практике переходить, то где грань? Если даже ручной рерайт не может гарантировать полную замену шинглов, какой процент считается достаточным?

12 03 2008
????????? ??? (05:02:19) :

Точных цифр не скажет никто, потому как это закрытая информация.
Но можно косвенно при помощи всяких copyscape.com методом научного тыка подбирать процент.
По Яндексу к примеру, замена каждого четвертого слова делает текст уникальным.

Leave a comment

You can use these tags : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

*
To prove you're a person (not a spam script), type the security word shown in the picture.

Anti-Spam Image