- /
- /
- /
- /
- /
Шингл
Определение
Шингл представляет собой участок текста длинною в несколько слов, для анализа текстового контента на предмет присутствия плагиата.
Принцип работы с шинглами
С использованием шинглов работают сервисы для проверки уникальности текстов. Для этой цели все полотно текста разбивается на отдельные шинглы (фиксированная величина указывается в настройках и составляет от 3 до 8 слов). Программа для проверки уникальности контента ищет шинглы (фрагменты) во всех текстовых документах, ранее опубликованных в интернете.
Результаты уникальности текста напрямую зависят от заданной длины шингла. Так, если установить шингл равным 1 слову, то в сети обязательно найдется минимум один текст, в котором будет находиться каждое слово, прописанное в проверяемом тексте. В результате такой проверки уникальность текста всегда будет нулевой. Если же поставить более «реальную» выборку из 8 слов, то уникальность проверяемого текста значительно вырастет, ведь найти даже 2 статьи, содержание идентичные фрагменты из 8 слов, достаточно проблематично.
Каждая программа-антиплагиатор (а их в сети достаточное количество) имеет собственный алгоритм настройки шинглов. Известно одно из правил настройки их внахлест, когда каждый следующий шингл как бы захватывает на фрагмент предыдущего.
Этапы проверки уникальности
Сравниваемый текст проходит через определенные этапы проверки по заданным алгоритмам.
- Канонизация текстовой части.
- Вычленения отдельных шинглов.
- Расчет хэшей последних.
- Подготовка выборки из 84 значений контрольный сумм.
- Подготовка и выдача результата проверки.
Процесс разбивки проверяемого текста на шинглы
Как было упомянуто выше, существует несколько способов настройки шинглов.
- Предварительная очистка документа от стоп-слов и символов.
- Без предварительной очистки.
Если очистка не применяется, то исходный документ проверяется без внесения в него изменений.
В случае применения первого алгоритма из текста удаляются стоп-слова и символы, не имеющие смысловой нагрузки (некоторые наречия, союзы, предлоги и т. д.)