Алгоритм Шинглов – определяем уникальность текста

Статус
В этой теме нельзя размещать новые ответы.

Inviseble_Demon

Мой дом здесь!
Регистрация
11 Дек 2008
Сообщения
478
Реакции
377
Заинтересовала тема по получению процента почти уникальности текста.

С самого начала наткнулся на тему на питоне, решил переписать на PHP но тут меня опередили :)

Но вот чет я понять не могу... В чем смысл делать шинглы по количеству слов ?? Намного релевантное посимвольно! Потому как несовподаемость шинглов при проверке текста с 100 словами и измененным только лиш 1 последним выйдет 90% уникальной:nezn:

В итоге созрела идея о том чтобы шингл состоял не из набора слов а из набора символов - замедлит работу но увеличит релевантность (вроде..).

Что скажите ? Может, существуют более новые методы ?
 
Посмотрел бегло класс... Фигово то, что метод канонизации не занимается стеммингом. Есть ведь фри-стеммер от яндекса. Если использовать - так только с начальными формами слов (кстати, в том же yandex.mystem можно зафильтровать стоп-слова).
 
Посмотрел бегло класс... Фигово то, что метод канонизации не занимается стеммингом. Есть ведь фри-стеммер от яндекса. Если использовать - так только с начальными формами слов (кстати, в том же yandex.mystem можно зафильтровать стоп-слова).
Полностью поддерживаю, нужно стеммер включать, потому как есть падажи склонения и тд, а пословно и посимвольно, так на пхп для этого есть свои функции similar_text(), функция левинштейна, да и для поисковиков это уже не вчерашний, а позавчерашний день, лучше бы ты переписал бы стеммер один с си на пхп :)
 
я пользуюсь примерно таким стеммером Для просмотра ссылки Войди или Зарегистрируйся
ну конечно же слово "журнал" он определяет как глагол прошлого времени (ты что делал? я журнал. а ты будешь журнить?) так что пришлось добавить исключения.
 
В итоге созрела идея о том чтобы шингл состоял не из набора слов а из набора символов - замедлит работу но увеличит релевантность (вроде..).

Набор символов, это в каком смысле?
Слоги? Корни слов? Или еще что?
 
Набор символов, это в каком смысле?
Слоги? Корни слов? Или еще что?

я так думаю, набор символов - это идущие подряд символы, например 3 символа...

сим-имв-мво-вол-ола-...
 
Потому как несовподаемость шинглов при проверке текста с 100 словами и измененным только лиш 1 последним выйдет 90% уникальной

при какой длине шингла? если в тексте из 100 слов вы замените только последнее слово, то у вас будет лишь один совпадающий шингл, а при длине шингла, например, в 5 слов вы построите их (100 - (5 - 1)) = 96 штук

схожесть = (96-1)/96 ~ 98.96% т.е. статьи практически идентичны

В итоге созрела идея о том чтобы шингл состоял не из набора слов а из набора символов - замедлит работу но увеличит релевантность (вроде..).

будет существенно хуже. все тексты будут казаться одинаковыми. например трехбуквенных шинглов в русском языке чуть меньше 36000. вы непеременно найдете общие в любых тесктах, даже если в них не совпадает ни слова.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху