Анализ словосочетаний на странице.

Статус
В этой теме нельзя размещать новые ответы.
Готовое навряд ли, а вот копать стоит в сторону phpMorphy и подобных.
 
Так а что тут сложного? Бьешь на слова, заводишь массивчик, и потом в цикле инкрементишь элементы массива с ключом "слово|следующее слово", потом сортируешь и вуаля.
PHP:
$text = "мама мыла раму мама мыла окно мама мыла окно мыла раму";
$words = preg_split('/\s+/',$text);
$arr = array();
for($i=0; $i<count($words)-1; $i++) {
  $arr[ $words[$i] . '|' . $words[$i+1] ]++;
}
arsort($arr);
foreach($arr as $key => $count) if ($count > 1) {
  list($word1, $word2) = explode('|',$key); 
  echo "$word1 $word2 <i>$count</i><br>\n";
}

В приведенном примере с be1.ru даже к именительному падежу ничего не приводится, т.е. скрипт именно настолько втупую и работает. Разве что может на слова бьет не по пробелу, а по \b, допустим.
 
Вытащиить отдельные слова не проблема, проблема определить словосочетания, учитывая падежи, числа и тд.
 
Алгоритм Для просмотра ссылки Войди или Зарегистрируйся вычисляет вес предложений. Кто мешает использовать его для вычисления веса словосочетаний?
Разбить текст на двухсловные (трех? четырех?) участки и вычислить их вес по аналогии с весом предложений.
Любой морфологический движок справится.
 
Тогда нужны исходники.
 
Все свои компы обыскал - исходников не нашел. Видимо, удалил по запарке. Извиняюсь.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху