[DMI] DMII 2.5

Статус
В этой теме нельзя размещать новые ответы.
А можно поподробнее как ставила?:thenks:

поставь этот скриптик, он покажет какие модули cтоят (ставить в cgi-bin) Для просмотра ссылки Войди или Зарегистрируйся
у меня это скрипт модуль не видел, а когда поставила через synaptic, то сразу появился, у меня ubuntu и стоит synaptic, там в поиске вводишь название модуля и ставишь, как ещё подробнее рассказать даже не знаю, может кто лучше объяснит
 
*** скрытое содержание ***
Касательно переделаной генерации rss!
У тебя парень ошибка в функции файла doorgen2.pl:
строку

$rss_tmpl =~ /(<item>.*?</item>)/si;
заменить на

$rss_tmpl =~ /(<item>.*?<\/item>)/si;
 
Zahar, я смотрю ты понимаешь в перле может ты из ДМИ вытянишь кусок когда которые отвечает за разбивку текста на предложения? Проблема в том, если скармливать ДМИ собственный словари, то каждое предложение должно быть с новой строки, а ДМИ собственно не разбивает собственный текст на преложения> а только напарсеный текст.
 
Zahar, я смотрю ты понимаешь в перле может ты из ДМИ вытянишь кусок когда которые отвечает за разбивку текста на предложения? Проблема в том, если скармливать ДМИ собственный словари, то каждое предложение должно быть с новой строки, а ДМИ собственно не разбивает собственный текст на преложения> а только напарсеный текст.

Там все регекспом вытравливаеться, записывается в масив а далее идет склейка элементов масива с символом новой строки. Вот пример как сделано для ArticleBox

sub pars_articlealley {
my $url = shift;
my $content = get("http://".$url);
my @cleencont = $content =~ m/<div class="mainArticleBox">.*?<div class="articleCopyright">/gsi;
my $s_cleencont = join("\n",@cleencont); // вот тут каждое предложение с новой строки пишеться
$s_cleencont =~ s/<script.*?\/script>//gsi;
$s_cleencont =~ s/<.*?>//gsi;
return $s_cleencont;
}
Вот потому свой контент он и не разбивает на новые строки, кстати хорошо бы было дописать свой нормальный грабер контента скажем с МСНа, но времени нет пока для этой затеи. Позже напишу маленький скриптик который контент будет приводить в нормальный вид для ДМИ, но вот пока думаю что надо бы каждое предложение проверить на количество слов и длину в символах, ибо бред когда предложение состоит из 1-3 слов, оно нам не нужно!
 
Скриптик будет очень и очень полезным!

Ну предложения могут быть и из одного слова, имхо не стоит ограничивать длинну предложения, а вот над регэкспами стоит поработать, например я не встречал в словарях ДМИ вопрасительные предложения и предложения он определяет чуток кривовато.
Бла бла бла (А. Петров ) бла бла бла бла. Такое предложения ДМИ разделит на два, что не есть гуд.
 
Там все регекспом вытравливаеться, записывается в масив а далее идет склейка элементов масива с символом новой строки. Вот пример как сделано для ArticleBox

sub pars_articlealley {
my $url = shift;
my $content = get("http://".$url);
my @cleencont = $content =~ m/<div class="mainArticleBox">.*?<div class="articleCopyright">/gsi;
my $s_cleencont = join("\n",@cleencont); // вот тут каждое предложение с новой строки пишеться
$s_cleencont =~ s/<script.*?\/script>//gsi;
$s_cleencont =~ s/<.*?>//gsi;
return $s_cleencont;
}
Вот потому свой контент он и не разбивает на новые строки, кстати хорошо бы было дописать свой нормальный грабер контента скажем с МСНа, но времени нет пока для этой затеи. Позже напишу маленький скриптик который контент будет приводить в нормальный вид для ДМИ, но вот пока думаю что надо бы каждое предложение проверить на количество слов и длину в символах, ибо бред когда предложение состоит из 1-3 слов, оно нам не нужно!

Кстати в дми прежде чем скормить предложения тагеру происходит фильтрация и все предложения длинною менее 20 символов откидываются.
 
Кстати в дми прежде чем скормить предложения тагеру происходит фильтрация и все предложения длинною менее 20 символов откидываются.

На счет того что мене 20 символов предложение отбрасывает я в коде нашол.
А вот на счет "Бла бла бла (А. Петров ) бла бла бла бла. " у кого какие предложения будут? Как определить что это одно предложение?
 
Может лучше такие предложения тупо фильтровать?
Зачем голову ломать, что посути не играет архи важной, роли, главное, чтобы в тексте не было спец символов в виде хтмл тегов и прочего мусора.
 
Да вроде как не может заливать через прокси, потому что там тупо негде прокси указать.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху