Там все регекспом вытравливаеться, записывается в масив а далее идет склейка элементов масива с символом новой строки. Вот пример как сделано для ArticleBox
sub pars_articlealley {
my $url = shift;
my $content = get("http://".$url);
my @cleencont = $content =~ m/<div class="mainArticleBox">.*?<div class="articleCopyright">/gsi;
my $s_cleencont = join("\n",@cleencont); // вот тут каждое предложение с новой строки пишеться
$s_cleencont =~ s/<script.*?\/script>//gsi;
$s_cleencont =~ s/<.*?>//gsi;
return $s_cleencont;
}
Вот потому свой контент он и не разбивает на новые строки, кстати хорошо бы было дописать свой нормальный грабер контента скажем с МСНа, но времени нет пока для этой затеи. Позже напишу маленький скриптик который контент будет приводить в нормальный вид для ДМИ, но вот пока думаю что надо бы каждое предложение проверить на количество слов и длину в символах, ибо бред когда предложение состоит из 1-3 слов, оно нам не нужно!