[DMI] DMII 2.5

Статус
В этой теме нельзя размещать новые ответы.
Нормально собирала при тексте до 1.5 мб. Я то, все операции делал на дохлом (самом дешевом) вдс, естественно памяти мало (64 мб оперативы)

ЗЫ. Кстати! Ты ей давал текст свой, не напарсенный??? Если да, то каким образом???
Да текст свой. Я отказался парсить его парсером, и дольше и грузит сильно, да и фиг его знает, что он там надерёт, по теме не всегда находит сколько надо.
Пример: Делаем словарь по viagra, в редакторе словарей создаю простое задание viagra:viagra ну можно ещё несколько фраз докинуть. Потом иду в папку dict\texts и туда кидаю мой файл с текстом, обязательно с тем же названием, что и словарь viagra.txt. отключаю все галочки в настройках "Ресурсы для текста".
Запускаю создать словарь и он видя, что текст уже есть никуда не лезет. Время на создание словаря сразу сокращается в разы ну и качество от твоего текста.
Только что словарь из 6мб текста создался меньше чем за 4 минуты.
 
И на Ubuntu не заработал мне уже смешно становится :D
Подозреваю что дело в премишшенах, кто какие выставил на папку tagger?
 
И на Ubuntu не заработал мне уже смешно становится :D
Подозреваю что дело в премишшенах, кто какие выставил на папку tagger?
777 я ставил на все внутренние папки. Ты создал папку temp в Bin_and_Data?
 
Да!
Поиграюсь с премишенами чуток!
Может кто скинет теггер у кого Ubuntu 7.1?
И таки победил я эту тварь :)
Текст из нета парсит словари собирает, шустро так :)

Кстати проблема была в том что на final-state-tagger и start-state-tagger который в папке /bin/ надо было выставить права 777
 
кто может собрать воедино все советы с тем, чтобы запустить сие чудо на Ubuntu ?

ПСЫ сотка есть :)) начинаю тестить :yahoo:
 
Словари для DMI

Для тех, кто в теме. :)
Кто работает с DMI наверное хотят иметь побольше и получше у себя словарей , к тому же поближе к теме и осмысленному тексту. Так вот, если мы посмотрим как всё происходит, то увидим следующее:
1.Парсим текст
2.Из этого текста мы получаем скелеты будущих предложений и слова для словаря.
Всё хорошо, НО !
1.В большинстве случаев сам напарсенный текст, уже мягко говоря, не очень читабельный, значит скелеты (template) у нас тоже не очень.
2.Словарь тоже получается не совсем по той теме, что мы хотели или мало слов по этой конкретной теме.

Как попытаться улучшить это дело?
Будем делать всё в 2 этапа:
1. Берём качественную литературную статью(статьи) по любой теме, можно книгу ну или ещё что, главное качество построения предложений. Делаем из неё первый словарь. Цель - получение хороших TEMPLATE.
2.Затем берём побольше любого текста (можно в него добавить и список наших кейвордов), главное строго по нашей теме которая нам нужна и делаем второй словарь.
3.Теперь просто соединяем это в один словарь, из первого забираем Template из второго части речи.
Получаем хороший тематический словарь. :)
 
так а всетаки комуто удалось собрать tagger под freebsd?
у меня вот такие матюки пишет:
make
gcc -O -I. -I./Utils ./Utils/lex.o ./Utils/useful.o ./Utils/darray.o ./Utils/ registry.o ./Utils/memory.o -o ./Bin_and_Data/contextual-rule-learn ./Learner_C ode/contextual-rule-learn.c
/var/tmp//cciMch1Q.o(.text+0x44c:( In function `main':
: warning: warning: tmpnam() possibly used unsafely; consider using mkstemp()
./Utils/darray.o(.text+0x32:( In function `grow':
: undefined reference to `__assert_fail' и т.д.
на все бинарники стоят права 777
 
Для тех, кто в теме.
Кто работает с DMI наверное хотят иметь побольше и получше у себя словарей , к тому же поближе к теме и осмысленному тексту. Так вот, если мы посмотрим как всё происходит, то увидим следующее:
1.Парсим текст
2.Из этого текста мы получаем скелеты будущих предложений и слова для словаря.
Всё хорошо, НО !
1.В большинстве случаев сам напарсенный текст, уже мягко говоря, не очень читабельный, значит скелеты (template) у нас тоже не очень.
2.Словарь тоже получается не совсем по той теме, что мы хотели или мало слов по этой конкретной теме.
не знаю как подойдет для тех кто сотнями паг штампует доры но я делаю так:


можт показаться что слишком муторно, но через ;)
 
Пара вопросов:
1.Сайт разработчика?
2.Как поставить на вертриго сервер?
3.Под что лучше - буржуйнет или наш?
4.Какая версия последняя?
 
На все твои вопросы есть ответы на форуме!
Потрудись потратить своё время и получи то что тебе надо.
А насчёт вертиго ты пролетаешь нужен линукс и только.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху