[DMI] DMI Doorway Generator v.2.0 - Beta

Статус
В этой теме нельзя размещать новые ответы.
У меня такая же штука. Словари собираются этак по 300-600 кбайтов. Правда, по частям речи разбиваются. Хоть и через раз. А вот чтоб большой собрать - фиг.
Так ведь я что удумал - я на крон этот скрип поставил. Он мне и начал собирать неплохо - когда оно в несколько потоков идёт. НО - зато текст-то собрал (вручную пришлось останавливать, иначе бы и дальше собирал), а вот рассортировывать не стал. Не останови я его, он бы и дальше слова собирал.
Но ведь на то это и бета-версия, как я понимаю, недоработанная.
Я видел небету - там раздел словаря хорошо доработан, и чётко работает.
 
Да, у друга лицензия, то же видел, в новых все ок.
Сбор словарей вообще без тредов, на форках скорее всего.
Добавлен парсинг вики и еще чего-то.
Все делает намного бытрее и стабильнее.
 
Пост автора DMI на UmaxForum:
Сейчас уже доступен апдейт скрипта для создания словарей.
По сути скрипт crdict.pl написан с нуля.
А отказался от перловских потоков, так как они не везде и их довольно сложно ставить.
Многопоточность будет на форках.
Добавлена википедия как ресурс для парсинга. Но она несколько отличается от остальных.
Делается запрос к википедии только по первому слову в задании : оттуда собирается текст и все исходящие ссылки на релевантные статьи и оттуда то же парситься текст. (скажем по кею usa собирает за раз 12 мегабайт).
Рассортировка по частям речи будет теперь полностью локальна.
 
Ясно значит с моим нулевым скилом программирования можно эту бетку больше не мучать.
В принципе на части речи опять стал словари расскидывать, но больше мега словарь не собрать.
 
Для просмотра ссылки Войди или Зарегистрируйся, было такое. запустил только из консоли и на freebsd - тогда собрал и разобрал по частям речи. после этого копировал на linux, где стоял сам DMI.
 
arp, собрал словарь больше мегабайта или собрал меньше на на части речи разбил?
edit 16.05.07
В топике Джона mamadu сообщил, что гугл изменил выдачу и как мне думается это как раз причина того, что собираются слишком лёгкие словари.
Может кто поправит файлик crdict.pl ?
 
А может кто из спецов сделает сборочку portable настроеную для денвера?
Народу очень помогли бы Спецы где вы :(

скрипт запустил но когда жму старт
файл перла открываеться как текстовый

в логах пишет когда захожу на Для просмотра ссылки Войди или Зарегистрируйся

[Thu May 17 19:34:40 2007] [error] [client 127.0.0.1] "my" variable @profiles masks earlier declaration in same scope at \\home\\test1.ru\\cgi-bin\\doorgen\\index.pl line 95.\n
[Thu May 17 19:34:40 2007] [error] [client 127.0.0.1] File does not exist: y:/home/test1.ru/www/doorgen/style.css

а когда жму старт выскакивает в редакторе текстовом файл . Потом смотрю лог там

[Thu May 17 19:35:45 2007] [error] [client 127.0.0.1] Name "main::header" used only once: possible typo at \\home\\test1.ru\\cgi-bin\\doorgen\\panel.pl line 149.\n
[Thu May 17 19:35:45 2007] [error] [client 127.0.0.1] Use of uninitialized value in concatenation (.) or string at \\home\\test1.ru\\cgi-bin\\doorgen\\panel.pl line 167.\n
[Thu May 17 19:35:45 2007] [error] [client 127.0.0.1] File does not exist: y:/home/test1.ru/www/style.css
[Thu May 17 19:35:46 2007] [error] [client 127.0.0.1] Name "main::header" used only once: possible typo at \\home\\test1.ru\\cgi-bin\\doorgen\\panel.pl line 149.\n
[Thu May 17 19:35:46 2007] [error] [client 127.0.0.1] File does not exist: y:/home/test1.ru/www/style.css
 
2.0.5 еще никто не нашел? Особенно интересует как они анализатор предложений в crdict.pl переписали.
 
woyager скажи пожалуйста у тебя словари ДМИ какого размера собирает?
 
woyager скажи пожалуйста у тебя словари ДМИ какого размера собирает?

Я не через DMI словари собираю. Десять гигов статей с wikipedia, чистилка от тегов, плюс синтаксический анализатор. На выходе получаем великолепный словарь общего назначения.
 
Статус
В этой теме нельзя размещать новые ответы.
Назад
Сверху