New user registration is currently disabled due to spam abuse / Регистрация новых пользователей в настоящее время приостановлена из-за злоупотреблений спаммерами

WordNet 3.0

Всё по словарям

Re: WordNet 3.0

Postby data man » Tue Nov 10, 2009 9:49 am

Думаю что (использующим скрипт) неплохо бы подсказать, что с сайта http://wordnet.princeton.edu/wordnet/download/ нужно скачивать архив WordNet-3.0.tar.gz, а не WNdb-3.0.tar.gz.
А то в них содержимое папки dict не совпадает :(
data man
 
Posts: 46
Joined: Thu Oct 08, 2009 9:38 am

Re: WordNet 3.0

Postby unera » Tue Nov 10, 2009 12:53 pm

Gloggy wrote:Выкладываю скрипт по конвертации из WordNet 3.0 оригинального формата в DSL. Public domain.

http://pastie.org/691589

(там справа есть кнопка download/raw) - по ней можно получить сам скрипт.

отлично, я чуток освобожусь, соображу патч на имеющийся пакет и начну переговоры с текущим майнтенером этого словаря в Debian'е
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby unera » Wed Nov 11, 2009 7:29 am

Gloggy wrote:Выкладываю скрипт по конвертации из WordNet 3.0 оригинального формата в DSL. Public domain.

http://pastie.org/691589

(там справа есть кнопка download/raw) - по ней можно получить сам скрипт.


попытался адаптировать скрипт к дебиановскому пакету, на старте выдает такую ошибку:

Code: Select all
ERROR: sentidx.vrb format error: ["pet%2:35:00::"]


при этом этот файл имеет такое содержимое: http://paste.org.ru/?bn2y0x

такая (ошибочная) строка там есть, только в ней нет второго поля. насколько я понимаю это некритично?

далее скрипт вроде начинает работать, давая много-много вывода на экран, но дождаться пока не смог, у меня машинка похоже VerySlow для подобных вещей, надо будет поискать на чем запустить.

Gloggy, можешь немного переделать скрипт (а то я в руби не очень)?

нужно сделать такие вещи:
  • возможность указать каталог в котором находится ворднет (я сквозной заменой конечно заменил WordNet-3.0/dict на то что в deb-пакете, однако, если кто в другие дистрибутивы захочет вставить, ему тоже пригодится)
  • сделать опцию? на убрать отладочную информацию во время работы. не хочется все сплавлять в /dev/null, хочется информацию об ошибках таки видеть.

сколько времени он примерно может работать на одном CPU 1000МГц?
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby unera » Wed Nov 11, 2009 7:38 am

data man wrote:Думаю что (использующим скрипт) неплохо бы подсказать, что с сайта http://wordnet.princeton.edu/wordnet/download/ нужно скачивать архив WordNet-3.0.tar.gz, а не WNdb-3.0.tar.gz.
А то в них содержимое папки dict не совпадает :(

насколько я понял, если взять первый архив, то надо будет сперва запустить build в нем, получатся те же файлы что и во втором, далее можно будет использовать скрипт. по кр мере для Debian'а получается именно так
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby unera » Wed Nov 11, 2009 8:01 am

тэкс, кажется про отладочную информацию я ступил, это не отладочная информация а собственно словарь, так?
а индекс к нему не создаем?

и далее, его чтобы в упакованный вид привести какая утилита нужна?
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby unera » Wed Nov 11, 2009 8:31 am

тэкс и это нашел, dictzip.

ща короче доработает потестим пакет :)
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby data man » Wed Nov 11, 2009 8:57 am

unera wrote:по кр мере для Debian'а получается именно так

Я - Windows-ориентированный и от C++ очень далеко. :)
data man
 
Posts: 46
Joined: Thu Oct 08, 2009 9:38 am

Re: WordNet 3.0

Postby unera » Wed Nov 11, 2009 9:13 am

мдя, на моей машине такое видимо никогда не закончит работать :(
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby unera » Wed Nov 11, 2009 10:04 am

короче если к вечеру соберется выложу пакет на потестить :)

хех, ikm говорил мол "сделаем вид что это руками нарисовано" оно часами работает скриптами :)

вроде все уже сам допатчил до нужного состояния, дособерется отправлю патч в Deb :)
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby Gloggy » Wed Nov 11, 2009 10:06 am

unera wrote:тэкс, кажется про отладочную информацию я ступил, это не отладочная информация а собственно словарь, так?
а индекс к нему не создаем?

Да, словарь в stdout пишется. Если надо в файл, то редиректом. Мне так проще было, не нужно было разбирать командную строку. ;)
Насчет индекса не понял - что за индекс? GD сам все индексирует.

и далее, его чтобы в упакованный вид привести какая утилита нужна?

Ага, dictzip.
Gloggy
Модератор
 
Posts: 516
Joined: Wed May 06, 2009 3:01 pm

PreviousNext

Return to Словари

Who is online

Users browsing this forum: No registered users and 57 guests