New user registration is currently disabled due to spam abuse / Регистрация новых пользователей в настоящее время приостановлена из-за злоупотреблений спаммерами

WordNet 3.0

Всё по словарям

Re: WordNet 3.0

Postby Gloggy » Wed Nov 11, 2009 3:27 pm

unera wrote:все ли будет ок?
я сгенерил так словарь, но мало ли что там неправильно получилось, вроде не видать проблем-то, но сотню тыщ записей не проверишь руками :)

Вроде как проблем не должно быть, да. Проверка та была "на всякий случай", пока скрипт разрабатывался там многое менялось, и это я так защищался от изменений. Defensive programming! :)
Gloggy
Модератор
 
Posts: 516
Joined: Wed May 06, 2009 3:01 pm

Re: WordNet 3.0

Postby Gloggy » Wed Nov 11, 2009 3:30 pm

unera wrote:но сотню тыщ записей не проверишь руками :)

Кстати, можно запросто проверить. Можно взять исходную версию словаря, сгенеренную исходным скриптом, и новую версию, сгенеренную уже поправленным скриптом. Потом в текстовом редакторе тупо убить все стрелки. Ну а потом просто Diff'ом проверить, что два файла получились одинаковыми!
Gloggy
Модератор
 
Posts: 516
Joined: Wed May 06, 2009 3:01 pm

Re: WordNet 3.0

Postby unera » Wed Nov 11, 2009 3:30 pm

вот тут выложил deb-пакет со словарем (пока он не попадет в Debian можно брать отсюда), там же (wordnet-goldendict.dsl.dz) рядом лежит собственно файл-словаря в виде "без стрелок"

просьба потестить одно или другое. (deb-пакетов там несколько, интересующий нас называется wordnet-goldendict_3.0-18.1_all.deb)


http://uvw.ru/wordnet/
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby ikm » Wed Nov 11, 2009 7:39 pm

То. что я заметил:

1. Отсутствие abrv-файла. Этот файл должен называться wordnet-goldendict_abrv.dsl и лежать рядом с основным .dsl. Данный файл содержит расшифрову аббревиатур (они выдаются при наведении курсора мыши на сокращения в словаре). В версии Gloggy он присутствовал.
2. Строчка из описания: "This package contains an adaptation wordnet database for such dictionaries as goldendict or stardict." Stardict не поддерживает dsl-словари. Есть отдельный конвертер из dsl в стардиктовский формат.
3. Название словаря: "WordNet® 3.0. 11 Nov 17:55 (En-En)". На мой взгляд, дата тут излишня. Это время билда, которое бесполезно для конечного пользователя, и только мозолит глаза. Уже присутствующего "3.0" вполне достаточно. Я бы заменил просто на "WordNet® 3.0"
4. Директория, куда всё кладется. Возможно, лучше /usr/share/goldendict/dic/. По аналогии со stardict, и на случай, если появятся и другие словари для GD в поставке Debian (в частности, когда-нибудь можно было бы сообразить седьмого мюллера как минимум). И тогда в дебиановской версии gd можно добавлять эту директорию как дефолт в Sources|Files, чтобы при установке словарей он их сразу подхватывал.
5. Название пакета. Словарные пакеты стардикта (две шт., входящие в debian) называются: stardict-xmlittre и stardict-english-czech. Возможно, имеет смысл и тут назвать пакет goldendict-wordnet (вместо wordnet-goldendict). Плюс такого подхода в том, что в алфавитном списке gd и gd-wn будут идти один за другим.

И еще, не относящееся к пакету, а относящееся к дебиану. Пока возился, наткнулся на то, что пакет stardict-english-czech жестко зависит от stardict, хотя он его должен только recommends. Ежели будет желание, можно зафайлить багу.
ikm
Автор GoldenDict
 
Posts: 1595
Joined: Wed Feb 04, 2009 10:40 am

Re: WordNet 3.0

Postby unera » Thu Nov 12, 2009 6:09 am

ikm wrote:То. что я заметил:

1. Отсутствие abrv-файла. Этот файл должен называться wordnet-goldendict_abrv.dsl и лежать рядом с основным .dsl. Данный файл содержит расшифрову аббревиатур (они выдаются при наведении курсора мыши на сокращения в словаре). В версии Gloggy он присутствовал.


Gloggy, как получить этот файл?

3. Название словаря: "WordNet® 3.0. 11 Nov 17:55 (En-En)". На мой взгляд, дата тут излишня. Это время билда, которое бесполезно для конечного пользователя, и только мозолит глаза. Уже присутствующего "3.0" вполне достаточно. Я бы заменил просто на "WordNet® 3.0"

кстати, нельзя ли в GD воткнуть функциональность чтобы он перестраивал индекс для словаря если у того дата изменилась?
потому что я вчера тестил несколько раз сборку словаря и натыкался на то что слово test выводило на произвольные слова словаря.
а удаление/добавление/рескан лечили проблему.

4. Директория, куда всё кладется. Возможно, лучше /usr/share/goldendict/dic/. По аналогии со stardict, и на случай, если появятся и другие словари для GD в поставке Debian (в частности, когда-нибудь можно было бы сообразить седьмого мюллера как минимум). И тогда в дебиановской версии gd можно добавлять эту директорию как дефолт в Sources|Files, чтобы при установке словарей он их сразу подхватывал.

да, кстати я хотел спросить. давайте вынесем в конфиг уровня /etc пути к дефолтам? чтобы в разных дистрибутивах провайдить разные пути без перекомпиляции (ну и может со временем еще настройки появятся?). а насчет куда класть - это идет в соответствии с Debian-policy. можно будет в самом GD потом симлинку прикрутить

5. Название пакета. Словарные пакеты стардикта (две шт., входящие в debian) называются: stardict-xmlittre и stardict-english-czech. Возможно, имеет смысл и тут назвать пакет goldendict-wordnet (вместо wordnet-goldendict). Плюс такого подхода в том, что в алфавитном списке gd и gd-wn будут идти один за другим.

он собирается как часть ворднет а не часть голдендикт. майнтенер ворднет может не согласиться

И еще, не относящееся к пакету, а относящееся к дебиану. Пока возился, наткнулся на то, что пакет stardict-english-czech жестко зависит от stardict, хотя он его должен только recommends. Ежели будет желание, можно зафайлить багу.

да, можно
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby unera » Thu Nov 12, 2009 11:45 am

багу на пакет отправил, о переименовании пакета в goldendict-wordnet отписался. про файл с аббривеатурами ждем ответа Gloggy
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby Gloggy » Thu Nov 12, 2009 1:33 pm

unera wrote:Gloggy, как получить этот файл?

Взять из исходного архива со словарем: http://prdownload.berlios.de/goldendict ... .0_1.0.zip
Gloggy
Модератор
 
Posts: 516
Joined: Wed May 06, 2009 3:01 pm

Re: WordNet 3.0

Postby Gloggy » Thu Nov 12, 2009 1:35 pm

ikm wrote:3. Название словаря: "WordNet® 3.0. 11 Nov 17:55 (En-En)". На мой взгляд, дата тут излишня. Это время билда, которое бесполезно для конечного пользователя, и только мозолит глаза. Уже присутствующего "3.0" вполне достаточно. Я бы заменил просто на "WordNet® 3.0"

Полностью согласен. Дата добавлена мной была просто потому, что так легче различать разные версии словарей, когда работаешь на скриптом-конвертацией. В финальной версии я ее прибиваю.

В скрипте для дебиана можно просто вообще убрать генерацию даты, чтобы и не путалась.
Gloggy
Модератор
 
Posts: 516
Joined: Wed May 06, 2009 3:01 pm

Re: WordNet 3.0

Postby unera » Thu Nov 12, 2009 2:00 pm

Gloggy wrote:
unera wrote:Gloggy, как получить этот файл?

Взять из исходного архива со словарем: http://prdownload.berlios.de/goldendict ... .0_1.0.zip

тогда ничего поделать пока не могу: Debian собирает пакеты из исходников, однако имеющаяся система сборки этот файл не собирает.
все другие собирает а этот нет. не знаю почему, я посмотрю что там не так, может это опциональная вещь и ее можно включить опцией configure, но пока не нашел как
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby Gloggy » Thu Nov 12, 2009 2:18 pm

unera wrote:тогда ничего поделать пока не могу: Debian собирает пакеты из исходников, однако имеющаяся система сборки этот файл не собирает.

Видимо, тут недопонимание какое-то получилось. Под исходным архивом со словарем я имел в виду свой архив, а не WorNet'офский официальный.
То бишь, надо просто взять это abrv файл и положить куда надоть. Просто статический файл.
Gloggy
Модератор
 
Posts: 516
Joined: Wed May 06, 2009 3:01 pm

PreviousNext

Return to Словари

Who is online

Users browsing this forum: No registered users and 56 guests