New user registration is currently disabled due to spam abuse / Регистрация новых пользователей в настоящее время приостановлена из-за злоупотреблений спаммерами

WordNet 3.0

Всё по словарям

WordNet 3.0

Postby Gloggy » Mon Jul 27, 2009 3:11 pm

Раз уж я кодом помочь не могу замечательному проекту GoldenDict, то вот хоть словарем... :)

Предлагаю вашему вниманию полную версию английского словаря WordNet 3.0. В принципе, исходники этой словарной базы WordNet распространяются под свободной лицензией (Apache-like), что позволяет включить этот словарь в официальный дистрибутив GoldenDict'a, если есть такое желание. Я, как автор конвертации, такое согласие даю с радостью. По идее, это сделает GoldenDict не просто оболочкой, в которую надо искать самому потом словари, но и сразу полезным инструментом, в котором сразу же можно пользоваться англо-английскими (и англо-русскими) словарями.

Словарь WordNet 3.0 сам по себе обширный, почти 150 тысяч карточек, большинство с примерами и с дополнительной информацией.

* Имя словаря: WordNet 3.0 (En-En)
* Ссылка: http://www.onlinedisk.ru/file/186450/ . В архиве словарь в уже пожатом виде (*.dz), готовый к немедленному использованию.
* Кол-во заголовков / карточек: 148.730 / 148.730
* Версия 1.0 (27 July 2009)
* Иконка: есть
* Описание: WordNet is a large lexical database of English, developed under the direction of George A. Miller.
Nouns, verbs, adjectives and adverbs are grouped into sets of cognitive synonyms (synsets),
each expressing a distinct concept. Synsets are interlinked
by means of conceptual-semantic and lexical relations.
* Дополнительная информация о словаре: Это *полная* версия всей базы WordNet 3.0,
сконверитрованная "с нуля", с продвинутым форматированием, с выделением примеров.
Содержит, помимо переводов и примеров так же частотную информацию, синонимы,
антонимы, меронимы, гипонимы, гипернимы, холонимы, и еще всякого...
* Пример карточки:
Image
Gloggy
Модератор
 
Posts: 516
Joined: Wed May 06, 2009 3:01 pm

Re: WordNet 3.0

Postby unera » Mon Jul 27, 2009 7:48 pm

вот чтобы действительно можно было включать неплохо бы правильно лицензионно оформить.

то бишь приложить к архиву файл с описанием какая лицензия может быть использована для распространения и (одно из условий) кто автор(ы). Без этого в большинство дистрибутивов пакет не пропустят (программа/данные без лицензии (пусть даже и с исходными текстами) по сути свободной не является. ибо автор не дал разрешения на использование/распространение)

PS: да и не всякая лицензия является свободной. например не стоит использовать Creative Common v2 (многие дистрибутивы не смогут использовать)

хорошие варианты - BSD/Apache/итп.

в данном случае если исходники Apache то неплохо бы ее и оставить, дополнив (написав) файл с копирайтами к архиву. Ну и если возможно систему сборки неплохо бы иметь (чтобы кто-то тоже мог собрать словарь а не просто подключить).

я как освобожусь гляну что из себя представляет этот словарь. если вышеперечисленные требования выполнены, можно будет тоже загрузить его в Debian/Ubuntu :)
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby Gloggy » Mon Jul 27, 2009 7:55 pm

unera wrote:вот чтобы действительно можно было включать неплохо бы правильно лицензионно оформить.

Я старался! :)

то бишь приложить к архиву файл с описанием какая лицензия может быть использована для распространения и (одно из условий) кто автор(ы).

Так и сделал. В архив я сразу положил файл LICENSE.txt, в котором как раз все расписано.

хорошие варианты - BSD/Apache/итп.

Насколько я могу судить - там классическая Apache license, с атрибуцией Принстонского Университета.

Ну и если возможно систему сборки неплохо бы иметь (чтобы кто-то тоже мог собрать словарь а не просто подключить).

По идее, никакой сборки не треба, словарь - DSL файл. С другой стороны, если кому интересен скрипт на Ruby, который позволяет из официальной WordNet базы конвертировать в DSL, могу и его выложить под любой лицензией. Но какой-то особой самоценности скрипт сам по себе не несет. Если уж есть DSL, то больше скрипт не нужен. Ну, разве что апдейт к базе выйдет или какие ошибки всплывут в процессе конвертации.

я как освобожусь гляну что из себя представляет этот словарь. если вышеперечисленные требования выполнены, можно будет тоже загрузить его в Debian/Ubuntu :)


:)
Gloggy
Модератор
 
Posts: 516
Joined: Wed May 06, 2009 3:01 pm

Re: WordNet 3.0

Postby unera » Mon Jul 27, 2009 7:56 pm

заглянул в архив...
файл лицензии есть, недостает автора конвертации и собственно системы конвертации. можно приложить скрипт-конвертер и автора? ну и возможно README как это все использовать
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby unera » Mon Jul 27, 2009 8:01 pm

Gloggy wrote:По идее, никакой сборки не треба, словарь - DSL файл. С другой стороны, если кому интересен скрипт на Ruby, который позволяет из официальной WordNet базы конвертировать в DSL, могу и его выложить под любой лицензией. Но какой-то особой самоценности скрипт сам по себе не несет. Если уж есть DSL, то больше скрипт не нужен. Ну, разве что апдейт к базе выйдет или какие ошибки всплывут в процессе конвертации.


тут суть в следующем:

имеем:
  • исходники (д.б. описано откуда взяты или как их получить)
  • систему их сборки

если брать только сам словарь это как бы скомпилированный бинарник: в Debian на входном контроле первое что спросят - исходник. то есть например имеется html который генерим из SGML.
и то и другое редактируемо. но если исходного SGML нет то вопрос прохода в репозитарии очень сложный. так и тут.

можно ли перевыложить архив в виде
  • исходники (м.б. запакованы в подархив)
  • скрипт системы сборки (правильно оформленный: то есть содержащий в заголовке коментарий с копирайтом и лицензией)
  • README что откуда взято
?
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby unera » Mon Jul 27, 2009 8:05 pm

а и еще, глянул я: в Debian уже имеется несколько пакетов wordnet, можете глянуть?

http://packages.qa.debian.org/w/wordnet.html
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby unera » Mon Jul 27, 2009 8:11 pm

Вот, включил я ворднетовский дебиановский словарь. Ваш выглядит куда красивее :)
Я думаю если Вы выложите скрипт-конвертер, то можно будет из тех же исходников сгенерить словарь для голдендикта/стардикта/и прочих гуевых словарей. Договориться с майнтенером и всунуть скрипт в его систему сборки (или не договариваться и всунуть отдельно)
Attachments
ss.png
ss.png (132.26 KiB) Viewed 27929 times
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby Gloggy » Mon Jul 27, 2009 8:31 pm

unera wrote:а и еще, глянул я: в Debian уже имеется несколько пакетов wordnet, можете глянуть?

http://packages.qa.debian.org/w/wordnet.html

Я так понял, что то, что есть в Дебиане сейчас - это всевозможные оболочки вокруг все того же набора данных, есть на перле, есть для dict'a, еще что-то.

В нашем же случае мы имеем не новую оболочку над теми же данными, а конвертацию данных в DSL формат, для использования в Lingvo/GoldenDict. Мне не до конца пока понятно кому будет интересен WordNet словарь в DSL формате под Дебианом. Так или иначе пользователям нужен будет GoldenDict. С другой стороны, может быть так оно и лучше, пользователи смогут ставить GoldenDict базовый, без словарей, и отдельно словари к нему.

Пользователям GoldenDictа все остальные варианты WordNet - вроде как совсем ни к чему. И наоборот, желающим работать со спец. оболочками или использющим библиотеки доступа к офиц. базе вроде как совсем DSL не нужен.

P.S. Насчет дололжить README и перевыложить - завтра буду разбираться. Одна загвоздка есть. Я, как бы это сказать, работаю "инкогнито". Можно не указывать полного имени-фамилии-номер_счета_в_банке, а просто использовать никнейм? Тот же Gloggy. :)
Gloggy
Модератор
 
Posts: 516
Joined: Wed May 06, 2009 3:01 pm

Re: WordNet 3.0

Postby unera » Tue Jul 28, 2009 3:51 am

Gloggy wrote:Мне не до конца пока понятно кому будет интересен WordNet словарь в DSL формате под Дебианом. Так или иначе пользователям нужен будет GoldenDict.

как кому? пользователям goldendict и всех имеющихся вариаций stardict.
goldendict уже включен в Debian, к wordnet прикрутить ваше форматирование и добавить пакет с DSL

Gloggy wrote:С другой стороны, может быть так оно и лучше, пользователи смогут ставить GoldenDict базовый, без словарей, и отдельно словари к нему.

это вообще-то наверное самый правильный путь

P.S. Насчет дололжить README и перевыложить - завтра буду разбираться. Одна загвоздка есть. Я, как бы это сказать, работаю "инкогнито". Можно не указывать полного имени-фамилии-номер_счета_в_банке, а просто использовать никнейм? Тот же Gloggy. :)

еще нужен email. полное инкогнито возможно если Вы выложите свой скрипт как Public Domain. Это единственный вариант свободного ПО (из тех что я знаю) допускающий отказ от авторства.
но правда в заголовке скрипта не забудьте таки написать, что мол распространяется as is, как паблик домен
unera
 
Posts: 144
Joined: Wed Jun 03, 2009 6:55 pm

Re: WordNet 3.0

Postby ikm » Tue Jul 28, 2009 10:06 am

Да, словарик сделан симпатично. Кстати, есть еще и другие словари английского под свободными лицензиями (напр., GCIDE).

Я могу разместить словарик для скачивания на сайте, в будущем можно также сделать и EnEn-редакцию дистрибутива.

По поводу имен, атрибуций и прочего: я не проект debian, мне удобно так, как удобно самим авторам контента. В конце концов, никто никому не мешает взять себе псевдоним, и никто никогда не сможет (и не будет) проверять подлинность предъявляемых имен. Так что это чисто вопрос банального паблисити в рамках проекта, и тут уж авторам виднее, в каком виде оно им нужно.

Gloggy wrote:Мне не до конца пока понятно кому будет интересен WordNet словарь в DSL формате под Дебианом.

В теории есть и другие программы, которые умеют работать с dsl. Тот же JaLingo например. Однако я не уверен, что они входят в Debian. А так как сами данные этого пакета в установленном виде лучше иметь сжатыми (несжатый dsl в utf16 занимает столько места, что пользователь захочет убиться об стену), то работать с ним сможет и вовсе только gd. Посему получится что-то типа goldendict-wordnet. И да, конечно они должны идти раздельно -- 700kb занимает сам gd и 20mb wordnet - большая разница :)
ikm
Автор GoldenDict
 
Posts: 1592
Joined: Wed Feb 04, 2009 10:40 am

Next

Return to Словари

Who is online

Users browsing this forum: No registered users and 3 guests