New user registration is currently disabled due to spam abuse / Регистрация новых пользователей в настоящее время приостановлена из-за злоупотреблений спаммерами

Подключение словарей

Всё по словарям

Re: Подключение словарей

Postby AndroS » Mon Jun 08, 2009 4:55 am

Маленькое замечание про использование пакетов.
Полностью поддерживаю, но, хотелось бы, чтобы ГД понимал и словарь сокращений под лингву в пакете. Было бы ещё удобнее!
AndroS
 
Posts: 15
Joined: Wed May 13, 2009 4:22 am

Re: Подключение словарей

Postby Biochemist » Tue Oct 20, 2009 1:17 am

Добрый день!

У меня появились вопросы по поводу подключения словарей (энциклопедий) с большим количеством медиа-файлов (картинки, звуки, а также видео). Если данный словарь в формате DSL, то вроде бы понятно, как действовать. На этом форуме всё описано (тема ‒ Подключение словарей, ответы от 11 мая 2009).

Правда, это не всегда срабатывает. Например, я экспериментировал с Britannica Encyclopedia в виде dsl-файла с кучей картинок. Ничего не запаковывал, просто поместил всю кучу в одну папку с dsl-файлом энциклопедии. Оригинальная версия GoldenDict 0.9.0 картинки не увидела и вообще быстро слетела с катушек (перестала запускаться), Rev375 всё увидела и правильно отобразила, Rev388 ничего не увидела (вместо картинок в соответствующих местах стоят вопросительные знаки, на которые даже мышкой нажать нельзя). Так что теория не всегда совпадает с практикой. Кто виноват в таком положении дел: что-то я не так сделал или это глюк в программе?

А если словарь представлен в другом формате (например, в DICT) и тоже содержит большое количество дополнительных файлов (картинки, звуки)? Ведь не все словари и энциклопедии можно найти в dsl-формате. Например, у меня есть электронный вариант Советской исторической энциклопедии (1961-1976, в 16-ти томах с огромным количеством иллюстраций, карт и т.п.) в виде dict-файла с большим набором jpeg-картинок (и названия файлов этих картинок на русском языке). Картинки порой несут больше информации, чем текст соответствующей статьи (особенно карты), так что без них никак нельзя обойтись. В других форматах (например, в DSL) я эту энциклопедию не нашёл. У меня все картинки к Советской исторической энциклопедии стандартно хранятся в папке res внутри папки самой энциклопедии. Ни одна версия GoldenDict их не отобразила в тексте статьи (на их месте стоят маленькие синие прямоугольники с белым вопросительным знаком внутри). С другими словарями в DICT формате ситуация такая же. Что же нужно сделать со словарями в DICT формате с картинками, чтобы правильно их подключить к GoldenDict 0.9.0?

Наконец, бывают и другие открытые форматы для словарей. У меня есть Русская Википедия (дамп от 20 ноября 2008 года) в формате для программы Dict 1.6.12 (zd-файл, 462 Мб). В списке поддерживаемых форматов файлов словарей для GoldenDict я такого формата не увидел, что наводит на грустные мысли. Было бы неплохо добавить в будущие версии GoldenDict поддержку всех (!) открытых форматов словарей, их не так уж и много.

PS. А как быть с видео (mov- и avi-файлы, mpeg) в больших энциклопедиях, напр. в той же Britannica Encyclopedia? Планируют ли авторы и разработчики GoldenDict хотя бы в отдалённом будущем добавить поддержку видео-файлов для словарей и энциклопедий?

Мой компьютер: ноутбук Dell Precision M6400 (процессор Intel Core2 Extreme QX9300 2.5 GHz 4-х ядерный, оперативная память 8 Gb DDR3, видеокарта nVidia Quadro FX3700M с 1 Gb памяти), операционная система Microsoft Windows Vista 64-bit Ultimate (English).
Biochemist
 
Posts: 22
Joined: Mon Oct 19, 2009 9:03 pm

Re: Подключение словарей

Postby Biochemist » Tue Oct 20, 2009 6:33 am

Добрый день!

Недавно обнаружил, что проблемы с подключением словарей (энциклопедий) с картинками в формате StarDict (файлы с расширением DICT) появились не только у меня одного. Судя по обсуждению на этом форуме в теме Проблема с отображением картинок (http://goldendict.berlios.de/forum/viewtopic.php?f=10&t=194) от 10-13 июня 2009 года, проблема давно известна, но решения пока предложено не было. Искренне надеюсь, что у разработчиков GoldenDict найдётся время для её решения.

Жаль, что в то время как любые недочёты со словарями в DSL формате исправляются очень оперативно, словари в других форматах ждут решения своих проблем гораздо дольше. А ведь DSL формат распространён только в России (и некоторых странах СНГ), в развитых странах (страны Западной Европы и Северной Америки) он почти неизвестен, как и продукция компании ABBYY. Т.е. подавляющее большинство пользователей разных компьютерных словарей на планете Земля не используют dsl-файлы и их производные (lsd и lud файлы из-под DSL Compiler программы ABBYY Lingvo). Поэтому такое приоритетное отношение к dsl-файлам словарей мне кажется непонятным и неоправданным.

Конечно, авторы и разработчики GoldenDict сами вправе решать, какие форматы словарей поддерживать, а какие нет. И определять приоритетность исправления найденных багов в своей программе (тем более, что GoldenDict ‒ бесплатная программа). Но ведь попросить то можно. Поэтому я прошу, сделайте, пожалуйста, поддержку возможно большего количества открытых форматов словарей и добавьте, please, полноценную поддержку разных медиа-файлов (картинки, звуки и, со временем, видео файлов различных форматов). Пусть не сейчас, но хотелось бы, чтобы в стратегических планах развития программы GoldenDict в 21-м веке эти пункты присутствовали.

Заранее благодарен за возможные позитивные решения.
Biochemist
 
Posts: 22
Joined: Mon Oct 19, 2009 9:03 pm

Re: Подключение словарей

Postby ikm » Tue Oct 20, 2009 12:54 pm

Я вам больше скажу. DSL формат распространен не просто только лишь в России, а и вовсе-таки в пределах одного конкретного форума "руборд". И большая часть местной тусовки - именно оттуда. И именно поэтому данный формат поддерживается в GD лучше всех - а не потому, что это общемировой стандарт со знаком качества. Напротив, тот формат, который многие считают общемировым и величайшим, а именно, формат XDXF - вообще не поддерживается до сих пор. Его часто любят упоминать вскользь, но что-то на деле он никому особенно не нужен.

У dsl, кстати, есть одно хорошее свойство - он документирован, известен, и у него есть достаточно много последователей, которые внятно его знают. Со stardict ситуация иная - многие вещи в нём присутствуют в каком-то странном ad-hoc виде, толком не известном никому. Работа с графическими ресурсами вообще нигде и никак не документирована. Я даже и не знал поначалу, что такое там поддерживается вообще. Когда я посмотрел на несколько показанных мне словарей-образцов, я увидел, что это (в очередной раз) криво сконверчённый Babylon. Причем настолько криво, что в <img> тэгах оставались бинарные маркеры Babylon (0x1E и 0x1F). Как такой html вообще будет работать, непонятно - однако в stardict он работает. То ли так специально задумывалось, то ли еще что-то. Поднимать его исходники и разбираться желания особого нет. Именно поэтому я всё откладываю поддержку картинок. Формат stardict вообще достаточно вторичен - большое количество словарей это как правило либо конверты из Babylon, либо конверты из Dsl. Причём и то, и то, как правило, сконвертировано кривовато и куце. Конечно, есть конверты и из других форматов (например, XDXF - хотя из чего в свою очередь получались оные, неизвестно), и даже, несомненно, оригинальные работы. Но чаще бывает лучше взять оригинал в bgl или dsl. Есть, конечно, элементарный фактор удобства (т.е. если у меня уже есть stardict-конверты, почему не использовать их?), не спорю. Но в целом ситуация похожа на описанную.

А вообще, на деле мы имеем следующее: достаточно требовательную аудиторию пользователей Lingvo, привыкших к качественному продукту, и достаточно неприхотливых пользователей StarDict, привыкших к этой программе откровенно китайского, что уж тут поделать, качества. Какой формат при этом будет поддержан лучше? :)

Да, я еще забыл третью аудиторию. Мне самому функционала GD в большинстве случаев уже давно достаточно выше крыши. Возврат инвестиций в данный проект нулевой. Никто не хочет проект развивать (даже документацию написать и то никто не хочет), и всё, что мы тут имеем, это сплошные фичереквесты. Я это списываю либо на т.н. "русскую лень" (я вообще осознал, что это какое-то общенациональное явление), либо на естественный механизм под названием "кто везет, на том и едут", либо на тенденцию всех и каждого считать, что "его хата с краю" -- ну, в общем, можно продолжать дальше, но идея, думаю, ясна. Поэтому я делаю в этом проекте сейчас что-то чисто по настроению. Хотите большего - подключайтесь сами! Если вы напишете реквест - я напишу ответ, но не факт, что сделаю что-то большее :) Если вы сделаете для проекта что-то большее, то я в свою очередь тоже могу сделать больше (см. пример Gloggy, кучу реквестов которого я реализовал). Так что тут всё достаточно просто. Многое зависит от вас, а не от нас (тем более, что мы - это один человек, а никакая не группа авторов :)
ikm
Автор GoldenDict
 
Posts: 1595
Joined: Wed Feb 04, 2009 10:40 am

Re: Подключение словарей

Postby Biochemist » Wed Oct 21, 2009 10:54 am

Добрый день, ikm!

Большое спасибо за подробный и оперативный ответ. Теперь я значительно лучше понимаю ситуацию с разработкой GoldenDict. Жаль, что такую большую и всем полезную работу приходится делать одному человеку на общественных началах.

Я повторил эксперимент с подключением картинок и аудио-файлов в разных dsl-словарях. Для этого заново установил GoldenDict 0.9.0, сразу обновил его до версии Rev392 (лучше обновлять исходную версию GoldenDict 0.9.0, при обновлении Rev388 до Rev392 в моей Windows Vista 64-bit при первом запуске GoldenDict слетает и Windows Vista его принудительно закрывает). Все дополнительные файлы в dsl-словарях, кроме самого dsl-файла, упаковал в файл dictionary_name.dsl.files.zip и поместил в папку со словарём. И всё заработало!

Теперь про ситуацию со словарями StarDict. Несмотря на все недостатки этого формата, он довольно распространённый. И хорошо известен в Западных странах, как и сама программа StarDict. Причина этого, на мой взгляд, заключается в открытости исходного кода всех версий StarDict. На Западе достаточно своих коммерческих программ для работы со словарями (напр., программа LingvoSoft Talking Dictionary от компании Ectaco), которые работают и с русскими словарями. И стоят они во много раз дороже ABBYY Lingvo x3. Но зато они свои, разработанные и написанные в странах NATO или дружественных демократических странах. Ни одно здравомыслящее государственное учреждение на Западе не купит закрытую программу (даже очень дешёвую) из «враждебной» России (как раньше говорили в Советском Союзе ‒ у «вероятного противника»). И порекомендует своим компаниям не связываться с программами из подобных стран. Потому что нет никакой гарантии, что всякие «товарищи» (КГБ, ФСБ и т.п.) не внедрили туда шпионский код или какую-то лазейку для последующего проникновения на компьютер пользователя. В свете текущих напряжённых отношений между Россией и Западом это вполне возможно. А к StarDict таких претензий нет, это открытое ПО. И поэтому неважно, что StarDict написан в не слишком дружественном Китае. Бесплатность StarDict, конечно, тоже играет свою роль, но не главную.

Что касается качества программ для словарей. У ABBYY Lingvo гораздо больше глюков (из моего многолетнего опыта), чем у той же LingvoSoft. Из-за этих глюков (да ещё идиотская система защиты с дискеткой до 11-й версии) я долгое время пользовался MultiLex, который гораздо стабильнее. А по количеству поддерживаемых языков Lingvo во много раз уступает LingvoSoft. Собственно, официальная версия ABBYY Lingvo нормально поддерживает (т.е. имеет достаточное количество словарей с данным языком) только русский язык. Поэтому мне трудно назвать аудиторию Lingvo «достаточно требовательной». На фоне стабильных как скала и роскошных по функциональности коммерческих западных программ ABBYY Lingvo выглядит довольно блекло. Но практически все коммерческие западные программы используют свои собственные закрытые форматы словарей, что не есть хорошо для конечного пользователя. И наличие открытого DSL формата, на мой сугубо личный взгляд, является единственным реальным плюсом программы Lingvo (а неумение работать с ним напрямую ‒ большим минусом).

Я был бы рад поспособствовать развитию GoldenDict и добавлению в него поддержки возможно большего количества разных форматов словарей (в первую очередь открытых форматов, таких как StarDict и XDXF). И нормальной поддержки этих форматов, каковая хорошо реализована для DSL и плохо ‒ для StarDict. Но я плохо представляю, что полезного я могу сделать для развития проекта GoldenDict, поскольку я не программист (по образованию я химик, мой nick отражает мой job) и проживаю на другом континенте.

Всего Вам доброго!
Biochemist
 
Posts: 22
Joined: Mon Oct 19, 2009 9:03 pm

Re: Подключение словарей

Postby ikm » Wed Oct 21, 2009 12:14 pm

Biochemist wrote:я плохо представляю, что полезного я могу сделать для развития проекта GoldenDict, поскольку я не программист (по образованию я химик, мой nick отражает мой job) и проживаю на другом континенте.

О чем и речь была, собственно. А причем здесь континент - я вообще не понял, если честно ;) Я в общем-то и не заставляю - просто цена форумных разговоров сама по себе очень мала.

Формат стардикта кстати поддерживается достаточно хорошо и полно. Единственное нарекание, которое сейчас есть - это поддержка картинок. Более того, в остальном он поддерживается лучше, чем в самом стардикте :) Последнее, разумеется, главным образом заслуга webkit'а.

p.s. Пользователи Lingvo достаточно требовательны по сравнению с пользователями StarDict. На что-то лингвософтовское я в свое время смотрел (по португальскому направлению). Качество их словарного контента (по португальскому же направлению) меня ни разу не впечатлило. Если правильно помню, там было что-то из разряда "слово: значение1, значение2, значение3", причем без сортировки по релевантности, без контекста и без примеров употребления. Может, чуть лучше, чем то, что я описал, но всерьез использовать это было нельзя. Да и никаких сверхфункций оболочки я тоже не узрел. Единственное достоинство - синтез по транскрипции, который был, по-моему, более-менее правильным, а также встроенный спряжатор глаголов (который, однако, не очень впечатлил). В общем, когда закончился триальный период, я его снес. Основная ценность любого словаря - это его словарная база. А не качество оболочки. Потому что последнее решаемо (см. GD), а вот отсутствие первого - ставит крест на всём. В идеале обе эти сущности следует разделять - база отдельно, программа отдельно - но на это не могут позволить себе пойти издатели, увы. А ценность Лингвы - именно в DSL, совершенно верно. В этом формате доступны тысячи словарей, и с компанией ABBYY их роднит только формат.
ikm
Автор GoldenDict
 
Posts: 1595
Joined: Wed Feb 04, 2009 10:40 am

Re: Подключение словарей

Postby gromescu » Wed Oct 21, 2009 4:22 pm

Но я плохо представляю, что полезного я могу сделать для развития проекта GoldenDict, поскольку я не программист

Можно, например, сборки тестировать, багрепорты писать...
gromescu
 
Posts: 76
Joined: Sun Apr 05, 2009 2:25 pm

Re: Подключение словарей

Postby Biochemist » Thu Oct 22, 2009 8:55 am

Добрый день, ikm и gromescu!

Конечно, я могу тестировать новые сборки (релизы) GoldenDict под Windows Vista 64-bit на своём домашнем ноутбуке и писать отчёты по найденным багам/недочётам. Для этого не требуется знание программирования. А с компьютерами я работаю уже 14 лет, под разными операционными системами (Windows, Mac OS, Linux). Даже 1 год по совместительству официально был начальником над всеми компьютерами на своей кафедре (а реально был гораздо дольше). Дело в том, что в науке (я научный сотрудник, по-английски ‒ research scientist) используемый soft определяет используемую операционную систему, т.к. большинство стóящих научных программ пишутся энтузиастами в западных университетах, под ту операционную систему, которая больше по душе автору программы (или которая наиболее распространена в данном University/Department/Laboratory). Производители научного оборудования, как ни странно, идут тем же путём. В результате получается, что прибор для sequencing подключён к Макинтошу, сканер гелей электрофореза работает под Windows (нередко довольно древнюю), моделировать белки все любят на Silicon Graphics или под Linux и т.д. А поскольку стоимость оборудования (к которому подключены все эти компьютеры) в нормальной западной лаборатории начинается от сотен тысяч долларов и выше, то менять эту ситуацию никто никогда не будет. Можете представить себе работу системного администратора в этом зоопарке. Так что компьютерный experience у меня довольно большой, хотя системного образования по компьютерам и программированию у меня нет. И грамотно написать баг-репорт я смогу (надеюсь). Правда, мне хотелось бы, чтобы мои замечания и предложения в баг-репортах (помимо явных глюков) ещё и учитывались бы, а судя по ситуации со словарями StarDict, это не гарантируется. Хотя предложение добавить поддержку картинок и звуков для словарей StarDict, по-моему, дельное.

Основные проблемы GoldenDict (на мой личный взгляд неквалифицированного пользователя, не являющегося программистом), которые нужно решить в первую очередь:

1. Отсутствие документации. Желательно написать (сначала in English, потом можно и на др. языках, включая русский) подробный help для GoldenDict, с ориентацией в первую очередь на конечного пользователя. Т.е. как устанавливать программу (системные требования и пр.), подключать словари и настраивать их, как подключать словари с медиа-контентом (картинки, звук, видео), где брать обновления для GoldenDict и т.п. Сверх того, можно добавить рассказ о целях и задачах GoldenDict, об их авторах и что-либо ещё на усмотрение (пожелание) создателей GoldenDict. Документация должна быть как встроена в help самой GoldenDict, так и присутствовать на сайте программы в виде отдельного pdf-файла (в последнем можно дать побольше информации). Разумеется, документация должна обновляться вместе с программой.

2. В документацию GoldenDict включить описание (краткое) поддерживаемых форматов словарей. Это описание должно быть толковым и внятным (как описание DSL от компании ABBYY, а не как известное on-line описание StarDict). Можно дать ссылки на внешние источники, содержащие более подробное описание поддерживаемого формата (например, на сайт компании ABBYY для формата DSL). А если такого описания нет, то постараться восполнить этот пробел и написать его самим (это я про формат StarDict).

3. Добавить в GoldenDict полноценную поддержку словарей StarDict и XDXF с прилагаемыми медиа-файлами (картинки и звук). Как ни важен для меня лично этот пункт, я всё-таки ставлю его на 3-е место, т.к. пункты 1-2 считаю более важными для развития и распространения GoldenDict. И по возможности (если будут силы и желание), увеличить количество поддерживаемых графических форматов. Сейчас, судя по папке GoldenDict\imageformats\, поддерживается всего 7 графических (gif, ico, bmp, mng, jpeg, svg и tiff) и 1 аудио (wav) формат. Можно, например, добавить поддержку png, pict, pcx, targa (tga), wmf, jpeg 2000 (jp2) для графических файлов и midi, wma и mp3 для аудио файлов. Ведь рисунки и звуки в разных мультимедия-энциклопедиях, которые потенциально можно сконвертировать в тот же DSL, иногда бывают в таких форматах, что диву даёшься (и даже в разных форматах в пределах одной энциклопедии). А переводить всё это в понятные для GoldenDict wav и jpeg порой бывает долго. Здесь можно и про видео вспомнить, но боюсь, это пожелание из разряда «мечтать не вредно».

4. Добавить небольшой набор хорошо сделанных бесплатных словарей на сайт программы GoldenDict, для свободного скачивания (5-6 словарей для начала). Каждый словарь должен быть представлен во всех форматах, поддерживаемых GoldenDict. Каждый файл словаря любого из этих форматов должен быть безупречно сделан с точки зрения программирования (т.е. все файлы должны быть тщательно выверены на предмет всевозможных внутренних ошибок и сделаны так, как в идеале хотелось бы видеть создателям GoldenDict файлы подключаемых словарей). С одной стороны, это будет небольшая образцово-показательная выставка разных форматов словарей, с другой ‒ GoldenDict перестанет быть изначально пустой программной оболочкой и получит какое-то минимальное первичное наполнение. И пользователи-профаны (ведь бывают и такие) смогут потренироваться, как правильно подключить словарь к GoldenDict, будучи уверенными, что не будет глюка из-за «кривого» файла словаря. Этот пункт 4 необязательный, скорее небольшое личное пожелание; надеюсь, что он не противоречит принципам GoldenDict.

Я готов помочь материально, поскольку уже поступила жалоба, что «возврат инвестиций в данный проект ‒ нулевой». Под инвестициями, полагаю, подразумевается значительные затраты свободного личного времени на совершенствование GoldenDict. А кушать тоже хочется, и домашние дела у всех есть. Я читал в Internet, что Россия довольно сильно пострадала от мирового финансового кризиса, и жизненный уровень (зарплаты) населения сильно упал. Меня кризис не коснулся, т.к. я живу в Канаде (Канада вообще практически не пострадала от этого кризиса). Но я помню свою прежнюю жизнь в Москве со множеством специфических российских проблем. Поэтому сочувствую Вам и готов несколько поддержать Ваше весьма достойное занятие по облагораживанию GoldenDict (по канадским понятиям, авторы GoldenDict ‒ это volunteers, движимые светлыми идеями об открытом бесплатном ПО и высокими моральными чувствами, и помогать таким людям считается хорошим делом). Если, конечно, такая поддержка не противоречит Вашим принципам и общим принципам создателей GoldenDict. Правда, в случае поддержки, мне хотелось бы, если Вы не будете сильно против, сделать перечисленные мною 4 пункта приоритетными в дальнейшем совершенствовании GoldenDict.

Успехов в Вашем деле!
Biochemist
 
Posts: 22
Joined: Mon Oct 19, 2009 9:03 pm

Re: Подключение словарей

Postby ikm » Fri Oct 23, 2009 12:50 pm

1. Словарем обычно пользуются люди, сведущие в языках и могущие написать документацию. Поэтому я надеюсь на появление таких людей в проекте. Для этого не нужно быть программистом.
2. См. 1. Внести правки и добавить что-то о специфике я всегда могу. Я просто не хочу проект по документированию возглавлять и вести -- что не значит, что я против участия в нем.
3. Планируется. Когда-нибудь. Кстати, я не встречал stardict-словарей со звуком. Звуки в приведенных форматах поддерживаются под linux. Графика - поддерживается всё, что умеет выводить webkit, плюс tiff (который webkit сам по себе выводить не умеет, поэтому он налету конвертируется в bmp).
4. Уже есть "фирменный" WordNet, а также обычные Апресян и Смирницкий, взятые с traduko.lib.ru. Все они в DSL. Заниматься конвертированием их в другие форматы нет ни желания, ни смысла.
5. Если вы хотите выделить что-то типа "гранта" на реализацию какой-то фичи - вперед. Тогда пишите конкретику в ПМ. Пожертвований на бедность - не надо :) Замечу как автор, что причина существования проекта - в том, что у автора не было нормальной словарной программы, и поэтому ему пришлось её написать. Так как коммерческой выгоды от такого проекта не предполагалось, он был выложен в открытый доступ. Под возвратом инвестиций в данном контексте я понимаю прежде всего вклад других людей в данный проект. Если же говорить более обще, то речь идет о пользе, которую я извлекаю, публикуя проект в открытом доступе.
ikm
Автор GoldenDict
 
Posts: 1595
Joined: Wed Feb 04, 2009 10:40 am

Re: Подключение словарей

Postby Sjoe » Sun Jul 25, 2010 1:55 pm

Есть ли возможность подключить словари в древнем уже формате Folio Infobase? Файлы с расширением .nfo.
Gloggy знает, что это за зверь; вопрос, собственно, скорее, к нему. Может, попробуешь в бубен постучать?
У меня два десятка таких словарей; пока я их конвертирую в dsl... желательно до тех пор ими все-таки не мне одному пользоваться...
Sjoe
 
Posts: 30
Joined: Fri Apr 16, 2010 8:54 am

PreviousNext

Return to Словари

Who is online

Users browsing this forum: No registered users and 14 guests