Page 2 of 3

Re: Собственный формат словарей

PostPosted: Wed May 06, 2009 12:14 pm
by Ars
Не знаю, я лично не уверен, что авторы словарей смогут адекватно ответить на этот вопрос - т.к. они могут "за деревьями не увидеть леса".
Логическая разметка - это хороший способ стандартизировать и упорядочить представление контента. Словари будут выглядеть практически одинаково в пределах программы-словаря, плюс можно будет кастомизировать отображение. Да и объема такой словарь занимать будет меньше.
Это, наверное, как QAction в программе на Qt - контент задается программистом, а уже как его отобразить, решает конкретный класс.

Re: Собственный формат словарей

PostPosted: Wed May 06, 2009 12:27 pm
by ikm
На "этот" - это на какой?

По всем остальным пунктам я и так был согласен.

Re: Собственный формат словарей

PostPosted: Wed May 06, 2009 12:40 pm
by Ars
Я про то, чтобы спрашивать мнение авторов словарей о ФОРМАТЕ.
Авторы создают КОНТЕНТ. Точно так же, как создатели телефонной книги не заботятся о том, в какой она будет обложке и каким шрифтом напечатана, автору контента не стоит беспокоиться о его дальнейшем представлении. Имхо, это должен решать уже пользователь.

Re: Собственный формат словарей

PostPosted: Wed May 06, 2009 1:04 pm
by ikm
1) Авторы словарей с форматом работают больше всех. Поэтому им лучше знать, какой ФОРМАТ им удобнее. Если им удобнее EBCDIC-кодировка в base64-представлении с бинарными тагами, значит, этот формат предпочтительнее и ЛУЧШЕ. Потому что Без НИХ никаких словарей не будет.
2) Если автор не беспокоится о представлении того, что он делает, ему вообще не стоит этим заниматься. Никто при этом не говорит, что ему надо пользоваться визуальной разметкой. Но видеть и контролировать конечные результаты своего труда он должен. И конечным результатом является именно то, что нарисовано пикселями по экрану. Всё равно, каким стилем и с каким dpi.

Всё, я больше ничего по этой теме говорить не хочу. Пускай авторы словарей говорят. Я не автор словарей, мне новый формат не нужен.

Re: Собственный формат словарей

PostPosted: Wed May 06, 2009 3:10 pm
by Gloggy
Как автор нескольких словарей под Лингво, скажу следующее: Не хочется плодить лишние сущности. К примеру, сейчас я делаю словари под Лингво, и знаю, что все, кто захотят смогут ими воспользоваться или относительно беспроблемно конвертнуть в свои любимые оболочки. Если появится еще один формат, проблема только усложнится. Надо будет иметь хороший конвертер из него в более популярные форматы (тот же Лингво).

Идея расширения DSL дополнительными фичами тоже не радует. Потому как если мои словарики в одной оболочке (Goldendict) будут смотреться хорошо, а в других (официальный Лингво или тот же стардикт) будут криво, или вовсе не работать - кому от этого радость? Только лишняя фрагментация форматов и головная боль для пользователей, которые должны будут с этим разбираться.

P.S. Огромное спасибо за GoldenDict, замечательный проект с огромным потенциалом! :)

Re: Собственный формат словарей

PostPosted: Wed May 06, 2009 3:41 pm
by ikm
Да, мне идея фрагментации формата тоже не по вкусу. Как ни крути, но попытка добавить новое приводит к несовместимости со старым.

Как вариант, можно реализовать новые теги в dsl и конвертер таких dsl в старый dsl, с попыткой оставить контент рабочим и читабельным, но выглядящим хуже. Например:

  • Ссылки на слова, где слово не совпадает со ссылкой:
    Code: Select all
    Some [ref=word]words[/ref] are better than the others.
    будет преобразовано в
    Code: Select all
    Some [ref]word[/ref]s are better than the others.
    Когда слово, на которое дается ссылка, не является укороченным вариантом выводимого слова, придется усложнять, т.е.
    Code: Select all
    Some [ref=mystery]mysteries[/ref] are better left unsolved.
    превратится в что-нибудь наподобие
    Code: Select all
     Some mysteries (see [ref]mystery[/ref]) are better left unsolved.
  • Таблицы. Тут можно написать целую простыную, но идея сводится к тому, что при даунгрейде в стандартный .dsl таблицу можно, например, рендерить в картинку, или генерировать текст в расчете на определенный шрифт.
  • Ну и тому подобное

Re: Собственный формат словарей

PostPosted: Wed May 06, 2009 4:48 pm
by C2BlEv
Вы написали, что вы реализуете поддержку новых форматов. Супер. Первым делом хотелось бы XDXF. Он позволяет и логическую разметку и "оформительскую". Я бы сам перевел все свои словари в такой формат, который позволяет логическую разметку если бы знал, что уже существует программа, которая может с ним работать. Вы поймите, что дело не только в том, как словари выглядят на экране. Нужно видет электронные словари намного шире нежели, как бумажные на экране. Правильная логическая разметка открывает новые возможности в лингвистике. Разметка знает, что такое существительное, падеж, число и т.д., стилистические пометы, зоны применения слов, сочитаемость с другими словами (колокация) и т.д. Это метаинформация, а не просто часть тупого текста. Например, одним мановением можно будет просмотреть все существительные мужского рода, которые заканчиваються на "а". Или огромный словарь можно отфильтровать для показа только глаголов или только сленговых слов, или... Возможности, как в сказке.

Re: Собственный формат словарей

PostPosted: Wed May 06, 2009 5:02 pm
by ikm
Вот откуда берется мнение, что я этого всего не понимаю? А вот вы тоже поймите, что формат XDXF существует уже довольно давно, а никакими такими словарями из будущего, с супер метаданными, полной морфологией, формами глаголов и прочим счастьем даже и не пахнет до сих пор. XDXF на практике превратился в какой-то отстойник наполовину криво сконверченных в него разношерстных словарей, причем всех в визуальной разметке. Ну и?

Поддержка XDXF в программе будет. На самом деле она уже есть в SVN, только из-за кривизны XML-парсера в Qt сейчас не работает как надо, и потому отключена. Потом к ней вернусь. Но фанатизма я этого не понимаю. Контента нет. Зачем скорлупа без цыплят? Какие-то гадкие утята сплошь из XDXF выходят, и что-то в лебедей не превращаются.

Re: Собственный формат словарей

PostPosted: Wed May 06, 2009 5:28 pm
by C2BlEv
Ну это вечный спор, что было первым курица или яйцо.

Формат-то уже давдо имеется, но что толку! Для нас, составителей словарей, нужен хороший формат И доступная программа, которая поддерживает этот формат. А так формат - это филькина грамота.

Есть Лингво - устойчивая программа с открытым форматом. Поэтому вокруг нее все и тусуются, даже если не совсем удовлетворены ее форматом и возможностями.

Есть куча форматов без программ или программы с закрытым или некачественным форматом - там нет контента.

Re: Собственный формат словарей

PostPosted: Thu May 14, 2009 2:45 pm
by C2BlEv
ikm wrote:Но фанатизма я этого не понимаю. Контента нет. Зачем скорлупа без цыплят? Какие-то гадкие утята сплошь из XDXF выходят, и что-то в лебедей не превращаются.


Посмотрел снова на XDXF. Все заглохло. На форуме сообщений после 2006 почти нет. Нет даже одного значимого словаря - эталона для формата. Да..., а столько радужных перспектив описывали. Хотелось бы иметь живое сообщество, хороший формат, хорошие программы, тогда можно и самому делать словари в таком формате.

Посмотрел вокруг. Вроде бы ребята из the Sword Project работают над воплощением поддержки TEI формата в их библейских ридерах.

http://www.crosswire.org/wiki/TEI_Dictionaries
http://www.crosswire.org/forums/mvnforu ... thread=576
http://www.crosswire.org/sword/modules/ ... ctionaries (не понятно это TEI словари или что-то другое; говорят у них есть еще больше бета модулей для словарей, но я не знаю где они это держат)
http://www.tei-c.org/release/doc/tei-p5 ... ml/DI.html

Вообще то у них и основной формат OSIS -- хороший пример того, что я ищу. Но OSIS создан для представления Библии и религиозной литературы. TEI они берут для словарей.