Page 1 of 1

Какой формат словаря предпочтителен?

PostPosted: Tue Jan 24, 2012 12:45 pm
by Novikov
Какой формат словаря предпочтительнее в плане быстродействия и в плане потребляемых Goldendict'ом ресурсов?

Re: Какой формат словаря предпочтителен?

PostPosted: Wed Jan 25, 2012 8:29 am
by Tvangeste
Novikov wrote:Какой формат словаря предпочтительнее в плане быстродействия и в плане потребляемых Goldendict'ом ресурсов?

По опыту, без особой разницы. Но в стардиктовских и BGL словарях чаще грабли с форматированием (в исходных словарях обычно ;) ).

Так что лично я предпочитаю DSL формат, плюс пожатый dictzip'ом. Вот это очень помогает с уменьшением размера файла на диске. Ну и все дополнительные ресурсы (аудио, картинки) - обязательно в ZIP архив совать, а не хранить рядом с основным словарем, тоже сильно помогает со скоростью обращения к этим ресурсам.

Re: Какой формат словаря предпочтителен?

PostPosted: Wed Jan 25, 2012 12:05 pm
by Novikov
Да, я вот тоже пришел к такому выводу, особенно по вопросам форматирования. Скачал в формате Stardict несколько словарей и обратил внимание на косяки с форматированием, а также на крайне невыгодное соотношение объемов собственно словаря и тегов.

DSL, на мой взгляд, тут существенно выигрывает, поэтому я засел за написание скриптов и регулярных выражений для конвертации и "причесывания" всех этих многомегабайтных Stardict'овских страшилок.

Тут еще вопросы есть:

1. Что даст компиляция в LSD? Есть ли где-то описание процесса компиляции, сути происходящих при этом изменений?
2. Скомпилированный в LSD словарь будет ли работать со звуками и картинками, положенными в zip рядом?

Re: Какой формат словаря предпочтителен?

PostPosted: Wed Jan 25, 2012 5:18 pm
by Tvangeste
Novikov wrote:DSL, на мой взгляд, тут существенно выигрывает, поэтому я засел за написание скриптов и регулярных выражений для конвертации и "причесывания" всех этих многомегабайтных Stardict'овских страшилок.


Собственно, практически все новые словари (в русскоязычном рунете по крайней мере) изначально появляются в DSL виде. И потом уже из них разными способами получаются стардиктовские словари. Поэтому в большинстве случаев ничего переконвертировать обратно не нужно, нужно всего лишь найти исходные словари в DSL виде ;)

Novikov wrote:1. Что даст компиляция в LSD? Есть ли где-то описание процесса компиляции, сути происходящих при этом изменений?

Ничго особого не даст. Не говоря о том, что это совершенно закрытый проприетарный бинарный формат, который понимает только GD на Андроиде. ;)

Novikov wrote:2. Скомпилированный в LSD словарь будет ли работать со звуками и картинками, положенными в zip рядом?

Не знаю, ибо никогда в LSD словари не храню, смысла нет.

Re: Какой формат словаря предпочтителен?

PostPosted: Wed Jan 25, 2012 6:05 pm
by Novikov
Ну я искал словари Longman, в DSL они были на сайте traduko.lib.ru, но сайт тот оказался закрыт.

Нашел кучу хороших английских словарей в Stardict, попробовал подключить -- и обнаружил кучу косяков. Например, там уровни вложенности были заданы тегами blockquote, а они отображаются в GD с огромными отступами и интервалами, пользоваться невозможно.

При помощи EditPad (отлично работает с гигантскими файлами) и регулярок конвертировал в DSL и почистил.

По поводу LSD у меня такое ощущение, что там как-то отделяются заголовки, отделяются карточки, прописывается привязка заголовков к карточкам, сокращается масса служебных тегов и проставляется что-то для индексации.

Вот я и подумал, вдруг этот формат будет работать в GD быстрее, чем пожатый Dictzip'ом DSL.

Re: Какой формат словаря предпочтителен?

PostPosted: Thu Jan 26, 2012 1:59 am
by ikm
LSD обычно занимает чуть больше места, чем DSL. А также он ни с чем не совместим. Плюс LSD в том, что он быстрее индексируется, а также в том, что можно весь словарь (вместе с ресурсами) иметь одним файлом. С zip-файлами оно в данный момент не работает (может, добавлю в след. версиях) - лучше всего сразу положить все ресурсы внутрь.

Re: Какой формат словаря предпочтителен?

PostPosted: Thu Jan 26, 2012 1:24 pm
by Novikov
У меня, кстати, на маленьких файлах LSD занял больше места, а на больших -- меньше. Возможно, за счет дублей.

Re: Какой формат словаря предпочтителен?

PostPosted: Thu Jan 26, 2012 4:55 pm
by ikm
Под dsl имелись в виду, разумеется, dsl, сжатые dictzip.

Re: Какой формат словаря предпочтителен?

PostPosted: Thu Jan 26, 2012 7:21 pm
by Novikov
Да, я про сжатый, специально сравнивал, правда, на "грязном" словаре с кучей дублированных карточек.