Page 4 of 6

Re: Не может проиндексировать словарь Multitran 2009

PostPosted: Wed Feb 15, 2012 3:42 pm
by moytra
Кстати, по поводу 5.23 млн статей... Должно быть по идее около 2.5млн, т.к. слова объединяются с одинаковым исходным словом :). Это как раз часть стадии 3 - merging articles. 5.2 - это столько исходных статей. Эту агрегацию только для лингво делал, похоже GD настолько молодец, что сам может такое делать. Так вот, у меня тулса 2.6 млн статей дала на выходе, согласно GD :), расскажи, как у тебя 5 получилось? (я ещё для лингвы часть с начала вырезал вручную статей, а то он пр генерации .lsd ругается, у меня кстати .lsd уже пару часов генерит, не завершился :), GD конечно рулит, пару минут это делал). Было бы вообще клёво, чтобы мультитран просто GD мог на вход брать и конвертить, т.к. они уже всей зачисткой занимались, нужный код есть и не нужна отдельная утилита. Или можно весь код конвертирования в отдельную коммандную утилиту вынести, типа makedict, чтобы там была туча форматов поддерживаемых... Хотелось бы только, чтобы в GD была кнопка типа сконвертить в другой формат (скажем хотя бы .DSL). Вот мой скриншот c 2.6 млн статей: Image

PS. Кстати, а как спойлер тут на форуме делать, чтобы разворачиваться могла картинка по нажатию а не сразу показывать... ?

Re: Не может проиндексировать словарь Multitran 2009

PostPosted: Wed Feb 15, 2012 3:53 pm
by Novikov
Оффтопик: а что в этом мультитране такого хорошего при наличии таких словарей, как Longman, Oxford, Macmillian, Webster?

Re: Не может проиндексировать словарь Multitran 2009

PostPosted: Wed Feb 15, 2012 5:16 pm
by markadam
quicktrick wrote:Ура!!! Получилось! :)

Взял обновление Мультитрана от 02.12.2011, eng_rus. Конвертировалось на моем компьютере минут 15. Получил dsl 323 мега. Сжал dictzip-ом до 86 мегов. Подсунул Голдендикту десктопному (старая какая-то версия у меня 1.0.1-68...). Индекс строился минут 5. В общем, вижу словарь. Он, правда, названия не имеет -- пустая иконка в Голдендикте. И есть только направление английский-русский (ну, так оно, очевидно, и должно быть). Ну, и классно всё, в общем! :) Вроде 5 млн. 230 тыс. словарных статей. Круто!



Скажите пожалуйста, где вы взяли обновление от 02.12.2011 - на Рутрэкере раздачу закрыли :(

М.б. сможете куда-нибудь выложить словарные базы? Ооооочень был бы вам признателен!

Re: Не может проиндексировать словарь Multitran 2009

PostPosted: Wed Feb 15, 2012 5:47 pm
by Tvangeste
markadam wrote:Скажите пожалуйста, где вы взяли обновление от 02.12.2011 - на Рутрэкере раздачу закрыли :(
М.б. сможете куда-нибудь выложить словарные базы? Ооооочень был бы вам признателен!

Вопросы про выкладывание и скачивание нелегального контента на этом форуме не приветствуются. Этим мы только под удар GoldenDict подводим. Никому это не нужно.

Есть другие форумы, где можно общаться на разные темы, например на руборде.

Re: Не может проиндексировать словарь Multitran 2009

PostPosted: Thu Feb 16, 2012 6:56 am
by quicktrick
moytra wrote:Кстати, по поводу 5.23 млн статей... Должно быть по идее около 2.5млн, т.к. слова объединяются с одинаковым исходным словом :).


moytra, ты прав, я ошибся. Я просто, честно говоря, даже не знал, что Голдендикт статистику по словарям показывает. А цифру 5,23 млн я взял из твоей программы -- она показывала такой результат в процессе работы. Голдендикт у меня показывает цифры 2 660 509 словарных статей и 2 730 065 слов.

Re: Не может проиндексировать словарь Multitran 2009

PostPosted: Fri Feb 17, 2012 12:22 am
by markadam
Уважаемый moytra, не получается сконвертировать Немецкий словарь, пишет:

C:\multitran>multitran_tool.exe -i dict.grt -o gr.dsl -from german -to russian -subjects subjects.txt

Exception: file_wrapper::file_wrapper():83:
Failed check [handle_]

А еще есть словари, с, похоже, обратным направлением перевода - например если англо-русское направление dict.ert, то русско-английское - dict.ret

При попытке конвертации такого словаря выдает ту же ошибку :(

Re: Не может проиндексировать словарь Multitran 2009

PostPosted: Fri Feb 17, 2012 1:28 pm
by moytra
Опрометчиво я удалил дебаг инфу из релиза :) а то бы он сообщил, что файл не доступен и какой. Когда он такое кидает, значит файл на вход/выход не верный указан. Нужно или полный путь или относительный но правильный. пример запуска:
Code: Select all
multitran_tool -from english -to russian -i c:/multitran/network/eng_rus/dict.ert -subjects C:/multitran/network/subjects.txt -o result.dsl
cat header.txt > result.utf16.dsl
iconv -f cp1251 -t utf-16le result.dsl >> result.utf16.dsl


-i и -o должны на правильные файлы указывать, как и -subjects. По поводу ert/ret, существует только ERT, это база статей, там нет направления, каждая запись это набор полей среди этих полей есть на двух языках фраза. Вообщем то может быть и 3, 4 и больше языков сразу. Также комментарии и т.п. И в каждой микро записе там только один вариант перевода. Потом уже на стадии слияния "Merging..." я обединяю все из базы статьи с повторяющимся исходным словом в статью, в которой может быть 20 переводов. Можно поменять направление перевода (поменять -from -to), но базу ту же давать нужно.

Если вдаваться в детали, то порядок букв в .ERT выбирается просто по алфавиту упорядоченным, т.к. буква E идёт раньше R в алфавите, так же и про названия директорий (именно eng_rus, а не rus_eng). Например в испанском (буква S) там наоборот rus_spa/dict.rst... А вот dict.rsd/.srd уже два варианта, т.к. это уже индекс из слов в позиции статей... Кстати прогу обновил тут сегодня пофиксил всякого, читать тут на руборде и на сайте проекта.

Re: Не может проиндексировать словарь Multitran 2009

PostPosted: Fri Aug 31, 2012 9:38 am
by Draico
Я не могу проиндексировать мультитран 2012 года - не хватает оперативной памяти (512). Эмулятор из SDK не хочет добавлять оперативки больше - failed to allocate memory или что-то в этом духе. В Virtual Box GoldenDict, как выяснилось, вообще работать не хочет. Пробовал даже с компа индекс вытаскивать - не нравится ему он и всё тут - индексирует заново посвоему. Что делать то?

Re: Не может проиндексировать словарь Multitran 2009

PostPosted: Mon Oct 15, 2012 4:21 pm
by trauschauwem
Приветствую всех форумчан. Меня зовут Сергей, недавно я купил мобильную версию GoldenDict для Android. Полностью поддерживаю последний вопрос. Не получается проиндексироваться русско-английский словарь мультитрана. Причем англо-русский проиндексировался. Словарь очень нужен, так как работаю переводчиком. Может быть можно действительно сделать скриптик, который будет индексировать словарь на компе и потом просто файл индекса копировать в папку словаря? Или есть какие-либо варианты проиндексировать на смартфоне (у меня HTC Desire HD - не такой уж и слабый девайс). Очень хотелось бы получить помощь по поводу этого вопроса. Заанее спасибо!

Re: Не может проиндексировать словарь Multitran 2009

PostPosted: Mon Oct 15, 2012 4:41 pm
by iskra
Можно попробовать разделить файл на две части.