New user registration is currently disabled due to spam abuse / Регистрация новых пользователей в настоящее время приостановлена из-за злоупотреблений спаммерами

Не может проиндексировать словарь Multitran 2009

Обсуждение мобильной версии

Re: Не может проиндексировать словарь Multitran 2009

Postby moytra » Wed Feb 15, 2012 3:42 pm

Кстати, по поводу 5.23 млн статей... Должно быть по идее около 2.5млн, т.к. слова объединяются с одинаковым исходным словом :). Это как раз часть стадии 3 - merging articles. 5.2 - это столько исходных статей. Эту агрегацию только для лингво делал, похоже GD настолько молодец, что сам может такое делать. Так вот, у меня тулса 2.6 млн статей дала на выходе, согласно GD :), расскажи, как у тебя 5 получилось? (я ещё для лингвы часть с начала вырезал вручную статей, а то он пр генерации .lsd ругается, у меня кстати .lsd уже пару часов генерит, не завершился :), GD конечно рулит, пару минут это делал). Было бы вообще клёво, чтобы мультитран просто GD мог на вход брать и конвертить, т.к. они уже всей зачисткой занимались, нужный код есть и не нужна отдельная утилита. Или можно весь код конвертирования в отдельную коммандную утилиту вынести, типа makedict, чтобы там была туча форматов поддерживаемых... Хотелось бы только, чтобы в GD была кнопка типа сконвертить в другой формат (скажем хотя бы .DSL). Вот мой скриншот c 2.6 млн статей: Image

PS. Кстати, а как спойлер тут на форуме делать, чтобы разворачиваться могла картинка по нажатию а не сразу показывать... ?
moytra
 
Posts: 18
Joined: Fri Feb 10, 2012 6:53 pm

Re: Не может проиндексировать словарь Multitran 2009

Postby Novikov » Wed Feb 15, 2012 3:53 pm

Оффтопик: а что в этом мультитране такого хорошего при наличии таких словарей, как Longman, Oxford, Macmillian, Webster?
Novikov
 
Posts: 164
Joined: Mon Jan 23, 2012 8:29 pm

Re: Не может проиндексировать словарь Multitran 2009

Postby markadam » Wed Feb 15, 2012 5:16 pm

quicktrick wrote:Ура!!! Получилось! :)

Взял обновление Мультитрана от 02.12.2011, eng_rus. Конвертировалось на моем компьютере минут 15. Получил dsl 323 мега. Сжал dictzip-ом до 86 мегов. Подсунул Голдендикту десктопному (старая какая-то версия у меня 1.0.1-68...). Индекс строился минут 5. В общем, вижу словарь. Он, правда, названия не имеет -- пустая иконка в Голдендикте. И есть только направление английский-русский (ну, так оно, очевидно, и должно быть). Ну, и классно всё, в общем! :) Вроде 5 млн. 230 тыс. словарных статей. Круто!



Скажите пожалуйста, где вы взяли обновление от 02.12.2011 - на Рутрэкере раздачу закрыли :(

М.б. сможете куда-нибудь выложить словарные базы? Ооооочень был бы вам признателен!
markadam
 
Posts: 2
Joined: Wed Feb 15, 2012 2:23 am

Re: Не может проиндексировать словарь Multitran 2009

Postby Tvangeste » Wed Feb 15, 2012 5:47 pm

markadam wrote:Скажите пожалуйста, где вы взяли обновление от 02.12.2011 - на Рутрэкере раздачу закрыли :(
М.б. сможете куда-нибудь выложить словарные базы? Ооооочень был бы вам признателен!

Вопросы про выкладывание и скачивание нелегального контента на этом форуме не приветствуются. Этим мы только под удар GoldenDict подводим. Никому это не нужно.

Есть другие форумы, где можно общаться на разные темы, например на руборде.
Tvangeste
 
Posts: 893
Joined: Thu Jun 02, 2011 11:42 am

Re: Не может проиндексировать словарь Multitran 2009

Postby quicktrick » Thu Feb 16, 2012 6:56 am

moytra wrote:Кстати, по поводу 5.23 млн статей... Должно быть по идее около 2.5млн, т.к. слова объединяются с одинаковым исходным словом :).


moytra, ты прав, я ошибся. Я просто, честно говоря, даже не знал, что Голдендикт статистику по словарям показывает. А цифру 5,23 млн я взял из твоей программы -- она показывала такой результат в процессе работы. Голдендикт у меня показывает цифры 2 660 509 словарных статей и 2 730 065 слов.
quicktrick
 
Posts: 37
Joined: Thu Jul 01, 2010 2:38 pm

Re: Не может проиндексировать словарь Multitran 2009

Postby markadam » Fri Feb 17, 2012 12:22 am

Уважаемый moytra, не получается сконвертировать Немецкий словарь, пишет:

C:\multitran>multitran_tool.exe -i dict.grt -o gr.dsl -from german -to russian -subjects subjects.txt

Exception: file_wrapper::file_wrapper():83:
Failed check [handle_]

А еще есть словари, с, похоже, обратным направлением перевода - например если англо-русское направление dict.ert, то русско-английское - dict.ret

При попытке конвертации такого словаря выдает ту же ошибку :(
markadam
 
Posts: 2
Joined: Wed Feb 15, 2012 2:23 am

Re: Не может проиндексировать словарь Multitran 2009

Postby moytra » Fri Feb 17, 2012 1:28 pm

Опрометчиво я удалил дебаг инфу из релиза :) а то бы он сообщил, что файл не доступен и какой. Когда он такое кидает, значит файл на вход/выход не верный указан. Нужно или полный путь или относительный но правильный. пример запуска:
Code: Select all
multitran_tool -from english -to russian -i c:/multitran/network/eng_rus/dict.ert -subjects C:/multitran/network/subjects.txt -o result.dsl
cat header.txt > result.utf16.dsl
iconv -f cp1251 -t utf-16le result.dsl >> result.utf16.dsl


-i и -o должны на правильные файлы указывать, как и -subjects. По поводу ert/ret, существует только ERT, это база статей, там нет направления, каждая запись это набор полей среди этих полей есть на двух языках фраза. Вообщем то может быть и 3, 4 и больше языков сразу. Также комментарии и т.п. И в каждой микро записе там только один вариант перевода. Потом уже на стадии слияния "Merging..." я обединяю все из базы статьи с повторяющимся исходным словом в статью, в которой может быть 20 переводов. Можно поменять направление перевода (поменять -from -to), но базу ту же давать нужно.

Если вдаваться в детали, то порядок букв в .ERT выбирается просто по алфавиту упорядоченным, т.к. буква E идёт раньше R в алфавите, так же и про названия директорий (именно eng_rus, а не rus_eng). Например в испанском (буква S) там наоборот rus_spa/dict.rst... А вот dict.rsd/.srd уже два варианта, т.к. это уже индекс из слов в позиции статей... Кстати прогу обновил тут сегодня пофиксил всякого, читать тут на руборде и на сайте проекта.
moytra
 
Posts: 18
Joined: Fri Feb 10, 2012 6:53 pm

Re: Не может проиндексировать словарь Multitran 2009

Postby Draico » Fri Aug 31, 2012 9:38 am

Я не могу проиндексировать мультитран 2012 года - не хватает оперативной памяти (512). Эмулятор из SDK не хочет добавлять оперативки больше - failed to allocate memory или что-то в этом духе. В Virtual Box GoldenDict, как выяснилось, вообще работать не хочет. Пробовал даже с компа индекс вытаскивать - не нравится ему он и всё тут - индексирует заново посвоему. Что делать то?
Draico
 
Posts: 8
Joined: Thu Feb 16, 2012 2:32 pm

Re: Не может проиндексировать словарь Multitran 2009

Postby trauschauwem » Mon Oct 15, 2012 4:21 pm

Приветствую всех форумчан. Меня зовут Сергей, недавно я купил мобильную версию GoldenDict для Android. Полностью поддерживаю последний вопрос. Не получается проиндексироваться русско-английский словарь мультитрана. Причем англо-русский проиндексировался. Словарь очень нужен, так как работаю переводчиком. Может быть можно действительно сделать скриптик, который будет индексировать словарь на компе и потом просто файл индекса копировать в папку словаря? Или есть какие-либо варианты проиндексировать на смартфоне (у меня HTC Desire HD - не такой уж и слабый девайс). Очень хотелось бы получить помощь по поводу этого вопроса. Заанее спасибо!
trauschauwem
 
Posts: 2
Joined: Mon Oct 15, 2012 4:08 pm

Re: Не может проиндексировать словарь Multitran 2009

Postby iskra » Mon Oct 15, 2012 4:41 pm

Можно попробовать разделить файл на две части.
iskra
 
Posts: 30
Joined: Tue Aug 07, 2012 6:44 pm

PreviousNext

Return to Мобильная версия

Who is online

Users browsing this forum: Google [Bot] and 1 guest