Page 1 of 1

Не может проиндексировать словарь

PostPosted: Mon Jul 11, 2011 10:04 am
by gleb
Не может проиндексировать словарь En-Ru-Multitran-June2009.dsl (493 Mb)
Ubuntu 11.04
512 Mb RAM
LXDE
Бегает индикатор индексации, активно работает своп. Как подключить такой большой словарь на слабой машине, подскажите пожалуйста?

Re: Не может проиндексировать словарь

PostPosted: Mon Jul 11, 2011 10:29 am
by Tvangeste
gleb wrote:Бегает индикатор индексации, активно работает своп. Как подключить такой большой словарь на слабой машине, подскажите пожалуйста?

Ну, можно подождать. Например, на ночь оставить. :)

Как вариант, сконвертировать DSL файл из UTF-16 в UTF-8 кодировку, размер должен прилично уменьшиться. Еще как вариант, можно пожать DSL файл dictzip'ом, тогда файл совсем маленький станет (для мультитрана).

Не факт, что эти меры ускорят индексацию или уменьшат потребление памяти во время индексации, но попробовать можно.

Re: Не может проиндексировать словарь

PostPosted: Mon Jul 11, 2011 11:02 am
by gleb
Ждал около 3-х часов.
А конвертнуть в UTF-8 можно обычным текстовым редактором или textpipe?

Re: Не может проиндексировать словарь

PostPosted: Mon Jul 11, 2011 11:08 pm
by ikm
Боюсь, в данном случае поможет только увеличение объема RAM. При индексации для скорости индекс (дерево со словами и ссылками на статьи) строится полностью в памяти. Обычно это не составляет сколько-нибудь значимой проблемы, но в случае с приведенным словарем да, памяти на индексацию уходит много. Пожалуй, самое простое решение - это попробовать использовать swap (и иметь в виду, что процесс будет очень долгим).

p.s. Конвертирование в utf-8 или сжатие dictzip будет полезно для уменьшения объема словаря на диске, но для ускорения индексации не поможет (индекс всё равно будет таким же).

Re: Не может проиндексировать словарь

PostPosted: Tue Jul 12, 2011 9:45 am
by gleb
Может подскажете какими утилитами можно увеличить свап на Убунте, чтобы не вручную со всякими там UIDaми ковыряться.