Page 1 of 1

Создание финских (и не только!) словарей.

PostPosted: Thu Jan 09, 2014 9:26 am
by nordux
Всем привет! В связи с дефицитом в свободном доступе словарей (несколько словарей всё же удалось найти, но этого мало) на тему указанную в заголовке, решил восполнить пробел своими силами.
Имеется несколько словарей в lsd формате, но под Linux +Stardict/Goldendict они бесполезны, а найти рабочий DSLCompiler от Лингвы, чтобы перегнать их в читаемый формат не удалось (если кто ткнёт мордой, будет неплохо).
Но суть темы не в этом, а в перегоне некоторых онлайновых ресурсов (первый словарь, а именно толковый словарь слэнга [http://urbaanisanakirja.com] путём парсинга уже имеется в черновом, но вполне рабочем варианте) оффлайн копии. :)
Мысли и идеи есть разные, потому и "вопросов" будет много и чтоб не плодить много тем, всё буду описывать тут. Поскольку большинство исследуемых ресурсов мультиязычные, то решения будут актуальны и для других языков, особенно редких!

И так, вопросы на повестке дня.
Скачал отсюда http://www.dicts.info/uddl.php (словари для многих языков доступны) доступные варианты словарей, но они в текстовом и никак не форматированном виде:
Code: Select all
железо   rauta
желудок   maha ; vatsa
желудочно-кишечный тракт   ruoansulatuskanava
желчный пузырь   sappirakko
жена   vaimo ; aviovaimo
женщина   nainen
жертва   uhraus
живая изгородь   pensasaita
животноводство   karjanhoito
животноводческая продукция   eläintuote
животное   eläimet
животное, выращиваемое на ферме   kotieläin
животные виды   eläinlaji
животные для забоя   teuraseläin
животные ресурсы   eläinvarat
жидкие отходы   nestemäinen jäte
жидкий навоз   lietelanta, lantavesi
жидкость   neste
жидкость, образовавшаяся в мусорной яме   kaatopaikan suotovesi
жизненная среда   elinympäristö
жизненное пространство   elintila

так что как привести их в нормальный для конвертации вид слабо представляю.
Есть вариант набыдлокодить скрипт, но нужна помощь. Т.е. нужно разбить каждую строку на две, тогда в одной строке будут исходные слова, а во второй перевод. Дальше уже проще. Вот и вопрос, как разбить строку таким образом? Хоть sed'ом, хоть как-то ещё.

На первый раз пока всё. Идут работы над снятия снапшота с glosbe.com и его парсинга. В планах нужен снапшот с wiktionary (финско-финские статьи). Но об этом по ходу басни, если не разберусь. Если есть желающим присоединиться - tervetuloa!

Re: Создание финских (и не только!) словарей.

PostPosted: Thu Jan 09, 2014 1:07 pm
by dg333
nordux wrote:найти рабочий DSLCompiler от Лингвы, чтобы перегнать их в читаемый формат не удалось (если кто ткнёт мордой, будет неплохо).


Вперёд на руборд.

Скачал отсюда http://www.dicts.info/uddl.php (словари для многих языков доступны) доступные варианты словарей, но они в текстовом и никак не форматированном виде:


То, что Вами выложено, очень даже хорошо отформатировано. Я скопировал в буфер, вставил в Apache OpenOffice и выполнил операцию поиска/замены:
найти:
Code: Select all
неразрывный пробел пробел неразрывный пробел

заменить на:
Code: Select all
\n\t

рег. выражения включить.

Потом ещё допилил немного:
найти:
Code: Select all
\n

заменить на:
Code: Select all
\n

рег. выражения включить.

Это дало готовую разметку DSL, нужно только заголовок добавить.

Re: Создание финских (и не только!) словарей.

PostPosted: Thu Jan 09, 2014 7:17 pm
by nordux
То, что Вами выложено, очень даже хорошо отформатировано. Я скопировал в буфер, вставил в Apache OpenOffice и выполнил операцию поиска/замены:
найти:
КОД: ВЫДЕЛИТЬ ВСЕ
неразрывный пробел пробел неразрывный пробел

заменить на:
КОД: ВЫДЕЛИТЬ ВСЕ
\n\t

рег. выражения включить.

Потом ещё допилил немного:
найти:
КОД: ВЫДЕЛИТЬ ВСЕ
\n

заменить на:
КОД: ВЫДЕЛИТЬ ВСЕ
\n

рег. выражения включить.

Это дало готовую разметку DSL, нужно только заголовок добавить.


У меня ЛиброОфис, но всё равно не понял как это сделать. :( Что и куда писать... Смотрел "Найти и заменить" и "Автозамена". Но чёта нифига не понял. Благо только щас допёрло, что большие пробелы, это символ табуляции. Открыл в mc и всё стало на свои места! В связи с чем сделал так:
Code: Select all
$ cat file_dict | sed "s/\t/\n\t/" > dic.dsl (тут же можно и теги оформления вписать так то)

Hallelujah! Всё оказалось, проще простого. А я блин с утра голову ломал. И то, если бы сюда не запостил, то так бы, вероятно, и не сообразил в чём фишка. Теперь можно заворачивать хоть в dsl хоть в стардикт. :)

Будем работать дальше...

Re: Создание финских (и не только!) словарей.

PostPosted: Sun Mar 16, 2014 11:36 am
by Michael72
nordux wrote:Скачал отсюда http://www.dicts.info/uddl.php (словари для многих языков доступны) доступные варианты словарей, но они в текстовом и никак не форматированном виде...

Большое спасибо за ссылку.