New user registration is currently disabled due to spam abuse / Регистрация новых пользователей в настоящее время приостановлена из-за злоупотреблений спаммерами

Создание финских (и не только!) словарей.

Всё по словарям

Создание финских (и не только!) словарей.

Postby nordux » Thu Jan 09, 2014 9:26 am

Всем привет! В связи с дефицитом в свободном доступе словарей (несколько словарей всё же удалось найти, но этого мало) на тему указанную в заголовке, решил восполнить пробел своими силами.
Имеется несколько словарей в lsd формате, но под Linux +Stardict/Goldendict они бесполезны, а найти рабочий DSLCompiler от Лингвы, чтобы перегнать их в читаемый формат не удалось (если кто ткнёт мордой, будет неплохо).
Но суть темы не в этом, а в перегоне некоторых онлайновых ресурсов (первый словарь, а именно толковый словарь слэнга [http://urbaanisanakirja.com] путём парсинга уже имеется в черновом, но вполне рабочем варианте) оффлайн копии. :)
Мысли и идеи есть разные, потому и "вопросов" будет много и чтоб не плодить много тем, всё буду описывать тут. Поскольку большинство исследуемых ресурсов мультиязычные, то решения будут актуальны и для других языков, особенно редких!

И так, вопросы на повестке дня.
Скачал отсюда http://www.dicts.info/uddl.php (словари для многих языков доступны) доступные варианты словарей, но они в текстовом и никак не форматированном виде:
Code: Select all
железо   rauta
желудок   maha ; vatsa
желудочно-кишечный тракт   ruoansulatuskanava
желчный пузырь   sappirakko
жена   vaimo ; aviovaimo
женщина   nainen
жертва   uhraus
живая изгородь   pensasaita
животноводство   karjanhoito
животноводческая продукция   eläintuote
животное   eläimet
животное, выращиваемое на ферме   kotieläin
животные виды   eläinlaji
животные для забоя   teuraseläin
животные ресурсы   eläinvarat
жидкие отходы   nestemäinen jäte
жидкий навоз   lietelanta, lantavesi
жидкость   neste
жидкость, образовавшаяся в мусорной яме   kaatopaikan suotovesi
жизненная среда   elinympäristö
жизненное пространство   elintila

так что как привести их в нормальный для конвертации вид слабо представляю.
Есть вариант набыдлокодить скрипт, но нужна помощь. Т.е. нужно разбить каждую строку на две, тогда в одной строке будут исходные слова, а во второй перевод. Дальше уже проще. Вот и вопрос, как разбить строку таким образом? Хоть sed'ом, хоть как-то ещё.

На первый раз пока всё. Идут работы над снятия снапшота с glosbe.com и его парсинга. В планах нужен снапшот с wiktionary (финско-финские статьи). Но об этом по ходу басни, если не разберусь. Если есть желающим присоединиться - tervetuloa!
nordux
 
Posts: 2
Joined: Thu Jan 09, 2014 8:45 am

Re: Создание финских (и не только!) словарей.

Postby dg333 » Thu Jan 09, 2014 1:07 pm

nordux wrote:найти рабочий DSLCompiler от Лингвы, чтобы перегнать их в читаемый формат не удалось (если кто ткнёт мордой, будет неплохо).


Вперёд на руборд.

Скачал отсюда http://www.dicts.info/uddl.php (словари для многих языков доступны) доступные варианты словарей, но они в текстовом и никак не форматированном виде:


То, что Вами выложено, очень даже хорошо отформатировано. Я скопировал в буфер, вставил в Apache OpenOffice и выполнил операцию поиска/замены:
найти:
Code: Select all
неразрывный пробел пробел неразрывный пробел

заменить на:
Code: Select all
\n\t

рег. выражения включить.

Потом ещё допилил немного:
найти:
Code: Select all
\n

заменить на:
Code: Select all
\n

рег. выражения включить.

Это дало готовую разметку DSL, нужно только заголовок добавить.
dg333
 
Posts: 117
Joined: Fri Jun 05, 2009 9:50 am

Re: Создание финских (и не только!) словарей.

Postby nordux » Thu Jan 09, 2014 7:17 pm

То, что Вами выложено, очень даже хорошо отформатировано. Я скопировал в буфер, вставил в Apache OpenOffice и выполнил операцию поиска/замены:
найти:
КОД: ВЫДЕЛИТЬ ВСЕ
неразрывный пробел пробел неразрывный пробел

заменить на:
КОД: ВЫДЕЛИТЬ ВСЕ
\n\t

рег. выражения включить.

Потом ещё допилил немного:
найти:
КОД: ВЫДЕЛИТЬ ВСЕ
\n

заменить на:
КОД: ВЫДЕЛИТЬ ВСЕ
\n

рег. выражения включить.

Это дало готовую разметку DSL, нужно только заголовок добавить.


У меня ЛиброОфис, но всё равно не понял как это сделать. :( Что и куда писать... Смотрел "Найти и заменить" и "Автозамена". Но чёта нифига не понял. Благо только щас допёрло, что большие пробелы, это символ табуляции. Открыл в mc и всё стало на свои места! В связи с чем сделал так:
Code: Select all
$ cat file_dict | sed "s/\t/\n\t/" > dic.dsl (тут же можно и теги оформления вписать так то)

Hallelujah! Всё оказалось, проще простого. А я блин с утра голову ломал. И то, если бы сюда не запостил, то так бы, вероятно, и не сообразил в чём фишка. Теперь можно заворачивать хоть в dsl хоть в стардикт. :)

Будем работать дальше...
nordux
 
Posts: 2
Joined: Thu Jan 09, 2014 8:45 am

Re: Создание финских (и не только!) словарей.

Postby Michael72 » Sun Mar 16, 2014 11:36 am

nordux wrote:Скачал отсюда http://www.dicts.info/uddl.php (словари для многих языков доступны) доступные варианты словарей, но они в текстовом и никак не форматированном виде...

Большое спасибо за ссылку.
Michael72
 
Posts: 180
Joined: Tue Mar 12, 2013 1:34 pm


Return to Словари

Who is online

Users browsing this forum: No registered users and 14 guests

cron