New user registration is currently disabled due to spam abuse / Регистрация новых пользователей в настоящее время приостановлена из-за злоупотреблений спаммерами

Румынскоспецифическая фича

Обо всём по программе

Румынскоспецифическая фича

Postby gromescu » Fri Feb 11, 2011 1:45 pm

Предыстория вопроса http://en.wikipedia.org/wiki/Romanian_a ... _.C5.A3.29

Путаница с ș\ ț и ş \ ţ очень мешает, когда в разных словарях используются разные системы записи (gd будет находить для одного слова две карточки). Но самая большая проблема - это озвучка от Forvo. Например, если я ищу слово ţap, то я попадаю на вариант написания с седилью (потому что у меня во всех словарях так), но озвучки этого слова я не увижу, потому что в forvo это слово забито как țap (c запятой). Аналогично с морфологическим словарем (aspell), который постоянно предлагает "правильный" вариант написания, там где не надо. Ситуация усугубляется еще и тем, что в forvo использование этих букв не стандартизировано и могут попадаться варианты и седилью и с запятой.

Собственно вопрос: а возможно ли сделать такой костыль, чтобы gd воспринимал ș\ ț и ş \ ţ как одну и ту же букву?
gromescu
 
Posts: 76
Joined: Sun Apr 05, 2009 2:25 pm

Re: Румынскоспецифическая фича

Postby ikm » Sat Feb 12, 2011 5:44 am

Вообще у нас для таких вещей придумана транслитерация. В немецком, например, она делает взаимозаменяемыми ae и ä, и т.п. Только проблема в том, что сейчас новые таблицы добавляются программно, что весьма неудобно. В идеале хотелось бы текстовый формат файлов с регулярными выражениями - это не то чтоб сложно сделать, но как-то некогда. Прикрутить румынский в теории можно, но этим надо кому-то заниматься :)
ikm
Автор GoldenDict
 
Posts: 1592
Joined: Wed Feb 04, 2009 10:40 am

Re: Румынскоспецифическая фича

Postby gromescu » Sat Feb 12, 2011 9:43 pm

ikm wrote:Вообще у нас для таких вещей придумана транслитерация. В немецком, например, она делает взаимозаменяемыми ae и ä, и т.п. Только проблема в том, что сейчас новые таблицы добавляются программно, что весьма неудобно. В идеале хотелось бы текстовый формат файлов с регулярными выражениями - это не то чтоб сложно сделать, но как-то некогда. Прикрутить румынский в теории можно, но этим надо кому-то заниматься :)


Ыхъ. В общем, покопался тут. Оказалось все не так и сложно. Кажется что все работает, как надо. Единственное, я не знаю над какой версией исходиников издевался (кажется из git трехнедельной давности).

Помимо сворачивания седили и запятой сделал также взаимозаменяемыми символы â и î (актуально, для тех, кто пользуется дореформенной орфографией).

Окно настроек транслитерации:
Image

Поиск в forvo (найдется все :))
Image

Набираем слово в старой орфографии, находим в новой:
Image
Attachments
romanian_patch.tar.gz
(10.15 KiB) Downloaded 998 times
gromescu
 
Posts: 76
Joined: Sun Apr 05, 2009 2:25 pm


Return to Общий

Who is online

Users browsing this forum: No registered users and 33 guests