New user registration is currently disabled due to spam abuse / Регистрация новых пользователей в настоящее время приостановлена из-за злоупотреблений спаммерами

Нет разбиения иероглифов на слова

Сообщаем о найденных ошибках сюда

Нет разбиения иероглифов на слова

Postby glossum » Sun Jan 03, 2010 10:10 pm

Допустим, возьмём часть меню из Windows 7 с установленным языковым пакетом - Китайский Традиционный.
遊樂場
電腦(Компьютер)
網路
---------
控制台 (Панель управления)
裝置和印表機
Перевод в скобках просто для того, чтобы иметь представление о том, где я на экране взял эти иероглифы. Так вот, если всей цепочки ПОЛНОСТЬЮ нет в словаре, то и перевода GoldenDict найти не сможет. Сразу напишет, например, "No translation for 控制台 was found in group All". StarDict видит, что там сложное слово и показывает отдельно переводы для 控制 и 台.

Словарь БКРС можно взять по ссылке: http://torrents.ru/forum/viewtopic.php?t=2032554. Windows 7, Aero отключен, с производительностью проблем нет, поэтому, наверное, остальные сведения о системе указывать не нужно? Тут в алгоритме что-то не так. Словари, разумеется, одни и те же, GoldenDict и starDict запускаю, конечно же, по очереди. Относится к обеим версиям - stable, и последней, от 2 января.
Удачи Вашему замечательному проекту!
glossum
 
Posts: 4
Joined: Sun Jan 03, 2010 9:03 pm

Re: Нет разбиения иероглифов на слова

Postby ikm » Sun Jan 03, 2010 10:33 pm

А каким образом они, вообще говоря, разделяются? Ведь пробела между ними никакого нет. То есть, как программа узнает, что там два слова - с помощью каких-то специальных словарей?

p.s. Верю, что стардикт правильно работает с китайским! :)
ikm
Автор GoldenDict
 
Posts: 1595
Joined: Wed Feb 04, 2009 10:40 am

Re: Нет разбиения иероглифов на слова

Postby glossum » Sun Jan 03, 2010 10:48 pm

Вот этого я вам точно не скажу, потому что сам заинтересовался китайским не более чем пару месяцев назад :(
Но логично предположить, что можно провести поиск самого длинного сочетания иероглифов, начиная с текущего, на котором мышка, - и вывести его. То есть поискать слово из всех трёх иероглифов, потом двух первых, а потом, если уж почти ничего в словаре - одного. Вряд ли StarDict абсолютно правильно бьёт на слова, скорее всего по такому принципу. Там же они отдельными статьями, если не ошибаюсь, забиты и если ввести именно в окошко GoldenDict'а эти два 控制, они прекрасно переводятся :)
А пробелами там редко что разделяется - больше тире, запятыми, точками... Там много удивительных особенностей, в языках этих :)
Attachments
goldendict.png
goldendict.png (34.38 KiB) Viewed 6857 times
glossum
 
Posts: 4
Joined: Sun Jan 03, 2010 9:03 pm


Return to Ошибки

Who is online

Users browsing this forum: No registered users and 20 guests