New user registration is currently disabled due to spam abuse / Регистрация новых пользователей в настоящее время приостановлена из-за злоупотреблений спаммерами

Особенность с альтернативными пробелами

Сообщаем о найденных ошибках сюда

Re: Особенность с альтернативными пробелами

Postby Novikov » Tue Feb 07, 2012 9:59 pm

А, я в UTF-8 перевел все, ибо жалко просто так выкидывать место :)
Novikov
 
Posts: 164
Joined: Mon Jan 23, 2012 8:29 pm

Re: Особенность с альтернативными пробелами

Postby ikm » Wed Feb 08, 2012 12:27 am

Давайте не будем мешать кодировки и коды символов Unicode. Символ U+00A0 кодируется одним байтом A0 в кодировке ISO-8859-1, двумя байтами - A0 00 - в кодировке UTF-16LE, и последовательностью C2 A0 - в UTF-8.
ikm
Автор GoldenDict
 
Posts: 1592
Joined: Wed Feb 04, 2009 10:40 am

Re: Особенность с альтернативными пробелами

Postby Novikov » Wed Feb 08, 2012 12:45 am

Ну я там приложил файл, вы смотрите сами, где встал символ с кодом A0 :) Символ стоит перед словами "good food".
Novikov
 
Posts: 164
Joined: Mon Jan 23, 2012 8:29 pm

Re: Особенность с альтернативными пробелами

Postby ikm » Wed Feb 08, 2012 12:54 am

В какой кодировке ваш файл?
ikm
Автор GoldenDict
 
Posts: 1592
Joined: Wed Feb 04, 2009 10:40 am

Re: Особенность с альтернативными пробелами

Postby Novikov » Wed Feb 08, 2012 1:06 am

UTF-8 с BOM же. У Вас редактор что-то другое показывает?
Novikov
 
Posts: 164
Joined: Mon Jan 23, 2012 8:29 pm

Re: Особенность с альтернативными пробелами

Postby ikm » Wed Feb 08, 2012 1:12 am

Прекрасно. Какой последовательностью байтов кодируется символ U+00A0 в UTF-8?
ikm
Автор GoldenDict
 
Posts: 1592
Joined: Wed Feb 04, 2009 10:40 am

Re: Особенность с альтернативными пробелами

Postby Novikov » Wed Feb 08, 2012 2:08 am

Я неправильно выразился, видимо. Не символ с кодом A0, а байт со значением A0. Как правильно -- Вам виднее, вы программист.
Novikov
 
Posts: 164
Joined: Mon Jan 23, 2012 8:29 pm

Re: Особенность с альтернативными пробелами

Postby ikm » Wed Feb 08, 2012 6:58 am

О том и речь, что в UTF-8 байт A0 вовсе не означает символ A0. Более того, этот байт вообще не может идти лидирующим в UTF-8 последовательности. Поэтому ваш файл с примером - битый. И именно поэтому GD не может его прочитать.
ikm
Автор GoldenDict
 
Posts: 1592
Joined: Wed Feb 04, 2009 10:40 am

Re: Особенность с альтернативными пробелами

Postby alleo » Wed Feb 08, 2012 7:18 am

Кстати, в японском (соответственно и в китайском) тексте есть еще один вид пробела с кодом U+3000. Так как все иероглифы одинаковой ширины, то и пробел должен быть такой же. Я думаю его тоже было бы неплохо учитывать.
alleo
 
Posts: 7
Joined: Wed Oct 21, 2009 12:36 pm

Re: Особенность с альтернативными пробелами

Postby ikm » Wed Feb 08, 2012 7:25 am

Он учитывается. Однако он не может выступать в качестве отделителя тел статей от заголовков - как уже упоминалось, для этого можно использовать только обычный пробел или обычный таб.
ikm
Автор GoldenDict
 
Posts: 1592
Joined: Wed Feb 04, 2009 10:40 am

PreviousNext

Return to Ошибки

Who is online

Users browsing this forum: No registered users and 12 guests