Noções Básicas de Codificações Multibyte Japonesas
Os caracteres japoneses só podem ser representados por codificações multibyte,
e vários padrões de codificação são usados dependendo da plataforma e
da finalidade do texto. Para piorar, esses padrões de codificação
diferem um pouco um do outro. Para criar uma aplicação
web que possa ser usada em um ambiente japonês, um
desenvolvedor deve manter essas complexidades em mente para garantir que as
codificações de caracteres apropriadas sejam usadas.
-
O armazenamento para um caractere pode ter até seis bytes
-
A maioria dos caracteres multibyte japoneses aparece com o dobro da largura dos
caracteres de byte único. Esses caracteres são chamados
"zen-kaku" em japonês, que significa
"largura total". Outros caracteres, mais estreitos, são chamados
"han-kaku", que significa "meia largura". As
propriedades gráficas dos caracteres, no entanto, dependem
dos tipos das fontes usadas para exibi-los.
-
Algumas codificações de caracteres usam sequências com shift (escape) definidas
na ISO-2022 para alternar o mapa de código da área de código específica
(
00h
a 7fh
).
-
A ISO-2022-JP deve ser usada no SMTP/NNTP e os cabeçalhos e entidades
devem ser redefinidos de acordo com as exigências da RFC. Embora esses não sejam
requisitos, isso ainda é uma boa idéia pois vários agentes de usuários
populares não podem reconhecer nenhum outro método de codificação.
-
As páginas web criadas para serviços de telefonia móvel como
» i-mode
ou » EZweb
devem usar Shift_JIS.
-
A partir do PHP 5.4.0, os caracteres de pictograma
usados em serviços de telefonia móvel como
» i-mode
ou » EZweb
são suportados.