Unicode é um padrão que permite aos computadores representar e manipular, de forma consistente, texto de qualquer sistema de escrita existente. Publicado no livro The Unicode Standard,[1][2] o padrão consiste de quase 138 mil caracteres,[3] um conjunto de diagramas de códigos para referência visual, uma metodologia para codificação e um conjunto de codificações padrões de caracteres, uma enumeração de propriedades de caracteres como caixa alta e caixa baixa, um conjunto de arquivos de computador com dados de referência, além de regras para normalização, decomposição, ordenação alfabética e renderização.

Série Unicode
Unicode
UCS
UTF-7
UTF-8
UTF-16
UTF-32/UCS-4
SCSU
Punycode

Atualmente, é promovido e desenvolvido pela Unicode Consortium, uma organização sem fins lucrativos que coordena o padrão, e que possui o objetivo de um dia substituir esquemas de codificação de caractere existentes pelo Unicode e pelos esquemas padronizados de transformação Unicode (chamado Unicode Transformation Format, ou UTF). Seu desenvolvimento é feito em conjunto com a Organização Internacional para Padronização (ISO) e compartilha o repertório de caracteres com o ISO/IEC 10646: o Conjunto Universal de Caracteres (UCS). Ambos funcionam equivalentemente como codificadores de caracteres, mas o padrão Unicode fornece muito mais informação para implementadores, cobrindo em detalhes tópicos como ordenação alfabética e visualização.

Seu sucesso em unificar conjuntos de caracteres levou a um uso amplo e predominante na internacionalização e localização de programas de computador. O padrão foi implementado em várias tecnologias recentes, incluindo XML, Java e sistemas operacionais modernos.

Visão geral

Mais informação Data de lançamento, Versão ...
Histórico de revisões
Data de lançamentoVersãoISBNSistemas de escritaCódigos
outubro de 19911.0ISBN 0-201-56788-1247.161
junho de 19921.0.1ISBN 0-201-60845-62528.359
junho de 19931.12434.233
julho de 19962.0ISBN 0-201-48345-92538.950
maio de 19982.12538.952
setembro de 19993.0ISBN 0-201-61633-53849.259
março de 20013.14194.205
março de 20023.24595.221
abril de 20034.0ISBN 0-321-18578-15296.447
março de 20054.15997.720
julho de 20065.0ISBN 03214809106499.089
abril de 20085.175100.713
outubro de 20095.290107.361
outubro de 2010 6.0 ISBN 978-1-936213-01-6 93 109.449
setembro de 2012 6.2 ISBN 978-1-936213-07-8 100 100.181
setembro de 2013 6.3 ISBN 978-1-936213-08-5 100 110.187
junho de 2014 7.0 ISBN 978-1-936213-09-2 123 113.021
junho de 2015 8.0 ISBN 978-1-936213-10-8 129 120.737
junho de 2016 9.0 ISBN 978-1-936213-13-9 135 128.237
junho de 2017 10.0 ISBN 978-1-936213-16-0 139 136.755
junho de 2018 11.0 ISBN 978-1-936213-19-1 146 137.439
março de 2019 12.0 ISBN 978-1-936213-22-1 150 137.993
Fechar

O Unicode possui o objetivo explícito de transcender as limitações de codificações de carácter tradicionais, como as definidas pelo padrão ISO 8859, que possuem grande uso em vários países mas que permanecem em sua maioria incompatíveis umas com as outras. Várias codificações de carácter tradicionais compartilham um problema comum, ao permitirem processamento bilíngue (geralmente usando caracteres romanos e a língua local), mas não processamento multilíngue (processamento de línguas arbitrárias misturadas umas com as outras).

O Unicode codifica os caracteres em si - grafemas e unidades tais como grafemas - em vez de codificar glifos variantes para tais caracteres. No caso de caracteres chineses, essa estratégia geralmente leva a controvérsias quanto à distinção entre um caractere e seus glifos variantes.

Na área de processamento de texto, o Unicode possui o papel de fornecer um único código - um número e não um glifo - para cada carácter. Em outras palavras, o Unicode representa um carácter em uma forma abstrata e deixa questões sobre renderização (como tamanho, forma, fonte ou estilo) para outro software, como um navegador ou um editor de texto. Esse simples objetivo torna-se complicado pelas concessões feitas pelos desenvolvedores do padrão a fim de encorajar uma adoção mais rápida.

Os 256 primeiros códigos Unicode são idênticos aos do padrão ISO 8859-1, de forma que é trivial converter texto ocidental existente. Diversos caracteres idênticos foram codificados múltiplas vezes em diferentes códigos para preservar distinções usadas por codificações legadas, permitindo assim a conversão de tais codificações para Unicode e vice versa, sem perder qualquer informação. Da mesma forma, enquanto o Unicode permite combinar caracteres, ele também codifica versões pré-compostas da maioria das combinações mais comuns de letra/diacrítico. Por exemplo, o carácter "é" pode ser representado por U+0065 (letra latina "e" minúsculo) combinado com U+0301 (diacrítico "acento agudo"), mas também pode ser representado como U+00E9 (letra latina "e" com diacrítico "acento agudo").

O padrão ainda inclui outros itens relacionados, como propriedades de caracteres, formas de normalização de texto e ordem bidirecional de visualização (para a correta visualização de texto lido da direita à esquerda, como em língua árabe ou hebraica).

Quando se escreve sobre um carácter Unicode, normalmente se usa-se "U+" seguido de um número hexadecimal que indica o código do carácter.

Origem e desenvolvimento

Entre 1986 e 1987, iniciou-se na Xerox o trabalho de construção de um banco de dados para mapear o relacionamento entre caracteres idênticos dos alfabetos japonês, chinês tradicional e chinês simplificado, a fim de construir uma fonte tipográfica para caracteres chineses estendidos. O grupo de funcionários envolvidos incluía Huan-mei Liao, Nelson Ng, Dave Opstad e Lee Collins. Até então, os utilizadores da Xerox usavam JIS para estender o conjunto original de caracteres chineses. Na mesma época, na Apple Inc. se iniciou a discussão sobre um conjunto universal de caracteres. O grupo da Xerox começa uma discussão sobre questões multilíngues com Mark Davis, da Apple. Já em dezembro de 1987 é registrado o primeiro uso documentado do termo "Unicode".

A partir de 1988 começam discussões sobre uma largura fixa ou variável de bytes para a representação dos códigos, e uma das primeiras propostas é o sistema de Davis com uma largura fixa de 16 bits com o nome "High Text", em oposição a "Low Text" para o padrão ASCII. Nos estudos são levados em conta comparações entre o acesso de texto em largura fixa e variável, investigações sobre os requisitos para se utilizar 16 bits em sistemas computacionais e uma estimativa inicial de contagem de todos os caracteres existentes, para definir se 16 bits seriam mesmo o suficiente.[4]

Em abril, os primeiros protótipos começaram a ser construídos na Apple, decidindo-se incorporar suporte ao padrão no TrueType, o padrão de fontes tipográficas da empresa.

Em janeiro de 1989 a Metaphor decide implementar uma codificação 16-bit para suportar internacionalização em seu conjunto de software. Nos meses seguintes, as freqüentes reuniões do grupo Unicode contam com a presença de representantes de empresas como Metaphor, Sun, Adobe, HP e NeXT. Tais reuniões evoluíram até o comitê técnico do Unicode, com a formação da Unicode Consortium dois anos após.

Em setembro, o grupo decide usar padrões ISO já existentes para ordenações de sistemas de escrita e nomeação de esquemas. No mês seguinte, o padrão é apresentado para a Microsoft e a IBM, em conjunto com a cooperação entre Apple e Microsoft com o TrueType. O padrão também foi apresentado ao grupo de internacionalização do Unix.

A partir do início de 1990, a Microsoft começa a participar das reuniões do Unicode. Em junho é a vez da IBM começar a participar mais ativamente. No mesmo ano é iniciado o trabalho para a formação de um consórcio ao padrão. Em 3 de janeiro de 1991 a Unicode Consortium é fundada, como Unicode, Inc. na Califórnia, Estados Unidos. No dia 25 é realizada a primeira reunião dos membros, e ainda em janeiro é formado o comitê técnico Unicode. No mês seguinte, um dos primeiros artigos sobre o Unicode aparece no New York Times.[5] Atualmente, qualquer empresa ou pessoa disposta a pagar os custos de associação pode se tornar membro da organização; os membros incluem, virtualmente, todas as principais empresas de software e hardware interessadas em padrões de processamento de texto, tais como Adobe Systems, Apple, Google, HP, IBM, Microsoft e Xerox. Outras instituições incluem a Universidade de Berkeley, o governo da Índia e o governo do Paquistão.[6]

Sistemas de escrita suportados

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.