Unicode(ユニコード)は、符号化文字集合文字符号化方式などを定めた、文字コードの業界標準規格文字集合(文字セット)が単一の大規模文字セットであること(「Uni」という名はそれに由来する)などが特徴である。

従来、各国の標準化団体あるいは各コンピュータメーカーによって独自に開発されていた個々の文字コードの間には互換性がなかった[1]ISO/IEC 2022のように複数の文字コードを共存させる方法も考案されたが、例えば日本語の漢字と中国語の漢字のように、文字が重複する短所がある。一方Unicodeは、微細な差異はあっても本質的に同じ文字であれば一つの番号を当てる方針で各国・各社の文字コードの統合を図った規格である[1]1980年代に、Starワークステーションの日本語化(J-Star)などを行ったゼロックスが提唱し、マイクロソフトAppleIBMサン・マイクロシステムズヒューレット・パッカードジャストシステムなどが参加するユニコードコンソーシアムにより作られた。国際規格のISO/IEC 10646とUnicode規格は同じ文字コード表になるように協調して策定されている[2]

概要

Unicodeは世界で使われる全ての文字を共通の文字集合にて利用できるようにしようという考えで作られ、UnixWindowsmacOSPlan 9[注釈 1]などの様々なオペレーティングシステムでサポートされている。Java.NETのようなプログラミング環境でも標準的にサポートされている。現代の文字だけでなく古代の文字や歴史的な文字、数学記号、絵文字なども含む[3]

Unicode以前の文字コードとの相互運用性もある程度考慮されており、歴史上・実用上の識別が求められる場合には互換領域がとられ、元のコード→Unicode→元のコードというような変換(ラウンドトリップ変換)において、元通りに戻るよう配慮されている文字もある。しかし、正規のJIS X 0208の範囲内であればトラブルは少ないが、複数の文字集合が混在していたり、文字集合の亜種ごとにマッピング(対応づけ)が異なる文字(機種依存文字)を含んでいたりする場合[注釈 2]、変換テーブルによるマッピングが不可逆変換となり文字化けを起こすことがある。

Unicode文字符号化モデル

要約
視点

文字コードは、Unicode文字符号化モデル[4]によると以下の4段階に分けられる:

抽象文字集合 (ACR)
符号化の対象とする順序のない文字の集合。
符号化文字集合 (CCS)
抽象文字集合を非負整数に対応させたもの。この非負整数の範囲を符号空間、各値を符号位置 (コードポイント) といい、抽象文字は対応後、符号化文字となる[5]。抽象文字は複数の符号化文字に対応されることもある[6]
文字符号化形式 (CEF)
符号化文字集合の非負整数を符号単位列に変換する方法。文字符号化形式はコンピュータ中に実際にデータとして文字を表現することを可能にする。
文字符号化方式 (CES)
符号単位列をバイト列に直列化する方法。符号単位が8ビットより大きい場合はエンディアンが関係する。

その後、バイト列を、gzipなどで圧縮したり、7ビット伝送路に通すためにBase64Quoted-printableなどで変換したりすることがあるが、これらは文字コードの管轄範囲外である。

文字集合

Unicodeの文字集合の符号空間は0 - 10FFFF16で111万4,112の符号位置がある[7]。Unicode 16.0(2024年9月10日公表)では15万4,998個1 (13.9%) の文字[注釈 3]が割り当てられ、65個を制御文字に使い、15万4,537符号位置 (13.8%) を私用文字として確保している。また、2,048文字分をUTF-16のための代用符号位置に使用しており、加えて66の特別な符号位置は使われない。残りの80万2,463符号位置 (72%) は未使用である[8]

文字を特定する場合にはUnicode符号位置や一意につけられた名前が使われる。例えば、アルファベット小文字の「a」はU+0061 (LATIN SMALL LETTER A)、八分音符「♪」はU+266A (EIGHTH NOTE) である。Unicode符号位置を文章中などに記す場合は "U+" の後に十六進法で符号位置を4桁から6桁続けることで表す。また、符号空間のうち代用符号位置を除く符号位置をUnicodeスカラ値という[9]

収録されている文字は、各国で標準として規定されている文字集合や実際に使用されている文字を持ち寄り、委員会により取捨選択されている。日本の文字については当初よりJIS X 0201JIS X 0208JIS X 0212を、Unicode 3.1からはJIS X 0213の内容も収録している。

また収録において、元の各文字集合内で分離されている文字は尊重するが、異なる文字集合に同一の文字が収録されているとみなされるものは、同じ符号位置に割り当てる方針を取っている。この際に集合が膨大であるという理由で、漢字について、中国日本韓国の各規格の漢字を統合CJK統合漢字としたことは大きな議論となった。

現在では独自創作の絵文字の追加等、当初の目的である「各国・各社の文字コードの統合」から外れた動きも進んでいる。

Unicodeに収録されている文字については、「ブロックの一覧」を参照。

文字符号化形式

Unicodeでは文字符号化形式としてUTF-8UTF-16UTF-32の3種類が定められている。

UTF-8は1符号化文字を1〜4符号単位で表す可変幅文字符号化形式で、1符号単位は8ビットである。

UTF-16は1符号化文字を1〜2符号単位で表す可変幅文字符号化形式で、1符号単位は16ビットである。基本多言語面の文字を符号単位一つで、その他の文字をサロゲートペア(代用対)という仕組みを使い符号単位二つで表現する。

UTF-32は1符号化文字を1符号単位で表す固定幅文字符号化形式で、1符号単位は32ビットである。ただし、Unicodeの符号空間がU+10FFFFまでであるため、実際に使われるのは21ビットまでである。

さらに見る UTF-8, UTF-16 ...
各文字符号化形式の符号化例
00 01 02 03 04 05 06 07 08 09 0A 0B 0C 0D 0E 0F
UTF-8 A Ω 😊
41 CE A9 E8 AA 9E F0 9F 98 8A
UTF-16 A Ω 😊
0041 03A9 8A9E D83D DE0A
UTF-32 A Ω 😊
00000041 000003A9 00008A9E 0001F60A
閉じる

文字符号化方式

要約
視点
さらに見る 文字符号化形式 (CEF), 文字符号化方式 (CES) ...
文字符号化形式
(CEF)
文字符号化方式
(CES)
UTF-8UTF-8
UTF-16UTF-16
UTF-16BE
UTF-16LE
UTF-32UTF-32
UTF-32BE
UTF-32LE
閉じる

Unicodeでは文字符号化方式としてUTF-8UTF-16UTF-16BEUTF-16LEUTF-32UTF-32BEUTF-32LEの7種類が定められている。それぞれの符号化形式に対応する符号化方式は表の通り。

文字符号化形式との違いは、文字符号化形式がプログラム内部で文字を扱う場合に符号なし整数として文字を表現する方法なのに対し、文字符号化方式は入出力時にバイト列として表現する方法である。UTF-8は符号単位が8ビットであるため区別する意味はない。

さらに見る 文字符号化方式 (CES), エンディアン ...
文字符号化方式
(CES)
エンディアンBOMの付与
UTF-8N/A
UTF-16ビッグ/リトル
UTF-16BEビッグエンディアン不可
UTF-16LEリトルエンディアン不可
UTF-32ビッグ/リトル
UTF-32BEビッグエンディアン不可
UTF-32LEリトルエンディアン不可
閉じる
UTF-8
可変長(1-4バイト)の8ビット符号単位で表現する文字符号化方式。ASCIIに対して上位互換となっており、文字の境界が明確である、UTF-16符号化方式やUTF-32符号化方式との変換・逆変換に際して乗除算などの高負荷処理が必要ない、などの特長を持ち、インターネットではもっとも一般的に利用されている。
なお、UTF-8はもともと8ビットを符号単位とするためバイト順マーク(BOM;後述)は必要ないが、UTF-8であることが識別できるよう、データストリームの先頭に EF BB BF(U+FEFFのUTF-8での表現)の3バイトが付与されることがある。UTF-8のBOMはバイト順を表すものではなく、UTF-16符号化方式等における「真の意味でのBOM」と同じコードポイントを利用しているがゆえに慣用的にこう呼ばれているに過ぎない。UTF-8でのBOMの使用は非推奨[10]
UTF-16
UTF-16符号化方式では、通常はファイルの先頭にバイト順マーク (BOM) が付与される。BOMとは、通信やファイルの読み書き等、8ビット単位の処理でバイト順を識別するための印であり、データストリームの先頭に付与される。値はU+FEFF。システムが読み込んだ先頭2バイトが FF FEならリトルエンディアン、FE FFならビッグエンディアンとして後に続く文書を処理する。
RFC 2781 ではBOMが付いていないUTF-16文書はビッグエンディアンとして解釈することになっている。Microsoft Windowsのメモ帳で作成した「Unicodeテキスト」はBOMが付与されるようになっている。ビッグエンディアンの符号化方式をUTF-16BE、リトルエンディアンの符号化方式をUTF-16LEとして区別することもある。プロトコルもしくはアプリケーションの設定などの手段で符号化方式にUTF-16BEUTF-16LEを指定している場合にはBOMを付与することは許容されない。Windows上の文書における「Unicodeテキスト」は特に明記のない場合、リトルエンディアンのUTF-16符号化方式のことを指す。TCP/IPネットワークでは、プロトコルヘッダやMIME等の手段で符号化方式が指定されずBOMも付与されない場合、ビッグエンディアンとして扱うと決められている。
UTF-32
UTF-32符号化方式でもUTF-16符号化方式と同じく、ビッグエンディアンとリトルエンディアンが存在し、それぞれUTF-32BEUTF-32LEと呼ばれる。プロトコルもしくはアプリケーションの設定などの手段で符号化方式にUTF-32BEUTF-32LEを指定している場合にはBOMを付与することは許容されない。
単純な符号化方式であるが、テキストファイルなどではファイルのサイズが大きくなる(すべてBMPの文字からなる文章の場合はUTF-16符号化方式の2倍、すべてASCII文字の場合はASCII/UTF-8の4倍のサイズとなる)ため、ストレージ用として使われることは稀である。そのためか、Microsoft Officeでの「エンコードされたテキストファイル」の読み書きでは、Office 2016 でもいまだに符号化方式には対応していない。フリーウェアシェアウェアテキストエディタのうち多数の符号化方式に対応しているものでも、この符号化方式には対応していないものが存在する。
ただし、すべてのUnicode文字を処理する場合には、すべての文字を単一の符号単位で表現したほうが処理に適するため、内部の処理ではUTF-32符号化形式(あるいはUCS-4)で扱うこともある。実例として、Linux 上のC言語環境では wchar_t は32ビット整数型である。
UTF-16符号化方式などと同様にUTF-32符号化方式にもBOMがあり、データストリームの先頭に付される。先頭の4バイトがFF FE 00 00ならリトルエンディアン、00 00 FE FFならビッグエンディアンになる。UTF-16のリトルエンディアンとUTF-32のリトルエンディアンは最初の2バイトが等しいため、4バイトまで読んで判断する必要がある。
さらに見る UTF-8, UTF-16BE ...
各文字符号化方式の符号化例
UTF-8 A Ω 😊
41 CE A9 E8 AA 9E F0 9F 98 8A
UTF-16BE A Ω 😊
00 41 03 A9 8A 9E D8 3D DE 0A
UTF-16LE A Ω 😊
41 00 A9 03 9E 8A 3D D8 0A DE
UTF-32BE A Ω 😊
00 00 00 41 00 00 03 A9 00 00 8A 9E 00 01 F6 0A
UTF-32LE A Ω 😊
41 00 00 00 A9 03 00 00 9E 8A 00 00 0A F6 01 00
閉じる

その他

UTF-7
UTF-16で表したUnicodeをBase64で変換して表す符号化方式。ただし、ASCIIのアルファベット範囲等についてはBase64に変換しない等、特殊な符号化方式を行う。RFC 2152で定められており、Unicode規格及びUnicodeの関連規格には含まれない。かつてのSMTP等のように、7ビット単位でしかデータを扱えない通信方式を利用する場合を想定して作られている。ステートフルエンコーディングであり、運用上問題が多いため、現在ではこの方式は推奨されていない。Unicode文字を7ビット単位伝送通信にどうしても通さなければならない場合は、替わりにUTF-8をQuoted-printableあるいはBase64で変換するなどの方式が好ましい。


以下はエイプリルフールに公開されたジョークRFCである (RFC 4042)。UTF-9に関しては同名の規格が実際に検討されていた(ただし、内容は大きく異なる)が、ドラフト段階で破棄されているため重複にはならない。

UTF-9
可変長の9ビット符号単位で表現する符号化方式。1バイト8ビットオクテット)ではなく9ビット(ノネット)であるような環境での利用を想定している。UTF-8と比較した場合、Latin-1領域が1バイト、CJK統合漢字領域が2バイトで表現できる特長があり、データ量が少なくなる。ワード長が9の倍数のコンピュータ(PDP-10ACOS-6など)であれば計算コストも低い。
UTF-18
Unicode符号位置を単一の18ビット符号単位で表現する符号化方式。UTF-8に対するUTF-16のようなものだが、RFC公開時点のUnicodeで文字が定義されていた4つの(BMP、U+1xxxx、U+2xxxx、U+Exxxx)を余った2ビットで識別するため、代用符号位置は使わない。

以下はドラフト段階で破棄された規格案。

UTF-5
国際化ドメイン名での利用を想定し、0-9、A-Vの32文字で表現する文字符号化方式。国際化ドメイン名にはPunycodeが採用されたため、利用されていない。
UTF-9
可変長(1-5バイト)の8ビット符号単位で表現する文字符号化形式または文字符号化方式。ISO-8859-1に対して一部互換である。しかし、UTF-8が普及しつつあり、それと比べて欠点がいくつかあったため、破棄された。

拡張領域

要約
視点

1980年代の当初の構想では、Unicodeは16ビット固定長で、216 = 6万5,536 個の符号位置に必要な全ての文字を収録する、というもくろみであった。しかし、Unicode 1.0公表後、拡張可能な空き領域2万字分を巡り、各国から文字追加要求が起こった。その内容は中国、日本、台湾、ベトナム、シンガポールの追加漢字約1万5千字、古ハングル約5千字、未登録言語の文字などである。このようにしてUnicodeの、16ビットの枠内に全世界の文字を収録するという計画は早々に破綻し、1996年のUnicode 2.0の時点で既に、文字集合の空間を16ビットから広げることが決まった。この時、それまでの16ビットを前提としてすでに設計されていたシステム(たとえばJavachar型や、Windows NTWindows 95のAPI)をなるべくそのままにしたまま、広げられた空間にある符号位置を表現する方法として、サロゲートペアが定義された。

サロゲートペア

サロゲートペア(代用対)は16ビットUnicodeの領域1,024文字分を2つ使い(前半 U+D800 〜 U+DBFF、後半 U+DC00 〜 U+DFFF)、各々1個ずつからなるペアで1,024 × 1,024 = 1,048,576文字を表す。これはちょうど16面分であり、第1面〜第16面(U+010000 〜 U+10FFFF)の文字をこれで表すこととした。加えて第0面(基本多言語面)も使用可能なので、Unicodeには合計で 1,048,576 + 65,536 - 2,048 = 111万2,064文字分の空間が確保されたことになる。Unicodeの符号空間が10FFFF16まで(サロゲート領域を除いて111万2,064文字)とされているのはUTF-16が表現可能な限界だからである。

サロゲートはUnicodeの符号位置の U+010000 〜 U+10FFFF の範囲を16ビットユニットのペア(2つ)で表現する集合で、最初の16ビットユニットを前半サロゲートもしくはハイサロゲート、二番目を後半サロゲートもしくはローサロゲートと称する。ハイサロゲートは U+D800 〜 U+DBFF の範囲、ローサロゲートは U+DC00 〜 U+DFFF の範囲である。

サロゲートペアはUTF-16でのみ使われ[11]、UTF-8、UTF-32ではすべての符号位置を符号化できるためこのような特別な処理は必要ない。

コーディング

サロゲートのエンコーディングは、符号位置を 、ハイサロゲートを 、ローサロゲートを とすると次の通りに計算する。

デコーディングは、

である。

コード変換例
𠮷[注釈 4]」U+20BB7 のエンコードを考えてみる。
から
を引くと、結果は
となる。
これを上位10ビット値と下位10ビット値に分割する。
ハイ(上位)サロゲートを形成するために上位ビットに を加える。
ロー(下位)サロゲートを形成するために下位ビットに を加える。
結果
(UTF-16 符号単位列)
(UTF-16BEでの符号化バイト列)
(UTF-16LEでの符号化バイト列)

次の表は、この文字変換と他をまとめたものである。 色は、コードポイントからのビットがUTF-16バイトにどのように分配されるかを示した。 なお、UTF-16エンコーディングプロセスによって追加された追加ビットは黒で示されている。

さらに見る 文字 (符号位置), 符号位置(2進数) ...
文字
(符号位置)
符号位置(2進数) UTF-16
符号単位列(2進数)
UTF-16
符号単位列
UTF-16BE
符号化バイト列
UTF-16LE
符号化バイト列
$U+0024 0000 0000 0010 0100 0000 0000 0010 0100 0024 00 24 24 00
[注釈 5]U+20AC 0010 0000 1010 1100 0010 0000 1010 1100 20AC 20 AC AC 20
𠮷[注釈 4]U+20BB7 0010 0000 1011 1011 0111 1101 1000 0100 0010 1101 1111 1011 0111 D842 DFB7 D8 42 DF B7 42 D8 B7 DF
最大値U+10FFFF 1 0000 1111 1111 1111 1111 1101 1011 1111 1111 1101 1111 1111 1111 DBFF DFFF DB FF DF FF FF DB FF DF
閉じる

要約
視点

一つの面は6万5536個の符号位置がある。

さらに見る 面, 符号位置 ...
符号位置英語での名称略称日本語での名称収録されている主な文字
第0面 U+0000 - U+FFFFBasic Multilingual PlaneBMP基本多言語面基本的な文字。
第1面 U+10000 - U+1FFFFSupplementary Multilingual PlaneSMP追加多言語面古代文字や記号・絵文字類など。
第2面 U+20000 - U+2FFFFSupplementary Ideographic PlaneSIP追加漢字面漢字専用領域。
第3面 U+30000 - U+3FFFFTertiary Ideographic PlaneTIP第三漢字面追加漢字面に入りきらなかった漢字。また、将来的には古代漢字や甲骨文字などが収録される予定[注釈 6]
第4面 U+40000 - U+4FFFF未使用(将来どのような目的で使用するのかすら決まっていない)。
第5面 U+50000 - U+5FFFF
第6面 U+60000 - U+6FFFF
第7面 U+70000 - U+7FFFF
第8面 U+80000 - U+8FFFF
第9面 U+90000 - U+9FFFF
第10面 U+A0000 - U+AFFFF
第11面 U+B0000 - U+BFFFF
第12面 U+C0000 - U+CFFFF
第13面 U+D0000 - U+DFFFF
第14面 U+E0000 - U+EFFFFSupplementary Special-purpose PlaneSSP追加特殊用途面制御コード専用領域。
第15面 U+F0000 - U+FFFFFPrivate Use PlanePUP私用面BMPの U+E000 - U+F8FF の領域の拡張。
第16面 U+100000 - U+10FFFF
閉じる

日本では2000年にJIS X 0208を拡張する目的でJIS X 0213(いわゆるJIS第3・第4水準)が制定されたが、この際、新たに採用された文字でUnicodeになかったものの一部は、BMPに収録できず、第2面への収録となった(Unicodeが最終的にJIS X 0213への対応を完了したのは2002年である)。このため、JIS X 0213収録文字をUnicodeで完全にサポートするには、追加漢字面をサポートしたOSフォントアプリケーションが必要となる。Shift_JISなど、Unicodeにて規定されるもの以外のエンコーディングを利用する場合であっても、JIS X 0213に対応するフォントやアプリケーションが必要である。

常用漢字2010年改定で追加された字のうち𠮟はU+20B9Fで、追加漢字面に含まれる。そのため、改定後の常用漢字完全サポートを謳う場合、Unicodeに対応していて更にこの拡張領域にも対応している必要があると言える。ただ、現状ではこの字は、JIS X 0208に含まれる(=当然、Unicode策定当初からBMPに収録されている)異体字の「叱」(U+53F1) で代用されることが多い。

歴史

要約
視点

1984年、ISOの文字コード規格委員会 (ISO/TC 97/SC2) は文字セットの切り替えを行わずに世界中の文字を単一の文字集合として扱える文字コード規格 (ISO 10646) を作成することを決定し、専門の作業グループ (ISO/TC 97/SC 2/WG 2) を設置し、作業を始めていた。1980年代後半にはこの作業グループにおいてさまざまな提案が検討されている。1990年になって出来あがったISO/TC 97/SC 2/WG 2作成のISO 10646の初版ドラフト(DIS 10646#DIS 10646第1版)では、漢字コードは32ビットで表現され、各国の漢字コードはそのまま入れることになった。しかし中国は漢字を各国でばらばらに符号化するのではなく、あくまで統一して扱うことを求めてこのドラフトには当初から反対しており、今後の漢字コードの方針を決めるため、WG 2は CJK-JRG (Joint Research Group) と呼ばれるグループを別途設置し、そこで引き続き検討することにした。

このような公的機関の動きとは別に、1987年頃からXeroxのJoe BeckerとLee Collinsは、後にUnicodeと呼ばれるようになる、世界中の文字を統一して扱える文字コードを開発していた。1989年9月には「Unicode Draft 1」が発表された。ここではその基本方針として、2オクテット(16ビット)固定長で全ての文字を扱えることを目指しており、そのために日本・中国・韓国の漢字を統一することで2万弱の漢字コードを入れ、さらに将来の拡張用に、3万程度の漢字の空き領域が別に用意されていた。このドラフトは少しずつ改良を加えられながら1990年4月にUnicode Draft 2、同年12月Unicode Final Draftとなった。さらに1991年1月にはこのUnicode Final Draftに賛同する企業によって、ユニコードコンソーシアムが設立された。

1991年6月、ISO/IEC 10646による4オクテット固定長コードを主体としたドラフト「DIS 10646第1版」は、2オクテット固定長コードであるUnicodeとの一本化を求める各国により否決され、ISO 10646とUnicodeの一本化が図られることになった。また中国およびユニコードコンソーシアムの要請により、CJK-JRGにおいて、ISO 10646とUnicodeの一本化が図られることになった。CJK-JRGは各国の漢字コードに基づき独自の統合規準を定め、ISO 10646 / Unicode用の統合漢字コード表を作成することになった。CJK-JRGの会合は第1回が7月22日から24日にかけて東京で、第2回の会合が9月17日から19日にかけて北京で、第3回が11月25日から29日にかけて香港で開催された。これらの討議の結果、1991年末になって「ISO 10646=Unicode」用の統合漢字コード表が Unified Repertoire and Ordering (URO) の第1版として完成した。

Unicodeの最初に印刷されたドキュメントであるUnicode 1.0は、統合漢字表の完成に先行して漢字部分を除いたUnicode 1.0, Vol.1が1991年10月に出版され、後に1992年になって漢字部分だけのUnicode 1.0, Vol.2が出版された。

1992年、CJK統合漢字URO第二版が完成し、これを取り込んだ(ただし、UROには若干の間違いが発見されており、それらの修正が行われている。)DIS 10646第2版が、5月30日の国際投票で可決された。

1993年5月1日 「ISO/IEC 10646-1: 1993 Universal Multiple-Octet Coded Character Set (UCS) -- Part 1: Architecture and basic Multilingual Plane」が制定される。同年翌6月にUnicode 1.0は ISO/IEC 10646-1:1993にあわせた変更を行いUnicode 1.1となり、以後UnicodeとISO/IEC 10646とは歩調を合わせて改訂されていくことになる。

Unicodeのバージョン

Unicodeのバージョンは、メジャーバージョン (the major version)、マイナーバージョン (the minor version)、アップデートバージョン (the update version) の3つの部分から構成され、ピリオドでつなげて表示される[12]。ただし、マイナーバージョン及びアップデートバージョンについては0の場合には省略して表示されることもある。メジャーバージョンはレパートリーの追加のような重要な変更が行われたときに改定される。Unicodeのドキュメントは書籍形態と電子版ドキュメント形態の両方で公表され、どちらもUnicodeについての正式なドキュメントであるとされている。新たなバージョンがリリースされたときは新たなドキュメントが公表されるが、書籍として刊行されるのはメジャーバージョンが改定された場合および重要なマイナーバージョンの改定があった場合のみである。書籍版のバージョン1.0は、2巻に分けて刊行され、統合漢字部分を除いた第1巻は1991年10月に、統合漢字部分の第2巻は1992年6月に刊行された。そのため第1巻のみのものをUnicode 1.0.0、第2巻を含めたものをUnicode 1.0.1と呼ぶことがある。

各バージョンとその特徴

Unicodeのそれぞれのバージョン番号とその制定年月日、収録文字数他の特徴は以下の通りである。

さらに見る 制定年月日, バージョン番号 ...
制定年月日バージョン番号収録文字数概要日本語における主要な追加文字
1991年10月Unicode 1.0.0

[13]

7,161初期バージョン、16ビットの文字コードJIS X 0201
1992年6月Unicode 1.0.1

[14]

28,359CJK統合漢字を導入JIS X 0208JIS X 0212
1993年6月Unicode 1.1.0

[15]

34,233ISO/IEC 10646-1:1993にあわせ変更
1993年7月Unicode 1.1.5

[16]

1996年7月Unicode 2.0.0

[17]

38,950ISO/IEC 10646-1:1993の追補Amd.1からAmd.7に対応。ハングルの大移動を行いUnicode1.xとの互換性を失う (Amd.5)、サロゲートペア(代用対)を導入し追加面を可能にして収容可能な文字を大幅に増やす、21ビット領域に拡張 (Amd.1)
1998年5月Unicode 2.1.0

[18]

38,952ユーロ記号と正誤表を追加
1998年5月Unicode 2.1.2

[19]

1998年8月Unicode 2.1.5

[20]

1998年10月Unicode 2.1.8

[21]

1999年4月Unicode 2.1.9

[22]

1999年9月Unicode 3.0.0

[23]

49,259ISO/IEC 10646-1:2000が発行されるまでの追補Amd.8からAmd.31の文字すべてに対応。CJK統合漢字拡張Aで漢字6582字を追加 (Amd.17)JIS X 0213の一部(地名や人名などに用いられる漢字)
2000年8月Unicode 3.0.1

[24]

2001年3月Unicode 3.1.0

[25]

94,205ISO/IEC 10646-2:2001に対応。BMP以外の拡張。CJK統合漢字拡張Bで漢字42711字を追加JIS X 0213の一部(地名や人名などに用いられる漢字)
2001年8月Unicode 3.1.1

[26]

2002年3月Unicode 3.2.0

[27]

95,221ISO/IEC 10646-1:2000の追補Amd.1に対応JIS X 0213(正式対応)
2003年4月Unicode 4.0.0

[28]

96,447ISO/IEC 10646:2003に対応
2004年5月Unicode 4.0.1

[29]

2005年3月31日Unicode 4.1.0

[30]

97,720ISO/IEC 10646:2003の追補Amd.1に対応
2006年7月14日Unicode 5.0.0

[31]

99,089 ISO/IEC 10646:2003の追補Amd.2とシンド語(Amd.3に含まれる)に対応
2008年4月4日

[32]

Unicode 5.1.0 100,713 ISO/IEC 10646:2003の追補Amd.3とAmd.4に対応。異体字セレクタを漢字に対して使い始める

[33]

麻雀牌、割り算の筆算(長除法)の記号、電話機の星印Adobe-Japan1-6の漢字字形

[34]

2009年10月1日 Unicode 5.2.0

[35]

107,361 ISO/IEC 10646:2003の追補Amd.6までに対応 ARIB外字
2010年10月11日 Unicode 6.0.0

[36]

109,449 ISO/IEC 10646:2010 携帯電話の絵文字
2012年1月31日 Unicode 6.1.0

[37]

110,181 ISO/IEC 10646:2012
2012年9月26日 Unicode 6.2.0

[38]

110,182 新トルコリラの通貨記号の追加など
2013年9月30日 Unicode 6.3.0

[39]

110,187
2014年6月16日 Unicode 7.0.0

[40]

113,021 ISO/IEC 10646:2012の追補Amd.1とAmd.2に対応。ルーブルアゼルバイジャン・マナトの通貨記号、北米・中国・インド・アフリカの言語のための歴史的なスクリプトの追加。 約250字の絵文字の追加。
2015年6月17日 Unicode 8.0.0

[41]

120,737 ISO/IEC 10646:2014の追補Amd.1に対応。 U+301C WAVE DASHの修正(後述)
2016年6月21日 Unicode 9.0.0

[42]

128,172 ISO/IEC 10646:2014の追補Amd.2に対応。 91個の絵文字の追加、4KTV放送用シンボル19個の追加
2017年6月20日 Unicode 10.0.0

[43]

136,690 ISO/IEC 10646:2017 変体仮名285文字追加
2018年6月5日 Unicode 11.0.0 [44] 137,374 ISO/IEC 10646:2017の追補Amd.1に対応
2019年3月5日 Unicode 12.0.0 [45] 137,928 ISO/IEC 10646:2017の追補Amd.1とAmd.2に対応 小文字の「ゐ」「ゑ」「を」「ヰ」「ヱ」「ヲ」「ン」追加
2019年5月7日 Unicode 12.1.0 [46] 137,929 」(日本の元号「令和」の合字)追加
2020年3月10日 Unicode 13.0.0 [47] 143,859 ISO/IEC 10646:2020
2021年9月22日 Unicode 14.0.0 [48] 144,697 ISO/IEC 10646:2021 わ行う、ワ行うヤ行イヤ行エを追加
2022年9月13日 Unicode 15.0.0 [49] 149,186 ISO/IEC 10646:2022
2023年9月12日 Unicode 15.1.0 [50] 149,813 ISO/IEC 10646:2023
2024年9月10日 Unicode 16.0.0 [51] 154,998 ISO/IEC 10646:2024
閉じる

構成要素のバージョン

Unicodeのバージョンには、上記のような「Unicodeの規格全体に付けられたバージョン」の他に「Unicodeを構成する個々の要素の規格に付けられたバージョン」が存在する。これに該当するものとしては、Unicodeを構成する各面ごとに付けられたバージョンや、Unicodeに収録されないこととされたスクリプトのリスト (NOR = Not The Roadmap) に付けられたバージョン、規格の一部を構成するUnicode Technical Note(Unicode技術ノート)、Unicode Technical Report(Unicode技術報告)、Unicode Technical Standard(Unicode技術標準)のバージョンなどが存在する。

さらに見る 日付, 全体 ...
日付 全体[52] BMP[53] SMP[54] SIP[55] TIP[56] SSP[57] NOR[58]
1991年10月 1.0.0[13]
1992年6月 1.0.1[14]
1993年6月 1.1.0[15]
1993年7月 1.1.5[16]
1996年7月 2.0.0[17]
1998年5月 2.1.0[18]
1998年5月 2.1.2[19]
1998年8月 2.1.5[20]
1998年10月 2.1.8[21]
1999年4月 2.1.9[22]
1999年9月 3.0.0[23]
2000年8月 3.0.1[24]
2001年3月 3.1.0[25]
2001年8月 3.1.1[26]
2001年10月10日 3.0[59] 3.0[60] 3.0[61] 1.0[62]
2001年10月12日 3.1[63]
2001年10月27日 3.1[64]
2001年11月27日 3.0[65]
2002年1月22日 3.2[66] 3.1[67]
2002年1月29日 3.3[68]
2002年2月5日 3.4[69]
2002年3月 3.2.0[27]
2002年4月3日 3.2[70]
2002年4月4日 3.5[71]
2002年6月7日 3.6[72] 3.3[73]
2002年6月23日 3.7[74]
2002年10月2日 3.8[75]
2002年10月28日 3.9[76]
2002年11月11日 3.1[77]
2002年12月3日 3.10[78] 3.4[79]


3.5[80]

2002年12月11日 3.11[81]
2003年3月12日 3.12[82] 3.6[83]
2003年3月15日 3.7[84]
2003年4月 4.0.0[28]
2003年4月16日 4.0[85] 4.0[86] 4.0[87] 4.0[88] 4.0[89]
2003年5月4日 4.1[90]
2003年5月16日 4.1[91]
2003年6月18日 4.2[92] 4.1[93]
2003年7月15日 4.1[94]
2003年8月19日 4.3[95]
2003年9月11日 4.4[96] 4.2[97]
2003年9月20日 4.5[98]
2003年10月22日 4.6[99]
2003年10月31日 4.3[100]
2003年12月23日 4.7[101] 4.4[102]
2004年5月 4.0.1[29]
2004年5月27日 4.5[103]
2004年6月24日 4.8[104] 4.6[105]
2004年7月3日 4.7[106]
2004年12月1日 4.1[107]
2005年1月27日 4.2[108]
2005年1月28日 4.9[109] 4.8[110]
2005年3月31日 4.1.0[30] 4.10[111] 4.9[112]
2005年5月27日 4.10[113] 4.2[114]
2005年6月10日 4.11[115] 4.11[116]
2005年6月27日 4.12[117] 4.12[118] 4.3[119] 4.2[120] 4.3[121]
2005年8月1日 4.13[122] 4.13[123]
2005年9月6日 4.14[124]
2005年9月14日 4.15[125]
2005年9月17日 4.14[126]
2005年9月19日 4.16[127]
2005年12月8日 4.15[128]
2006年1月11日 4.17[129] 4.16[130]
2006年4月17日 4.18[131] 4.17[132] 4.4[133]
2006年4月28日 4.4[134]
2006年7月14日 5.0.0[31]
2006年9月21日 5.0[135] 5.0[136] 5.0[137] 5.0[138] 5.0[139]
2006年9月29日 5.0.1[140] 5.0.1[141]
2007年3月14日 5.0.1[142]
2007年4月11日 5.0.2[143] 5.0.2[144]
2007年5月5日 5.0.3[145] 5.0.3[146]
2007年7月24日 5.0.4[147] 5.0.4[148] 5.0.1[149]
2007年8月22日 5.0.5[150]
2007年8月29日 5.0.5[151]
2008年1月15日 5.0.6[152]
2008年1月31日 5.0.6[153]
2008年2月14日 5.0.7[154] 5.0.7[155]
2008年4月4日 5.1.0[32] 5.1.0[156] 5.1.0[157] 5.1.0[158] 5.1.0[159] 5.1.0[160]
2008年4月25日 5.1.1[161] 5.1.1[162] 5.1.0[163] 5.1.1[164]
2008年8月12日 5.1.2[165] 5.1.2[166]
2008年8月19日 5.1.3[167]
2008年10月17日 5.1.4[168] 5.1.3[169] 5.1.1[170]
2009年2月4日 5.1.5[171] 5.1.4[172]
2009年2月26日 5.1.1[173]
2009年4月22日 5.1.2[174]
2009年4月24日 5.1.5[175]
2009年10月1日 5.2.0[35] 5.2.0[176] 5.2.0[177] 5.2.0[178] 5.2.0[179] 5.2.0[180] 5.2.0[181]
2009年11月18日 5.2.1[182]
2010年2月5日 5.2.1[183]
2010年2月10日 5.2.2[184]
2010年2月23日 5.2.3[185]
2010年4月23日 5.2.2[186] 5.2.4[187]
2010年5月12日 5.2.5[188]
2010年6月24日 5.2.6[189]
2010年7月27日 5.2.7[190]
2010年10月11日 6.0.0[36] 6.0.0[191] 6.0.0[192] 6.0.0[193] 6.0.0[194] 6.0.0[195] 6.0.0[196]
2010年12月6日 6.0.1[197]
2011年1月9日 6.0.2[198]
2011年1月14日 6.0.1[199]
2011年1月27日 6.0.2[200] 6.0.3[201] 6.0.1[202] 6.0.1[203] 6.0.1[204] 6.0.1[205]
2011年3月18日 6.0.4[206]
2011年5月24日 6.0.5[207]
2011年6月23日 6.0.3[208] 6.0.6[209]
2011年8月1日 6.0.7[210]
2011年8月15日 6.0.8[211]
2011年8月24日 6.0.9[212]
2011年11月15日 6.0.10[213]
2011年11月29日 6.0.11[214]
2011年12月19日 6.0.2[215]
2012年1月6日 6.0.12[216]
2012年1月31日 6.1.0[37]
2012年2月1日 6.1.0[217] 6.1.0[218] 6.1.0[219] 6.1.0[220] 6.1.0[221] 6.1.0[222]
2012年2月15日 6.1.1[223]
2012年5月4日 6.1.2[224]
2012年7月30日 6.1.3[225]
2012年8月27日 6.1.4[226]
2012年9月13日 6.1.1[227] 6.1.5[228]
2012年9月26日 6.2.0[38]
2012年9月27日 6.2.0[229] 6.2.0[230] 6.2.0[231] 6.2.0[232] 6.2.0[233] 6.2.0[234]
2012年10月16日 6.2.1[235] 6.2.1[236]
2012年12月2日 6.2.2[237] 6.2.2[238]
2013年3月19日 6.2.3[239]
2013年5月4日 6.2.4[240]
2013年5月23日 6.2.5[241]
2013年7月24日 6.2.6[242]
2013年9月30日 6.3.0[39]
2013年10月28日 6.3.0[243] 6.3.0[244] 6.3.0[245] 6.3.0[246] 6.3.0[247] 6.3.0[248]
2014年2月19日 6.3.1[249] 6.3.1[250]
2014年6月16日 7.0.0[40]
2014年8月7日 7.0.0[251] 7.0.0[252] 7.0.0[253] 7.0.0[254] 7.0.0[255] 7.0.0[256]
2014年9月18日 7.0.1[257] 7.0.1[258] 7.0.1[259]
2014年10月24日 7.0.2[260] 7.0.2[261] 7.0.1[262]
2015年3月26日 7.0.2[263] 7.0.3[264]
2015年6月3日 7.0.3[265] 7.0.4[266]
2015年6月17日 8.0.0[41]
2015年6月26日 8.0.0[267] 8.0.0[268] 8.0.0[269] 8.0.0[270] 8.0.0[271] 8.0.0[272]
2015年8月17日 8.0.1[273]
2016年1月21日 8.0.1[274] 8.0.2[275] 8.0.1[276]
2016年2月3日 8.0.3[277] 8.0.1[278]
2016年5月3日 8.0.2[279]
2016年6月10日 8.0.4[280]
2016年6月21日 9.0.0[42]
2016年6月23日 9.0.0[281] 9.0.0[282] 9.0.0[283] 9.0.0[284] 9.0.0[285] 9.0.0[286]
2017年1月12日 9.0.1[287]
2017年5月24日 9.0.1[288]
2017年6月6日 9.0.2[289]
2017年6月20日 10.0.0[43]
2017年6月21日 10.0.0[290] 10.0.0[291] 10.0.0[292] 10.0.0[293] 10.0.0[294]
2017年6月29日 10.0.0[295]
2017年12月27日 10.0.1[296]
2018年1月10日 10.0.1[297] -
閉じる

Unicodeの諸問題

要約
視点

バージョンごとの非互換性

Unicodeは同一のコードでもバージョンが変わったとき完全に異なった文字を定義し直したことがある。

そのうち最大のものがUnicode 2.0での「ハングルの大移動」である。これはUnicode 1.1までで定義されていたハングルの領域を破棄し、新しいハングルの領域を別の位置に設定し、破棄された領域には別の文字の領域を割り当てることとなった。その後、Unicode 3.0では、従来ハングルが割り当てられていた領域にCJK統合漢字拡張A、ついでUnicode 4.0で六十四卦が割り当てられた。このように、Unicode 1.1以前でハングルを記述した文書とUnicode 2.0以降でCJK統合漢字拡張Aを記述した文書には互換性がない[注釈 7]。JCS委員長の芝野耕司はUnicodeに日本語の漢字を収録させる議論の中で、ハングル大移動について「韓国のとった滅茶苦茶な行動」と述べている[298]

日本語環境でのUnicodeの諸問題

YEN SIGN 問題

Shift JIS では JIS X 0201 における(日本中国通貨の)円記号 "¥" が 0x5C に置かれている。これを Unicode のマッピングに合わせると YEN SIGN (U+00A5) にマップされる。しかし、0x5C は ASCII ではバックスラッシュ "\" に相当し、C言語などでエスケープ文字として使われる事から、この文字のコードを変更すると問題が起きる。極端な例として、0x5C が円記号とエスケープ文字の両方の目的で使われているケース(たとえばC言語printf関数で printf("¥¥%d¥n", price); など)も考えられる。

そのため、Unicode を利用するアプリケーションでは、U+007F 以下のコードに関しては移動させないという暗黙のルールができている。

そうなると、Unicode 環境では円記号がバックスラッシュの表示に変わってしまうように思われるが、これは日本語用のフォントデータの 0x5C の位置には円記号の字形を当ててしまうことで対処している。これによって、日本語環境での表示上は 0x5C の位置で円記号を用いることができる。

この問題は日本語環境に限ったことではない。もともと ISO 646 上では、0x5C を含む数種の文字は自由領域(バリアント)として各国での定義を認めていた。そのため、日本語以外でも ASCII でバックスラッシュに相当するコードに異なる記号を当てているケースが多い。例えば、韓国では通貨のウォン記号 (WON SIGN, U+20A9, "")、デンマークノルウェーではストローク付きO (LATIN CAPITAL LETTER O WITH STROKE, U+00D8, "Ø") などである。(後者は後の時代には、0x5C はバックスラッシュのままとし、ISO 8859 シリーズを用いることが一般化した。)

波ダッシュ・全角チルダ問題

JIS X 0221 規定の JIS X 0208 と JIS X 0221 の対応表では、波ダッシュは WAVE DASH (U+301C, "") に対応させている。

しかし、マイクロソフトは Windows の Shift_JIS と Unicode の変換テーブルを作成する際に、JIS X 0208 において 1 区 33 点に割り当てられている波ダッシュ "" を、Unicode における全角チルダ (FULLWIDTH TILDE, U+FF5E, "") に割り当てたため不整合が生じた。

この結果、macOS 等の JIS X 0221 準拠の Shift_JIS ⇔ Unicode 変換テーブルをもつ処理系と Windows との間で Unicode データをやり取りする場合、文字化けを起こすことになる。そこで Windows 以外の OS 上で動くアプリケーションの中には、CP932 という名前でマイクロソフト仕様の Shift_JIS コード体系を別途用意して対応しているケースが多い。この原因とされている Unicode 仕様書の例示字形の問題に関しては、波ダッシュ#Unicodeに関連する問題を参照すること。

マイクロソフト仕様に起因する問題

上記に加え、マイクロソフト仕様は変換時にも問題が起こる文字を以下に示す。

さらに見る JIS X 0208 区点, Shift JIS ...
JIS X 0208
区点
Shift JISJIS X 0208
日本語通用名称
SJISでデコードMS932でデコード
(マイクロソフト仕様)
関連記事
1-290x815cダッシュ(全角) (U+2014) EM DASH (U+2015) HORIZONTAL BARダッシュ (記号)
1-330x8160波ダッシュ (U+301C) WAVE DASH (U+FF5E) FULLWIDTH TILDE波ダッシュ全角チルダ
1-340x8161双柱 (U+2016) DOUBLE VERTICAL LINE (U+2225) PARALLEL TO双柱平行記号
1-610x817c負符号、減算記号 (U+2212) MINUS SIGN (U+FF0D) FULLWIDTH HYPHEN-MINUSマイナス記号ハイフンマイナス
1-810x8191セント記号¢ (U+00A2) CENT SIGN (U+FFE0) FULLWIDTH CENT SIGNセント (通貨)
1-820x8192ポンド記号£ (U+00A3) POUND SIGN (U+FFE1) FULLWIDTH POUND SIGN£
2-440x81ca否定¬ (U+00AC) NOT SIGN (U+FFE2) FULLWIDTH NOT SIGN否定記号
閉じる

このうちセント・ポンド・否定については、IBMのメインフレームではShift_JISを拡張してこれらの半角版をコードポイント 0xFD-0xFF に割り当て、別途JIS X 0208からマップされた位置に全角版を収録していたため、WindowsをIBMメインフレームの端末として用いるケースを想定したといわれている[要出典]

なお、Windows Vista や Microsoft Office 2007 に付属する IME パッドの文字一覧における JIS X 0213 の面区点の表示は、上記の文字についても JIS で規定されているものと同じマッピングを使用している[要出典]

ブロックの一覧

要約
視点
さらに見る 面, ブロックの範囲 ...
ブロックの範囲[一覧 1] ブロック名[一覧 2] 日本語名称[一覧 3] 符号位置の数[一覧 4] 割当済の文字の数 用字[一覧 5][一覧 6][一覧 7][一覧 8]
 
0 BMPU+0000..U+007FBasic Latin[一覧 9]基本ラテン文字
Basic Latin
128128ラテン文字 (52文字), Common (76文字)
U+0080..U+00FFLatin-1 Supplement[一覧 10]ラテン1補助
Latin-1 Supplement
128128ラテン文字 (64文字), Common (64文字)
U+0100..U+017FLatin Extended-Aラテン文字拡張A
en:Latin Extended-A
128128ラテン文字
U+0180..U+024FLatin Extended-Bラテン文字拡張B
en:Latin Extended-B
208208ラテン文字
U+0250..U+02AFIPA ExtensionsIPA拡張
en:IPA Extensions
9696ラテン文字
U+02B0..U+02FFSpacing Modifier Letters前進を伴う修飾文字
en:Spacing Modifier Letters
8080注音符号 (2文字), ラテン文字 (14文字), Common (64文字)
U+0300..U+036FCombining Diacritical Marks合成可能なダイアクリティカルマーク
en:Combining Diacritical Marks
112112Inherited
U+0370..U+03FFGreek and Copticギリシア文字及びコプト文字
en:Greek and Coptic
144135コプト文字 (14文字), ギリシア文字 (117文字), Common (4文字)
U+0400..U+04FFCyrillicキリル文字
Cyrillic
256256キリル文字 (254文字), Inherited (2文字)
U+0500..U+052FCyrillic Supplementキリル文字補助
en:Cyrillic Supplement
4848キリル文字
0 BMPU+0530..U+058FArmenianアルメニア文字
Armenian
9691アルメニア文字 (90文字), Common (1文字)
U+0590..U+05FFHebrewヘブライ文字
Hebrew
11288ヘブライ文字
U+0600..U+06FFArabicアラビア文字
Arabic
256255アラビア文字 (237文字), Common (6文字), Inherited (12文字)
U+0700..U+074FSyriacシリア文字
Syriac
8077シリア文字
U+0750..U+077FArabic Supplementアラビア文字補助
en:Arabic Supplement
4848アラビア文字
U+0780..U+07BFThaanaターナ文字
Thaana
6450ターナ文字
U+07C0..U+07FFNKoンコ文字
NKo
6462ンコ文字
U+0800..U+083FSamaritanサマリア文字
Samaritan
6461サマリア文字
U+0840..U+085FMandaicマンダ文字
Mandaic
3229マンダ文字
U+0860..U+086FSyriac Supplementシリア文字拡張
en:Syriac Supplement
1611シリア文字
0 BMPU+0870..U+089FArabic Extended-Bアラビア文字拡張B
en:Arabic Extended-B
4841アラビア文字
U+08A0..U+08FFArabic Extended-Aアラビア文字拡張A
en:Arabic Extended-A
9696アラビア文字 (72文字), Common (1文字)
U+0900..U+097FDevanagariデーヴァナーガリー文字
Devanagari
128128デーヴァナーガリー文字 (124文字), Common (2文字), Inherited (2文字)
U+0980..U+09FFBengaliベンガル文字
Bengali
12896ベンガル文字
U+0A00..U+0A7FGurmukhiグルムキー文字
Gurmukhi
12880グルムキー文字
U+0A80..U+0AFFGujaratiグジャラート文字
Gujarati
12891グジャラート文字
U+0B00..U+0B7FOriyaオリヤー文字
Oriya
12890オリヤー文字
U+0B80..U+0BFFTamilタミル文字
Tamil
12872タミル文字
U+0C00..U+0C7FTeluguテルグ文字
Telugu
12898テルグ文字
U+0C80..U+0CFFKannadaカンナダ文字
Kannada
12889カンナダ文字
0 BMPU+0D00..U+0D7FMalayalamマラヤーラム文字
Malayalam
128117マラヤーラム文字
U+0D80..U+0DFFSinhalaシンハラ文字
Sinhala
12890シンハラ文字
U+0E00..U+0E7FThaiタイ文字
Thai
12887タイ文字 (86文字), Common (1文字)
U+0E80..U+0EFFLaoラオス文字
Lao
12882ラオス文字
U+0F00..U+0FFFTibetanチベット文字
Tibetan
256211チベット文字 (207文字), Common (4文字)
U+1000..U+109FMyanmarビルマ文字
Myanmar
160160ビルマ文字
U+10A0..U+10FFGeorgianグルジア文字
Georgian
9688グルジア文字 (87文字), Common (1文字)
U+1100..U+11FFHangul Jamoハングル字母
Hangul Jamo
256256ハングル
U+1200..U+137FEthiopicエチオピア文字
Ethiopic
384358エチオピア文字
U+1380..U+139FEthiopic Supplementエチオピア文字補助
en:Ethiopic Supplement
3226エチオピア文字
0 BMPU+13A0..U+13FFCherokeeチェロキー文字
Cherokee
9692チェロキー文字
U+1400..U+167FUnified Canadian Aboriginal Syllabics統合カナダ先住民音節
Unified Canadian Aboriginal Syllabics
640640カナダ先住民文字
U+1680..U+169FOghamオガム文字
Ogham
3229オガム文字
U+16A0..U+16FFRunicルーン文字
Runic
9689ルーン文字 (86文字), Common (3文字)
U+1700..U+171FTagalogタガログ文字
Tagalog
3220タガログ文字
U+1720..U+173FHanunooハヌノオ文字
Hanunoo
3223ハヌノオ文字 (21文字), Common (2文字)
U+1740..U+175FBuhidブヒッド文字
Buhid
3220ブヒッド文字
U+1760..U+177FTagbanwaタグバヌア文字
Tagbanwa
3218タグバヌワ文字
U+1780..U+17FFKhmerクメール文字
Khmer
128114クメール文字
U+1800..U+18AFMongolianモンゴル文字
Mongolian
176157モンゴル文字 (153文字), Common (3文字)
0 BMPU+18B0..U+18FFUnified Canadian Aboriginal Syllabics Extended統合カナダ先住民文字拡張
en:Unified Canadian Aboriginal Syllabics Extended
8070統合カナダ先住民文字
U+1900..U+194FLimbuリンブ文字
Limbu
8068リンブ文字
U+1950..U+197FTai Leタイ・ナ文字
Tai Le
4835タイ・ナ文字
U+1980..U+19DFNew Tai Lue新タイ・ロ文字
New Tai Lue
9683タイ・ロ文字
U+19E0..U+19FFKhmer Symbolsクメール文字用記号
en:Khmer Symbols
3232クメール文字
U+1A00..U+1A1FBugineseブギス文字
Buginese
3230ブギス文字
U+1A20..U+1AAFTai Thamタイ・タム文字
Tai Tham
144127タイタム文字
U+1AB0..U+1AFFCombining Diacritical Marks Extended合成可能なダイアクリティカルマーク拡張
en:Combining Diacritical Marks Extended
8015Inherited
U+1B00..U+1B7FBalineseバリ文字
Balinese
128121バリ文字
U+1B80..U+1BBFSundaneseスンダ文字
Sundanese
6464スンダ文字
0 BMPU+1BC0..U+1BFFBatakバタク文字
Batak
6456バタク文字
U+1C00..U+1C4FLepchaレプチャ文字
Lepcha
8074レプチャ文字
U+1C50..U+1C7FOl Chikiオル・チキ文字
Ol Chiki
4848オル・チキ文字
U+1C80..U+1C8FCyrillic Extended-Cキリル文字拡張C
Cyrillic Extended-C
169キリル文字
U+1C90..U+1CBFGeorgian Extendedグルジア文字拡張
Georgian Extended
4846グルジア文字
U+1CC0..U+1CCFSundanese Supplementスンダ文字補助
Sundanese Supplement
168スンダ文字
U+1CD0..U+1CFFVedic Extensionsヴェーダ用拡張
Vedic Extensions
4843Common (15文字), Inherited (27文字)
U+1D00..U+1D7FPhonetic Extensions音声記号拡張
Phonetic Extensions
128128キリル文字 (2文字), ギリシア文字 (15文字), ラテン文字 (111文字)
U+1D80..U+1DBFPhonetic Extensions Supplement音声記号拡張補助
Phonetic Extensions Supplement
6464ギリシア文字 (1文字), ラテン文字 (63文字)
U+1DC0..U+1DFFCombining Diacritical Marks Supplement合成可能なダイアクリティカルマーク補助
Combining Diacritical Marks Supplement
6463Inherited
0 BMPU+1E00..U+1EFFLatin Extended Additionalラテン文字拡張追加
Latin Extended Additional
256256ラテン文字
U+1F00..U+1FFFGreek Extendedギリシア文字拡張
Greek Extended
256233ギリシア文字
U+2000..U+206FGeneral Punctuation一般句読点
General Punctuation
112111Common (109文字), Inherited (2文字)
U+2070..U+209FSuperscripts and Subscripts上付き・下付き
Superscripts and Subscripts
4842ラテン文字 (15文字), Common (27文字)
U+20A0..U+20CFCurrency Symbols通貨記号
Currency Symbols
4832Common
U+20D0..U+20FFCombining Diacritical Marks for Symbols合成可能な記号用ダイアクリティカルマーク
en:Combining Diacritical Marks for Symbols
4833Inherited
U+2100..U+214FLetterlike Symbols文字様記号
en:Letterlike Symbols
8080ギリシア文字 (1文字), ラテン文字 (4文字), Common (75文字)
U+2150..U+218FNumber Forms数字に準ずるもの
en:Number Forms
6460ラテン文字 (41文字), Common (19文字)
U+2190..U+21FFArrows矢印
Arrows
112112Common
U+2200..U+22FFMathematical Operators数学記号
Mathematical Operators
256256Common
0 BMPU+2300..U+23FFMiscellaneous Technicalその他の技術用記号
Miscellaneous Technical
256256Common
U+2400..U+243FControl Pictures制御機能用記号
Control Pictures
6439Common
U+2440..U+245FOptical Character Recognition光学的文字認識
Optical Character Recognition
3211Common
U+2460..U+24FFEnclosed Alphanumerics囲み英数字
Enclosed Alphanumerics
160160Common
U+2500..U+257FBox Drawing罫線素片
Box Drawing
128128Common
U+2580..U+259FBlock Elementsブロック要素
Block Elements
3232Common
U+25A0..U+25FFGeometric Shapes幾何学模様
Geometric Shapes
9696Common
U+2600..U+26FFMiscellaneous Symbolsその他の記号
Miscellaneous Symbols
256256Common
U+2700..U+27BFDingbats装飾記号
Dingbats
192192Common
U+27C0..U+27EFMiscellaneous Mathematical Symbols-Aその他の数学記号A
Miscellaneous Mathematical Symbols-A
4848Common
0 BMPU+27F0..U+27FFSupplemental Arrows-A補助矢印A
Supplemental Arrows-A
1616Common
U+2800..U+28FFBraille Patterns点字図形
Braille Patterns
256256点字
U+2900..U+297FSupplemental Arrows-B補助矢印B
Supplemental Arrows-B
128128Common
U+2980..U+29FFMiscellaneous Mathematical Symbols-Bその他の数学記号B
Miscellaneous Mathematical Symbols-B
128128Common
U+2A00..U+2AFFSupplemental Mathematical Operators補助数学記号
Supplemental Mathematical Operators
256256Common
U+2B00..U+2BFFMiscellaneous Symbols and Arrowsその他の記号及び矢印
Miscellaneous Symbols and Arrows
256252Common
U+2C00..U+2C5FGlagoliticグラゴル文字
Glagolitic
9694グラゴル文字
U+2C60..U+2C7FLatin Extended-Cラテン文字拡張C
Latin Extended-C
3232ラテン文字
U+2C80..U+2CFFCopticコプト文字
Coptic
128123コプト文字
U+2D00..U+2D2FGeorgian Supplementグルジア文字補助
Georgian Supplement
4840グルジア文字
0 BMPU+2D30..U+2D7FTifinaghティフィナグ文字
Tifinagh
8059ティフィナグ文字
U+2D80..U+2DDFEthiopic Extendedエチオピア文字拡張
Ethiopic Extended
9679エチオピア文字
U+2DE0..U+2DFFCyrillic Extended-Aキリル文字拡張A
Cyrillic Extended-A
3232キリル文字
U+2E00..U+2E7FSupplemental Punctuation補助句読点
Supplemental Punctuation
12880Common
U+2E80..U+2EFFCJK Radicals SupplementCJK部首補助
CJK Radicals Supplement
128115漢字
U+2F00..U+2FDFKangxi Radicals康煕部首
Kangxi Radicals
224214漢字
U+2FF0..U+2FFFIdeographic Description Characters漢字構成記述文字
Ideographic Description Characters
1612Common
U+3000..U+303FCJK Symbols and PunctuationCJKの記号及び句読点
en:CJK Symbols and Punctuation
6464漢字 (15文字), ハングル (2文字), Common (43文字), Inherited (4文字)
U+3040..U+309FHiragana平仮名
Hiragana
9693平仮名 (89文字), Common (2文字), Inherited (2文字)
U+30A0..U+30FFKatakana片仮名
Katakana
9696片仮名 (93文字), Common (3文字)
0 BMPU+3100..U+312FBopomofo注音字母
Bopomofo
4842注音符号
U+3130..U+318FHangul Compatibility Jamoハングル互換字母
Hangul Compatibility Jamo
9694ハングル
U+3190..U+319FKanbun漢文用記号
Kanbun
1616Common
U+31A0..U+31BFBopomofo Extended注音字母拡張
en:Bopomofo Extended
3227注音符号
U+31C0..U+31EFCJK StrokesCJKの筆画
CJK Strokes
4836Common
U+31F0..U+31FFKatakana Phonetic Extensions片仮名拡張
Katakana Phonetic Extensions
1616片仮名
U+3200..U+32FFEnclosed CJK Letters and Months囲みCJK文字・月
Enclosed CJK Letters and Months
256255ハングル (62文字), 片仮名 (47文字), Common (146文字)
U+3300..U+33FFCJK CompatibilityCJK互換用文字
CJK Compatibility
256256片仮名 (88文字), Common (168文字)
U+3400..U+4DBFCJK Unified Ideographs Extension ACJK統合漢字拡張A
CJK Unified Ideographs Extension A
6,5926,582漢字
U+4DC0..U+4DFFYijing Hexagram Symbols易経記号
Yijing Hexagram Symbols
6464Common
0 BMPU+4E00..U+9FFFCJK Unified IdeographsCJK統合漢字
CJK Unified Ideographs
20,99220,976漢字
U+A000..U+A48FYi Syllablesイ文字
Yi Syllables
1,1681,165イ文字
U+A490..U+A4CFYi Radicalsイ文字部首
Yi Radicals
6455イ文字
U+A4D0..U+A4FFLisuリス文字
Lisu
4848リス文字
U+A500..U+A63FVaiヴァイ文字
Vai
320300ヴァイ文字
U+A640..U+A69FCyrillic Extended-Bキリル文字拡張B
Cyrillic Extended-B
9696キリル文字
U+A6A0..U+A6FFBamumバムン文字
Bamum
9688バムン文字
U+A700..U+A71FModifier Tone Letters声調修飾文字
Modifier Tone Letters
3232Common
U+A720..U+A7FFLatin Extended-Dラテン文字拡張D
Latin Extended-D
224174ラテン文字 (169文字), Common (5文字)
U+A800..U+A82FSyloti Nagriシロティ・ナグリ文字
Syloti Nagri
4844シロティ・ナグリ文字
0 BMPU+A830..U+A83FCommon Indic Number Formsインド慣用数量記号
Common Indic Number Forms
1610Common
U+A840..U+A87FPhags-paパスパ文字
Phags-pa
6456パスパ文字
U+A880..U+A8DFSaurashtraサウラーシュトラ文字
Saurashtra
9682サウラーシュトラ文字
U+A8E0..U+A8FFDevanagari Extendedデーヴァナーガリー文字拡張
Devanagari Extended
3232デーヴァナーガリー文字
U+A900..U+A92FKayah Liカヤー文字
Kayah Li
4848カヤー文字英語版 (47文字), Common (1文字)
U+A930..U+A95FRejangルジャン文字
Rejang
4837ルジャン文字
U+A960..U+A97FHangul Jamo Extended-Aハングル字母拡張A
Hangul Jamo Extended-A
3229ハングル
U+A980..U+A9DFJavaneseジャワ文字
Javanese
9691ジャワ文字 (90文字), Common (1文字)
U+A9E0..U+A9FFMyanmar Extended-Bビルマ文字拡張B
Myanmar Extended-B
3231ビルマ文字
U+AA00..U+AA5FChamチャム文字
Cham
9683チャム文字
0 BMPU+AA60..U+AA7FMyanmar Extended-Aビルマ文字拡張A
Myanmar Extended-A
3232ビルマ文字
U+AA80..U+AADFTai Vietタイ・ヴィエト文字
Tai Viet
9672タイ・ヴィエト文字
U+AAE0..U+AAFFMeetei Mayek Extensionsメイテイ文字拡張
Meetei Mayek Extensions
3223メイテイ文字
U+AB00..U+AB2FEthiopic Extended-Aエチオピア文字拡張A
Ethiopic Extended-A
4832エチオピア文字
U+AB30..U+AB6FLatin Extended-Eラテン文字拡張E
Latin Extended-E
6456ラテン文字 (54文字), ギリシア文字 (1文字), Common (1文字)
U+AB70..U+ABBFCherokee Supplementチェロキー文字補助
Cherokee Supplement
8080チェロキー文字
U+ABC0..U+ABFFMeetei Mayekメイテイ文字
Meetei Mayek
6456メイテイ文字
U+AC00..U+D7AFHangul Syllablesハングル音節文字
Hangul Syllables
11,18411,172ハングル
U+D7B0..U+D7FFHangul Jamo Extended-Bハングル字母拡張B
Hangul Jamo Extended-B
8072ハングル
U+D800..U+DB7FHigh Surrogatesサロゲート (high surrogate)
High Surrogates
8960Unknown
0 BMPU+DB80..U+DBFFHigh Private Use Surrogatesサロゲート (high private use surrogate)
High Private Use Surrogates
1280Unknown
U+DC00..U+DFFFLow Surrogatesサロゲート (low surrogate)
Low Surrogates
1,0240Unknown
U+E000..U+F8FFPrivate Use Area私用領域
Private Use Area
6,4006,400Unknown
U+F900..U+FAFFCJK Compatibility IdeographsCJK互換漢字
CJK Compatibility Ideographs
512472漢字
U+FB00..U+FB4FAlphabetic Presentation Formsアルファベット表示形
Alphabetic Presentation Forms
8058Armenian (5文字), Hebrew (46文字), ラテン文字 (7文字)
U+FB50..U+FDFFArabic Presentation Forms-Aアラビア表示形A
Arabic Presentation Forms-A
688611アラビア文字 (609文字), Common (2文字)
U+FE00..U+FE0FVariation Selectors字形選択子
Variation Selectors
1616Inherited
U+FE10..U+FE1FVertical Forms縦書き形
Vertical Forms
1610Common
U+FE20..U+FE2FCombining Half Marks合成可能な半記号
Combining Half Marks
1616キリル文字 (2文字), Inherited (14文字)
U+FE30..U+FE4FCJK Compatibility FormsCJK互換形
CJK Compatibility Forms
3232Common
0 BMPU+FE50..U+FE6FSmall Form Variants小字形
Small Form Variants
3226Common
U+FE70..U+FEFFArabic Presentation Forms-Bアラビア表示形B
Arabic Presentation Forms-B
144141アラビア文字 (140文字), Common (1文字)
U+FF00..U+FFEFHalfwidth and Fullwidth Forms半角・全角形
Halfwidth and Fullwidth Forms
240225ハングル (52文字), 片仮名 (55文字), ラテン文字 (52文字), Common (66文字)
U+FFF0..U+FFFFSpecials特殊用途文字
Specials
165Common
1 SMPU+10000..U+1007FLinear B Syllabary線文字B音節文字
Linear B Syllabary
12888線文字B
U+10080..U+100FFLinear B Ideograms線文字B表意文字
Linear B Ideograms
128123線文字B
U+10100..U+1013FAegean Numbersエーゲ数字
Aegean Numbers
6457Common
U+10140..U+1018FAncient Greek Numbers古代ギリシア数字
Ancient Greek Numbers
8079ギリシア文字
U+10190..U+101CFAncient Symbols古代記号
Ancient Symbols
6413ギリシア文字 (1文字), Common (12文字)
U+101D0..U+101FFPhaistos Discファイストスの円盤文字
Phaistos Disc
4846Common (45文字), Inherited (1文字)
U+10280..U+1029FLycianリュキア文字
Lycian
3229リュキア文字
U+102A0..U+102DFCarianカリア文字
Carian
6449カリア文字
U+102E0..U+102FFCoptic Epact Numbersコプト・エパクト数字
Coptic Epact Numbers
3228Common (27文字), Inherited (1文字)
U+10300..U+1032FOld Italic古代イタリア文字
Old Italic
4839古代イタリア文字
1 SMPU+10330..U+1034FGothicゴート文字
Gothic
3227ゴート文字
U+10350..U+1037FOld Permic古ペルム文字
Old Permic
4843古ペルム文字
U+10380..U+1039FUgariticウガリト文字
Ugaritic
3231ウガリト文字
U+103A0..U+103DFOld Persian古代ペルシャ文字
Old Persian
6450古代ペルシャ文字
U+10400..U+1044FDeseretデザレット文字
Deseret
8080デザレット文字
U+10450..U+1047FShavianショー文字
Shavian
4848ショー文字
U+10480..U+104AFOsmanyaオスマニア文字
Osmanya
4840オスマニヤ文字
U+104B0..U+104FFOsageオセージ文字
Osage
8072オセージ文字英語版
U+10500..U+1052FElbasanエルバサン文字
Elbasan
4840エルバサン文字英語版
U+10530..U+1056FCaucasian Albanianカフカス・アルバニア文字
Caucasian Albanian
6453カフカス・アルバニア文字英語版
1 SMPU+10570..U+105BFVithkuqiビタクチェ文字
Vithkuqi
8070ビタクチェ文字英語版
U+10600..U+1077FLinear A線文字A
Linear A
384341線文字A
U+10780..U+107BFLatin Extended-Fラテン文字拡張F
Latin Extended-F
6457ラテン文字
U+10800..U+1083FCypriot Syllabaryキプロス音節文字
Cypriot Syllabary
6455キプロス音節文字
U+10840..U+1085FImperial Aramaic帝国アラム文字
Imperial Aramaic
3231アラム文字
U+10860..U+1087FPalmyreneパルミラ文字
Palmyrene
3232パルミラ文字
U+10880..U+108AFNabataeanナバテア文字
Nabataean
4840ナバテア文字
U+108E0..U+108FFHatranハトラ文字
Hatran
3226ハトラ文字英語版
U+10900..U+1091FPhoenicianフェニキア文字
Phoenician
3229フェニキア文字
U+10920..U+1093FLydianリュディア文字
Lydian
3227リュディア文字
1 SMPU+10980..U+1099FMeroitic Hieroglyphsメロエ文字楷書体
Meroitic Hieroglyphs
3232メロエ文字楷書体
U+109A0..U+109FFMeroitic Cursiveメロエ文字草書体
Meroitic Cursive
9690メロエ文字草書体
U+10A00..U+10A5FKharoshthiカローシュティー文字
Kharoshthi
9668カローシュティー文字
U+10A60..U+10A7FOld South Arabian古代南アラビア文字
Old South Arabian
3232古代南アラビア文字
U+10A80..U+10A9FOld North Arabian古代北アラビア文字
Old North Arabian
3232古代北アラビア文字
U+10AC0..U+10AFFManichaeanマニ文字
Manichaean
6451マニ文字
U+10B00..U+10B3FAvestanアヴェスタ文字
Avestan
6461アヴェスタ文字
U+10B40..U+10B5FInscriptional Parthian碑文パルティア文字
Inscriptional Parthian
3230碑文パルティア文字
U+10B60..U+10B7FInscriptional Pahlavi碑文パフラヴィ文字
Inscriptional Pahlavi
3227碑文パフラヴィ文字
U+10B80..U+10BAFPsalter Pahlavi詩編パフラヴィ文字
Psalter Pahlavi
4829詩編パフラヴィ文字
1 SMPU+10C00..U+10C4FOld Turkic突厥文字
Old Turkic
8073突厥文字
U+10C80..U+10CFFOld Hungarian古ハンガリー文字
Old Hungarian
128108古ハンガリー文字
U+10D00..U+10D3FHanifi Rohingyaハニーフィー・ロヒンギャ文字
Hanifi Rohingya
6450ハニーフィー・ロヒンギャ文字
U+10E60..U+10E7FRumi Numeral Symbolsルミ数字記号
Rumi Numeral Symbols
3231アラビア文字
U+10E80..U+10EBFYezidiヤズィーディー文字
Yezidi
6447ヤズィーディー文字
U+10EC0..U+10EFFArabic Extended-Cアラビア文字拡張C
Arabic Extended-C
643アラビア文字
U+10F00..U+10F2FOld Sogdian古ソグド文字
Old Sogdian
4840古ソグド文字
U+10F30..U+10F6FSogdianソグド文字
Sogdian
6442ソグド文字
U+10F70..U+10FAFOld Uyghur古ウイグル文字
Old Uyghur
6426古ウイグル文字
U+10FB0..U+10FDFChorasmianホラズム文字
Chorasmian
4828ホラズム文字
1 SMPU+10FE0..U+10FFFElymaicエリマイス文字
Elymaic
3223エリマイス文字英語版
U+11000..U+1107FBrahmiブラーフミー文字
Brahmi
128109ブラーフミー文字
U+11080..U+110CFKaithiカイティー文字
Kaithi
8067カイティー文字
U+110D0..U+110FFSora Sompengソラングソンペング文字
Sora Sompeng
4835ソラング・ソンペング文字
U+11100..U+1114FChakmaチャクマ文字
Chakma
8070チャクマ文字英語版
U+11150..U+1117FMahajaniマハージャニー文字
Mahajani
4839マハージャニー文字
U+11180..U+111DFSharadaシャーラダー文字
Sharada
9694シャーラダー文字
U+111E0..U+111FFSinhala Archaic Numbers旧シンハラ数字
Sinhala Archaic Numbers
3220シンハラ文字
U+11200..U+1124FKhojkiホジャ文字
Khojki
8062ホジャ文字英語版
U+11280..U+112AFMultaniムルターニー文字
Multani
4838ムルターニー文字英語版
1 SMPU+112B0..U+112FFKhudawadiフダーワーディー文字
Khudawadi
8069フダーワーディー文字英語版
U+11300..U+1137FGranthaグランタ文字
Grantha
12886グランタ文字
U+11400..U+1147FNewaネワ文字
Newa
12892ネワ文字英語版
U+11480..U+114DFTirhutaティルフータ文字
Tirhuta
9682マイティリー文字
U+11580..U+115FFSiddham悉曇文字
Siddham
12892悉曇文字
U+11600..U+1165FModiモーディー文字
Modi
9679モーディー文字
U+11660..U+1167FMongolian Supplementモンゴル文字補助
Mongolian Supplement
3213モンゴル文字
U+11680..U+116CFTakriタークリー文字
Takri
8067タークリー文字
U+11700..U+1174FAhomアーホム文字
Ahom
8058アーホム文字
U+11800..U+1184FDograドーグリー文字
Dogra
8060ドーグリー文字
1 SMPU+118A0..U+118FFWarang Citiワラング・クシティ文字
Warang Citi
9684ワラング・クシティ文字
U+11900..U+1195FDives Akuruディヴェス・アクル文字
Dives Akuru
9672ディヴェス・アクル文字英語版
U+119A0..U+119FFNandinagariナンディナーガリー文字
Nandinagari
9665ナンディナーガリー文字英語版
U+11A00..U+11A4FZanabazar Squareザナバザル方形文字
Zanabazar Square
8072ザナバザル方形文字英語版
U+11A50..U+11AAFSoyomboソヨンボ文字
Soyombo
9683ソヨンボ文字
U+11AB0..U+11ABFUnified Canadian Aboriginal Syllabics Extended-A統合カナダ先住民音節拡張A
Unified Canadian Aboriginal Syllabics Extended-A
1616カナダ先住民文字
U+11AC0..U+11AFFPau Cin Hauパウ・チン・ハウ文字
Pau Cin Hau
6457パウ・チン・ハウ文字英語版
U+11C00..U+11C6FBhaiksukiバイクシュキー文字
Bhaiksuki
11297バイクシュキー文字英語版
U+11C70..U+11CBFMarchenマルチェン文字
Marchen
8068マルチェン文字英語版
U+11D00..U+11D5FMasaram Gondiマサラム・ゴーンディー文字
Masaram Gondi
9675マサラム・ゴーンディー文字英語版
1 SMPU+11D60..U+11DAFGunjala Gondiグンジャラ・ゴーンディー文字
Gunjala Gondi
8063グンジャラ・ゴーンディー文字
U+11EE0..U+11EFFMakasarマカッサル文字
Makasar
3225マカッサル文字
U+11F00..U+11F5FKawiカウィ文字
Kawi
9686カウィ文字英語版
U+11FB0..U+11FBFLisu Supplementリス文字補助
Lisu Supplement
161リス文字
U+11FC0..U+11FFFTamil Supplementタミル文字補助
Tamil Supplement
6451タミル文字
U+12000..U+123FFCuneiform楔形文字
Cuneiform
1,024922楔形文字
U+12400..U+1247FCuneiform Numbers and Punctuation楔形文字の数字及び句読点
Cuneiform Numbers and Punctuation
128116楔形文字
U+12480..U+1254FEarly Dynastic Cuneiformシュメール楔形文字
Early Dynastic Cuneiform
208196楔形文字
U+12F90..U+12FFFCypro-Minoanキュプロ・ミノア文字
Cypro-Minoan
11299キュプロ・ミノア文字
U+13000..U+1342FEgyptian Hieroglyphsエジプト聖刻文字
Egyptian Hieroglyphs
1,0721,071エジプト聖刻文字
1 SMPU+13430..U+1343FEgyptian Hieroglyph Format Controlsエジプト聖刻文字書式制御記号
Egyptian Hieroglyph Format Controls
169エジプト聖刻文字
U+14400..U+1467FAnatolian Hieroglyphsアナトリア聖刻文字
Anatolian Hieroglyphs
640583アナトリア聖刻文字
U+16800..U+16A3FBamum Supplementバムン文字補助
Bamum Supplement
576569バムン文字
U+16A40..U+16A6FMroムロ文字
Mro
4843ムロ文字英語版
U+16AD0..U+16AFFBassa Vahバサ文字
Bassa Vah
4836バサ文字
U+16B00..U+16B8FPahawh Hmongパハウ・フモン文字
Pahawh Hmong
144127パハウ・フモン文字
U+16E40..U+16E9FMedefaidrinメデファイドリン文字
Medefaidrin
9691メデファイドリン文字
U+16F00..U+16F9FMiaoミャオ文字
Miao
160149ミャオ文字
U+16FE0..U+16FFFIdeographic Symbols and Punctuation漢字の記号及び句読点
Ideographic Symbols and Punctuation
324女書 (1文字), 西夏文字 (1文字), Common (2文字)
U+17000..U+187FFTangut西夏文字
Tangut
6,1446,136西夏文字
1 SMPU+18800..U+18AFFTangut Components西夏文字の構成要素
Tangut Components
768755西夏文字
U+18B00..U+18CFFKhitan Small Script契丹小字
Khitan Small Script
512470契丹小字
U+18D00..U+18D7FTangut Supplement西夏文字補助
Tangut Supplement
1289西夏文字
U+1AFF0..U+1AFFFKana Extended-B仮名拡張B
Kana Extended-B
1613片仮名
U+1B000..U+1B0FFKana Supplement仮名補助
Kana Supplement
256256平仮名 (255文字), 片仮名 (1文字)
U+1B100..U+1B12FKana Extended-A仮名拡張A
Kana Extended-A
4831平仮名 (32文字), 片仮名 (3文字)
U+1B130..U+1B16FSmall Kana Extension小書き仮名拡張
Small Kana Extension
647平仮名(4文字), 片仮名(5文字)
U+1B170..U+1B2FFNushu女書
Nushu
400396女書
U+1BC00..U+1BC9FDuployanデュプロワイエ式速記
Duployan
160143デュプロワイエ式速記英語版
U+1BCA0..U+1BCAFShorthand Format Controls速記書式制御記号
Shorthand Format Controls
164Common
1 SMPU+1CF00..U+1CFCFZnamenny Musical Notationズナメニ聖歌音符
Znamenny Musical Notation
208185Common (116文字),Inherited (69文字)
U+1D000..U+1D0FFByzantine Musical Symbolsビザンチン音楽記号
Byzantine Musical Symbols
256246Common
U+1D100..U+1D1FFMusical Symbols音楽記号
Musical Symbols
256231Common (209文字), Inherited (22文字)
U+1D200..U+1D24FAncient Greek Musical Notation古代ギリシア音符記号
Ancient Greek Musical Notation
8070ギリシア文字
U+1D2C0..U+1D2DFKaktovik Numeralsカクトヴィク数字
Kaktovik Numerals
3220Common
U+1D2E0..U+1D2FFMayan Numeralsマヤ数字
Mayan Numerals
3220Common
U+1D300..U+1D35FTai Xuan Jing Symbols太玄経記号
Tai Xuan Jing Symbols
9687Common
U+1D360..U+1D37FCounting Rod Numerals算木用数字
en:Counting Rod Numerals
3225Common
U+1D400..U+1D7FFMathematical Alphanumeric Symbols数学用英数字記号
Mathematical Alphanumeric Symbols
1,024996Common
U+1D800..U+1DAAFSutton SignWritingサットン手話表記法
Sutton SignWriting
688672サットン手話表記法英語版
1 SMPU+1DF00..U+1DFFFLatin Extended-Gラテン文字拡張G
Latin Extended-G
25637ラテン文字
U+1E000..U+1E02FGlagolitic Supplementグラゴル文字補助
Glagolitic Supplement
4838グラゴル文字
U+1E030..U+1E08FCyrillic Extended-Dキリル文字拡張D
Cyrillic Extended-D
9663キリル文字
U+1E100..U+1E14FNyiakeng Puachue HmongNyiakeng Puachue Hmong文字
Nyiakeng Puachue Hmong
8071Nyiakeng Puachue Hmong文字
U+1E290..U+1E2BFTotoトト
Toto
4831トト文字
U+1E2C0..U+1E2FFWanchoワンチョ文字
Wancho
6459ワンチョ文字英語版
U+1E4D0..U+1E4FFNag Mundariムンダリ・バニ文字
Nag Mundari
4842ムンダリ・バニ文字英語版
U+1E7E0..U+1E7FFEthiopic Extended-Bエチオピア文字拡張B
Ethiopic Extended-B
3228エチオピア文字
U+1E800..U+1E8DFMende Kikakuiメンデ文字
Mende Kikakui
224213メンデ文字
U+1E900..U+1E95FAdlamアドラム文字
Adlam
9688アドラム文字英語版
1 SMPU+1EC70..U+1ECBFIndic Siyaq Numbersインド・シヤク数字
Indic Siyaq Numbers
8068Common
U+1ED00..U+1ED4FOttoman Siyaq Numbersオスマン・シヤク数字
Ottoman Siyaq Numbers
8061Common
U+1EE00..U+1EEFFArabic Mathematical Alphabetic Symbolsアラビア数字記号
Arabic Mathematical Alphabetic Symbols
256143アラビア文字
U+1F000..U+1F02FMahjong Tilesマージャン記号
Mahjong Tiles
4844Common
U+1F030..U+1F09FDomino Tilesドミノ記号
en:Domino Tiles
112100Common
U+1F0A0..U+1F0FFPlaying Cardsトランプ記号
Playing Cards
9682Common
U+1F100..U+1F1FFEnclosed Alphanumeric Supplement囲み英数字補助
Enclosed Alphanumeric Supplement
256193Common
U+1F200..U+1F2FFEnclosed Ideographic Supplement囲み漢字補助
Enclosed Ideographic Supplement
25664平仮名 (1文字), Common (63文字)
U+1F300..U+1F5FFMiscellaneous Symbols and Pictographsその他の記号及び絵記号
Miscellaneous Symbols and Pictographs
768768Common
U+1F600..U+1F64FEmoticons顔文字
Emoticons
8080Common
1 SMPU+1F650..U+1F67FOrnamental Dingbats装飾用絵記号
Ornamental Dingbats
4848Common
U+1F680..U+1F6FFTransport and Map Symbols交通及び地図記号
Transport and Map Symbols
128110Common
U+1F700..U+1F77FAlchemical Symbols錬金術記号
Alchemical Symbols
128116Common
U+1F780..U+1F7FFGeometric Shapes Extended幾何学模様拡張
Geometric Shapes Extended
128101Common
U+1F800..U+1F8FFSupplemental Arrows-C補助矢印C
Supplemental Arrows-C
256148Common
U+1F900..U+1F9FFSupplemental Symbols and Pictographs補助記号及び絵記号
Supplemental Symbols and Pictographs
256244Common
U+1FA00..U+1FA6FChess Symbolsチェス記号
Chess Symbols
11298Common
U+1FA70..U+1FAFFSymbols and Pictographs Extended-A記号及び絵記号拡張A
Symbols and Pictographs Extended-A
14416Common
U+1FB00..U+1FBFFSymbols for Legacy Computing旧型コンピュータ記号
Symbols for Legacy Computing
256212Common
2 SIPU+20000..U+2A6DFCJK Unified Ideographs Extension BCJK統合漢字拡張B
CJK Unified Ideographs Extension B
42,72042,711漢字
U+2A700..U+2B73FCJK Unified Ideographs Extension CCJK統合漢字拡張C
en:CJK Unified Ideographs Extension C
4,1604,149漢字
U+2B740..U+2B81FCJK Unified Ideographs Extension DCJK統合漢字拡張D
en:CJK Unified Ideographs Extension D
224222漢字
U+2B820..U+2CEAFCJK Unified Ideographs Extension ECJK統合漢字拡張E
en:CJK Unified Ideographs Extension E
5,7765,762漢字
U+2CEB0..U+2EBEFCJK Unified Ideographs Extension FCJK統合漢字拡張F
en:CJK Unified Ideographs Extension F
7,4887,473漢字
U+2EBF0..U+2EE5FCJK Unified Ideographs Extension ICJK統合漢字拡張I
en:CJK Unified Ideographs Extension I
624622漢字
U+2F800..U+2FA1FCJK Compatibility Ideographs SupplementCJK互換漢字補助
en:CJK Compatibility Ideographs Supplement
544542漢字
3 TIPU+30000..U+3134FCJK Unified Ideographs Extension GCJK統合漢字拡張G
en:CJK Unified Ideographs Extension G
4,9444,939漢字
U+31350..U+323AFCJK Unified Ideographs Extension HCJK統合漢字拡張H
en:CJK Unified Ideographs Extension H
4,1924,192漢字
14 SSPU+E0000..U+E007FTagsタグ
Tags
12897Common
U+E0100..U+E01EFVariation Selectors Supplement字形選択子補助
en:Variation Selectors Supplement
240240Inherited
15 PUA-AU+F0000..U+FFFFFSupplementary Private Use Area-A補助私用領域A
Supplementary Private Use Area-A
65,53665,534Unknown
16 PUA-BU+100000..U+10FFFFSupplementary Private Use Area-B補助私用領域B
Supplementary Private Use Area-B
65,53665,534Unknown
  1. Unicode Blocks data file. As of Unicode version 12.1
  2. Unicodeデータファイル[一覧 1]で定義されている値を記載する。
  3. 日本語名称は、原則としてJIS X 0221:2014 附属書A A.2「ブロックの一覧」の「日本語による通用名称(参考)」に準拠する。ただし、一部でWikipeiaの項目名にふさわしい形に改変している(「ダイアクリティカルマーク(合成可能)」→「合成可能なダイアクリティカルマーク」、「けい線素辺」→「罫線素片」など)。また、JIS X 0221:2014はUnicode6.1に準拠したものであり、その後にUnicodeに追加されたブロックの、この表に記載された日本語名称は暫定的なものである。
  4. 符号位置 (code point) には未割当 (unassigned)、すなわち非文字 (non-character) および保留 (reserved) の符号位置も数えている。
  5. 各々の用字 (script) は、各ブロック中で一個または複数個の文字を持つ。これは文字の用字特性 (Script Property) で定義される。用字特性はブロックの名前とは独立である。
  6. "Common" および "Unknown" (Zyyy) および "Inherited"(Zinh または Qaai)は、ISO 15924の用字を参照する。
  7. ISO/IEC 10646では "C0 Controls and Basic Latin" と呼ばれる。
  8. ISO/IEC 10646では "C1 Controls and Latin-1 Supplement" と呼ばれる。
閉じる

脚注

参考文献

関連項目

外部リンク

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.