10.1. 日本語における文字集合および人名の値表現
10.1.1. 日本語の文字集合
この節の目的は日本語のための文字集合を説明することである。
10.1.1.1. JIS X 0208
JIS X 0208は、次の符号要素を持つ。
ISO-IR 87 漢字(表意文字)、ひらがな(表音文字)および片仮名(表音文字)(942 文字、2
バイト)
10.1.1.2. JIS X 0212
JIS X 0212 は、次の符号要素を持つ。
ISO-IR 159 漢字-補助漢字(表意文字)(942 文字、2バイト)
ISO/IEC 2022 のためのエスケープシーケンス(参考)
(定義語についてはDICOM-PS3.3-2011参照)
ISO-IR 87 ISO-IR 159
G0 集合 ESC 02/04 04/02 ESC 02/04 02/08 04/04
G1 集合 ESC 02/04 02/09 04/02 ESC 02/04 02/09 04/04 注:
1.指定機能 G0-DESIGNATE 94-SET のためのエスケープシーケンスは、最初の I バイト
02/04 および二番目の I バイト 02/08 を持つ。これには例外がある。最終バイトが 04/00、
04/01 または 04/02 の場合は、二番目の I バイト 02/08 は省略される。ISO/IEC 2022 を参 照。
2.この表はDICOMの中で使用されないG2 および G3 集合を含まない。10.1.3参照。
3.「Specific Character Set(0008,0005)」の値のための定義語 ISO 2022 IR 87 は ISO-IR 87 の ための G0 集合をサポートする、そして定義語 ISO 2022 IR 159 は ISO-IR 159 のための G0 集合をサポートする。「DICOM PS3.3-2011」を参照のこと。
10.1.2. 日本語における人名の値表現の例
人名を表現している文字列は、5構成要素をもつ構成要素グループに基づくPN値表現の規約を使用し て符号化される。表意文字を使用する言語では、名前を表意文字および表音文字の両方で書くことが、
しばしば必要となる。表意文字は、公式目的のために必要となることがあり、一方、表音文字は、ふり がなおよびデータ処理の目的のために必要となることがある。
表意文字および表音文字で名前を書く目的のために、三つまでの構成要素グループが、使われることが ある。構成要素グループの区切り記号は、等号文字”=”(3DH)である。3構成要素グループはそれらの 出現順に、単一バイト文字表現、表意文字表現、および表音文字表現である。
10.1.2.1. 例1:属性「Specific Character Set(0008,0005)」の値1が存在しない場合 この場合、デフォルトによって「ISO-IR 6」が使用される。
(0008,0005) \ISO 2022 IR 87 文字列:
符号化表現:
05/09 06/01 06/13 06/01 06/04 06/01 5/14 05/04 06/01 07/02 06/15 07/05 03/13 01/11 02/04 04/02 03/11 03/03 04/05 04/04 01/11 02/08 04/02 05/14 01/11 02/04 04/02 04/02 04/00 04/15 03/10 01/11 02/08 04/02 03/13 01/11 02/04 04/02 02/04 06/04 02/04 05/14 02/04 04/00 01/11 02/08 04/02 05/14 01/11 02/04 04/02 02/04 03/15 02/04 06/13 02/04 02/06 01/11 02/08 04/02
制御文字ESC (01/11) を \033 を使用して表示するか印刷するASCIIに基づいた機器によって表示され、
印刷されることがある。
例:
Yamada^Tarou=\033$B;3ED\033(B^\033$BB@O:\033(B=\033$B$d$^$@\033(B^\033$B$?$m$&
\033(B
表10-1-1 例1の中で使用される文字集合とエスケープシーケンス
文字集合 記述
構成要素 グループ
(0008,0005) の値の定義語
ISO 登録番号
符号拡張 用規格
ESCシー
ケンス 文字集合:仕様目的 日本語 第1:
単一バイト 文字
値1:
無し
ISO-IR 6 GL ISO 646:
第2:
表意文字
値2:
ISO 2022 IR 87
ISO-IR 87 ISO 2022 ESC 02/04 04/02
GL JIS X 0208:
漢字、ひらがな、片仮名 値1:
無し
ISO-IR 6 ISO 2022 ESC 02/08 04/02
GL ISO 646:
区切り記号用 第3:
表音文字
値2:
ISO 2022 IR 87
ISO-IR 87 ISO 2022 ESC 02/04 04/02
GL JIS X 0208:
ひらがな、片仮名 値1:
無し
ISO-IR 6 ISO 2022 ESC 02/08 04/02
GL ISO 646:
区切り記号用
10.1.2.2. 例2:属性「Specific Character Set(0008,0005)」の値 1 が ISO 2022 IR 13 の場合 (0008,0005) ISO 2022 IR 13\ISO 2022 IR 87
文字列:
Yamada^Tarou=山田^太郎=やまだ^たろう
Yamada^Tarou= ESC 02/04 04/02 山田 ESC 02/08 04/02 ^ ESC 02/04 04/02 太郎 ESC 02/08 04/02
= ESC 02/04 04/02 やまだ ESC 02/08 04/02 ^ ESC 02/04 04/02 たろう ESC 02/08 04/02
ヤマダ^タロウ=山田^太郎=やまだ^たろう
ヤマダ^タロウ= ESC 02/04 04/02 山田 ESC 02/08 04/10 ^ ESC 02/04 04/02 太郎 ESC 02/08 04/10 = ESC 02/04 04/02 やまだ ESC 02/08 04/10 ^ ESC 02/04 04/02 たろう ESC 02/08 04/10
符号化表現:
13/04 12/15 12/00 13/14 05/14 12/00 13/11 11/03 03/13 01/11 02/04 04/02 03/11 03/03 04/05 04/04 01/11 02/08 04/10 05/14 01/11 02/04 04/02 04/02 04/00 04/15 03/10 01/11 02/08 04/10 03/13 01/11 02/04 04/02 02/04 06/04 02/04 05/14 02/04 04/00 01/11 02/08 04/10 05/14 01/11 02/04 04/02 02/04 03/15 02/04 06/13 02/04 02/06 01/11 02/08 04/10
制御文字ESC (01/11) を \033 を使用して表示するか印刷するASCIIに基づいた機器によって表示さ
れ、印刷されることがある。
例:
\324\3l7\300\336^\300\333\263=\033$B;3ED\033(J^\033$BB@O:\033(J=\033$B$d$^$@\03 3(J^\033$B$?$m$&\033(J
表10-1-2 例2の中で使用される文字集合とエスケープシーケンス
文字集合 記述
構成要素 グループ
(0008,0005) の値の定義語
ISO 登録番号
符号拡張 用規格
ESCシー
ケンス 文字集合:仕様目的 日本語 第1:単一バ
イト文字
値1:
ISO 2022 IR 13
ISO-IR 13 GR JIS X 0201:
片仮名
ISO-IR 14 GL JIS X 0201:
ローマ文字、区切り記号用 第2:
表意文字
値2:
ISO 2022 IR 87
ISO-IR 87 ISO 2022 ESC 02/04 04/02
GL JIS X 0208:
漢字、ひらがな、片仮名 値1:
ISO 2022 IR 13
ISO-IR 14 ISO 2022 ESC 02/08 04/10
GL JIS X 0201:
ローマ文字、区切り記号用 第3:
表音文字
値2:
ISO 2022 IR 87
ISO-IR 87 ISO 2022 ESC 02/04 04/02
GL JIS X 0208:
ひらがな、片仮名 値1:
ISO 2022 IR 13
ISO-IR 14 ISO 2022 ESC 02/08 04/10
GL JIS X 0201:
ローマ文字、区切り記号用
10.1.3. 仮定される初期状態
- 符号要素G0、および(8ビットモードにおいてのみ)符号要素G1 は、常に符号表のGL領域と GR 領域の中にそれぞれ呼び出される。これらの符号要素のために指定される文字集合は、直ちに 使用される。符号要素G2およびG3は、使用されない。
- 制御文字の主要集合は、常にC0符号要素として指定される、そしてこれは符号表のCL領域の中 に呼び出される。C1符号要素は、使用されない。