5 . 1 は じ め に
第 三 章 、 第 四 章 で は 情 報 通 信 基 盤 と し て の 日 本 語 パ ブ リ ッ ク フ ォ ン ト に つ い て 、 運用面、ライセンス面で提案を行ってきた。本章では、日本語パブリックフォント だけでは解決できない異体字や外字と言った文字問題へのソリューションについて 検討を行い、システム構築を行った。
5 . 2 異 体 字 ・ 外 字 へ の 取 り 組 み の 必 要 性
日本語パブリックフォントは、相互運用性の高いフォントを提供することを重視 して、フォントがオープンであることすなわち文字コードとしてもフォントフォー マットとしてもデファクトを採用することで、品質を保持するという考えのもと設 計してきた。
しかし、日本語の情報通信基盤には、各官公庁、地方自治体を含めた行政システ ムにおけるいわゆる外字問題が立ちはだかってきた。外字問題とひとくくりにされ ているが、大きく二つに分けられる。
一つは、JIS X 0208や ISO/IEC 10646および Unicodeなどの情報交換用符号化
文字集合では包摂規準や Unification Rules のために社会慣習上使い分けられてい る字形(=異体字)が区別できないという問題である。もう一つは、そもそも符号 化文字集合上に符号位置を持たない文字(=外字)をどう取り扱うかという問題で ある。
図 9に示すように、異体字は情報交換用符号化文字集合に収納されている文字の 包摂関係にある文字であるのに対し、外字は情報交換用符号化文字集合には属さな い、つまり情報交換用符号化文字としては認められないクローズドな環境で使用す る文字である、ということができる。
86 ISO/IEC10646 /Unicode
(JIS X 0221)約16,000字
情報交換用符号化文字集合
異体字 外字
JIS X0208:1990 6,879字 JIS X0213:2000
11,223字
JIS X0208
:1978 6,802字 JIS X0208:1983
6,877字
JIS X0213:2004 11,233字
包摂基準 / U n if ic a tio n Ru le s
図 9 異 体 字 、 外 字 の 関 係 図
いわゆる外字問題には、決定打となるような標準的ソリューションがなかったた め 、私 用 領 域39を用 い た り 、フ ォ ン ト 名が 異 な る フォ ン ト フ ァイ ル の 恣 意的 な 位 置 に字形も意味も全く異なる文字を割り付けたり、符号化せずに画像として表示した りといった、さまざまな方法が林立してきた。以前の紙にさえ印刷できたらよい時 代ではこれらの手法でしのいでこられたが、ネットワーク環境における情報資源と しての活用の必要性が高まるにつれ、電子化文書としてのデータの互換性、検索性、
相互運用性を著しく妨げることとなってきた。それぞれの独自システム開発のため に投下されたコストも膨大な額に上っている。
情報交換性や相互運用性といった観点からは、文字の使用を情報交換用符号化文 字集合の範囲内に止めることが望ましいが、地名や人名の表記に関しては、居住地 への愛着心や父祖への尊敬心といった個人のアイデンティティに関わることでもあ
39 Shift JISでは、xF040~F9FFを外字領域と定義している。Unicodeでは、
0xE000-F8FFを Private Use Area(私用領域)と定義している。
87
り、字形の使い分けへの要求を拒否することも困難である。
したがって、異体字、外字を我が国の情報通信基盤としてどのように扱うべきか という提案が求められる。
5 . 3 異 体 字 ・ 外 字 ソ リ ュ ー シ ョ ン 5 . 3 . 1 異 体 字
これまで、情報交換用に使用するフォントのフォーマットとしては、JIS X 0208
や ISO/IEC 10646および Unicodeなどの情報交換用符号化文字集合に符号位置を
持つ文字を、1つの符号位置に対し1つの字形しか実装することができなかった。
日本語フォントの多くは、規格表に印刷された例示字形と包摂規準と各フォントの デザインポリシーに従って、1つの符号位置に割り当てる字形を作成している。つ まり、あるフォントにおける符号位置aに割り当てられる字形は「Ga」1つであり、
「Ga」 と 包 摂 関 係 に あ る 字 形 「Ga’」 や 「Ga’’」 は 、 同 じ フ ォ ン ト で は 表 示 す る こ とができない。ここで、「Ga’」や「Ga’’」は「Ga」の異体字である。あるいは、別 の フ ォ ン ト に お い て 「Ga’」 を 収 納 す る 字 形 と し て 採 用 し た 場 合 は 、「Ga’」 の 異 体 字である「Ga」や「Ga’’」は表示することができない。
異体字に関しては、ISO/IEC JTC1/SC240および Unicode Consortium による標 準化活動の成果によって、国際標準に準拠したアーキテクチャでの技術的な解決と してIVS、IVDが示された事で、異体字のフォントへの実装の道が開けた。
IVS は 異 体 字 等 を 指 定 す る た め の 機 能 で あ り 、 異 体 字 セ レ ク タ (Ideographic Variation Selector Character:IVSC)を使って、Base Character(Unicodeに登 録されている文字)に対する異体字を指定することができる(図 10)。異体字セレ ク タ は U+E0100 か ら U+E01EF ま で を 割 り 当 て ら れ て お り 、 技 術 的 に は Base
Characterと異体字セレクタの組み合わせで240の異体字を表現することが可能と
なる。
IVDは、異体字セレクタを実際に漢字で運用するための漢字字形データベースの 規格である。IVS を利用して誰もが自由に異体字を追加したフォントを作成したの では、情報交換上混乱をきたすのはあきらかである。そこで Unicode Consortium
40 ISO/IEC JTC1/SC2は、国際標準化を行うISO とIECの合同委員会(ISO/IEC JTC1)において、符号化文字集合に関する標準化を担当するサブ委員会である。
88
で は 、 あ る 特 定 の 団 体 が IVS の 集 合 に 名 前 を つ け た Ideographic Variation
Collection(IVC)とIVS を登録する枠組みとして IVDを規格化し、審査・承認の
プロセスをとるようにしている(図 10)。現在のところ、2007 年 12 月 14 日に承 認されたAdobe-Japan141がIVDに唯一登録されている。このAdobe-Japan1のIVD
には14,647グリフが収納されている。
IVS = base character + IVSC
base character = ベースとなる文字のユニコード番号 IVSC = U+E0100からU+E01EFまでのユニコード番号
例)芦(U+82A6)の場合、 base character= U+82A6
以下の芦の異体字を表現するには、IVSCをそれぞれの文字に割り当てる。
IVSCの割り当て例 U+E0100 U+E0101 U+E0102 U+E0103
IVS = U+82A6 + U+E0100 = IVS = U+82A6 + U+E0101 = IVS = U+82A6 + U+E0102 = IVS = U+82A6 + U+E0103 = IVSの集合に名前をつけたもの = IVC
IVC IVC Unicode Consortium
IVD
登録 登録
登録
ただし2010年1月現在、IVDにはAdobe-Japan1 collectionしか登録されていない。
図 10 IVS,IVSC,IVDの関係
図 11、図 12 は、IVD 登録されている Adobe-Japan1 の一例である。「辻」は、
一点しんにょうと二点しんにょうで包摂関係にある。従って、Unicode上のコード ポイントは U+8FBBだけであり、一点しんにょうと二点しんにょうを同一フォン トで表示することはできなかった。IVS を用いることで、
U+8FBB U+E0100 =一点しんにょうの辻
41 Unicode Home Page「Combined registration of the Adobe-Japan1 collection and of sequences in that collection」:
http://www.unicode.org/ivd/data/2007-12-14/
89 U+8FBB U+E0101 =二点しんにょうの辻 を切り替える事が可能となる。
「 龍 」 に つ い て も 同 様 で 、 微 妙 な 字 形 差 を 区 別 し た い 場 合 に は 、U+E0100、
U+E0101、U+E0102の 3種類の IVSにより字形を切り替える事ができる。
図 11 Adobe-Japan1 IVD に お け る 辻 の 例
図 12 Adobe-Japan1 IVD に お け る 龍 の 例
実 際 に IVS を 利 用 し て 異 体 字 を 出 力 す る た め に は 、 文 字 処 理 環 境 と し て 、 入 力
(InputMethod)、処理(各種アプリケーション)、出力(フォント、レンダリング)
のすべてが対応しなければ成立しない。
そのためには、フォント側の環境として、IVS を利用した異体字追加フォントを 作成しやすい環境作りが求められる。フォントへの異体字追加には、異体字をゼロ から作るよりもすでに登録されている字形やそのパーツ(偏や旁など)を利用した 改変を行う方が、効率的である。また、同一の字形がすでに作成されていないかを 確認する必要もある。日本語フォントは、多くの文字を収納しているため、所望の 字形を探し出すことが難しい場合がある。特に読みのわからない文字については、
検索する手掛かりが無い場合がある。ここで課題として、字形の検索という問題が 浮かび上がる。
一方、情報の交換性、相互運用性観点からは、異体字として表示できる符号化ソ リ ュ ー シ ョ ン が ベ ス ト で あ る が 、 入 力 (InputMethod)、 処 理 ( 各 種 ア プ リ ケ ー シ
90
ョン)、出力(フォント、レンダリング)のすべての環境が IVS に対する技術的対 応を必要とする。多くのフォントに同様の実装がされていなければならず、多数の 異体字を搭載した巨大なフォントを作成するよりも、異体字を個別の文字画像とし て扱うことも1つの手段といえる。過渡的な状況や、異体字にも存在しない外字の 文字表示要望に対しては、符号化しない外字ソリューションの提供が求められる。
5 . 3 . 2 外 字
外字は、情報交換用符号化文字集合上に符号位置を持たない文字である。つまり、
情報交換を行う上でオープンな環境において合意がとれていない文字であるといえ る。
これまで、ある限定的な使用範囲で外字を使うにあたっては、空いている符号位 置に外字を割り当てたフォントを使用することを行ってきたが、オープンな環境で は情報交換や相互運用性といった観点から、外字をフォントに搭載するのではなく あくまで文字画像として扱うことが望ましい。これは、「4.4.2 フォント向け ライセンスの考察」で示したようにフォントが OS やアプリケーションとコンテン ツの間で、フォント名により連携をとっていることと関係する。
図 13 に外字をフォントに搭載した場合と、画像として扱った場合の例を示す。
図 13 上部に外字をフォントに搭載した場合を示す。外字搭載フォント Fa を所有 している Aさんが外字を含むドキュメント Daを作成しオープンな環境に対して公 開した場合、Faを所有しない Bさんが Daを閲覧する場合には、Bさんの PC環境 に存在するフォント Fb を代替使用することになる。この際、符号化文字集合(例
えばJIS X 0213)内の文字は問題なく表示できるが、外字については Fb には搭載
されていないため表示することができない。この現象を情報交換性の欠落というこ とが でき る 。一 方、 図 13 下 部に 示す よう に 、外 字を 画 像と して 扱 った 場合 は 、A さんが作成したドキュメント Dc には外字画像が張り込まれており、それを受け取 った B さんも外字画像が含まれたドキュメント Dcを閲覧するため外字部分の欠落 は生じない。