• 検索結果がありません。

転記作業用の辞書の構築

ドキュメント内 csj-report.pdf (ページ 48-51)

転記作業における基本形の表記の効率的な決定・統一を支援するために,前節までに示した表記原則に基づ き個々の語の表記を定めた「用字用語辞書」を作成した。実際の転記作業においては,この辞書から以下に記 す二種類の辞書を自動的に生成して利用した。

一つは,日本語入力システム「かんな」のための辞書(以下「仮名漢字変換用辞書」)である。転記作業で は,この仮名漢字変換用辞書を用いて基本形を表記した。もう一つは,転記作業者が表記を決定する際に参照 するための可読性の高い辞書(以下「表記確認用辞書」)である。転記作業中にオンラインで検索することがで きるよう作業環境が整えられた。このように辞書や作業環境を整備することによって,誤表記を抑制すると同 時に,作業を効率的に進められるようにした。

以降ではそれぞれの辞書について説明する。なお各辞書の仕様の詳細については間淵他(2005)を,また実 際の作業環境の詳細については籠宮他(2005)を参照されたい。

2.3.6.1 用字用語辞書

用字用語辞書は,仮名漢字変換用辞書と表記確認用辞書を自動的に生成するための基になる辞書であり,両 辞書に必要な情報が全て含まれている。具体的には,(1)使用の可否,(2)語句の読み,(3)表記,(4)品詞ラベ ル,(5)品詞記号,(6)注記の六つの情報から構成される。

[基本構成] ○ おこな:行な:あわ行(#W5r)

× おこな: 行: あわ行(#W5r)〔→「行な(う)」〕

                        

(1) (2) (3) (4) (5) (6)

表記の揺れが想定される語については,使用可能な表記だけでなく,使用不可の表記についても,正表記等 の注記を付けた上で積極的に登録している。(1)において,使用の可否に関する情報が「○(可)」と「×(不 可)」で示される。仮名漢字変換用辞書にはこのうち使用可能な表記のみが,表記確認用辞書には両方の表記 が,それぞれ反映される。(2),(3)には,語句の読みとそれに対応する表記に関する情報が記されている。日 本語入力システムに対応した形式で格納されているため,上記例に見られるように,活用語は活用語幹のみの 登録となる。表記確認用辞書に変換する際には,後述の品詞情報から語尾を補完する。(4),(5)には,品詞情 報が記されている。(5)には,日本語入力システム「かんな」の品詞体系に準拠した仮名漢字変換用の品詞記 号が,(4)にはそれに対応する品詞ラベルが記される。(6)の注記は,表記に関する補助情報が記されており,

表記確認用辞書にのみ反映される(2.3.6.3節のdを参照)。

なお,登録対象とする見出し項目の長さは,長短さまざまなものが含まれている。例えば「国立国語研究所」

であれば,「国立」「国語」「研究」「所」だけでなく,「国語研究所」や「国立国語研究所」でも登録している。

また,一般動詞「巡る」は漢字で表記するが,「憲法 をめぐる 議論」のように助詞相当句として利用する場合 には平仮名で表記する(2.3.2.9節参照),といった具合に,表記の使い分けが必要な場合には,動詞「巡る」だ けでなく,助詞相当句として「をめぐる」全体も登録している。用字用語辞書,およびそこから派生する二つ の辞書は,あくまで誤表記を抑制し,作業を効率的に進めるために開発したものであり,適切な表記を正確か つ効率的に変換・検索するために必要なものは,積極的に登録するという方針をとったためである。

用字用語辞書の作成にあたっては,フリーの仮名漢字変換用辞書であるPubdic+などをベースにした。こ れらは一般の仮名漢字変換用辞書であるため,表記の統一はなされていない。そこで,全ての見出し項目に対 し,CSJの表記原則に従って,使用可能な表記と不可能な表記に分類し,使用の可否の情報を記した。必要が あれば,使用可能な表記や想定される間違い易い表記も加えた。また品詞についても,表記原則や連接を考慮 し,適宜変更した。更に,転記作業をする過程で辞書に存在しない語句(いわゆる「未知語」)が出現した場合 には,表記に関する責任者が実際の表記や品詞を決定した上で,新たな項目として辞書に登録した。なお本プ ロジェクト終了時点で,辞書の見出し項目数は約11万となった。

2.3.6.2 仮名漢字変換用辞書

日本語入力システム「かんな」用の仮名漢字変換用辞書は,先述の通り用字用語辞書から自動的に生成され る。転記作業の効率と精度を高めるために,以下のような工夫が施された。

誤表記をできるだけ防ぐために,用字用語辞書に登録された項目のうち,使用可能なもの(用字用語辞書の 第1項が「○」のもの)のみを対象に,仮名漢字変換用辞書を作成した。

2.3.4節で述べたように,CSJでは一定の基準を設けた上で口語表現を積極的に採用するという方針をとっ

た。しかし口語表現の中には,通常の「かんな」システムでは対応できないものも多かった。そこで,文法 定義ファイル(品詞のインベントリーや品詞間の接続情報を記述したファイル)の変更・追加等の処理を行 ない,この種の口語表現を適切に変換できるようにした。

CSJの表記原則においては,同音同義の普通名詞と固有名詞で表記の使い分けがある場合が少なくない。そ のため,辞書には,普通名詞の表記には使用できないが,固有名詞の表記には使用できるというような表記 が数多く存在する。例えば「あしずり」は,普通名詞の場合は「足ずり」と,地名の場合は「足摺」と表記 するといった具合である。また,単独では使用できないが,何らかの語を構成する文字として使用する可能 性のある単漢字も,仮名漢字変換用辞書としては登録しておく必要がある。このように,使用する際に注意 が必要となる表記や文字については,特定の記号が付与された形で変換されるようにし,作業者の注意を促 すようにした。

(Aビー二十九;B29)」のように,必ずタグ(A)を用いて,漢字・仮名と,アルファベット・算用数字等 を併記して表記しなければならない語がある(詳細は2.5.9節参照)。このような語については,入力の手間 もかかる上に,表記を間違えることも少なくない。そこで,タグを含めた形で用字用語辞書に登録し,変換 の際の便宜を図った。

誤り易い仮名遣いについては,誤った形で入力しても正しく変換できるように設計した。例えば,本来は

「うな ず く」と入力すべきところを「うな づ く」と入力しても,正しく「頷く」と変換されるといった具合 である。

2.3.6.3 表記確認用辞書

表記確認用辞書も,用字用語辞書から自動的に生成される。用字用語辞書のうち,使用の可否,語句の読み・

表記,品詞情報,注記に関する情報を,可読性の高い形で表現している。実際の転記作業では,作業を行なっ ているエディターから直接本辞書を検索する形で利用した。

以下,辞書を構成する項目について解説する。

a. 使用の可否(1) 基本形で使用できる表記を「○」で,使用できない表記を「×」で示している。また

×の項目には,正しい表記に関する情報も載せている。これによって,使用できない表記から正しい表 記を知ることができる。

<例> ○ 全て すべて[副詞]

    × すべて すべて[副詞]〔→「全て」〕

    × 総て すべて[副詞]〔→「全て」〕

    × 凡て すべて[副詞]〔→「全て」〕

b. 語句の表記(第2項)と読み(第3項) 語句の表記とそれに対する読みを示している。活用語は言い切りの 形で登録してある。

<例> ○ 行ない おこない[名詞]     ○ 行なう おこなう[動詞]

c. 品詞情報(第4項) 品詞情報を半角角括弧 [ ] によって示している。用字用語辞書の品詞情報を,語の同 定に必要となる程度の粗い品詞に変換して記した。

d. 注記(第5項) 基本形または発音形の表記に注意が必要な語に対し,基本形の表記候補や使い分けの指示,

発音形の表記や文節の切り方の指示などを亀甲括弧 〔〕 内に記した。以下に注記の例を示す。

表記候補を指示する注記   基本形表記の指示

  × 逢う あう[動詞]〔→「会(う)」〕

  × まるっきり まるっきり[副詞]〔>「まるきり」;口語・促音<Q>表記「マル<Q>キリ」〕

  発音形表記の指示

  × 学校 がっこ[名詞]〔口語・「がっこう」の読みのみ可.発音形(W)表記〕

  同一表記複数読み情報・読みのデフォルト情報

  ○ 愛想 あいそ[名詞]〔「あいそう」の読みでも登録;デフォルト「あいそ」〕

  ○ 愛想 あいそう[名詞]〔「あいそ」の読みでも登録;デフォルト「あいそ」〕

適切な表記の選択を補助する注記

  ○ 伊勢佐木 いせざき[地名]〔横浜市中区の繁華街〕

  ○ 伊勢崎 いせざき[地名]〔高知県高知市伊勢崎町〕

文節の切り方を指示する注記

  ○ 天の川 あまのがわ[固有名詞]〔文節・AのB/天の川/〕

  ○ 数多く かずおおく[名詞]〔文節・その他/数/多く/〕

ドキュメント内 csj-report.pdf (ページ 48-51)

関連したドキュメント