• 検索結果がありません。

朝鮮語の辞書検索支援ソフトについて

N/A
N/A
Protected

Academic year: 2021

シェア "朝鮮語の辞書検索支援ソフトについて"

Copied!
16
0
0

読み込み中.... (全文を見る)

全文

(1)

朝鮮語の辞書検索支援ソフトについて

著者 油谷 幸利

雑誌名 言語文化

巻 2

号 1

ページ 127‑141

発行年 1999‑07‑30

権利 同志社大学言語文化学会

URL http://doi.org/10.14988/pa.2017.0000004320

(2)

朝鮮語の辞書検索支援ソフトについて

<1>

油 谷 幸 利

0. はじめに

朝鮮語は日本語と同様に膠着言語であるが、現在の正書法においては、日 本語の文節にほぼ相当する単位ごとに分かち書きを行うという点で日本語と

異なる。<2>

日本語は分かち書きをしないために形態素解析においては朝鮮語よりも不 利であるが、漢字仮名混じりで表記することによって、自立語と付属語< 3 >の 境界がある程度判別できる。これに対して朝鮮語は、分かち書きの独立単位 は必ず1つ以上の自立語を含むということは明白であるが、すべてハングル で表記した場合、同形異語< 4 >の判別という問題点が生じると共に、学習開始 後間もない者にとっては、形態素の境界を見つけだすのに苦労することが多 い。

本稿は、入門期の学習者が辞書で単語を検索する際に、テキストに現れた 綴り字がいかなる形態素列として解析できる可能性があるかを示すことによ って、朝鮮語の学習を支援するソフトウェアの構築を目指すものである。<5>

1. 入出力

1. 1. 朝鮮語入力システム

油谷( 1 9 9 4 a)では、高電社のローマ字入力方式を採用したが、今回は

「ローマ字入力方式、2ボル式< 6 >」の2通りの方式の中から選択できるよう に改良し、また、マン・マシンイターフェイスを改善するために、画面に上 記2通りのキーボードを表示できるモードを追加した。

このキーボード表示モードでは、学習者は画面に表示されたキーボードの

「言語文化」2-1:127−141ページ 1999.

同志社大学言語文化学会©油谷幸利

(3)

配列を見ながら手元のキーボードを用いて朝鮮語を入力してもよく、また、

マウスで画面に表示されたキーボードのキーをクリックすることによっても 入力できるようにし、利用者の便宜を図った。

1.2.分析単位

分かち書きの1単位とする。

将来的には、文単位で入力したものを自動的に分かち書き単位に分割して 形態素解析を行ったり、ファイルから連続的に解析すべきデータを読み込ん だりできるように改良することも考えている。

1.3.分析の範囲

今回は、『朝鮮語入門』(油谷幸利著、ひつじ書房)で学習する文法事項の 範囲内で形態素解析を行うこととし、この範囲を越えるものについては無視 することとした。

1.4.出力

可能性のある形態素解析結果をすべて出力する。

1.5.後処理

学習者は解析結果から辞書検索のヒントをえて、実際に辞書で確認する。

現実には形態素解析が一意的に決定されることもあるが、油谷(1 9 8 9)で述 べたように、何通りかの可能性がすべて成立することもありうる。この場合 は、前後関係に応じてその中から最終的に最も適切な解釈を学習者自身が選 択することになる。

2.形態素解析のアルゴリズム

以下では、分かち書きの1単位を構成する文字列に対し、語末の要素文字

< 7 >や単位文字< 8 >を手がかりにして形態素解析を行うアルゴリズムを示すこと

にする。

本稿におけるアルゴリズムの大きな特色は、形態素解析を文字列の最後尾

(4)

から行うという点である。形態素解析を語末から行うのは以下の理由による。

(ⅰ)辞書を備えている場合は語頭から最長一致法に基づく形態素解析を 行うのが常道であるが、本稿は辞書を備えていないので、膠着語の 特徴である語末に品詞の性格が明確に現れる点を利用する。

(ⅱ)辞書を備えずにアルゴリズムのみで形態素解析を行うのは、初学者 に品詞の特徴を把握させるためであり、上述のように、膠着言語で ある朝鮮語の品詞の特徴は語末にもっとも明確に現れる。

なお、本稿で示す用例は、すべて末尾に掲げた参考資料からの引用である。

また、分析は文を構成している分かち書きの一単位毎に行うが、前後関係を 明瞭にするために2 . 1 .の用例は全て文の形で示し、分析対象となる文字列は、

下線を付して示すことにした。

2.1.常に成立する可能性があるもの 体言または副詞または冠形詞または感嘆詞

これらの品詞は単独で分かち書きの1単位となりうるものである。

1-1  気分の悪いことでもあるのかい?

1-2  どうしてそんなことおっしゃるんで すか?

1-3  いろいろとありがとうございます。

1-4  あっ、うっかり忘れていた。

1-1が体言の例、1-2が副詞、1-3が冠形詞、1-4が感嘆詞の例であ る。用例を見ても分かるように、これらの品詞は、文字列としての特徴は全 く存在しない。長さは2要素文字以上であれば上限は特にないし、語末も2.

2.に示す子音字を除けばいかなる要素文字でも可能である。

従って、入力された文字列そのものが辞書の見出し語である可能性がある ので、最初の解析結果として無条件にこれらの品詞を提示することにする。

(5)

2.2.入力間違い

分かち書きの単位が以下のパッチムで終わることはありえないので、これ らが入力された場合は、「入力間違いの可能性があります!!」と表示するこ とにする。

2.3.特定の母音字または子音字で終わるときに限って成立する可能性が あるもの

2 1種類の母音字と、2.2.で示した8種類のパッチムを除く1 9種類のパ ッチムの、合計4 0種類の文字のいずれの要素文字で文字列が終わるかに従っ て、分析を開始する。

以下では母音要素文字の中から「 」で終わる文字列と、子音要素文字の 中から「 」で終わる文字列を例にとってアルゴリズムを示すことにする。

(1)「 」で終わる文字列の分析

初級の段階で学習する語尾または助詞の内で、母音の「 」で終わるもの には以下のようなものがある。

・主格助詞  (〜が)

・助詞    (〜毎に)

・比較助詞  (〜より)

・平叙語尾  / (最敬体:〜です、ます)

・疑問語尾  / (最敬体:〜ですか、ますか)

・平叙語尾  / / (ぞんざい体:〜だ)

・連用形語尾 

体言と助詞、用言語幹と語尾の組み合わせが1回限りのものであればアル ゴリズムは非常に単純であるが、朝鮮語においては日本語の「彼+に+だ け+は=体言+与格助詞+限定助詞+主題助詞」や、「行か+せ+られ+た く+なかっ+た=動詞語幹+使役助動詞+受け身助動詞+希望助動詞+否定 助動詞+過去助動詞」のように、文法要素が次々と接続していくために、ア

(6)

ルゴリズムが非常に複雑になる。

本稿では形態素解析のアルゴリズムを多数のモジュールに分割したり、モ ジュールを再帰的に呼び出すことによって全体を見通しの良いものにするよ うにこころがけた。

(2)ぞんざい体の分析

「 」で終わる文字列の中から、朝鮮語初級文法の大きな課題の一つで あるぞんざい体を例として取り上げ、形態素解析のアルゴリズムを示すこと にする。

ぞんざい体は、語幹の品詞および時制に応じて「 / / 」の3通 りの形式を持つので、まず、この3通りに区分する。

1) の場合

a.現在時制しかありえないので、テンスモードをFalseに設定する。

b. より以前の部分を語幹、 を語尾とし、コメントとして

「平叙語尾(ぞんざい体)」を設定して、「子音語幹動詞モジュール」

を呼び出す。

c.子音語幹動詞モジュール

①語幹末が「 、 、 」の場合

子音語幹動詞の最後がこれらの文字になることはありえないので、

「エラーモジュール」を呼び出す。

②語幹末が上記以外の子音の場合 ハングル表示:語幹+語尾

文法解説:動詞子音語幹+コメント d.エラーモジュール

画面出力:入力間違いの可能性があります。

2) の場合

a.現在時制しかありえないので、テンスモードをFalseに設定する。

b. より以前の部分を語幹、 を語尾とし、コメントとして「平 叙語尾(ぞんざい体)」を設定して、「母音R語幹動詞モジュール」

(7)

を呼び出す。

c.母音R語幹動詞モジュール

①母音語幹の動詞

ハングル表示:語幹+語尾 文法解説:動詞語幹+コメント

②R語幹はNの前で語幹末のRが脱落するので、R語幹の可能性を示

ハングル表示:語幹+ パッチム+語尾 文法解説:動詞語幹< 語幹>+コメント

③語幹末が の場合は、尊敬補助語幹の可能性を示す必要があるの で、 より以前の部分を語幹、 を語尾とし、品詞として「動詞 語幹」を、コメントとして「平叙語尾(ぞんざい体)」を設定して、

「尊敬モジュール」を呼び出す。

d.尊敬モジュール

①語幹が で終わっている場合は、 変則の可能性を示す必要がある ので、 より以前の部分を語幹、 以降の部分を現在の語尾に追加 し、品詞として現在の品詞をそのまま設定し、コメントとして「尊 敬補助語幹+」を現在のコメントに追加して、「 語幹モジュール」

を呼び出す。

②語幹が で終わっている場合は、子音語幹と 変則・ 変則などの 可能性を示す必要があるので、 より以前の部分を語幹、 以降の 部分を現在の語尾に追加し、品詞として現在の品詞をそのまま設定 し、コメントとして「尊敬補助語幹+」を現在のコメントに追加し て、「 語幹モジュール」を呼び 出す。

③語幹が上記以外の母音で終わっている場合は母音語幹と 語幹の2 通りの可能性を示す

ハングル表示:語幹+ +語尾

文法解説:品詞+尊敬補助語幹+コメント ハングル表示:語幹+ パッチム+ +語尾

文法解説:品詞< 語幹>+尊敬補助語幹+コメント

(8)

④語幹が縦長母音で終わり、品詞が形容詞語幹あるいは用言語幹であ る場合は、 変則形容詞の可能性を示す。

ハングル表示:語幹+ パッチム+ + +語尾

文法解説:形容詞語幹< 変則>+尊敬補助語幹+コメント e. 語幹モジュール

①語幹が本来 で終わる用言の場合 ハングル表示:語幹+ +語尾 文法解説:品詞+コメント

変則の可能性を示す

ハングル表示:語幹+ パッチム+ +語尾 文法解説:品詞< 変則>+コメント f. 語幹モジュール

①語幹が の場合は特殊な語幹 ハングル表示: +語尾

文法解説:動詞語幹<集める>+コメント

②語幹末が 以外の子音の場合は、現在の語幹・語尾・品詞・コメン トをそのまま設定して「子音用言モジュール」を呼び出す。

③語幹が 変則に属している場合

ハングル表示:語幹+ パッチム+ +語尾 文法解説:品詞< 変則>+コメント

④語幹末子音が であり、かつ語幹が 変則に属している場合 ハングル表示:語幹末の を削除+ パッチム+ +語尾 文法解説:品詞< 変則>+コメント

g.子音用言モジュール

①語幹末が の場合、

ハングル表示:語幹+語尾 文法解説:品詞+コメント

②語幹末が の場合、

ハングル表示:語幹+ +語尾

文法解説:品詞+未来時制補助語幹+コメント

(9)

③語幹末が の場合、テンスモードが T r u eであれば、現在の語幹・

語尾・品詞・コメントをそのまま設定して「過去補助語幹モジュー ル」を呼び出す。

④語幹末が以上のいずれでもない場合 ハングル表示:語幹+語尾

文法解説:品詞+コメント

3) の場合

a. の直前が子音である場合

①過去時制の可能性があるので、テンスモードを Trueに設定する。

より以前の部分を語幹、 を語尾とし、品詞として「形容詞ま たは存在詞」を、コメントとして「平叙語尾(ぞんざい体)」を設 定して、「子音用言モジュール」を呼び出す。<9>

b. の直前が母音である場合

①過去時制の可能性はないので、テンスモードをFalseに設定する。

より以前の部分を語幹、 を語尾とし、品詞として「形容詞」

を、コメントとして「平叙語尾(ぞんざい体)」を設定して、「全用 言モジュール」を呼び出す。

より以前の部分を語幹、 を語尾とし、品詞として「体言」を、

コメントとして「平叙語尾(ぞんざい体)」を設定して、「母音体言 モジュール」を呼び出す。

c.全用言モジュール

①すべての場合

ハングル表示:語幹+語尾 文法解説:品詞+コメント

②語幹末が の場合

ハングル表示:語幹末から を除いた部分+ +語尾 文法解説:品詞+尊敬補助語幹+コメント

d.母音体言モジュール

①すべての場合

(10)

ハングル表示:語幹+語尾 文法解説:品詞+コメント

②語幹末が の場合

ハングル表示:語幹末から をのぞいた部分+ +語尾 文法解説:品詞+指定詞語幹+コメント

③語幹末が の場合

ハングル表示:語幹末から をのぞいた部分+ +語尾 文法解説:品詞+指定詞省略+尊敬補助語幹+コメント

4)実例 <1>

以上のアルゴリズムに基づく形態素解析結果の一例を以下に示す。

入力:

形態素解析:

体言または副詞または冠形詞または感嘆詞

用言語幹+過去時制補助語幹+平叙語尾(ぞんざい体)

用言語幹+過去時制補助語幹+平叙語尾(ぞんざい体)

用言語幹+尊敬補助語幹+過去時制補助語幹+平叙語 尾(ぞんざい体)

用言語幹< 語幹>+尊敬補助語幹+過去時制補助語 幹+平叙語尾(ぞんざい体)

形容詞語幹< 変則>+尊敬補助語幹+過去時制補 助語幹+平叙語尾(ぞんざい体)

体言+指定詞省略+尊敬補助語幹+過去時制補助語 幹+平叙語尾(ぞんざい体)

合計で3タイプ7通りの可能性がある。解析結果はあくまでも理論的に存 在しうるすべての可能性を示しただけであり、そのような単語が実際に存在 するか否かは学習者が辞書で確認する必要がある。ちなみに、これらの解析 結果の内、文脈に合うか合わないかは別にして、実際に単語として辞書に登 録されているものの組み合わせは、②消え去った、④お行きになった、⑤交

(11)

換なさった、⑦ほとりでいらっしゃった、の4つである。

(3)「 」で終わる文字列の分析

初級の段階で学習する語尾または助詞の内で、子音の「 」で終わるもの には以下のようなものがある。

・主題助詞  (〜は)

・限定助詞  (〜だけ)

・限定助詞  (〜のみ)

・現在・過去連体形語尾  / /

・回想連体形語尾 

・逆接語尾  (〜だが)

・仮定語尾  / (〜ば)

・前提・理由語尾  / (〜ては)

(4)逆接語尾と連体形語尾の分析

「 」で終わる文字列の中から、比較的早い段階で学ぶ逆接語尾と連体形 語尾を例として取り上げ、分析アルゴリズムを示すことにする。一見して無 関係な語尾を同時に取り上げるのは、同形異語の可能性が存在するからであ る。

1) で終わる場合

a.この語尾の前には過去時制が立ちうるので、テンスモードを T r u e に設定する。

b. を除いた部分を語幹とし、 を語尾とする。

c.語幹が子音で終わっている場合、品詞として「用言語幹」を、コメ ントとして「逆接語尾」を設定して、「子音用言モジュール」を呼 び出す。

d.語幹が子音で終わっている場合、品詞として「用言語幹」を、コメ ントとして「逆接語尾」を設定して、「全用言モジュール」を呼び

出す。<10>

(12)

2) で終わる場合

a. を除いた部分を語幹、 を語尾とし、品詞として「用言語幹」を、

コメントとして「連体形語尾(形容詞現在・動詞過去)」を設定し て、「母音R語幹用言モジュール」を呼び出す。

b. を除いた部分を語幹、 を語尾とし、品詞として「体言」を、

コメントとして「連体形語尾(現在)」を設定して、「母音体言モジ ュール」を呼び出す。

c.母音R語幹用言モジュール

①母音語幹の用言

ハングル表示:語幹+語尾 文法解説:用言語幹+コメント

②R語幹はNの前で語幹末のRが脱落するので、R語幹の可能性を示

ハングル表示:語幹+ パッチム+語尾 文法解説:用言語幹< 語幹>+コメント

③語幹末が の場合は、尊敬補助語幹の可能性を示す必要があるの で、 より以前の部分を語幹、それ以降を語尾とし、品詞として

「用言語幹」を設定し、コメントは現在のものをそのまま引き継い で、 「尊敬モジュール」を呼び出す。

④語幹末が縦長母音の場合は、 変則の可能性を示す。

ハングル表示:語幹+ パッチム+ +語尾 文法解説:形容詞語幹< 変則>+コメント

3)実例 <2>

以上のアルゴリズムに基づく形態素解析結果の一例を以下に示す。

入力:

形態素解析:

体言または副詞または冠形詞または感嘆詞

体言+助詞(限定)

用言語幹+逆接語尾

(13)

④ 用言語幹+尊敬補助語幹+逆接語尾

⑤ 用言語幹< 語幹>+尊敬補助語幹+逆接語尾

⑥ 体言+指定詞省略+尊敬補助語幹+逆接語尾

⑦ 体言+指定詞省略+逆接語尾

⑧ 用言語幹+連体形語尾(形容詞現在・動詞過去)

⑨ 用言語幹< 語幹>+連体形語尾(形容詞現在・動詞 過去)

⑩ 形容詞語幹< 変則>+連体形語尾(現在)

⑪ 体言+指定詞省略+連体形語尾(現在)

合計で3タイプ1 1通りの可能性がある。この内、文脈に合うか合わないか は別にして、実際に単語として辞書に登録されているものの組み合わせは、

③召し上がるが、④お眠りになるが、⑤心が狭くていらっしゃるが、⑥あざ なでいらっしゃるが、⑦子の刻であるが、の5つである。<11>

3.おわりに

以上で朝鮮語の辞書検索支援ソフトウェアの概要と、形態素解析アルゴリ ズムの一端を述べた。

今回開発した検索支援ソフトは、油谷のホームページ http://www1.doshisha.ac.jp/˜yyutani

にて K O R C A I 4 という名前で公開しているので、興味のある方は自由にダウ ンロードされたい。

<1> 本稿は1 9 9 8年度同志社大学学術奨励金による研究成果の一部である。(課題 名:朝鮮語 CAI の研究)

<2> ただし、複合名詞の分かち書きの単位は個人の判断に委ねられている部分が あり、必ずしも一意的に定まらない。

例:国会議員

(14)

<3> 名詞や形容詞などのように、単独で文の構成要素になりうるものを自立語と 呼び、助詞や助動詞・語尾などのように単独では文の構成要素になりえず、自立 語に付加されて用いられるものを付属語と呼ぶ。

<4> ある綴り字が、単独の品詞のみならず異なる品詞にも分析できたり、何通り かの異なる位置で分割できたりする場合、これを「同形異構造を有する」と言い、

同形異構造を有している語句を「同形異語」と呼ぶ。日本語の仮名文字列では同 形異構造が多数存在する。有名なものを一つあげると、「おしょくじけん(汚職 事件〜お食事券)」がある。詳しくは油谷(1989)参照。

<5> 筆者が開発したシステムは、学習者に代わって辞書を検索するシステムでは なく、辞書を検索する際のヒントを示すにとどめることにより、学習者の形態素 解析能力を高めることを目指すシステムである。

<6>ローマ字式とは、高電社が朝鮮語ワードプロセッサを開発する際に、独自にロ ーマ字とハングルとの対応を定めたものである。2ボル式とは韓国のタイプライ ターで広く用いられているキー配列である。ごく最近になって、複合母音や複合 子音に対するキーを割り当てて、キー入力を減らすように改良した3ボル式と呼 ばれる方式が出現したが、本稿では採用しなかった.韓国における現状では2ボ ル式が最も優勢である。

<7> 初声字として用いられる1 9子音字と、2 1母音字、およびパッチムとしてのみ 用いられる1 1文字( )、合計5 1文字を要素 文字ということにする。

<8> 要素文字を組み合わせて単語を構成する際に、一単位とみなされる文字。

、 など。

<9> 「子音用言モジュール」については、前節gで解説した。

<10> それぞれのモジュールは(2)で解説済みである。アルゴリズムをモジュー ル化しておいたので、ほかの語尾や助詞を分析する際にも効果的に利用できる。

<11> ㈬は実際には「 お休みになる」という交替形を取るので、実用の レベルでは除外する必要がある。

【参考文献】

油谷幸利(1989) 「朝鮮語の同形異語について」『朝鮮学報』朝鮮学会、第133輯 油谷幸利(1993) 「朝鮮語の用例検索について」『朝鮮学報』朝鮮学会、第148輯 油谷幸利(1994a)「朝鮮語CAIの研究」『朝鮮学報』朝鮮学会、第153輯 油谷幸利(1994b)『ハングル基本単語活用辞典』、NHK出版

劉 載源(1985) 『 (韓国語逆順辞典)』、正音社

【参考資料】

(15)

(1995) 『 』女性新聞社

陳雄基(1976) 『 』、 、1992年2版10刷 油谷幸利ほか(1993)『朝鮮語辞典』、小学館

油谷幸利(1986)  『韓国の中学校教科書 ―文脈付き用語索引― 社会3(上) (下)』、 多賀出版

油谷幸利(1987)  『韓国の中学校教科書 −文脈付き用語索引― 社会1(上) (下)』、 多賀出版

油谷幸利(1988)  『韓国の中学校教科書 ―文脈付き用語索引― 社会2』、多賀出 版

A User Assistance System for Getting Entry Forms of a Given Korean String

Yukitoshi YUTANI Key words: Korean Language,  CAI,朝鮮語,形態素解析

Korean is an agglutinative language as well as Japanese. The latter is comparatively easy to analyze into entry forms when written in Chinese characters and Kana alphabet. The former, on the other hand, is hard to analyze when written only in Korean alphabet. It happens to have many homonymous strings when some morphemes are agglutinated into a string.

For example, ‘ka-ji-neun’ is divided into 2 or 3 pieces and analyzed into 3 different morphemes. At first, we can divide it between ‘kaji’ and ‘neun’.

One analysis is a prenominal form of ‘kajida(to have)’. Another analysis is a noun ‘kaji(branch, kind, or eggplant)’ followed by postposition

‘neun(theme case)’. Secondly, we can divide it among ‘ka(to go)’, ‘ji(suffix for making nominal form of a verb)’, and ‘neun(theme case)’. So beginners have a lot of trouble in finding morpheme boundaries.

徐麒源(1995) 『 』、

(16)

Our system aims at assisting students who have just begun to learn Korean by showing all the possible analyses about a given string. (i) Our system has an input method for Korean alphabet. Users need not prepare any additional software in order to input Korean alphabet. (ii) Our system, at the present time, analyzes a string at a time separated by spaces. We plan to make it possible to analyze a sentence or sentences in a file successively in future. (iii) Our system covers elementary grammar explained in “An Elementary Korean(written by Y.Yutani)”. (iv) Our system shows not only the correct analysis but also all the possible analyses about a given string.

(v) Students must check the analyses with his Korean-Japanese dictionary.

They realize many possibilities through this work. (vi) Our system is a freeware and is open to public at Yutani’s home page(URL is http://www1.doshisha.ac.jp/~yyutani).

参照