• 検索結果がありません。

連体形形容詞に関する係りの特性の分析

N/A
N/A
Protected

Academic year: 2021

シェア "連体形形容詞に関する係りの特性の分析"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)

連体形形容詞に関する係りの特性の分析

著者 菊池 浩三

雑誌名 静岡大学大学院電子科学研究科研究報告

巻 21

ページ 140‑143

発行年 2000‑03‑31

出版者 静岡大学大学院電子科学研究科

URL http://hdl.handle.net/10297/1534

(2)

氏名 0(本 籍 )  菊       浩    (愛 媛県 )

学位 の種類    博      (工   学 )

学位 記番号    工博 甲第   189   号

学位授与の日付    平 成 H年 3月 24日

学位授与の要件    学位規則第 4条 第 1項 該当

研究科 ・ 専攻の名称    電子科学研究科   電子応用工学

学位論文題目    連体形形容詞に関する係 りの特性の分析

論 文 審 査 委 員    (委 員長

)

教 授 水 野 忠 則   教 授 吉 田 敬 一 教 授       清三郎    助教授   伊   東   幸   宏 教 授   下 平 美 文

論 文 内 容 の 要 旨

インターネットの急速な発達により、人々の活動はますますバ リアフリーなものとな り、日々膨大 な情報が人々の間で交換 されるようになった。また、交換 される情報 も、技術者中心の技術文のみで な く、一般の人が扱 う日常的な感情表現 を含む文へ と拡大 した。このような状況下で、一層便利で高 品質な自然言語処理システム

(機

械翻訳 システム )の 出現が強 く求められている。 しか し、現在の機械 翻訳 システムは、一文の長 さが短い技術文に対 しては実用的な精度で翻訳することが可能になってい るが、係 りの場合の数が級数的に増加する長い文章の解析率は依然 として低い。

そこで、本論文は、一般の日常活動でよく利用 される用語である形容詞に関 し、長い文での出現形 態を考慮 し、連体修飾を構成 しうる連体形について係 りの側面 より詳細に分析 を加え、その係 り特性 を自然言語処理で利用可能なルールとして抽出 し、現行のシステムヘの適用可能性を検討するもので ある。

自然言語の研究手法において、近年のコンピュータの飛躍的な性能向上は、大量の電子化されたテ キス トデータ

(コ

ーパスと呼ぶ )の 蓄積 を可能 とし、それを利用 した多面的な自然言語分析 を可能 とし た。大規模 コーパスの利用により、得 られた結果の信頼性が増すだけでなく、統計的な分析が可能 と な り、今 まで見えなかった言語の持つ特性が見える可能性が出てきた。大規模 コーパスを利用 した研 究は以下のように多岐に渡っている。

・共起関係の抽出

(3)

・多訳語の同定

・統計確率に基づ く出現用語の品詞推定 0構 文規則の自動抽出

・出現共起によるルールの補強

ただ し、大規模 コーパスを利用 し、統計的な処理を行った研究で も、得 られた結果を言語現象の側 面か ら詳細 に分析 した研究はあまり多 くない。

一方、言語現象の側面からの研究には、人間の直感を必要とするが、このような研究では、長文の 係 りに関 して次の 2つ の考 え方に基づ く研究がある。

・大域的分析 :文全体の骨格 を決定 し、係 りの曖味性 をな くす方式。

・局所的分析 :特 定構文 を狭い範囲でできるだけ正確 に分析 し曖昧性 を排除する方式。

これらの研究においては、表層情報

(文

字列 )の 中にも、未利用の多 くの情報が存在することが指摘 されている。

そこで本研究では、連体形形容詞 という古 くて新 しい問題の解析 に向け、以下の様な方針で取 り組 むこととした。

①大量のコーパスを利用する。

②分類キーとして形容詞の表層情報を使用 し、大量分析を可能とする。

③実用性を考え、分析の中では意味情報はなるべ く使わない。

④局所的分析を徹底的に行 う。

⑤統計的分析の実施 と、得 られた結果の詳細な分析を行 う。

⑥既存システムとの親和性を考え、フ レールベースの方式で分析する。

本論文では、連体形形容詞を分析するにあたり、現状のシステムの適用可能性の観点から、まず現 状システムが翻訳の主ターゲットとしている技術文においてよく利用される形容詞について詳細に分 析 した。これは、この範囲でも高い精度で解析できれば、あまり困難なく現状のシステムに組み込む ことが可能となるからである。分析においては、まず一般に考えられる単純なルールを使つた処理で の解析精度をまとめ、それのみでは十分な精度が得られないことを示す。そして、精度向上のための 詳細な分析を行い、得られた係 りを規定する 7つ の規則

(ル

ール )に ついて、 3つ のカテゴリに分類 し、

ルールの適用順位を考慮 しながら説明する。そして、最後に統計的確率分析に基づ く係 りのデフォル ト属性について説明する。これらのルールを評価文に適用 し評価 したところ、形容詞の係 りを 97%以 上の精度で特定できることを説明する。

技術文でよく利用される形容詞に対 しては高い精度で係 り解釈が可能なルールを検出できたので、

これらのルールの汎用化を試みる。ルールが一般の形容詞に適用可能かどうか調べるため、形容詞を

網羅的に調べ上げることとし、国立国語研究所での分析に基づき形容詞を体系化 し、その分類に従つ

て形容詞を抽出する方式をとった。言葉のスパース性のため、分類上の漏れをなくすことを目標にす

え、類似語や反意語等の視点から抽出ルールの妥当性検証を行い、その結果について説明する。また

ルールの汎用化や拡張について説明する。これらの結果、追加分析 した形容詞に対 しても 95%以 上の

(4)

精度で係 りが特定で きたことを説明する。

最後に、現在実用化 されているシステムとの解析精度比較を行い、本方式が優れていることを示す と共に、実用 システムヘの具体的な組み込み手順 について検討する。

以上、長年の課題の一つであった連体形形容詞の振る舞いに対 して、机上でのシュミレーションと はいえ実用性のある一つの解析方法を提示することができた。これらは、連体形形容詞の一般的な係

りの振 る舞いを規定するものであ り、得 られた結果はシステムの構築方法に依存するものではない。

それゆえ、本論文で提案 した方式はいかなる翻訳方式を採用するに当たつても根底 に流れる係 りの振

る舞い として利用可能なものであると確信 している。

(5)

論 文 審 査 結 果 の 要 旨

本論文は、自然言語処理における構文解析での課題の一つであった連体形 イ・ナ形容詞の係 りの振 る舞いに対 し、実用的な解析手法を提案 している。提案の手法では係 りの特性を計算機に組み込み易 いルールとして表現 している。また、一般的なルール化が困難な部分に対 しては、大規模 コーパスを 用いた統計的手法で処理 し、各形容詞の特性 をデフォル ト特性 として整理 している。この方法によ り、分析対象構文「名詞 1+が/の 格 +形 容詞 +名

2」

に対 して、 97%の 解析精度で係 り受けを判定で きることを示 している。

本論文は全 6章 からなっている。

第 1章 では、研究の背景 と目的について述べている。

2章 では、 日本語の持つ特徴 と曖昧性 について説明 し、それらの解決のために現在 までどのよう な研究がなされてきたかについて説明 している。そ して、本研究の位置づけを明確にするために、こ れ らの方式 と本論文で採用 した方式 との関係 について述べている。

3章 では、技術文で使用頻度の高い形容詞に限定 して詳細な分析 を行い、係 りを規定するルール とその精度について説明 している。具体的には、まず、形容詞の係 りを規定すると考えられている単 純なルールを使 った場合の係 り解釈の精度をまとめ、それでは十分な精度が得 られないことを示 して いる。そ して詳細な分析により得 られた係 りを規定するルールについて、 3つ のカテゴリに分類 し、

ルールの適用順位を考慮 しながら説明 している。また、統計的確率分析に基づ く係 りのデフォル ト属 性 について も説明 している。そ して、検出 したルールを評価文で評価 し、連体形形容詞に関連する係 リカつ 7%以 上の精度で特定できることを説明 している。また先行類似研究 との比較 も行つてお り、本 研究の方式が実用面ではるかに優れていることを示 している。

第4章 では、 3章 で得 られたルールが形容詞全般に対 して利用可能かどうかを検証するために、国立 国語研究所で実施 された分類 に基づ き形容詞を網羅的に調べ分析 している。分析では、分類上の漏れ をな くす よう用語 を選択 し、類似語や反意語等の視点から 3章 のルールの妥当性 を検証 し、その結果 について説明 している。 またルールの汎用化や拡張について説明 している。これらの結果、新規に分 析対象 とした形容詞群 に対 して も、 95%以 上の精度で係 りを特定で きることを説明 している。

第5章 では、現在実用化 されているシステムとの係 り解釈の精度比較を行い、本方式が優れている ことを示す と共に、実用システムヘの具体的な組み込み方法について段階的な組み込みを提案 してい る。

第6章 では、本研究のまとめを行 つている。

以上により、本研究で提案 した係 り解析の有効性 と既存 システムヘの適用可能性が検討できてお り、

博士 (工 学 )の 学位 を与えるものにふ さわ しい と認定する。

参照

関連したドキュメント

(とくにすぐれた経世策) によって民衆や同盟国の心をしっかりつかんでい ることだと、マキァヴェッリは強調する (『君主論』第 3

第 3 章ではアメーバ経営に関する先行研究の網羅的なレビューを行っている。レビュー の結果、先行研究を 8

などから, 従来から用いられてきた診断基準 (表 3) にて診断は容易である.一方,非典型例の臨 床像は多様である(表 2)

地図 9 “ソラマメ”の語形 語形と分類 徽州で“ソラマメ”を表す語形は二つある。それぞれ「碧豆」[pɵ thiu], 「蚕豆」[tsh thiu]である。

前章 / 節からの流れで、計算可能な関数のもつ性質を抽象的に捉えることから始めよう。話を 単純にするために、以下では次のような型のプログラム を考える。 は部分関数 (

特に, “宇宙際 Teichm¨ uller 理論において遠 アーベル幾何学がどのような形で用いられるか ”, “ ある Diophantus 幾何学的帰結を得る

システムであって、当該管理監督のための資源配分がなされ、適切に運用されるものをいう。ただ し、第 82 条において読み替えて準用する第 2 章から第

FSIS が実施する HACCP の検証には、基本的検証と HACCP 運用に関する検証から構 成されている。基本的検証では、危害分析などの