• 検索結果がありません。

博士(工学)任 福継 学位論文題名

N/A
N/A
Protected

Academic year: 2021

シェア "博士(工学)任 福継 学位論文題名"

Copied!
5
0
0

読み込み中.... (全文を見る)

全文

(1)

     博士(工学)任   福継 学位論文題名

意味属性の対応構造にもとづく日中機械翻訳に関する研究

学位論文内容の要旨

  近年,世界各地で機械翻訳の研究が盛んに行われ,いくっかの機械翻訳システムが実用化され ている。しかし,構文構造の複雑さ,表層形と意味の対応の複雑さ,原言語と目的言語の表現方 法の隔たりなど,良質の翻訳を妨げる多くの課題が残されている。また,これまで機械翻訳の研 究開発は英語を主要な対象として行われることが多く,特に本論文が対象とする日中両言語間の 機械 翻訳に関しては本格的研究が開始されたばかりであり,未開拓の部分がきわめて多い。

  一般に,日本語から中国語への翻訳において,自立語にっいては容易に対応する中国語表現が 得られる場合が多い。しかし,付属語にっいては中国語表層として独立かっ適切な単語表現がな い場合や,付属語単独でなくそれを含む文全体として中国語表現に対応する場合が多く,文全体 の解析を行わなければ中国語訳文を得ることができない。このような表現形態を中国では 慣用 句型(guanyongーjuxing) と呼んでいる。ここで, 慣用句型 は日本語における 慣用句 とは完全には一致しないので,本論文では 慣用句型 の日本語訳として「常用文型」という語 句を用いる。一般に中国では,日本語の学習に際してまず日本語のいくっかの格助詞を学び,そ の後は前述のような常用文型を中心に学習する。そして,これら常用文型にっいては詳細な文法 解析を行わず,直接中国語訳を得ている。また,このようにして得られた中国語訳は常用文型に 対 応 し て 選 択 さ れ る 補 助 語 に よ ル ア ス ペ ク ト と モ ダ リ テ ィ を 満 足 さ れ る 。   本論文では,このような常用文型の性質を利用して,入力文を基本文と常用文型に分けて,意 味属性を利用して多義性を解消する日中機械翻訳手法を提案している。また,提案する手法に基 づく実験システムを構築し,本手法の有効性を確認している。

  本論文は7章より構成されている。以下に各章毎の概要を示す。

  第1章は本研究の背景と現状の概要,本論文の目的および主要ナょポイント,そして,論文の構 成にっいて述べている。

  第2章では日中両言語の特徴を分析し,機械翻訳における主要な問題点を検討する。さらに本 研究における日中機械翻訳手法の基本構想にっいて述べている。

18

(2)

  第3章 で は本 論文で 提案 する翻 訳アル ゴリズ ムを組 み込 む基盤 である コード 方式 日中機 械翻訳 シス テム の設計 にっい て述べ ている 。日 本語は 述語文 節を中 心と し,他 の文節 の役割をその文節 の格 助詞 で指定 するこ とによ って文 全体 の意味 を表現 する。 一方 ,中国 語の場 合に語と語との文 法関 係は 語順に よって 示され る。そ れゆ え,日 本語の 格関係 と中 国語の 語順と の間には対応関係 が存 在す ると考 えられ る。本 章では ,こ の両言 語表現 の特徴 の検 討にも とづき ,コード方式日中 機械 翻訳 手法を 提案し ている 。この 手法 では, まず, 翻訳し よう とする 日本語 文を文の意味的な 基本 単位 に分解 し,こ れを格 助詞と 活用 形を中 心に解 析し, 上記 基本単 位(こ れをコード元素と い う ) に構 文及 び意味 属性 を表す 記号を 付加し た2つ組( これ をコー ドとい う)を 生成す る。 な お, コー ド元素 すなわ ち文の 意味的 な基 本単位 として は文節 を採 用して いる。 以上の処理により 文は コー ドの並 びで表 され, これを コー ド列と いう。 次に, 得ら れたコ ード列 を中国のコ―ド列 に変 換す る。こ こでは 中国語 の構文 則に したが って語 順の変 換が 行われ ,また ,各コード元素は 対応 する 中国語 コード 元素に 変換さ れる 。最後 に,こ のコー ド列 から中 国語訳 文を生成する。こ のと き, コード の性質 にした がって 補助 語の付 加など の操作 を行 う。こ の方式 において,コード を生 成す るとき ,文法 的情報 と意味 的情 報の双 方が考 慮され ,訳 語の選 択の際 にコードの性質が 参照 され るので ,不要 な多義 語の増 大が 防止さ れる。 上記に もと づき翻 訳シス テムを作成して実 験 を 行 っ た 結 果 , 正 翻 訳 率87% と い う 性 能 が 得 ら れ , 本 方 式 の 有 効 性 が 示 さ れ た 。   第4章 で は常 用文型 の翻 訳アル ゴルズ ム,特 に意味 属性 による 多義性 を解消 する 手法に っいて 述べ てい る。こ の手法 は大別 して, @日 本語文 の解析 ならび に常 用文型 の抽出 ,◎日本語常用文 型に 対応 する中 国語表 現の多 義性と 多訳 性の解 消,◎ 中国語 表現 に現れ る補助 語の語順及び修飾 対 象 の 確定 ,の3部 分より なる。 本手 法の要 点は, @各々 の常 用文型 にっい てその 訳文条 件を 調 べ, 訳文 関数を 求める こと, ◎訳文 関数 を用い て直接 訳文を 生成 するこ と,◎ 意味属性によって 常 用 文 型の 多義 性と多 訳性 を解消 するこ と,の3点 にまと めら れる。 また, 本章で は,日 本語 文 を基 本文 と常用 文型に 分ける 手法, 同類 常用文型の合併および多重常用文型の処理などを述べる。

さら に, この手 法に基 づく実 験シス テム を作成 し,常 用文型63種類 を登録 し,常 用文型をもつ約 530文 に っ いて 翻訳実 験を 行った 結果, 正翻訳 率は約96%で あった 。この 結果 により ,本論 文で 提 案 し た 日 中 機 械 翻 訳 に お け る 常 用 文 型 の 処 理 手 法 の 有 効 性 が 確 か め ら れ た 。   第5章 で は日 本語の 格助 詞に対 応する 中国語 の補助 語の 推定方 法にっ いて述 べて いる。 日本語 の 格 助 詞に 対応 する中 国語 補助語 は一般 に1対多で あるの で, 複数の 補助語 候補か ら正し い補 助 語を 推定 する必 要があ る。本 章では ,ま ず,実 際の教 科書, 文献 など約1200文か ら格助詞および その 関連 情報を 抽出し て意味 属性対 応関 係の分 析を行 い,そ の結 果にも とづい て日本語格助詞に

(3)

対応する中国語補助語を推定する手法を提案している。そして,格助詞の多義性を解消する情報 と している日本語格助詞と中 国語補助語との関連表(KAHOT)を求め,格助詞を含む1200文 の実験を行った。その結果,推定した補助語の正解率が約95%であり,本手法の有効性を確認す ることができた。

  第6章では日中機械翻訳における可保留暖味関係にっいて述べている。一般に,非同族言語間 の機械翻訳では,原言語の係り受け構造の暖味性を解消しなければならないとされている。しか し,日本語と中国語は非同族の言語であり,全体の構造は異なるが,文中の部分的な構造が同じ である場合が多い。この部分に対して,日本語の係り受け構造の暖味性を残したまま中国語に翻 訳しても日本語の意味を復元できると考えられる。本章では,並列助詞「と」と連体助詞「の」

と名詞からなる名詞旬及び用言連体形からなる文の係り受け構造の可保留暖昧性にっいて検討 し,これを利用した翻訳手法にっいて述べている。可保留暖味関係は原言語の係り受け構造の暖 味性を解消しなくてもその訳文を生成できる暖味関係である。さらに,技術論文2919文から可保 留暖味関係パターンをもつ806文を抽出し,翻訳実験を行った結果,正解率は97.6%であった。

これにより,本論文で提案した手法の有効性を確認した。

  第7章は全体の結論で,上記実験結果および翻訳アルゴリズムに関する考察を行い,提案した 手法の有効性の確認および今後の課題にっいて述べている。

学位論文審査の要旨 主査

副査 副査 副査

教 授    栃 内 教 授    伊 藤 教 授    小 川 教 授    宮 本

香次 精彦 吉彦 衛市

  機械翻訳の研究開発は近年世界各地で活発に行われており,すでにいくっかの実用シテスムも 出現している。しかしながら,これらの多くは英語と他言語問の機械翻訳を目的としており,日 中両言語間の機械翻訳に関しては未開拓の部分がきわめて多い。

  日本語から中国語への翻訳において,自立語にっいては対応する中国語表現が容易に得られる 場合が多い。しかし,助詞,助動詞などの付属語にっいては,独立かっ適切な中国語の単語が存

‑ 20

(4)

在しない場合や,個別単語ではなく付属語を含む文全体として中国語文に対応する場合が多く,

一般にきわめて複雑な解析が必要とされてきた。

  本論文は,このような日中機械翻訳の問題点を解決し,実用性のある翻訳アルゴリズムの構築 を目的として著者が 行った一連の研究をまとめたもので,全体は7章より構成されている。

  第1章は序章であって,本研究の背景と現状の概要,本論文の目的,主要なポイント,および 論文の構成にっいて述べている。

  第2章では日中両言語の特徴を分析し,機械翻訳における主要な問題点の検討を行うとともに,

本研究における日中機械翻訳手法の基本構想にっいて述べている。

  第3章では本論文で著者が提案した翻訳アルゴリズムを組込む基盤であるコード方式日中機械 翻訳システムの設計にっいて述べている。この方式は日本語の格関係と中国語の語順との間の対 応関係を利用したもので,まず,翻訳しようとする日本語文を格関係にもとづく基本単位に分解 し,これに構文及び意味属性を表す記号を付加して2つ組(コード)を生成して文をその並びで 表し,次いでこれを同様な中国語のコード列に変換し,このコ―ド列から中国語訳文を生成する ものである。この方式は,コード生成の際に文法的情報と意味的情報の双方が考慮されるため,

訳 語 選 択 に お い て 不 要 な 多 義 語 の 増 大 が 防 止 さ れ る と い う 特 長 を 有 す る 。   第4章では常用文型,すなわち日本語文に頻出する慣用的な文型の翻訳アルゴリズ厶,ならび にその際に問題となる多義性の解消にっいて述べている。ここで著者は,助詞,助動詞等の複雑 な結合からなる日本語常用文型に対し,その詳細な解析を行うことなく一体として対応する中国 語の文型に変換する翻訳方式を提案し,学術論文など多数の文書から63種類の常用文型を抽出し て各々の訳文条件を求め,さらに意味属性を用いて多義性と多訳性を解消する手法を提案してい る。さらに,これを上記実験システムに組込み,常用文型をもつ約530文にっいて翻訳実験を行 い,正翻訳率約96%という結果を得ている。

  第5章では日本語の格助詞に対応する中国語補助語の推定法にっいて述べている。日本語の格 助詞に対応する中国語補助語は一般に1対多であるので,複数の候補の中から正しい補助語を推 定する必要がある。著者は,教科書,学術文献中の多数の文から格助詞とそれに関連する情報を 抽出して,日本語宀中国語間の意味属性対応関係を詳細に分析し,その結果にもとづいて日本語 格助詞に対応する中国語補助語を推定する方法を提案している。そして,これにもとづき格助詞 を 含 む1200文 に っ い て 翻 訳 実 験 を 行 い , 正 翻 訳 率 約95% と い う 結 果 を 得 て い る 。   第6章では日中両言語間の翻訳における可保留暖昧関係にっいて述べている。一般に機械翻訳 において,原言語文の係り受け構造に暖昧さが存在する場合は予めそれを解消しなければならな

(5)

いとされてきた。これに対し著者は,日本語と中国語を比較すると,文全体の構造は異なるが個 別単語の意味や文の部分的な構造が同じである場合が多いために,日本語文に係り受け構造に暖 味さが存在しても,それを残したまま中国語に翻訳できる場合があることを見出した。具体例と しては,助詞「と」,「の」と名詞からなる名詞旬,および用言連体形からなる文の係り受け構 造を検討し,技術論文2919文にっいて,このような保留可能な暖味さをもつ806文を抽出して翻 訳実験を行い,正翻訳率97.6%という結果を得ている。

  第7章は全体の結論で,上記実験結果および翻訳アルゴリズムに関する考察を行い,提案した 手法の有効性の確認および今後の課題にっいて述べている。

  これを要するに本論文は,多数の実文献の詳細な検討にもとづいて日本語と中国語の間に存在 する意味属性の対応構造を抽出し,それを利用した高性能な翻訳手法を提案し,さらに実験によ りその有効性を確認したもので,自然言語処理工学の進展に寄与するところが大である。よって 著者は博士の学位を授与される資格あるものと認める。

22

参照

関連したドキュメント

   第 2 章で は、磁気 共鳴スペク トル分析 ( ESR , NMR )を 応用する

  

低倍率から高倍率まで連続的に可変でき,しかも操作が容易なことから様々な分野での研究開発 にしばしば署q 用されている。SEM

  

   第四章では、窒素と酸素の比を4:1 と一定にし、水蒸気量をO 〜12.2vol %まで変化させた混合ガ ス中で、1073K におけるFe‑5 %Al

解析解との比較から,本解法の妥当性を明らかにし,後者では,ヘルツの接触理

本論文はこれらの実験結果を解析し、それに基づぃて変態機構を考察した結果をま と め た も の で あり 、第 1 章 から 第6 章で 構成 される 。以 下に 各章を 要約 する 。

   「超高圧直流ケーブル用新種プラスチッ ク絶縁材料に関する研究」では、先ず、結晶構