意味構造を介した日本語文末表現の英訳*

(1)

社会のグローバル化とともに, 多国間での情報流通は急速に増大している. それに伴い, 機械翻訳に対するニーズもますます高まっている. 中でも共通語としての英語の重要性は言うまでもない. 日英機械翻訳の研究は今日まで長年に渡って行われてきたが, 現時点でもなお翻訳サイトや翻訳ソフトが出力する文章の訳質は十分であるとは言い難い. 正確な

訳質を得るためには, 辞書の語彙を十分にした上で文の意味を正しく認識することが必要である.

日本語文の文末構造は, 述語に後接して, 時制, 判断, 否定, 話し手の態度など, 広義の様相情報を与える助動詞, 終助詞およびそれらに相当する連語がいくつか接続した形になっており, この文末構造を的確に訳出するシステムは少ないようである.

本論文では日本語述部の日英翻訳システムの枠組みについて述べる. 本論文の構成は以下の通りである. まず第２章で, 日本語述部の構造, 助述表現に付加した意味関数について述べる. 次に第３章では市販されている現在の日英翻訳システムの性能について考察する. 第４章から第５章にかけ, 構築した

意味構造を介した日本語文末表現の英訳*

田辺利文**

田中喜子***

吉村賢治****

首藤公昭****

Generally, the meaning of a sentence consists of

( )

propositional contents and

( )

non- propositional contents. Not only the propositional contents but also the non-propositional contents play a critical role in various NLP applications.

In this paper, we introduce an experimental machine translation system, whose input is a Japanese sentence-final predicative parts and whose output is its English surface forms. The system recognizes non- propositional semantic structure of input predicative parts as a pivot language in the translation process.

Key Words: Natural Language Processing, Multiword Expression, Modality, Machine Translation, Non- Propositional Contents

On the Translation from Japanese Sentence-Final Predicative Parts into English Expressions

Toshifumi T

ANABE

, Yoshiko T

ANAKA

, Kenji Y

OSHIMURA

and Kosho S

HUDO

1 はじめに

*平成20年６月10日受付

**電子情報工学科

***㈱電通国際情報サービス

****工学研究科情報・制御システム工学専攻

(2)

システムと実験について概説し, 第６章でまとめと今後の課題を論じる.

2. 日本語述部とNPS

日本語は, 一般的に図１に示す構造をしていると考えられる.

一般的に自然語文は, 命題的内容(Propositional

Content; PC) と非命題的内容 (Non-Propositional Content; NPC)の２つを示している場合が多く, 日

本語の場合には, 命題的内容を表わす部分に, 非命題的内容を表わす部分が後接しているものと考えることができる. 非命題的内容を表わす部分は, 述語に後接した, 時制, 判断, 否定, 話し手の態度など, 広義の様相情報を与える助動詞, 終助詞およびそれらに相当する連語により構成される. 図１に典型的な日本語文末の構造を示す. 図１において,

BP*は

文節の連接,

PRED

は述語, 記号｢・｣は通常の単語境界を表し, また｢

/

は意味の観点で分割した単語境界を表わす. これらの, 述語に後接する, 意味の観点で分割した単語または連語 (Multiword

Expression; MWE)

を我々は助述表現 (Non-

Proposional Content Indicator; NPCI)と呼ぶが, 助

述表現の適切な認識が自然言語処理における意味処理の質の向上のために必要であると考えている. 図１の

NPCIi

は助述表現を表わしている. これまで著者らの研究室では, 約1500種の助述表現を辞書と

して収集, 整理し, 助述表現に関する様々な研究発表を行ってきた (首藤ら, 1977, 田辺ら, 2001,

Tanabe et al.,

2001,

Shudo et al.,

2004, 田辺ら, 2006). 助述表現には図1に示されている｢始める｣

｢ている｣｢ない｣｢かもしれない｣の他, ｢たことがある｣｢できる｣｢なければならない｣｢らしい｣｢たほうがよい｣｢べきである｣｢おそれがある｣などがある.

各々の助述表現には意味関数 (Non-propositional

primitive function; NPF) を付加している. 助述表

現と意味関数の対応の例を表１に示す. 現在意味関数は139種設定しており, 意味関数間の関係は浅い木構造で整理している. 木構造における葉ノード (leaf node) が意味関数に対応している.

NPS

(Non-Propositional semantic Structure) は次式のような入れ子型で表すことが出来る.

但し, は命題的な骨格文 (命題的内容を表わす部分), は助述表現が与える意味関数

図1 ｢彼は動き始めていないかもしれない｣に対するNPSの例

ᙼ ࣭ ࡣ / ືࡁ / ࣭ጞࡵ / ࣭࡚࣭࠸ /࣭࡞࠸ / ࣭࠿ࡶ࣭ࡋࢀ࣭࡞࠸

ᙼ࣭ࡣ࣭ ືࡃ ㉳ື ᏶஢ ྰᐃ ᥎㔞 NPS ᥎㔞 [ ྰᐃ [ ᏶஢ [ ㉳ື [ ᙼ࣭ࡣ࣭ືࡃ ] ] ] ]

S

4

S

3

S

²

S

¹

PRED S

0

BP

^㸨

NPCI

1

NPCI

2

NPCI

3

NPCI

4

表 1 助述表現に対する意味関数の例

助述表現意味関数

の､か､のか､のかな､のかなあ､かね､

のですか､なのか､ものか… 疑問１

ない､ぬ､ません､ … 否定１

おわろうとしている､ … 終了直前

はじめる起動

(3)

である. 助述表現が文の述部にいくつも並んだ複雑な文末表現の場合でも, 意味関数との対応をとることにより

NPS

を求めることが可能である.

NPS

は, 構造のシンプルさと同時に対応可能な表現の多様さから工学的に重要な性質

^１)

を持っていると考えられ, さらに言語依存性も無いとされるため, 言い換えや機械翻訳を行う際の中間表現として有効であると考えられる.

3. 市販の日英翻訳システムの性能

現在の翻訳システムがどれだけ助述表現を正しく認識できるかを判定するため, 市販されている翻訳ソフト４種(A,B,C,D)を用いて予備的に日英翻訳実験を行い出力された英訳を人手で評価した

^２)

.

EDR

日本語コーパス(EDR, 1996)のうち述語に助述表現が１つ以上後接した1000文を無作為に抽出し, 文末のみを翻訳ソフトへの入力として用いた. また,

NPS

中の意味関数の個数ごとに結果を分類した.

正誤判定には３人の評価者のうち２人以上が正解とみなした場合には正解, それ以外は不正解とみなした

^３)

. 性能評価結果を表２に示す

^４)

.

これらの翻訳ソフトの結果の一部を以下に示す.

まず例文１として｢まねているんだ｣を入力とした場合には,

市販翻訳ソフトＡ ⇒

It mimics it.

市販翻訳ソフトＢ,Ｃ,Ｄ⇒

I imitate it.

と翻訳された英文叙述形が正しく出力されていると思われる. しかし, 例文２｢まねているんだな｣を入力とした場合には,

市販翻訳ソフトＡ ⇒

Do not mimic it.

市販翻訳ソフトＢ,Ｃ,Ｄ⇒

It is imitating and it is “RUNDANA”.

と出力される. 例文１｢まねているんだ｣と例文２

｢まねているんだな｣の意味はほとんど同じであるが, 例文２の出力翻訳結果はいずれの翻訳ソフトも誤りとなった. 誤訳の原因としては, ｢な｣が詠嘆を表す助述表現であることが認識されず,

A

では命令を表わす単語として誤って認識されており,

B・

C・D

では｢るんだな｣が認識できないなど辞書における単語の網羅性の欠陥が見える. また, 概して,

NPS

中の意味関数の個数が増えるほど性能が低下していることが分かる.

4. 構築したシステム

4.1. 構築したシステムの位置づけ

現在の翻訳システムは , 統計ベース方式 (Statistical Machine Translation; SMT) , 用例ベース方式(Example-based Machine Translation; EBMT), ルールベース方式(Rule-based Machine Translation;

RBMT)に大別される. 統計ベース方式および用例

ベース方式は, 対訳コーパスに挙げられるような原言語と目的言語のペア (用例) を大量に蓄積し翻訳を行う方式である. いずれも高性能の出力結果を得るためには必然的に大量の用例が必要となり, 実用化されているものは少数のようである . 一方ルールベース方式は, トランスファー方式と中間言語方式に大別される. トランスファー方式は, 形態素解析, 構文解析, 意味解析からなる解析ステップ, 変換ステップ, 生成ステップを持つ. トランスファー方式では, 市販の日英・英日翻訳システムでは多く採用されているが, 翻訳システムが扱う対象の言語数を

n

とした場合

n*(n−1)種類の変換ステップを

必要とするデメリットがある. 一方, 中間言語方式は, 翻訳システムが扱う対象の言語数を

n

とした場合2n 種類の変換ステップで済み, 翻訳システムが扱う対象の言語数が増えるほど, 必要とする変換ステップ数において, 中間言語方式を採用するメリットが大きくなる. ただし, 中間言語方式では, 中間言語の仕様は言語に依存するため, 中間言語の仕様をどのように決めるかが問題である.

日本語述部の英訳において,

NPS

に言語依存性がないと考えられること, 意味関数の種類が139種類と多いこと,

NPS

が容易に生成できること, 及び,

NPS

から英文叙述形が容易に生成できること

表 2 性能評価結果

市販翻訳ソフト意味関数の個数

ＡＢ・Ｃ・Ｄ

正解不正解正解不正解 1 586 153 551 188

2 146 75 142 79

3 16 16 16 16

4 5 3 2 6

全体 753 247 711 286

(4)

から,

NPS

は中間言語方式における中間表現として好都合である. 構築したシステムは

NPS

を中間言語とみなした機械翻訳システムと位置づけることができる.

4.2. 構築したシステムの動作

構築した日本語述部の英訳システムの動作について述べる. システムへの入力は日本語述部を仮定する. 助述表現から意味関数への変換においては, 表１に示すように, 助述表現｢のかなあ｣, ｢ません｣,

｢はじめる｣は, それぞれ意味関数｢疑問１｣, ｢否定１｣, ｢起動｣が対応する. システムは, 日本語述部から

NPS

を作成し, 作成された

NPS

から変換規則を適用し英訳を出力する.

4.2.1. NPSの作成

NPS

の作成手順は, 概略以下の通りである

^６)

.

①入力文を拡張文節で分かち書き (形態素解析) する(首藤ら, 1979, 添島ら, 2003).

②述部内の助述表現を対応する意味関数に変換し, 述語を基本形にする.

(③意味関数の並びの順序を逆にする.)

例えば, ｢彼は戻らざるを得ないでしょう｣の場合には, 次のように

NPS

を作成する.

①彼は

/

戻ら

/

ざるを得ない

/

でしょう

②彼は戻る

/

必要性7

/

推量3

③推量3 [必要性7 [“彼は戻る”] ]

つまり, 日本語においては, 適切に助述表現を意味関数に変換することで

NPS

を得ることができる.

日本語述部から

NPS

を生成する実験は(Shudo et

al.,

2004)で述べられており, 再現率約0.90, 適合率約0.38が得られている.

4.2.2. 変換規則

次に,

NPS

中の各々の意味関数に対し, ｢変換規則｣を適用し, 英訳を得る. 変換規則とは, 例えば, 意味関数が｢過去時制｣であるときは｢訳語動詞を過去形に変換｣また, ｢進行中｣は｢動詞を現在分詞形にし, その前方に

be

動詞を挿入する｣という規則をいい, 各々の意味関数に対応した変換規則を作成した. 意味関数に対する変換規則は1個とは限らない. 例えば, 意味関数が“必要性[X]”である場合には,

“have to X”及び“must X”の２種類の変換

規則を対応させている. 作成した変換規則は279個

であり, 意味関数は139種であることから, 意味関数１個あたりの変換規則数は平均約2.0個である.

4.2.3. 変換過程

変換過程は次のようになる. 例えば, 日本語述部

｢行かなければならなかった｣の場合の

NPS

は過去 [ 必要性 [ 行く ] ] となる. 先ず, 格文の述語｢行く｣を｢go｣に英訳し, 次に｢必要性｣, ｢過去｣の変換規則を順次適用する.

過去 [必要性 [go]]

＝過去 [have to go]

＝had to go

この変換過程で, 日本語述部に対応した英訳｢had

to go｣が得られる. しかし, 過去 [ 必要性 [ 行

く ] ] には, 次のような変換も考えられる.

過去 [必要性 [go]]

＝過去 [must go]

＝φ

ここでφは変換が存在しないことを表す. 助動詞

must

には過去形が存在しないので変換は不可能であり, 英訳は出力されない. 変換過程においては意味関数に対する変換規則を全て適用・変換し, 妥当な全ての英訳を出力する.

5. 実験

5.1 実験手法

EDR

日本語コーパスから, 述語に助述表現が１つ以上後接した文末表現を無作為に2969個抽出し, これらを学習データとみなして人手で変換規則を作成した.

次に

EDR

日本語コーパス中から, 述語に助述表現が１つ以上後接した文末表現であり, かつ, 学習データ用の2969文とは異なる959個を無作為に抽出し英訳を行い, 市販の日英翻訳ソフトが出力する英訳と比較する. 比較に際しては,

NPS

中の意味関数の個数ごとに適合率, 再現率を用いる

^７)

. 今回は客観的に評価を行うため, 英訳出力の正誤判定は英語に精通した評価者が行う.

5.2. 実験結果

実験結果を表３に示す.

5.3. 考察

市販翻訳ソフトの英訳結果を見ると, 予備的実験

(5)

と同様に,

NPS

中の意味関数の個数が増えるほど性能が低下していることが読み取れる. それに対し, 構築したシステムの再現率には大きな低下は見られず, 特に意味関数を４個含むような日本語述部に対する英訳の再現率は0.77と市販翻訳ソフトの値を上回った. これは,

NPS

が入れ子型構造であることのメリットが表れていると考えられ, 特に, ブログなどに代表される

Web

テキストなど意味関数を多く含むと考えられる日本語文の英訳を行うには好都合である考えている. 表３は, 直接日本語述部から英語叙述形を生成させる実験結果であるが,

NPS

から英語叙述形を生成させる過程での適合率は0.72, 再現率は0.91であり,

NPS

生成を別にした場合の本モデルによる英訳自体の性能は良いと考えられる.

一方, 構築したシステムにおいて適合率が大幅に低下しているのは, 主として日本語述部から生成される

NPS

の曖昧さの増大が原因であると考えられる. 今後はどのように曖昧さを絞り込むかが重要となる. また, 本実験では動詞による変換規則の適用条件は考慮していない. 例えば｢V ていく｣が日本語述部とすると, 生成される

NPS

は｢持続2[V]｣

となり, ｢持続2[V]｣に対する変換規則は｢go on

V-ing｣と設定している. そのため, 例えば｢乗り

換えていく｣を日本語述部として入力した場合には

｢go on transferring｣と誤訳が出力されることになる. そのため, 変換規則の適用条件をより詳細に検討する必要がある.

6. おわりに

本研究では助述表現を含む日本語述部の日英翻訳システムを提案し, 実験を行った. 翻訳に際しては, 助述表現を含む日本語述部を意味的構造(NPS)に一旦変換し,

NPS

中の各々の意味関数に対する変換規則の適用により英訳を出力する. 実験の結果から, 意味関数の個数が増えても再現率はおおむね良好で

あり, 日英翻訳において,

NPS

の枠組みの有用性が示されたと言える.

今後の課題として, 市販ソフトで誤訳の目立った詠嘆など口語で多く使われる意味関数に対する変換規則を充実させるため, ブログなどの

Web

テキストなどを含めた変換規則の学習が必要であると考えている. 実験の考察でも述べたが, 変換規則の適用条件の詳細な検討も必要であり, さらに変換規則をどう記述するかも検討が必要である. また, 受身や使役などの意味関数に対応する変換規則は複雑になり, 変換は述部内にとどまらず日本語文全体に対して行う必要がある. この場合には, 文中の格関係を把握する必要があり (首藤ら, 1979, 古賀ら, 2003, 古賀ら, 2002), 残された今後の課題の1つとなっている.

謝辞

英訳実験の際の英文の正誤判定を快くお引き受け頂いた福岡大学人文学部英語学科毛利史生准教授に心より感謝する.

１) 例えば, 助述表現を｢発話者の主観表現｣とみなすことにより,

NPS

を主観情報処理に応用することも考えられる(本田ら, 2008).

２) 市販翻訳ソフトは, 基本的に翻訳ソフトとして有名であり, 市販されているものの中でも翻訳精度が高いものを選定している.

３) 入力が日本語文末のみのため, 翻訳ソフトの出力には

I

や

it

などが補完される. 補完された単語は考慮せず正誤判定を行った.

４) ４種類の翻訳ソフトのうち３種類の翻訳ソフト (Ｂ,Ｃ,Ｄ)は全文に対して同じ出力であったため表２ではＢ・Ｃ・Ｄとまとめている.

５) 統計的機械翻訳を採用している

google

翻訳がある(google 翻訳, 2008).

６) 述部以外に現れる非命題的意味を表わす単語 (副詞や副助詞の一部など) は, 今回は取り扱わない.

７) 構築システムは複数の英訳を出力する. 一方, 市販の翻訳ソフトでは出力は１つしかないため,

表 3 実験結果

注

意味関数の個数 1 2 3 4 全体

市販翻訳ソフトＡ 0.86 0.75 0.62 0.57 0.83 市販翻訳ソフトＢ 0.84 0.72 0.48 0.71 0.81 構築システム適合率 0.30 0.22 0.19 0.14 0.27 再現率 0.85 0.76 0.71 0.77 0.82

(6)

再現率も適合率も同一値となる.

EDR

日本語コーパス. 1996. 独立行政法人情報通信研究機構,

http://www2.nict.go.jp/r/r312/EDR/

J_index.html

google

翻訳. 2008.

http://translate.google.co.jp/

translate_t

Kosho Shudo, Toshifumi Tanabe, Masahito Takahashi and Kenji Yoshimura.

2004.

MWEs as Non- propositional Content Indicators. The Proc. of the ACL2004 Workshop on Multiword Expressions:

Integrating Processing: pp.32-39.

Toshifumi Tanabe, Kenji Yoshimura and Kosho Shudo.

2001. Modality Expressions in Japanese and Their

Automatic Paraphrasing, The Proc. of the NLPRS

2001: pp.507-512.

本田聖晃, 田辺利文, 吉村賢治, 首藤公昭. 2008.

非命題的意味解析のための日本語文末表現意味体系. 主観表現処理の最前線シンポジウム, 電子情報通信学会言語理解とコミュニケーション研究会,

NLC-2007-94, pp.39-44.

古賀基和, 添島創, 田辺利文, 吉村賢治, 首藤公昭.

2002. 標準形変換規則によるデータスパースネス

の解消, 電気関係学会九州支部第55回連合大会古賀基和, 田辺利文, 吉村賢治, 首藤公昭. 2003.

日本語文における態の処理について−格変換と補文の抽出−, 福岡大学工学集報70号,

pp.107-112

首藤公昭, 鶴丸弘昭, 吉田将. 1977. 日英機械翻訳

のための述部処理システム, 電子通信学会論文誌,

J60-D/10, pp.830-837

首藤公昭, 楢原斗志子, 吉田将. 1979. 日本語文の標準形変換に関する考察. 昭和54年度電気四学会九州支部連合会大会論文集

首藤公昭, 楢原斗志子, 吉田将. 1979. 日本語の機械処理のための文節構造モデル, 電子通信学会論文誌,

J62-D/12, pp.872-879

添島創, 田辺利文, 吉村賢治, 首藤公昭. 2003. 日本語文分かち書きのための新しい枠組み, 福岡大学工学集報70号,

pp.99-106

田辺利文, 本田聖晃, 高橋雅仁, 小山泰男, 吉村賢治, 首藤公昭. 2006. 日本語文末表現の取り扱いについて,

FIT2006第５回情報科学技術フォーラ

ム.

田辺利文, 吉村賢治, 首藤公昭. 2001. 日本語モダリティ表現とその言い換え, 言語処理学会第７回年次大会. ワークショップ論文集.

参考文献

意味構造を介した日本語文末表現の英訳*

訳質を得るためには, 辞書の語彙を十分にした上で 文の意味を正しく認識することが必要である.

意味構造を介した日本語文末表現の英訳*

田 辺 利 文**

田 中 喜 子***

吉 村 賢 治****

首 藤 公 昭****

( )

( )

On the Translation from Japanese Sentence-Final Predicative Parts into English Expressions

Toshifumi T

, Yoshiko T

, Kenji Y

and Kosho S

システムと実験について概説し, 第６章でまとめと 今後の課題を論じる.

日本語は, 一般的に図１に示す構造をしていると 考えられる.

一般的に自然語文は, 命題的内容(Propositional

文節の連接,

は述語, 記号 ｢・｣ は通常の単 語境界を表し, また ｢

は意味の観点で分割した単 語境界を表わす. これらの, 述語に後接する, 意味 の 観 点 で 分 割 し た 単 語 ま た は 連 語 (Multiword

を 我 々 は 助 述 表 現 (Non-

述表現の適切な認識が自然言語処理における意味処 理の質の向上のために必要であると考えている. 図 １の

は助述表現を表わしている. これまで 著者らの研究室では, 約1500種の助述表現を辞書と

して収集, 整理し, 助述表現に関する様々な研究発 表を行ってきた (首藤ら, 1977, 田辺ら, 2001,

2001,

2004, 田辺ら, 2006). 助述表現には図1に示されている ｢始める｣

｢ている｣ ｢ない｣ ｢かもしれない｣ の他, ｢たことが ある｣ ｢できる｣ ｢なければならない｣ ｢らしい｣ ｢た ほうがよい｣ ｢べきである｣ ｢おそれがある｣ などが ある.

各々の助述表現には意味関数 (Non-propositional

現と意味関数の対応の例を表１に示す. 現在意味関 数は139種設定しており, 意味関数間の関係は浅い 木構造で整理している. 木構造における葉ノード (leaf node) が意味関数に対応している.

(Non-Propositional semantic Structure) は 次 式のような入れ子型で表すことが出来る.

但し, は命題的な骨格文 (命題的内容を表わす 部分), は助述表現が与える意味関数

S

S

S

S

PRED S

BP

NPCI

NPCI

NPCI

NPCI

である. 助述表現が文の述部にいくつも並んだ複雑 な文末表現の場合でも, 意味関数との対応をとるこ とにより

を求めることが可能である.

は, 構造のシンプルさと同時に対応可能な表現の多様さ から工学的に重要な性質

を持っていると考えられ, さらに言語依存性も無いとされるため, 言い換えや 機械翻訳を行う際の中間表現として有効であると考 えられる.

現在の翻訳システムがどれだけ助述表現を正しく 認識できるかを判定するため, 市販されている翻訳 ソフト４種(A,B,C,D)を用いて予備的に日英翻訳 実験を行い出力された英訳を人手で評価した

.

日本語コーパス(EDR, 1996)のうち述語に助述 表現が１つ以上後接した1000文を無作為に抽出し, 文末のみを翻訳ソフトへの入力として用いた. また,

中の意味関数の個数ごとに結果を分類した.

正誤判定には３人の評価者のうち２人以上が正解と みなした場合には正解, それ以外は不正解とみなし た

. 性能評価結果を表２に示す

.

これらの翻訳ソフトの結果の一部を以下に示す.

まず例文１として ｢まねているんだ｣ を入力とした 場合には,

市販翻訳ソフトＡ ⇒

市販翻訳ソフトＢ,Ｃ,Ｄ⇒

と翻訳された英文叙述形が正しく出力されていると 思われる. しかし, 例文２ ｢まねているんだな｣ を 入力とした場合には,

市販翻訳ソフトＡ ⇒

市販翻訳ソフトＢ,Ｃ,Ｄ⇒

と出力される. 例文１ ｢まねているんだ｣ と例文２

｢まねているんだな｣ の意味はほとんど同じである が, 例文２の出力翻訳結果はいずれの翻訳ソフトも 誤りとなった. 誤訳の原因としては, ｢な｣ が詠嘆 を表す助述表現であることが認識されず,

では命 令を表わす単語として誤って認識されており,

では ｢るんだな｣ が認識できないなど辞書に おける単語の網羅性の欠陥が見える. また, 概して,

中の意味関数の個数が増えるほど性能が低下 していることが分かる.

現 在 の 翻 訳 シ ス テ ム は , 統 計 ベ ー ス 方 式 (Statistical Machine Translation; SMT) , 用 例 ベ ー ス方式(Example-based Machine Translation; EBMT), ルールベース方式(Rule-based Machine Translation;

とした場合

必要とするデメリットがある. 一方, 中間言語方式 は, 翻訳システムが扱う対象の言語数を

日本語述部の英訳において,

に言語依存性 がないと考えられること, 意味関数の種類が139種 類と多いこと,

が容易に生成できること, 及 び,

から英文叙述形が容易に生成できること

から,

は中間言語方式における中間表現とし て好都合である. 構築したシステムは

を中間 言語とみなした機械翻訳システムと位置づけること ができる.

構築した日本語述部の英訳システムの動作につい て述べる. システムへの入力は日本語述部を仮定す る. 助述表現から意味関数への変換においては, 表 １に示すように, 助述表現 ｢のかなあ｣, ｢ません｣,

｢はじめる｣ は, それぞれ意味関数 ｢疑問１｣, ｢否 定１｣, ｢起動｣ が対応する. システムは, 日本語述 部から

を作成し, 作成された

から変換規 則を適用し英訳を出力する.

の作成手順は, 概略以下の通りである

.

訳質を得るためには, 辞書の語彙を十分にした上で文の意味を正しく認識することが必要である.

田辺利文**

田中喜子***

吉村賢治****

首藤公昭****

システムと実験について概説し, 第６章でまとめと今後の課題を論じる.

日本語は, 一般的に図１に示す構造をしていると考えられる.

は述語, 記号｢・｣は通常の単語境界を表し, また｢

は意味の観点で分割した単語境界を表わす. これらの, 述語に後接する, 意味の観点で分割した単語または連語 (Multiword

を我々は助述表現 (Non-

述表現の適切な認識が自然言語処理における意味処理の質の向上のために必要であると考えている. 図１の

は助述表現を表わしている. これまで著者らの研究室では, 約1500種の助述表現を辞書と

して収集, 整理し, 助述表現に関する様々な研究発表を行ってきた (首藤ら, 1977, 田辺ら, 2001,

2004, 田辺ら, 2006). 助述表現には図1に示されている｢始める｣

｢ている｣｢ない｣｢かもしれない｣の他, ｢たことがある｣｢できる｣｢なければならない｣｢らしい｣｢たほうがよい｣｢べきである｣｢おそれがある｣などがある.

現と意味関数の対応の例を表１に示す. 現在意味関数は139種設定しており, 意味関数間の関係は浅い木構造で整理している. 木構造における葉ノード (leaf node) が意味関数に対応している.

(Non-Propositional semantic Structure) は次式のような入れ子型で表すことが出来る.

但し, は命題的な骨格文 (命題的内容を表わす部分), は助述表現が与える意味関数

である. 助述表現が文の述部にいくつも並んだ複雑な文末表現の場合でも, 意味関数との対応をとることにより

は, 構造のシンプルさと同時に対応可能な表現の多様さから工学的に重要な性質

を持っていると考えられ, さらに言語依存性も無いとされるため, 言い換えや機械翻訳を行う際の中間表現として有効であると考えられる.

現在の翻訳システムがどれだけ助述表現を正しく認識できるかを判定するため, 市販されている翻訳ソフト４種(A,B,C,D)を用いて予備的に日英翻訳実験を行い出力された英訳を人手で評価した

日本語コーパス(EDR, 1996)のうち述語に助述表現が１つ以上後接した1000文を無作為に抽出し, 文末のみを翻訳ソフトへの入力として用いた. また,

正誤判定には３人の評価者のうち２人以上が正解とみなした場合には正解, それ以外は不正解とみなした

まず例文１として｢まねているんだ｣を入力とした場合には,

と翻訳された英文叙述形が正しく出力されていると思われる. しかし, 例文２｢まねているんだな｣を入力とした場合には,

と出力される. 例文１｢まねているんだ｣と例文２

｢まねているんだな｣の意味はほとんど同じであるが, 例文２の出力翻訳結果はいずれの翻訳ソフトも誤りとなった. 誤訳の原因としては, ｢な｣が詠嘆を表す助述表現であることが認識されず,

では命令を表わす単語として誤って認識されており,

では｢るんだな｣が認識できないなど辞書における単語の網羅性の欠陥が見える. また, 概して,

中の意味関数の個数が増えるほど性能が低下していることが分かる.

現在の翻訳システムは , 統計ベース方式 (Statistical Machine Translation; SMT) , 用例ベース方式(Example-based Machine Translation; EBMT), ルールベース方式(Rule-based Machine Translation;

必要とするデメリットがある. 一方, 中間言語方式は, 翻訳システムが扱う対象の言語数を

に言語依存性がないと考えられること, 意味関数の種類が139種類と多いこと,

が容易に生成できること, 及び,

は中間言語方式における中間表現として好都合である. 構築したシステムは

を中間言語とみなした機械翻訳システムと位置づけることができる.

構築した日本語述部の英訳システムの動作について述べる. システムへの入力は日本語述部を仮定する. 助述表現から意味関数への変換においては, 表１に示すように, 助述表現｢のかなあ｣, ｢ません｣,

｢はじめる｣は, それぞれ意味関数｢疑問１｣, ｢否定１｣, ｢起動｣が対応する. システムは, 日本語述部から

から変換規則を適用し英訳を出力する.

例えば, ｢彼は戻らざるを得ないでしょう｣の場合には, 次のように

つまり, 日本語においては, 適切に助述表現を意味関数に変換することで

2004)で述べられており, 再現率約0.90, 適合率約0.38が得られている.

中の各々の意味関数に対し, ｢変換規則｣を適用し, 英訳を得る. 変換規則とは, 例えば, 意味関数が｢過去時制｣であるときは｢訳語動詞を過去形に変換｣また, ｢進行中｣は｢動詞を現在分詞形にし, その前方に

動詞を挿入する｣という規則をいい, 各々の意味関数に対応した変換規則を作成した. 意味関数に対する変換規則は1個とは限らない. 例えば, 意味関数が“必要性[X]”である場合には,

であり, 意味関数は139種であることから, 意味関数１個あたりの変換規則数は平均約2.0個である.

｢行かなければならなかった｣の場合の

は過去 [ 必要性 [ 行く ] ] となる. 先ず, 格文の述語｢行く｣を｢go｣に英訳し, 次に｢必要性｣, ｢過去｣の変換規則を順次適用する.

には過去形が存在しないので変換は不可能であり, 英訳は出力されない. 変換過程においては意味関数に対する変換規則を全て適用・変換し, 妥当な全ての英訳を出力する.

日本語コーパスから, 述語に助述表現が１つ以上後接した文末表現を無作為に2969個抽出し, これらを学習データとみなして人手で変換規則を作成した.

日本語コーパス中から, 述語に助述表現が１つ以上後接した文末表現であり, かつ, 学習データ用の2969文とは異なる959個を無作為に抽出し英訳を行い, 市販の日英翻訳ソフトが出力する英訳と比較する. 比較に際しては,

中の意味関数の個数ごとに適合率, 再現率を用いる

. 今回は客観的に評価を行うため, 英訳出力の正誤判定は英語に精通した評価者が行う.

が入れ子型構造であることのメリットが表れていると考えられ, 特に, ブログなどに代表される

テキストなど意味関数を多く含むと考えられる日本語文の英訳を行うには好都合である考えている. 表３は, 直接日本語述部から英語叙述形を生成させる実験結果であるが,

生成を別にした場合の本モデルによる英訳自体の性能は良いと考えられる.

一方, 構築したシステムにおいて適合率が大幅に低下しているのは, 主として日本語述部から生成される

は｢持続2[V]｣

となり, ｢持続2[V]｣に対する変換規則は｢go on

換えていく｣を日本語述部として入力した場合には

｢go on transferring｣と誤訳が出力されることになる. そのため, 変換規則の適用条件をより詳細に検討する必要がある.

本研究では助述表現を含む日本語述部の日英翻訳システムを提案し, 実験を行った. 翻訳に際しては, 助述表現を含む日本語述部を意味的構造(NPS)に一旦変換し,

中の各々の意味関数に対する変換規則の適用により英訳を出力する. 実験の結果から, 意味関数の個数が増えても再現率はおおむね良好で

の枠組みの有用性が示されたと言える.

今後の課題として, 市販ソフトで誤訳の目立った詠嘆など口語で多く使われる意味関数に対する変換規則を充実させるため, ブログなどの

英訳実験の際の英文の正誤判定を快くお引き受け頂いた福岡大学人文学部英語学科毛利史生准教授に心より感謝する.

１) 例えば, 助述表現を｢発話者の主観表現｣とみなすことにより,

を主観情報処理に応用することも考えられる(本田ら, 2008).