自動翻訳から翻訳支援へ,そして・・・
10
0
0
全文
(2) 【機械翻訳の進化と現状】. 1980 年代初頭には機械翻訳システムの商品化も進めら れた.初期の機械翻訳といえば,ハードとともに販売. 機械翻訳は,これまで主に「自動的に翻訳するため. され,ソフト自体の価格も数百万円と高価なものであっ. の機械」として開発されてきた.インターネットの出現. た.この頃は主にルールベースといって解析規則 (文法). によって日本人が外国語文書に触れる機会が増大したた. を書いて機械翻訳を制御していた.特に構造が違う言語. め,大量の英語文書を高速に和訳して概略をつかみたい. 間の翻訳(たとえば英日翻訳)では,文の構造解析や,. という需要が増えてきたが,そのためのツールとしては. さらに進んで文の意味解析まで対処する文法が開発さ. 威力を発揮するようになってきた.外国語が苦手な一般. れた.. ユーザの情報収集ツールとしては市民権を得ているとい. やがて 1990 年代,インターネットの立ち上がりとと. えよう.しかし,やはりそこには訳質の問題が壁として. もに多くのベンダが機械翻訳市場に参入し, 安い値段(数. 立ちはだかり,これ以上の利用には結びついていないの. 万円)で翻訳ソフトを販売,競争が激化した.この頃. が現状である.. になると,ハードの進歩,国家プロジェクトによるコー. なお,ここで 1 つ気をつけたいのが用語である.文書. パス(電子化された大量テキスト)作成などを背景とし. を自動的に翻訳するためのソフトウェアの技術は,英語. て,コーパスを使った機械翻訳用辞書の学習アルゴリズ. で“machine translation” (MT)と呼ばれるが,これを「機. ムや,翻訳文法の習得などの研究が盛んに行われた.ま. 械翻訳」と訳して使うことが多い.しかし, 「自動翻訳」. た「例による翻訳」(Example-Based MT )も同様に実. も同様の意味で用いられる.また,製品として商用とな. 現味をおびてきた.さらに近年では,ルールベースと例. っている機械翻訳のソフトウェアは「翻訳ソフト」等と. による翻訳を組み合わせた「パタン翻訳」という枠組み. 呼ばれることが多く,一般の人はこの名称の方が馴染み. を採用するシステムも多く現れた.. 1). が深いであろう.. ◆機械翻訳の仕組みと精度向上の方向性◆ ◆機械翻訳がたどってきた道のり◆ 基礎編 コンピュータ言語と違い, 人間が使う言語(自然言語). 翻訳を行うシステムの大半で用いられている最も基本. にはあいまい性が存在し,自動処理は非常に難しい.し. 的な処理方式がルールベース翻訳である.これは,前述. かしそんな中で,Noam Chomsky が 1957 年に提案した. の Chomsky の提唱したアイディアが基になっており,. 変形生成文法は,人間の言語をコンピュータで扱うため. 文法規則を使って翻訳処理を行う.文法規則は言語ごと. の具体的な道筋を示す記念碑的な理論となった.. に異なるので,言語ごとに用意する必要がある.たとえ. 言語の処理の中でも,言語間の翻訳はかなり初期の頃. ば非常に単純な日本語文は以下の規則で生成できる.. から注目を集めていた.機械翻訳の研究は 1950 年代に ヨーロッパで始まり,次いで 1960 年代初頭にはアメリ. S → NP VP #S(文)は名詞句(NP)と動詞句(VP)からなる.. カでの研究も活発化する.日本でも,1959 年に通産省. VP → NP V # 動詞句(VP)は名詞句(NP)と動詞(V)からなる. NP → N JO # 名詞句(NP)は名詞(N)と助詞(JO)からなる.. 電気試験所(現在の産業総合研究所)において初歩的な 英文和訳機 YAMATO が発表され,やや遅れて,九州大 学の超高周波研究室でも独文和訳機の試作が行われた. ところが 1976 年,機械翻訳システム評価のために設 けられたアメリカの ALPAC 委員会で,機械翻訳システ. N → 私. # 名詞(N)には「私」がある.. N → 彼女. # 名詞(N)には「彼女」がある.. V → 見る. # 動詞(V)には「見る」がある.. JO → が. # 助詞(JO)には「が」がある.. JO → を. # 助詞(JO)には「を」がある.. ムは人間の言語の複雑性を処理にするための十分な能力 を持ち得ない,と報告された.この報告によって,アメ. これらの規則から,「私が彼女を見る」「彼女が私を見. リカ政府の研究開発費の大半が打ち切られ,またそれ以. る」 「彼女を私が見る」 「私を彼女が見る」が生成できる.. 外の国の機械翻訳プロジェクトにも大きな負の影響を与. 翻訳を行うにはさらに,「が」は主語を表す,という情. えた.. 報や,「見る」は他動詞で主語と目的語をとる,という. その一方,日本では 1970 年代末から大手メーカによ. 情報などが必要になってくる.「見る⇔ see」など,対. る機械翻訳ソフトの研究開発が始まった.1982 年には. 訳辞書も必要になる.. 科学技術庁機械翻訳プロジェクト(Mu プロジェクト) が開始され本格的な機械翻訳研究の幕開けとなった.. 932. 44 巻 9 号 情報処理 2003 年 9 月. −2−.
(3) 深層情報を充実させる. レーズ等を組み合わせることによって翻訳を進めるアプ. 言語の翻訳では,単純な文法規則だけでは不十分で,. ローチも試みられている.. 原言語の深い意味を解釈して意味的な構造にマッピング. さらには,対訳コーパスからは未知語学習や文法規. し,そこから訳文を生成するアプローチが必要な場合も. 則学習を行うこともできる.未知語とは辞書に入ってい. ある.原文と,出力すべき訳文の構造が極端に違う場合. ない単語のことである.日本語の複合語(2 単語以上で. にこのアプローチは不可欠である.実際には言語非依存. 1 つの意味を表す語句)は 1 年で数十万語の新語が出て. の構造にマッピングするのは難しいため,たとえば日本. くるといわれている.対訳コーパスから,文の対応づけ. 語寄りの意味構造,英語寄りの意味構造へのマッピング. →単語対応づけ→未登録単語の対応づけという方法で,. を行うことも多い.たとえば, 「これで復旧が容易になる」. 未知語の対訳候補が抽出できる.また,対訳コーパスは. という文を日英翻訳する場合,日本語の意味構造は. 「この文はこう訳す」 という例の集合とみなすことができ, 文の言語間のマッピングを統計的に学習させることがで. <BECOME> 手段 → <THIS>. きる.. <BECOME> 対象 → <RECOVER> <BECOME> 目標 → <EASY>. 表層処理の改良版アプローチ 表層処理で大量の翻訳知識を取り込むことができて. という構造で表すことができるが,ここからそのまま. も,そのままでは柔軟性が低い場合も多い.たとえば,. 英語を出力すると,Recovery becomes easy by this. と. 対訳コーパスの文やフレーズ等は,構成単語が少し違っ. なってしまう.しかし, 上の日本語寄りの意味構造から,. ていただけで入力にヒットしない場合もある.これを克. 次のように英語寄りの意味構造にマッピングを行うと .... 服するための技術がパタン翻訳であり,表層情報に単純 なルールを取り込んだものと考えることができる.別の. <MAKE> 動作主 → <THIS>. 見方をすると,パタン翻訳とはルールベース翻訳を拡張. <MAKE> 対象 → <RECOVER>. したもので,「パタン」によって翻訳規則を記述する.. <MAKE> 目標 → <EASY>. 通常の翻訳ルールに比べ, 単純であるのが特徴といえる. たとえば以下のようなパタンをつくることができる.. この意味構造から,This makes recovery easy. という. <..> は変数を表し,N1, N2 は変数のラベルを表し,原. 英語が生成できる.. 文と訳文で対応している必要がある.ここでは変数には. ただし,この深層処理も万能というわけではなく,本. 名詞がくる,という制約がある.. 当は表層的な情報を入れておけば単純に処理できるよう な場合でも,必要以上に深い処理が行われて誤った結果. <N1:They> gave <N2:him> the fact.. になることも起きる.極端な例では, 「おはようござい. <N1: 彼ら > は <N2: 彼 > に事実を知らせた.. ます. 」という文の深い意味を解釈して変換するよりも, 「おはようございます⇔ Good morning」というように. こ の パ タ ン を 使 う と, た と え ば Tom gave the man. 文をまるまる入れて変換したほうがシンプルで確実で. Mary saw yesterday the fact. という文を,「トムは昨日. ある.. メアリが会った男に事実を知らせた」と翻訳できる. パタン翻訳はこのようなアプローチの一例だが,表層. 表層情報を充実させる. 情報と深層情報の両方を充実させるための試みは今後も. 深層処理の対極にあるのが表層処理である.. さまざまなかたちで続けられるだろう.. いくら複雑な規則を作っても解析が失敗する場合は必. ◆誰にとって役に立つのか?◆. ずあるわけで,それならいっそ頻度の高い表現や用語は 大量のコーパスから拾ってきてそのまま入れたほうがう まくいく場合も出てくる.このように,表層に近い情報. 現状の機械翻訳システムはまだまだ「完璧な」翻訳. を大量に収集するようなアプローチとしてコーパスから. を行うことはできない.そのため,たとえば英語力のあ. の翻訳知識獲得の流れがある.. る人は,英日機械翻訳の出力よりは英語を直接読んだほ. 対訳コーパス(電子化された大量の対訳文)からは,. うがいいと考えているだろう.しかし,同時に英語に自. まずは,文そのものやフレーズ等の文の断片を取り出し. 信がなく,完璧でなくても何かに頼りたいと思う多くの. て利用することができる.深い処理を通ることなく,フ. 人々がいることも確かであろう.「どの程度の英語力の IPSJ Magazine Vol.44 No.9 Sep. 2003. −3−. 933.
(4) TOEIC 得点. 読解得点向上. 印象向上. ∼ 490. ○. ○. 495 ∼ 690. ○. ×. 690 ∼. ×. ×. 60,000 読解のみ改善 50,000 40,000. 読解 � 分かり やすさ改善. 人数. 表 -1 英語力と機械翻訳の読解・印象. 30,000 効果なし 20,000 10,000. 人にとって機械翻訳が役に立つか」ということを実験で があるので,この研究を紹介して読解に. 895∼. 795∼. 695∼. 595∼. 495∼. 395∼. 295∼. おける機械翻訳の現状を説明してみたい.. 195∼. 0 95∼. 4). 10∼. 求めた研究. �����得点. 研究では,機械翻訳ユーザの英語能力の尺度として, 多くの受験者を持つ TOEIC を用いた.ここでの考え方. 図 -1 英語力分布と機械翻訳効果. を一言でいえば,TOEIC で 500 点を取った人が機械翻 訳の出力を利用することによって 600 点の成績を修める ことができれば,この人にとってはこの機械翻訳システ. 不完全な機械翻訳でも多くの人がメリットを感じられる. ムは有効であるといえる,ということである.. ということが分かるのである.. 手順としては,英語で書かれた TOEIC の読解用文書. ◆現状の機械翻訳の限界◆. を機械翻訳で和訳し,その訳文を読んで質問に答える. このときの正解率が,英語原文を読んだときの正解率と 比べて向上したかどうかを測定する.この実験を,幅広. さてここまで開発の歴史から始まり,機械翻訳につい. い TOEIC 得点層の被験者に対して行い,統計的な有意. て外観してきた.自動で翻訳を行う機械を作るにあたっ. 性を検証するわけである.この実験によって,どの程度. て,表層的アプローチと深層的アプローチの両側面から. の英語力があれば読解に有意差があるかが分かる. また,. 技術を極める努力が続けられているが,当面は英語の苦. この実験を行った後に, 「英語原文と機械翻訳和文のど. 手な人にとっての読解支援という範囲の利用にとどまっ. ちらのほうが分りやすいか」という,被験者の直感に. ているのが現状である.. 関するヒアリングも行って数値で表現し,統計処理を行 った.. 【翻訳支援の起源と現状】. なお,機械翻訳文の提示の仕方としては,被験者に機 械翻訳文のみを単独で提示するという方法と,原文と機 械翻訳文を並べて提示するという方法とがあるが,より. これまでお話ししてきた機械翻訳による自動翻訳技術. 現実の利用形態に近い後者の結果について述べる.. の進化とは別の世界で,発想の原点は違うが,やはり翻. 表 -1 は,被験者の英語能力(TOEIC 得点)と,読解. 訳の自動化につながるような動きがある.翻訳業界にお. 得点の向上および分かりやすさの印象の向上の関係を表. ける「翻訳支援」がそれである.. したものである.英語が苦手と思われる TOEIC 低得点. ここでは,主体はあくまでも翻訳を行う翻訳専門家で. 取得者は,読解得点と分かりやすさの印象の両方が改善. あり,その人たちが支援システムを使うことによってい. しており,英語を得意とする TOEIC 高得点取得者は機. かに効率を上げられるかが重要なのである.つまり,シ. 械翻訳の利用は読解も印象もよくなっていない.これは. ステム自体の精度や速度を測るのではなく,翻訳支援を. ある程度予想された通りだが,その中間層として,読解. 導入したときの人手作業の効率向上が最大の関心事とな. は向上しているが,印象は向上していない被験者が存在. る世界である.. する.. ◆欧米で始まったローカライゼーション◆. この層の人たちにとっては,機械翻訳の訳文に問題が あって印象はよくないが,実際問題としては原文そのま まよりも理解の助けになっているということだろう.. 産業翻訳において翻訳支援がいち早く注目され実用化. 図 -1 は,さらに,TOEIC の実施団体が公開している. されたのは,ローカライゼーション業界である.ローカ. TOEIC スコアと人数分布の統計グラフに今回の実験結. ライゼーションとは耳慣れない言葉だが,その典型な例. 果を重ね合わせたものである. 読解という用途に限ると,. としては,たとえば,ある欧米のソフトウェアの日本語. 934. 44 巻 9 号 情報処理 2003 年 9 月. −4−.
(5) 版を開発する際に発生する一切の翻訳業務がある.ソフ. 例:翻訳メモリの使い方. トウェアのインタフェースで使用される対話のテキスト. 簡単な例で翻訳メモリの使い方を説明する.あらかじ. の翻訳や,ソフトウェアの取り扱いマニュアルの日本語. め訳例データベースには,大量の英日対訳文が登録され. 化等である.. ているものとする.ここで,翻訳者が「I buy an apple.」. 一般的に,ソフトウェア製品の改版頻度は非常に短く,. という英文を翻訳したいとする.翻訳者はこの英文をキ. そのたびに大量のローカライズ作業が発生する. しかし,. ーに訳例データベース(翻訳メモリ)を検索する.する. ある版の翻訳は,その前の版の翻訳結果をそのまま参考. と,データベースから「I buy an apple.」に似た英文「I. にできる場合が多い.このことに着目した支援ツールメ. eat an apple.」を持つ訳例データが得られる.翻訳者は,. ーカでは,作成された対訳例文をデータベースに蓄積し. その訳例データ中の日本語訳「私はリンゴを食べる. 」. ておき,これを参照しながら効率よく作業を行うような. を編集して翻訳文を完成させる.翻訳者は,英文の差分. 技術が発達した.業界では,このようにして蓄積した対. 「buy - eat」により, 「食べる」を buy の訳語である「買. 訳例文を「翻訳メモリ」と呼ぶことが多い.. う」に置き換える.こうして,「私はリンゴを買う. 」と. このような翻訳業界のニーズから発展した翻訳支援技. いう訳文ができ上がる.. 術は,実用レベルで使われるようになってきた.現状で は,翻訳業界において唯一効果が認められた支援システ. 原文:I buy an apple.. ムが,このローカライズ業界における対訳例文再利用の. ↓ 訳例:I eat an apple. / 私はリンゴを食べる.. システムだといってもよいだろう.. ↓ 訳文:私はリンゴを買う.. ◆翻訳業界の市場◆ 翻訳業界の市場規模は,統一的な集計が難しいことか. 翻訳メモリの業界標準フォーマット. ら,正確な数値は出されていないが,全世界的にかなり. XML による翻訳メモリデータを記述する標準的なフ. 大規模であることは確かである.. ォーマットとして,TMX がある.LISA. 翻訳というと,一般的には文学作品等のいわゆる文芸. ライゼーションに関する非営利団体により提供されてい. 翻訳を想像することが多いが,実際に分量が大量に発生. る.LISA のサイトで DTD などの必要なものが入手で. して,大きな市場を形成しているのは産業翻訳である.. きる.TMX により,各ベンダが開発した翻訳メモリソ. この中で日⇔英間の翻訳は国際的にも大きな比重を占め. フトの翻訳メモリデータを相互に利用できるようにする. ている.. ことができる.. 2). というローカ. 近年,この TMX のサポートをサポートするソフト,. ◆「翻訳メモリ」とは?◆. つまり,TMX によるエクスポートや TMX で書かれた 翻訳メモリデータをインポート可能な翻訳メモリソフト. 翻訳メモリとは,過去の訳例(原文と訳文が 1 組にな. が増えてきている.TMX 自体は交換用フォーマットで. った翻訳事例)をデータベースに登録し,一致や類似検. あるため,対訳文ペアの格納などの最低限の簡単な情報. 索により再利用する技術である.コンピュータがすべて. のみを対象としている.対訳文間での単語やフレーズの. 翻訳する機械翻訳とは異なり,ユーザが訳例を検索する. 対応などのより複雑な情報は扱うことはできない.. といった,人間が翻訳するときの支援ツールとして位置. . づけられる.. 翻訳メモリの限界. マニュアルの改版やアニュアルレポート,変更個所が. 類似度の高い訳例は翻訳対象文との差異が少ないた. 少ない場合や,同じ文言を使いまわすことの多い翻訳に. め,容易に再利用できる.. 用いることが多い.また,ソフトウェアのローカライゼ. たとえば,マニュアルの改版における以下のような例. ーション(メニューやヘルプなどの翻訳)にも多く用い. である.この場合は,ほとんど一致する訳例が得られ,. られている.データベースに登録されている類似した訳. バージョン番号などの差異を変更するだけでよい.. を使いまわすことにより,翻訳効率の向上や用語統一が はかれる.短時間で質の高い翻訳が行えるという効果が. 原文:Thank you for purchasing ej/je translation software. あり,コストの削減につながる. 'atlas V9.0'. ↓ IPSJ Magazine Vol.44 No.9 Sep. 2003. −5−. 935.
(6) 訳例:Thank you for purchasing ej translation software 'atlas. 軟に必要な知識を取り出すことができるであろうという. V8.0'. / このたびは,英日翻訳ソフト『ATLAS V8.0』を. 点である.たとえば,機械翻訳の文構造解析機能を使う. お買い上げいただきまして,誠にありがとうございます. ↓. ことにより,文単位でのみ対応のとれた翻訳メモリの中 のさらに細かい部分表現同士のマッチングがとれ,それ. 訳文:このたびは,英日・日英翻訳ソフト『ATLAS V9.0』をお. によってきめの細かい訳例の再利用が可能になると期待. 買い上げいただきまして,誠にありがとうございます.. される.これが実現できれば,蓄積された例文と入力の 翻訳対象文の類似度がそれほど高くなくても必要な知識. しかし,上記のようなテンプレート的な文ではない場. が得られるようになり,ひいては,対象文書の幅も格段. 合,このように満足のいく訳例が検索されることはまれ. に広がると期待されるわけである.. である.. なお,翻訳支援はあくまでも人手作業用の環境である. たとえば,データベースに登録されている訳例が少な. から,単に翻訳メモリと機械翻訳を合体させるだけでは. い場合や他の分野・用途の訳例のみが登録されている場. まったく不十分である.翻訳作業のフローを最大限に意. 合などは, 「若干の変更でそのまま再利用できる訳例」. 識しながら翻訳メモリと機械翻訳が有機的に融合され,. はほとんど検索されない.. 自然な作業の流れを作り出すように設計されていなけれ. この場合,検索結果には類似度の低い訳例しか含まれ. ばならないのである.. ないことになる.実際には,類似度が低いといっても,. ◆システム開発の動向◆. 文全体での類似度が低いのであって,文の一部分に着目 するとほとんど一致するようなものもある. これらをいかに効率的に再利用できるかが翻訳支援に. 産業翻訳用の翻訳支援システムに機械翻訳を取り入れ. おいて重要となる.. る試みはかなり前から行われていたが,最近になってよ うやく現実的な場面での翻訳効率化を意識したシステム. ◆そして,従来型翻訳支援の限界…◆. が出てきている. 1 つは,従来から機械翻訳の開発を行ってきたメーカ. ここで述べた従来型の翻訳支援は,過去の例文をその. が翻訳支援用の機能を追加してきたものである.この. ままに近いかたちで利用しようという,いわば表層的な. ようなメーカは,言語を扱うための幅広い技術力を持っ. アプローチをとってきた.これは,ローカライゼーショ. ている場合も多いが,問題は,翻訳業界とのつながりが. ンという,ある程度対象分野を絞って作業を行う環境で. 少なく,現実に即した開発ができてこなった面がある.. あるがゆえに出てきた発想である.とはいえ,このアプ. 2 つ目は,翻訳業界主導の翻訳メモリシステムの強化で,. ローチの問題は「類似度の高い場合のみ有効」というこ. でき合いの機械翻訳を取り込むような動きもみられる.. とであり,現実に存在する文書を見渡すと従来型の翻訳. しかし,翻訳業界自体には,言語処理のためのソフトウ. 支援の適用範囲はあまりにも狭すぎるという問題は解決. ェア開発技術を持ったところが少なく,開発上のネック. されていない.. となっている.. ◆機械翻訳と翻訳メモリの融合◆. 【翻訳支援に機械翻訳を取り入れる】 ここでは,翻訳メモリと機械翻訳を融合した翻訳支援 従来型の翻訳支援は翻訳メモリという表層的アプロー. システムの一例として,富士通研究所でプロトタイプを. チに依存したものであり,この限界を克服するべく機械. 開発した翻訳支援システム Cliché ついて述べる .こ. 翻訳の深層的要素を取り入れようという動きが一部で活. のシステムは,従来の機械翻訳と翻訳メモリを有機的に. 発化している.翻訳支援に機械翻訳技術を導入すること. 統合し,翻訳メモリの機能を高度化することによって,. によって得られると期待されるメリットは大きく分けて. 産業翻訳での本格的な利用を現実しようとしている.. 2 つある.1 つは,機械翻訳の品質は全体としてはまだ. Cliché は,翻訳メモリ+機械翻訳のこれまでにない統. 十分ではないとはいえ,訳の中には実用上十分使える部. 合型翻訳支援システムである(図 -2).クライアントシ. 分もあるという点である.もう 1 つは,機械翻訳技術を. ステムは翻訳対象文から原文を 1 文ずつ切り出して翻訳. 導入することにより,より付加価値の高い翻訳メモリの. エディタに提示する.翻訳者はエディタ上で訳文を作成. 構築が可能になり,過去に蓄積した翻訳知識からより柔. するが,その際 GUI を通して,機械翻訳サーバおよび. 936. 3). 44 巻 9 号 情報処理 2003 年 9 月. −6−.
(7) 原文: 本発明により提供された統合型光送信装置は、. 翻訳メモリサーバ. 機械翻訳サーバ. に対し変調信号に応じ変調を与える光変調器. 訳例��. 対訳辞書. 骨格文:. 本装置 は、. 光ビームを受光しそれ によって特徴付けられる。. 光変調器 によって特徴付けられる。. ���� ������ �� ������������� �� �� ������� ���������� �機械翻訳�. 翻訳対象文書. エディタ ���. 本装置. 訳文候補 訳文事例 全文,フレーズ,単語. 光ビームを受光しそれに対し変調信号に応じ変調を与える光変調器. 光変調器. �� ������� ��������� ����� �������� ��� ������� ���� ��� �������� ���������� ������� �� �������� �� ���������� ������� �訳例検索���機械翻訳���手編集� . ������ ��� �������. 訳文 訳文カスタマイズ 翻訳文書. 本発明により提供された統合型光送信装置. �� ���������� ������� ����������� �������� �� ���������� ���� ��� ������� ��������� �訳例検索���機械翻訳���手編集� . 原文1文. 最終訳文 ��� ���������� ������� ����������� �������� �� ���������� ���� ��� ������� ��������� � �� ������������� �� ��� ������� ��������� ����� �������� ��� ������� ���� ��� �������� ���������� ������� �� �������� �� ���������� ���������. 訳例��登録. (a)骨格文 - 主要素の分割と翻訳結果の結合. 図 -2 統合型翻訳支援システム. 光ビームを受光しそれに対し変調信号に応じ変調を与える 光変調器. 翻訳メモリサーバにアクセスし,原文やその一部に対す る自動翻訳結果や訳例検索結果から有用な表現を選択し 作成中の訳文に簡単な操作で挿入することができる.訳 文作成の手順は翻訳者の自由であるが,多数の翻訳者に よる試験運用から分かった効率的な手順は以下の通りで. ��. 光ビームを受光し �������� ��� ������� ���� �訳例検索�. ��. 変調信号 ���������� ������� �機械翻訳�. ��. 変調を与える �������� ���������� �訳例検索�. ��. 光変調器 �� ������� ��������� �機械翻訳�. �� ������� ��������� ����� �������� ��� ������� ���� ��� �������� ���������� ������� �� �������� �� ���������� ������� �手編集�. ある. まず基本的な方針は“divide-and-conquer”である (図 -3) .これは Example-Based MT における機械処理. (b)[訳例検索]+[機械翻訳]+[手編集]の例. の理想的な工程に似ている.まず文の大まかな構造を. 図 -3 Cliché における翻訳作業の流れ. つかみ訳文の骨格を決める.そして骨格の主要要素をそ れぞれ翻訳し,最後に各要素の翻訳を骨格にはめ込んで 訳文を完成させる.要素自体が長い,あるいは複雑な場. フェースが可能になった.訳例の解析は機械翻訳により. 合はその要素をさらに骨格と要素に分割して翻訳を進め. 行われるが,機械翻訳の精度が上がれば対応づけの精度. る.このように各要素を分割していくと,ある時点で同. も向上する.一方,自動語句対応づけシステムにより翻. 一の表現が訳例中に見つかるか,あるいは機械翻訳(部. 訳メモリから機械翻訳の辞書も構築することが可能にな. 分翻訳)で正しく訳されるようになる.作成された訳文. った.翻訳メモリの質が上がり,量が増えればそれだけ. は最後に訳文スタイルのユーザカスタマイゼーション. 抽出できる語句の質・量も多くなる.つまり,翻訳メモ. が施されて翻訳文書に挿入される.このような翻訳の進. リが賢くなれば機械翻訳も賢くなり,機械翻訳が賢くな. め方は,特許などのように一文が長い文書に特に有効で. ればさらに翻訳メモリも賢くなる.. ある.. ソフトウェアではいかにすばらしい機能があってもイ. 翻訳メモリ中の各訳例は作成・登録時に機械翻訳にか. ンタフェースによっては使い勝手が非常に悪いものがで. けられ,解析情報付の訳例として構造化されて保存され. きてしまうため,インタフェースのつくりこみは重要な. る.訳例の原文と訳文の単語などの対応情報も同時に格. 技術要素となる.本システムは企画段階から翻訳支援と. 納される(図 -4).たとえば「This is a pen.」 (原文) 「こ. いう観点で画面が設計され,ユーザビリティテストなど. れはペンである. 」(訳文)という簡単な訳例で考えて. を通じて使いやすさの向上が図られた.具体的にはウィ. みると,従来技術ではこれを単に文字列情報としてしか. ンドウ内のエディタや結果画面の配置,よく使われるボ. 持たないので,たとえば「pen」と「ペン」が対応して. タンの配置などである.. いることが即座に分からなかった.本システムでは,原. ◆翻訳メモリの高機能化◆. 文,訳文ともに機械翻訳で解析を行い,単語の対応づけ をする.その結果,「This」と「これ」 , 「pen」と「ペ ン」の対応がつけられる.検索時にこの解析済訳例が表. 翻訳メモリの検索の仕組みについて,ここでは例とし. 示されるが,対応情報も表示される.これにより,結果. て Cliché. 表示画面において従来の翻訳メモリより効果的なインタ. 大量の訳例データに対しては,シーケンシャルな類似. 3),5). での具体的な方法を用いて説明する.. IPSJ Magazine Vol.44 No.9 Sep. 2003. −7−. 937.
(8) 従来の翻訳メモリシステムの対訳格納形式:文字列. �. ���� �� � ���� これはペンである。. ��. �. �. ���. (検索キー文). ��� �. � ���� � ��� ����� � ���� �. (訳例原文). 私 は 大好き な ペン を 持 っている. 開発した翻訳ワークベンチの対訳格納形式:構造的 ����. ����. (訳例訳文). � :単語対応. 図 -5 3 つ組表示例 これ. は. ペン である. 。. :語句対応. -「pen」-「ペン」などが 3 つ組に当たる.たとえば, 図中の検索キー文の「pen」にマウスを合わせると,訳. 図 -4 翻訳メモリの訳例格納形式. 例原文の「pen」と訳例訳文の「ペン」もハイライトされ, ユーザは対応個所を容易に認識できるといった動的ハイ 検索は速度から見て実用的ではない.そこで Cliché で. ライトを行うことができる.. は,検索はインデックス検索による「絞り込み」と「マ. 3 つ組表示により,検索キー文中の単語について,こ. ッチング」の 2 段階の処理を行っている.. の訳例中での訳が一目で分かり,ユーザによる効率的な. 事前に大量の訳例データに高速類似検索用のインデッ. 訳語選択が可能となる.また,3 つ組単語対応をヒント. クスを付与し,類似度の高い順に指定された数だけ絞り. に使うことで,ユーザによるフレーズの把握が容易にな. 込む.Cliché ではインデックスには suffix array を採用. り,訳例の部分利用が促進される.. している.. ◆どのくらいの効率化につながるのか?◆. この絞り込まれた検索結果(訳例)に対し,マッチン グ,つまり,検索キー文と訳例原文の一致個所の認識を 行う.一般に,ダイナミックプログラミング(DP)に. 翻訳支援システムの効率評価の基本的なアイディア. よる手法を用いる.. は,システムによる支援ありの場合と支援なしの場合の 効率を比較することによって効率化を見積もることであ. 検索結果表示. る.とはいえ,現実の実験では効率化を定量的に測定す. 検索の結果,類似した訳例が得られるわけだが,それ. るのは難しい.これは,翻訳者,支援システム,データ. をユーザに提示する際には,検索キー文と訳例原文で一. 類等の一切を含めた要素が実験環境に含まれており,そ. 致した個所,または,相違個所をハイライトする方法が. れらすべてを考慮した評価手法を設計しなければならな. ある.これらの対応情報は DP の結果から得られ,扱い. いからである.以下では,Cliché を対象にした効率化. やすいため,TRADOS など多くのシステムで採用され. 測定実験を例に評価手法について説明する.. ている.. 留意すべき点の 1 つとして翻訳速度と訳質の関係があ. さらに,訳例原文と訳例訳文の対応をハイライト表示. る.翻訳作業効率の測定において,単に作業速度だけを. すると,ユーザにとって訳例の使える個所が判別しやす. 測定しても有意な差が出ない場合が多い.これは,実際. くなる.数字や日付などの要素については,簡単な文字. の人間の作業では,訳質を犠牲にしてまで高速に作業し. 列処理で認識できるため,原文・訳文間で対応づけしや. たり,また逆に訳質ばかりに拘って必要以上に作業が遅. すい.. くなるような場合が頻繁に発生するからである.このこ. Cliché では,機械翻訳システムの辞書を用いた形態素. とから,作業速度と訳質の両方を測定することによって. 解析処理により訳例の両言語の文中の単語対応を得て,. 初めて有効な測定ができる.. それらの対応をハイライト表示している.また,これに. また,支援あり翻訳と支援なし翻訳のような 2 条件間. 検索キー文と訳例原文の対応情報を統合して, 「3 つ組」. の測定を比較する際には,条件の適用順が結果に影響を. ハイライト表示を行っている.. 与える.これは,被験者が対象文書を扱うにつれて対象. 図 -5 に 3 つ組表示の例を示す.検索結果の各訳例は,. 文書に慣れて処理速度が上がっていくためである.この. 上から,検索キー文,訳例原文,訳例訳文の 3 文を一単. 問題を解決するために,条件 1 の文書と条件 2 の文書を. 位としてボックス表示している.「I」-「I」-「私」, 「pen」. 交互に評価対象とした.. 938. 44 巻 9 号 情報処理 2003 年 9 月. −8−.
(9) 1.0. y=75.091x. 人の声を計算機で生成する音声合成においても実際の人. y=14.546x. 間の肉声の断片をたくさん計算機内に蓄積しておき,状. y=61.726x. 0.9. 況に応じて断片を繋ぎ合わせて人間の発声に近い音を生. 0.8 0.7 支援あり (A). 0.6 訳質. y=14.776x. 0.5. 支援なし (A) 支援あり (B) 支援なし (B). 0.4 0.3. 成する手法が近年多く使われるようになってきている. このようにみると,機械翻訳においても人間の翻訳知識 の断片を限りなく蓄積しておき状況により繋ぎ合わせる 手法が有望かもしれない.Example-Based MT はまさに. 0.2. そういった観点に基づくものであるが,ただ単に用例を. 0.1 0.0 0.00. 0.02. 0.04. 0.06. 集めるというだけでは,言葉のバリエーションが無限に. 0.08. 近く存在するためすべての可能な表現を蓄積するのは不. 単位ワードあたりの経過時間 (時間/ワード). 可能に近い.そこで文法的に同等の表現は同じ規則に従. 図 -6 翻訳時間と訳質. うと仮定することにより解析や生成の規則を用いて「断 片知識」 の数を減らすルールベースの手法が必要になる. 図 -6 では,Cliché における翻訳時間と訳質の推移を,. また Example-Based MT とルールベース MT をつなぎ. 2 人の翻訳者 A ,B が支援あり条件と支援なし条件で行. 合わせて使おうという試みも近年行われているが,どの. ったときのデータを重ねて表示している.この線の傾き. ように繋ぎ合わせたら最も効果的かという問題はまだほ. が効率化の度合いに相当するわけだが,この例では 4 倍. とんど手つかずの状態にある.. 程度の効率化が測定されたところを示している.. 今回紹介した機械翻訳と翻訳メモリの融合による翻 訳支援システムの構築は,直接の目的は人間の翻訳作業 を効率化させようというものだが,その先に Example-. 【究極の翻訳自動化とは?】. Based MT とルールベース MT の最適な結合方法を探 るという意図も込められている.すなわちまずは人. 機械翻訳はその歴史の中で,意味処理などの深層的な. 間に,断片再利用ができる高機能翻訳メモリといった. 情報の利用と,コーパス処理等の表層的な情報の両方を. Example-Based MT の素材と,ルールベース機能を備え. 充実させる方向で研究が進められてきた.その時々の状. た機械翻訳による翻訳結果を提供し,人間による翻訳作. 況で,いずれかが一時的に脚光を浴びることはあっても,. 業を効率化させる.その過程で,人間がどのように翻訳. 結局はその両者を充実させることが高精度自動翻訳の実. メモリの一部と機械翻訳結果の一部を繋ぎ合わせて訳文. 現のためには必要であろう.. を完成させていくかを分析しモデル化することができれ. 究極の翻訳自動化とはどのようなものかまだ眺望でき. ば,「継ぎはぎ」の作業をさらに効率化するためのツー. る域には技術は達していないが,言語処理において人. ルの作成が期待できる.このようにツールを用いた人間. 間と同等のパフォーマンスを求めるならば,やはり人. の翻訳作業の各工程を分析し,各工程の効率化のための. 間なみの言葉の理解が必要であると考えるのは自然であ. また別のツールを用いた半自動化を行い,ついには自動. ろう.しかし冒頭でも述べた通り,これまでの機械翻訳. 化が果たされるならば,はじめから全自動を前提とした. は言葉の真の意味の理解を経ずに翻訳を行おうとしてき. 従来の機械翻訳とは動作原理がまったく異なる機械翻訳. た.これは,そもそも「意味」とは何で,どのように計. システムの構築が可能かもしれない.. 算機上で意味を表現し計算処理したらよいのか,という 人工知能の根源的問題にまだ明確な解が与えられていな いためである. 一方で,チェスや囲碁,将棋などのゲームにおいて人 間並みかそれ以上の力量を誇るプログラムが出現してい るが,そのメカニズムが人間の思考と同じかといえば答 えは否であることを考えると,翻訳においても人間とは 異なる「思考」に基づくアプローチも可能かもしれない. これらのプログラムは人間のようには振る舞わなくて も,定石などの人間の知識の断片は解探索のためのヒュ. 参考文献 1)Sato, S. and Nagao, M.: Toward Memory-based Translation, Proceedings of the 13th International Conference on Computational Linguistics, pp.247-252(1990). 2)http://www.lisa.org/ 3)潮田 明 , 富士 秀 , 大倉清司 , 山下達雄 : 機械翻訳と訳例検索を統合 した翻訳支援システム , 言語処理学会第 9 回年次大会予稿集(2003) . 4)富士 秀 , 畠中伸敏 , 伊藤悦雄 , 亀井真一郎 , 隈井裕之 , 介弘達也 , 吉 見毅彦 , 井佐原均 : 機械翻訳システムの有効性の評価∼どのような人に とって MT は役立つか∼ , 言語処理学会第 8 回年次大会予稿集(2002) . 5)山下達雄 , 富士 秀 , 大倉清司 , 潮田 明 : 翻訳支援に有効な訳例検索 の類似度計算方式と検索結果提示方式 , 言語処理学会第 9 回年次大会 予稿集(2003). 6)野口正一 監修 , 牧野武則 著 : 図解 自然言語処理 , オーム社 , pp.2-3 (1991). (平成 15 年 6 月 2 日受付). ーリスティックスとして大量に組み込まれている. また, IPSJ Magazine Vol.44 No.9 Sep. 2003. −9−. 939.
(10) 940. 44 巻 9 号 情報処理 2003 年 9 月. − 10 −.
(11)
関連したドキュメント
長尾氏は『通俗三国志』の訳文について、俗語をどのように訳しているか
長尾氏は『通俗三国志』の訳文について、俗語をどのように訳しているか
されていない「裏マンガ」なるものがやり玉にあげられました。それ以来、同人誌などへ
自発的な文の生成の場合には、何らかの方法で numeration formation が 行われて、Lexicon の中の語彙から numeration
[r]
危険な状況にいる子どもや家族に対して支援を提供する最も総合的なケンタッキー州最大の施設ユースピリタスのト
痴呆は気管支やその他の癌の不転移性の合併症として発展するが︑初期症状は時々隠れている︒痴呆は高齢者やステ
1 7) 『パスカル伝承』Jean Mesnard, La Tradition pascalienne, dans Pascal, Œuvres complètes, Paris, Desclée de Brouwer,