1.まえがき 技術の評価と未来予測は困難な事業である。その有力 な方法とみなされているものにデルファイ法がある。専 門家群に技術の実現時期予測をさせ,一度それを集計し たのち,同じ専門家群にその結果をフィードバックして 再予測をさせることにより,結果を収束させる方法であ り,文部科学省が 1971 年以来おおむね 5 年おきに大規 模に実施している1) 。その中には「機械翻訳」関連項目 があるが,調査のたびに,510 年程度先延ばしにされ 続けている。なぜ,そのようなことが起きるのかについ ては,筆者らの論文2),3) で詳細に論じた。 文部科学省調査の一部をここに掲げよう。2007 年現在 が実予測時期になっている 1992 年の第 5 回予測を見て みる。第 5 回調査には前回第 4 回の調査結果も記されて いるので併せ記しておく。 (1) 『音声入出力によるポータブル型自動通訳器(簡 単な日常会話を双方に通訳する)が商品化される。』 1986年第 4 回調査: 2003 年 1992年第 5 回調査: 2007 年 この結果をみると第 4 回調査,第 5 回調査ともに当っ ていない1ことがわかる。直近の調査は 2005 年 5 月に行 われた第 8 回調査「科学技術の中長期発展に係る俯瞰的 予測調査」である。そこで取り上げられた機械翻訳の課 題の予測は次のようなものである。 『言語のリアルタイム翻訳機能が付加された電話 の一般化』 技術的実現時期 2017 年 社会的実現時期 2025 年
機械翻訳の可能性の分析
― ontology の必要性―
天 野 真 家 *
An Analysis of Feasibility of Machine Translation
—Indispensability of Ontology—
Shin-ya AMANO*
Machine translation has been assumed to be possible, if it is provided with dictionaries and grammars since digital computers appeared half a century ago. Researches on machine translation have been promising and disappointing. In 1960s of the United States machine translation projects boasted their expected results in vain. It led research fund to be lessen drastically. Though Canada, European Community and Japan succeeded the States and produced commercial systems, fully automatic machine trans-lation does not become a reality. On the other hand each research with the Delphi method for foresight of technologies employed by the Ministry of Education, Culture, Sports, Science and Technology of Japan has ever been putting off its estimated launch year of the machine translation. This is caused principally by that machine cannot grasp meaning of the world by lack of five senses. The best alternative will be ontology as the knowledge base of the world. This thesis presents a brief history of machine transla-tion, cause of difficulty of developing machine translatransla-tion, and indispensability of ontology for high quality machine translation.
Vol. 42, No. 1, 2008 *情報工学科 教授 平成 19 年 9 月 27 日受付 1 商業政策上類似した名称を付けているが,異なる機 能の機器が 1970 年代以来,現れては消えている。詳 細は文献2) を参照
第 8 回調査では,更に先延ばしにされている。この予 測に関しては現時点では当否の証明ができない。しかし, 筆者はこの予測はこれまでと同じ原因,すなわち,本論 文で以下に述べる原因により当らないと予測している。 これらの調査には「音声認識」技術が伴っているが, 実態としては,機械翻訳も音声認識も本論文で検討する 言語レベルの困難を持つために,両方ともが実現されな いのである。 このような調査の実態を鑑み,本論文では,機械翻訳 の技術を技術史の観点から評価し,さらにそれが一般に 期待される性能で実現されるにはどのような技術が必要 かについて検討する。 2.機械翻訳の技術史 機械翻訳のコンセプトは慣習として 1946 年英国の Warren Weaverが知人に宛てた手紙の中で示唆したと書 かれることが多いが,これについては何の確とした証明 もない。また,彼は 1949 年 200 通の手紙を知人に送り, その中で翻訳について論じているとされるが,直接に技 術が論じられているわけではないとされている4)。いず れも,技術を伴わない示唆にすぎず,これを持って従来 慣習的に言われているように機械翻訳の嚆矢とするには 無理がある。 機械翻訳が単なる夢想ではなく技術として出現したの は,1954 年の Georgetown 大学による露英翻訳の公開実 験であった。1950 年代に米国で機械翻訳の研究が盛んに 行なわれた理由は第二次世界大戦後の冷戦と関わりがあ る。米国はソビエト社会主義共和国連邦の軍事情報を始 めとするさまざまな情報を速やかに得る必要があったた め,機械翻訳の研究にファンドを供給したのであった。 この時期,機械翻訳は辞書と文法書があれば可能である と信じられており,機械翻訳の研究者たちはファンドを 獲得するために早期に完全な翻訳機械が実現できるかの ようなプロポーザルを書いたとされる。しかし,そのよ うな翻訳機械システムは出現しなかった。 1950年代の計算機の計算能力を考慮すれば実用的な翻 訳機械を開発することは不可能であったと言っていいで あろう。日本では九州大学において 1957 年国内初の翻 訳機械「KT-1」の研究開発が行なわれ,更に,1958 年に は通産省工業技術院電気試験所(現,産業技術総合研究 所)においても「やまと」が開発されていたが,これら の研究は,当時の汎用計算機の貧弱な能力のため,言語 学的研究以前に特別なハードウェアの研究から始めなけ ればならなかった。翻訳の研究だけではなく言語処理を 行なうためのハードウェアを作ることに労力が使われて いたのである。 その後,1961 年に,京都大学が工学部,文学部のチー ムで Noam Chomsky の文法理論5) を採用し,汎用コン ピュータを用いた機械翻訳システムを開発した。ここに 初めて本格的言語理論に則った翻訳機械が誕生したので あった。 このような黎明期に,米国にあって高精度な翻訳を実 現すると宣言して研究ファンドを獲得することは結果と して機械翻訳に不審の念を抱かせ,その凋落を招いた。 米国における機械翻訳の研究は日本における基礎研究と は異なり明確に軍事研究であり実用的な成果を求められ た。研究者はこの要求に応えられず,1960 年代後半にお いて米国における機械翻訳の研究は急速に萎縮して行っ た。 1966 年, いわゆる ALPAC レポート6)が National Academy of Sciencesから発行され,機械翻訳は現在にお いても (suddenly) 近い将来においても (at least quickly) 得 ることはできそうにないと結論されたことが致命的な結 果となった。ALPAC レポートの「機械翻訳」という用語 は完全自動翻訳を指し,現在と異なり「機械支援翻訳」 は含まれていない。このレポートは単なる学術論文では なく,政府機関から研究ファンドの交付に関わって出さ れたものであるためその大きな影響力に配慮し,慎重で 控えめな表現が用いられている。
No one can guarantee, of course, that we will not suddenly or at least quickly attain machine translation, but we feel that this is very unlikely. —ALPAC レポート 24 ページより引用 しかし,米国のような軍事目的ではなく,国家あるい は国家群として機械翻訳を必要としている国々があった。 カナダ,欧州共同体(現,欧州連合),日本である。カ ナダは英語,フランス語二カ国語を公用語としている国 であり,公用文書は二カ国語で書かれなければならない。 この為,経済的観点から英仏機械翻訳を必要とした7),8) 。 欧州共同体は 1970 年代当時 9 カ国語が公用語であった ため,欧州議会の公文書は 9 カ国語に翻訳されなければ ならなかった。欧州共同体は,そのような多数の翻訳者 を確保し続けることに危機感を持ったばかりでなく,翻 訳にかかる経費は予算を圧迫した。このため,欧州共同 体は参加各国の代表的大学において機械翻訳の研究を始
めた。EUROTRA という 9 カ国語相互翻訳システムの開 発が目的である9)。フランスのグルノーブル大学,イギ リスのマンチェスタ工科大学,ドイツのザールブルッケ ン大学などが主な研究機関であった。 日本では,京都大学の研究が 60 年代後半で一段落し た後,自然言語処理の研究は水面下で行われているよう な状態にあった。1978 年のワードプロセッサの登場によ り,日本語入力の研究が産業化に成功した勢いをもって 自然言語処理の研究が企業で組織化され,それが従来 細々と続けられていた学官と結びついて活性化した10)。 機械翻訳は,特にコンピュータメーカの間でメインフ レームビジネスと結びついた差別化要因とされ,研究競 争が激しく行われた。筆者は 1979 年,仮名漢字変換に よりタッチメッソドで入力できる能力をもつ日本語ワー ドプロセッサを世界で始めて製品化した後,直ちに次の 段階である機械翻訳の研究を開始した。同じ頃,富士 通,NEC が研究を始めた。引き続き,日立,三菱電機, 沖電気のいわゆる電算機六社が研究開発を開始した。 80年代に入り,計算機環境は 60 年代から大きな発展 を遂げていた。京都大学はこの新たなフェイズに入った 計算機環境の中で研究を再開した。日本企業における研 究はカナダ,欧州共同体と異なり,国のファンドではな く,自らの資金で行なわれた点に特徴がある。国家,あ るいは国家群内部に法的な要請による翻訳ニーズのない 日本でのニーズは産業翻訳であった。貿易立国である日 本においては,工業製品のマニュアルなどの翻訳に大き なニーズがあったのである。 1980年代中頃には電算機六社の機械翻訳システムが出 揃いつつあった。この時期用いられた計算機は一般には メインフレームと呼ばれる大型計算機であった。筆者は, 当時その利便性から普及しつつあったワークステーショ ンを用いた機械翻訳システムを開発し,その後,市場は ワークステーションへと移っていく。機械翻訳システム は原言語を入力すれば,完全な翻訳結果が出力されると いうものではない。仮名漢字変換を用いているワードプ ロセッサのように必ず誤りを持つために,人間が後編集 しなければならない。ワードプロセッサは当時,普及の 一途をたどっていたが,そのようなスタンドアロンの機 器で容易に入力,翻訳,編集,出力を行うことが必要で あった。共用の大型計算機では,そのような使い方は難 しかったことが,その後,ワークステーションを主流と した。 90年代に入りパーソナルコンピュータの計算能力が急 速に増大するにつれ,パッケージソフト形態での機械翻 訳ソフトが製品化される。さらに,インターネット上の 英語サイトの自動翻訳サービスがはじまり,機械翻訳は 一般化した。このような利用では大量の文書を不正確で も良いので高速に翻訳し,大意をつかむという用い方が 一般的になった。しかし,そのような機械翻訳の用い方 は,初期の目標ではなかった。機械翻訳は,最初,軍事 情報の翻訳,欧州議会,カナダ政府の公文書,産業翻訳 などの正確な翻訳を高速,低価格で行うことが目的で あった。しかし,その目標は達成されていない。以後の 節ではその原因を分析する。 3.言語理論上の問題 3.1 統語論における問題 統語論とは構文解析を行なう部門の基礎理論である。 形態論,及び,時の一致,数の一致などを扱う形態統語 論を除く文法部門であり,文の構造形式を取り扱う。英 語の場合,文の形式は語順で表される。日本語の場合, 形容詞 – 名詞のように語順が決められている場合と,語 順ではなく格のように格助詞で決められる場合とがある。 文法はサンスクリット語以来の長い歴史を持ち,様々 な観点が発明され整然とした規則群が規定されている。 機械翻訳の研究の初期には,文法さえあれば相当なレベ ルまで翻訳できるのではないかと思われたのはこのため であろう。しかし,文法を用いる構文解析には人工知能 的な問題があった。そのうち最大の問題を 2 つ取り上げ る。 1.組合せ的爆発 (combinatorial explosion) 将棋のよ うな知能ゲームでは,指す手が非常に多いため,深く読 むには多大の時間を要する。このため,読むのはある局 面に限り,他の部分は読まない。この処理を枝刈りとい う。将棋の場合,読むべき手の数は 10220 手ある。 言語は思考を文字列という一次元の形態で表現するた め,語の間の掛かり受け関係に曖昧性が生じる。この曖 昧性は文法的に可能な解釈であり,将棋で言えば,打つ ことが可能な手である。可能な解釈をすべて処理すると 組み合わせ的爆発を起こす。この可能性の枝を刈り込ま なければ,解釈の数は膨大なものになり,処理は破綻す る。 2.網羅不能性 (inexhaustibility) この問題は,人間は 自分の知っていることを網羅的に明示的規則にすること
が困難であるという問題である。別の表現をすれば,自 分が何を知っているのかを完全には知らないということ である。 言語の場合,ネイティブ・スピーカが日常的に使用し ている構文を完全に文法規則にすることが困難であると いう現象になる。言語学の文法書に従って書かれた品詞 と規則群では解析不能な文が無数に存在する。 1.の問題は,3.2 で取り扱う。以下では 2.の問題を 論じる。 人間の持つ知識には,網羅不能性の現象があるため に,文法の開発者は試行錯誤を行なって文法を開発して いくことになる。高品質な機械翻訳を実現するためには, コンピュータが利用できる形の文法を細大漏らさず最後 まで書きつくさなければならない。人間のための言語学 の文法書のように概論といくつかの例文を述べ,後は察 せよというような記述は,現在の時点ではコンピュータ には使用できない。将来,自動学習の機能をコンピュー タが持つことができるようになれば,そのようなことも 可能になるであろうが,自動学習とは帰納推論を含むた め,学習した結果の正当性についての検証が必要となる が,帰納推論では原理的に論理的正当性の証明は不可能 である。従って,文法は人間が作成してコンピュータに 与えなければならないが,その人間自身が自分の知って いる知識を網羅的には取り出すことができないのである から,試行錯誤的方法にならざるをえない。例題をコン ピュータに与えると,コンピュータは解析不能と応える。 コンピュータがどこまで解析をできているか,どこで間 違ったか,どこで行き詰ったかをその出力から調べ,現 在の文法規則に存在しない新たな規則を発見的に付加し ていくという過程をとることになる。 この方法で拡張された文法規則の体系は研究者の数と 同じだけあると言って過言ではない。一つには品詞でさ え決定的なものが開発されていないことが理由である。 伝統文法の品詞は粒度が荒く不正確である。したがって 自然言語処理では品詞細分が行なわれる。たとえば伝統 文法でも,動詞は二種に分けられている。目的格をとら ない動詞を自動詞,取る動詞を他動詞とする。しかし, 他動詞にも与格を取るものと取らないものとがある。伝 統文法は,このような言語現象に対しては深く言及しな いが,コンピュータ用の文法では,それを分けておかな ければ曖昧性の原因になるので,細分が行なわれる。 例 1 与格を取ることのできる動詞を,取ることので きない動詞と区別しない場合の文法記述: 1) VPvt, NP 2) VPvt, NP,NP 例 2 与格を取ることのできる動詞を,取ることので きない動詞と区別する場合の文法記述: 3) VPvt1, NP 4) VPvt2, NP, NP
ここで,VP: Verb Phrase, NP: Noun Phrase
vt:他動詞,vt1 :与格を取らない他動詞, vt2:与格を取る他動詞 例 1 の場合,「vt」を含む文に対して 1),2)の両方の規 則を適用しなければならない。これは枝が分かれること を意味し,解析すべき手数が増える。例 2 では,vt1, vt2に場合が分かれているので,一つの文に対して 3),4) の両方の規則を適用することはない。 但し,「give」を考えればわかるように,この動詞は与 格を取ったり,取らなかったりする。従って,構文解析 の対象とする品詞列においては,枝が分かれることはな いが,その前段階である形態素解析からの出力では 2 つ の品詞列が出てくるという事態を生じることがあり,品 詞細分は必ずしも場合の数を減らすことにはならない。 3.2 意味論における問題 言語理論における意味論は,構文部門の上位に位置 し,文の意味を取り扱う部門である。しかし,現在のと ころ,言語学は文の意味が何であるかを明確に定義でき ないばかりか,そもそも語の意味さえ定義できていない。 そのような状況を初めて明確に問題としたのは,Gottlob Fregeである。国語辞書にある語の定義は,一見,意味 であるようであるが,そうではない。語を語で定義して は言語内での循環論法になり,何も定義できない。言語 で表現される言語外の世界の事象をどのように定義する かが意味論の大きな問題なのである。 もっとも簡単な「語の意味」の定義は外延である。こ の理論では,語が指示する物そのものがその語の意味で ある。この定義は確実で確からしく思える。しかし,「河 童」などの非実在のものをどのようにして指示できるか という問題が生じ,この解決ができない。更に G. Frege は,「宵の明星」と「明けの明星」が指すものは同じく
金星であるが,それでは,「宵の明星」と「明けの明星」 の意味が同じになってしまうという困難を指摘してい る11) 。彼は「意味」のほかに「意義」を設け,「宵の明 星」と「明けの明星」を区別しようと試みたが,理論は ますます複雑化した。 外延による意味の定義の対極が内包による意味の定義 である。国語辞書の定義が,これを模したものである。 しかし,語が表す対象をその属性群で定義しては,どの ように定義しても過不足が生じるであろう。水を飲む ボールとフィンガーボール,スツールとオットマンの区 別を行なうのは困難である。「犬」の属性の一つを「4 本 脚」とすると,事故で脚を 1 本失った犬が定義できない という困難も指摘されている。そのそも犬の大きさとい うものを正確に定義できない。チワワからマスチーフま での広がりを認めるにしても,必要十分条件としての上 限,下限を設けることが困難なのである。 語の意味の定義理論がこのような状態にあるとき,文 の意味の定義はさらに困難をはらんでいる。計算言語学 のような論理的,数学的な立場では,概ね,G.Frege に 従い,フレーゲの原理,あるいは構成性原理と呼ばれる 原理を指導原理として採用することになる。全体の意味 は部分の意味の関数になっているという原理である。 以上のように,意味論は確立された理論ではなく,細 部にいたれば解決できない問題をもつ。計算言語学では, 従って,機械翻訳では,語と語の修飾関係に関する正当 性の検定程度にしか用いることができていない。具体的 には,語を意味的規範で分類し,その分類したグループ 間 の 修 飾 可 能 性 を 規 則 と し て 表 現 す る と 言 う , Katz&Fodorの選択制限規則を用いる。即ち,語の本来 の意味も,文の意味も扱わないのである。この意味規則 は,構文解析における曖昧性の解決に網羅的ではなく偶 発的に用いられている程度である。網羅的,あるいは大 規模にこの規則を用いることができない最大の理由はそ のための ontology が存在していないことに起因する。こ こで,ontology とは「世界知識」の事であり,人間が持 つ常識からなる。また,専門分野における特殊な知識な どを含める場合もある。 ontologyと,それが必要な単純な例を示そう。 Time flies like an arrow.
この文は,「時蝿は矢を好む」,「矢のように蝿を計時 せよ」,「矢のような蝿を計時せよ」,「時は矢のように飛 ぶ」,「矢のような時蝿」の 5 つの解釈が文法的に可能で ある。この中で,どれが尤もらしい解釈かを決定するメ カニズムは言語学の領分ではなく,現実世界との整合性 の検証で行われなければならない。それには ontology が 必須なのである。「時蝿あるいは矢のような蝿は存在し ない」などの知識は ontology に属する。このような on-tologyを利用して「時は矢のように飛ぶ」だけが正訳と 判断される。 ontologyの極めて単純なものとして,かつ大規模性を 狙って開発された EDR2 の概念辞書12),13) は約 40 万概念の 関係を記述したものであり,選択制限に用いられること を期待して開発されたが,この辞書を有効に用いて意味 解析を製品レベルで十分に成功させたという報告はない。 4.文化にかかわる事象の翻訳の問題 翻訳とは,言語の置き換えとしての翻訳ではなく,時 には言語で表現された文化の翻訳になる。この場合,表 面上の言語表現で,その意味が伝えられだろうかという 問題がおきる。 文化が典型的に現れる言語現象は挨拶であろう。 「こんにちは」,「さようなら」,「ただいま」,「おかえ りなさい」,「いただきます」,「ごちそうさま」などの定 型的挨拶においては,言語的翻訳の前に,翻訳の目的言 語側の国,または民族がそもそも,そのような挨拶をす るかが問題となる。しなければ,対応する訳語は存在せ ず,翻訳不能になる。しかし,このようなコンパクトな 慣用句だけでなく,一般的な語でさえ逐語役では無意味 http://www.gip.jipdec.jp/cgi-bin/link-count-1.cgi?URL/ japanese/project-j/figure/edr2-j.html より引用 図 1 EDR概念辞書の記述の例
2EDR: Japan Electronic Dictionary Research Institute, Ltd.
1980年代に国と民間のコンピュータメーカ 8 社で作っ
た電子化辞書開発企業。 2002 年に解散し, 業務を (独)情報通信研究機構に移管した。
になる場合は普遍的に存在する。 菊治は茶を飲んでから,茶碗をちょっと眺めた。 黒織部の茶碗で,正面の白ぐすりのところに, やはり黒で早わらびが描いてあった。 —川端康成 「千羽鶴」より このような文化を背景に持った文章を機械が訳すことが できるであろうか。「早わらび」に日本人がもつ情感は 「早春のすがすがしさ」であろう。 石走る垂水の上の早わらびの 萌え出づる春になりにけるかも この万葉集の志貴皇子の歌が表す情景は早春の清々しさ であろう。「石走る垂水」に清冽な清水を,「萌え出づ る」に新生の喜びを,「春」に新緑の清々しさを,日本 人は感ずるであろう。その語に囲まれて「早わらび」が 同じ文脈の中に置かれているのである。新緑の芽を滝の 水しぶきを浴びてしっとりとしている土から吹いている 早わらびに日本人がどうような情感をもつかは上の文脈 から明白である。さらに,「早わらび」の中の「早」の 字は「早乙女」,「早苗」の文脈におかれる。その文脈は 上に述べたものと同じく「無垢な清らかさ」の文脈であ る。 「早わらび(早蕨)」は通常のコンサイス版の和英辞書 には収録されていない。「早わらび」は「早」と「わら び」の合成語であり,一次語ではないが,英語において も一次語ではない。「わらび」の訳語「bracken」に何らか の修飾をして表現しなければならないだろう。 上記部分の Edward D. Sidensticker 氏の翻訳を参考にす る。
After drinking, Kikuji looked at the bowl. It was black Oribe, splashed with white on one side, and there decorated, also in black, with crook-shaped bracken shoots.
—Edward D. Sidensticker 訳
文全体はほぼ機械的に語の置き換えであることが分か る。 ここで,「 早わらび」 に相当する語句は「 crook-shaped bracken shoots」 と な っ て い る 。 こ の 訳 語 は 「bracken shoots」だけの方が少なくとも無難である考え られる。蕨が人差し指を折り曲げたように螺旋状に巻い ていることを読む側に伝えたい翻訳者の意図があると考 えられるが,「crook」には,単純に中性的に曲がってい る状態を示すだけでなく,「心の曲がった」,「不正直な」, 「病気の」,「詐欺師」というような悪い印象を想起させ る概念がある。果たして,このような訳語で,日本人が 「早わらび」に感じる印象を伝えることができるであろ うか疑問がある。 しかし,それ以上に,Sidensticker 氏が如何に訳語に工 夫を凝らそうとも,日本の自然,気候,文化の中で培わ れてきた情感というものを,まったく異なる環境に住む 人々,端的には北極に住むエスキモー,砂漠に住むベド ウィンに理解させることは不可能だろう。文化という民 族に特有な要素を内に含んでいる文の翻訳は,その文化 まで含んで翻訳することは非常に難しい。機械翻訳がこ のような出版翻訳の分野を対象にせず,技術に関わる翻 訳,従って普遍的な概念の翻訳である産業翻訳の分野に 的を絞ってきたのは,この理由のためである。 5.ontology の必要性 本節では,2 節∼ 4 節で述べた問題を解く方法につい て検討する。 統語論における 2 種の問題のうち,組合せ的爆発の問 題は,見方を変えれば,統語的曖昧性の問題であり,上 位層である意味論の層で解決されると考えられている。 人間は,おそらくは,統語的解析と意味的解析を別層で 扱わず,同時に行っていると推定されていて,自然言語 処理では統語規則に意味規則を併記する試みも行われて きた。しかし,統語規則さえ完全には開発されておらず, 不完全である。製品レベルの完成度をもつシステムでは 10万以上の統語規則をもつが,そのような統語規則に意 味規則を統合することは,言語現象を複雑にし,従って 誤りの原因を特定しにくくし,実用的大規模統語解析シ ステムの開発を困難にする。このため,実用システム開 発では統語解析と意味解析は分離される。統語的曖昧性 は統語解析段階では解決せず組合せ的爆発を起こさない 表現形式で意味解析に持ちこす方法がとられる。 もうひとつの統語解析の問題である網羅不可能性の問 題は文法規則を如何に収集するかという,統語レベル内 の問題であり,この問題は直接的に ontology で解決はで きない。しかし,ontology が十分な量を持ち,強力にな れば,統計的に意味解析を行うことが部分的にでも可能 になるかもしれず,そこから逆に統語規則を自動獲得で きる可能性が考えられる。 既に述べたように意味解析を行うためには,ontology の存在が必須である。
I saw a sparrow with a telescope. この翻訳として,「望遠鏡を持った雀を見た」を排除し, 「望遠鏡で雀を見た」を翻訳とするような機械翻訳シス テムを開発するためには,「雀」,「望遠鏡」,「見る」に 関する知識が必要である。 最終的には「スズメが望遠鏡を持つことはない」とい う知識を ontology から推論する必要性がある。人間用の ontologyには,「雀」の項目に「雀が望遠鏡を持つこと はない」,「望遠鏡」の項目に「望遠鏡は雀に持たれるこ とはない」とは明示的に書かれることはない。機械用の ontologyでもそのようになるだろう。これは,文法規則 の網羅不可能性と同様,知識の網羅不可能性に関わる。 人間は推論でそのような知識を得ているが,機械にもそ のような推論機能が必要である。その推論のための演繹 規則自体が ontology の一部をなし,この世界を構成する 膨大な事実群の中から演繹規則を抽出しなければならな いため,完全な演繹規則体系の構築は事実上不可能であ る。 人間用の ontology と言える百科事典を調べよう。小学 館の JAPONICA には下記のような説明がある。 雀 鳥類・ハタオリドリ科の一種。キンパラ科,またはス ズメ科に分類する説もある。ヨーロッパからアジアに広 く分布し,人家付近を好む。日本には亜種がが生息す る。翼長約六・五∼七センチ。雌雄同色で背面は茶褐 色,顔に黒色部があり,胸腹部にかけて白い。… このような記述が半ページに渡って文章で記され,写 真も添えられている。 望遠鏡 レンズまたは反射鏡をいくつか組み合わせて,遠方の 物体を拡大してはっきりと見るための光学器械。レンズ を使った望遠鏡の場合,物体の側にあって,物体からの 光を集める働きをするレンズを対物レンズ,また,目の ほうにあって,対物レンズで焦点に集めた光を拡大する 役目をするレンズを接眼レンズといい,この型の望遠鏡 を屈折望遠鏡という。… このような説明が 1 ページ以上に渡って文章で綴られ, 1ページの図,写真が添えられている。 見る 記載なし。 このような百科事典がそのままではコンピュータ用の ontologyになりえない原因として以下のものがあげられ る。 1.自然言語で記述されているので,記述が再帰的にな る。 2.記述すべき内容が形式的に定められておらず,多数 の著者らの恣意に任せられている。 これらの問題を解決するには, 1. 記述用の定義された言語 2. 記述すべき項目 が必要である。これらの条件を満たそうとして研究され たものが知識記述言語であるが,現在までに成功してい ない。1 も 2 も困難な問題を含み,開発に成功しないの である。しかし,このような困難を克服しながら,on-tologyを開発しなければ,高精度な機械翻訳は不可能で ある。 6.ontology 開発における延長性の問題 自然言語処理のさまざまな辞書は,主として企業が自 社製品のために開発してきており公開されていない。一 部,EDR や奈良先端科学技術大学院大学などで開発され た辞書が有料/無料の形態で公開されているにすぎない。 学会発表,製品の品質から推測すると,ontology は企業 でも開発に成功していないと考えられる。以下では,on-tology開発の困難性を分析する。 筆者は技術がコンセプトから実用レベルに至ることが できる属性を「技術の延長性」と呼んでいる3) 。コンセ プトを実現した技術であり,その技術を比較的容易に改 良して行くことができる技術を「延長性」があると呼ぶ。 現在の技術レベルと,期待される技術レベルの間に越え ることができないように見える深淵が存在し,現在の技 術パラダイムを単純には延長していけない技術を「延長 性」が無いと呼ぶ。 ontology研究の第一歩は,知識の要素—知識の原子— を決定することであるが,現在のところその決定に成功 したという報告はない。辞書のように核ができれば,そ れを改良,増補して成長させていくことができる場合,
「技術の延長性」があるといえるのであるが,ontology は,いまだその状況にはない。知識は本来,そのように 増加させていくことができると考えられるので,ontology は本来延長性があると考えられる。インターネット上の 百科事典である Wiki はそのような過程で成長しつつあ る。ontology がいつかそのような仕組みを与えられた時, 機械翻訳は高品質な翻訳を可能にするだろう。 7.あとがき 現在の商用機械翻訳は産業翻訳を対象としていて,出 版翻訳は対象としていない。これは機械翻訳の誕生から ほぼ一環して取られている立場である。技術としては軍 事から始まった機械翻訳は,カナダでは公文書,中でも 天気予報と航空機マニュアルに限定されていた。欧州共 同体は欧州議会内の文書の翻訳が対象であった。日本の 機械翻訳は,最初,大学,公的研究所がパイオニアとし てはじまり,後,企業群が参入して研究開発を行なった という世界でもまれな現象をみた。そこで対象にされた 文書は製品マニュアルであった。 現在,機械翻訳はインターネットで利用できる形態に なり,開発者の初期の意図に反して対象を限定できる状 況ではなくなっている。さらに,このような人工知能的 システムは,「どの性能レベルにおいても」実現できる という手軽さを持っている。一言でいえば,粗悪品が蔓 延しているのである。このことは機械翻訳にとって幸福 なことではない。40 年近く前,「機械翻訳は使い物にな らない」と言う評価を与えられた。現在も,特に粗悪な インターネット上の翻訳サイトにおける評価が,無料で あるが故に不特定多数に試用されほぼ半世紀前の評価を 再現しつつある。 機械翻訳は困難な課題である。それを期待される品質 レベルに向上させる最初の一歩は ontology の開発しかな いであろう。それができるまでは,非専門家によるデル ファイ法の皮相的な判断は毎回先延ばしにされてゆくだ ろう。 参 考 文 献 1) 科学技術政策研究所編:平成 15 年度16 年度科学 技術振興調整費調査研究報告書,科学技術の中長 期発展に係る俯瞰的予測調査, http://www.nistep.go.jp/index-j.html, 2005. 2) 天野真家,稲垣耕作:人工知能分野におけるデル ファイ法の的中度の分析,情報文化学会誌第 13 巻 第 1 号,pp. 20–27, 2006. 3) 天野真家,稲垣耕作,坂下善彦:技術評価の方法 論に関する一考察,情報文化学会誌第 14 巻第 1 号, pp. 10–17, 2007.
4) W. John Hutchins: Early Years in Machine Translation: Memoirs and Biographies of Pioneers,
http://acl.ldc.upenn.edu/J/J02/J02-4008.pdf.
5) Noam Chomsky,: Syntactic Structures, The Hague, Mou-ton, 1957.
6) The Automatic Language Processing Advisory Commit-tee of the National Research Council: Language and Ma-chines: Computers in Translation and Linguistics, 1966. 7) Chevalier, M et al.: TAUM-MÉTÉO
—Description du système, TAUM— Université de Montréal, 1978. 8) Isabelle, P et al.: TAUM-AVIATION
—Description d’un système de traduction automatisée des manuels d’entrien en aéronautique, TAUM— Université de Montréal, 1978.
9) Vauquois, B et al.: Aspects of Mechanical Translation in 1979, GETA —Université Scientifique et Médicale de Grenoble, 1979.
10) 天野真家, 森健一: 日本の情報処理技術の足跡 漢
字・日本語処理技術の発展:日本語ワードプロセッ サの誕生とその歴史,情報処理 Vo. 43 No. 11, pp. 1217– 1225,情報処理学会,2002.
11) Gottlob Frege: On Sense and Reference, Translations from the Philosophical Writings of Gottlob Frege, ed. Peter Geach and Max Black, Oxford Blackwell, 1952 (原典:“Über Sinn und Bedeutung”, 1892).
12) Shin-ya Amano, Toshio Yokoi: The Structure and Func-tion of the EDR DicFunc-tionaries, InternaFunc-tional Conference on Computer Processing of Chinese and Oriental Lan-guages, 1991.
13)(独)情報通信研究機構: EDR 電子化辞書の構造,