• 検索結果がありません。

NTT 465 図 1.,,..,, 1980,.,, [Hori 12]..,, [Kinoshita 09]. REVERB Challange, 30,, [Delcorix 14].,,.,,,,.,.., [ 13]. 2 4 会話シーンを捉える リアルタイム会話分析 2,. 360,,,

N/A
N/A
Protected

Academic year: 2021

シェア "NTT 465 図 1.,,..,, 1980,.,, [Hori 12]..,, [Kinoshita 09]. REVERB Challange, 30,, [Delcorix 14].,,.,,,,.,.., [ 13]. 2 4 会話シーンを捉える リアルタイム会話分析 2,. 360,,,"

Copied!
8
0
0

読み込み中.... (全文を見る)

全文

(1)

1.は じ め に

外界の事物を認識し,知識を獲得し,それらの結果に 基づいて情報の提示や行動などといった外界への働きか けを行うことは,知的活動における基本的な機能である. NTTコミュニケーション科学基礎研究所では,これらの 機能の実現を目指した基礎研究を中長期的な視点をもっ て進めている.本稿ではその例をいくつか紹介しよう.

2.外界の事物の認識

2・1 音声認識からコミュニケーション理解へ 近年,スマートフォンの音声検索に見られるように, 音声認識技術は我々にとって身近なものとなり,その利 便性が広く知られるようになった.検索語や操作コマン ドの入力において,音声入力がかなり使えるレベルの完 成度になっているとの印象をもつ人も少なくない.しか し,音声によるコミュニケーションという観点から見れ ば,現在身近になっている音声認識技術は,極めて限定 された環境の中で,極めて限定されたタスクを扱ってい るに過ぎない. 音声入力では,認識対象となる話者は普通一人であり, その人がマイクの近くで丁寧に話すことが暗黙のうちに 想定されていて,発話から言語情報を認識することがタ スクとなっている.しかし,この前提から外れる状況で は,音声認識は途端に困難となる.試しに,現在の標準 的な音声認識技術で,IC レコーダからの議事録の書き 起こしのように普通の部屋で複数人が会話している音声 を認識させてみると,ほとんど満足な結果は得られない. また,仮に会話を正しく認識できたとしても,話された 言葉の文字データを得ただけではコミュニケーションと してははなはだ不十分である.我々の日常のコミュニ ケーションでは,誰が誰に言ったことなのかを把握する ことはもちろん,文字に表せない音声の韻律をくみ取る ことも大変重要である.韻律とは声の高さ,強さ,声色 など,言語情報以外の情報の総称である.ドーナツの穴 がドーナツの一部なのかどうかはわからないが,音声の 「間」,つまり音と音との間の無音でさえ,重要な韻律的 特徴の一つであり,しばしば雄弁に情報を伝達すること は話芸の例を引くまでもないだろう. 我々はこのような問題認識のもと,より日常に近い状 況における豊かなコミュニケーションを実現するための 要素技術について研究を進めている. 2・2 マイクを意識しない会話を捉える ─残響の除去と制御 例として,図 1 のように,4 名の参加者がテーブルを 囲んで自由に会話し,その音声をテーブル中央のマイク で収録している状況を考えよう. 対面の会話の収音では,スマートフォンに話す場合と 異なり,常にマイクを口元に近接して設置できるとは限

コミュニケーション科学と人工知能研究

─ NTTコミュニケーション科学基礎研究所の取組み─

Communication Science and Artificial Intelligence Research

 ─ Activities at NTT Communication Science Laboratories ─

柏野 邦夫

日本電信電話株式会社コミュニケーション科学基礎研究所

Kunio Kashino NTT Communication Science Laboratories, Nippon Telegraph and Telephone Corporation. [email protected], http://www.brl.ntt.co.jp/people/kunio/

平松  薫

(同  上)

Kaoru Hiramatsu [email protected], http://www.kecl.ntt.co.jp/csl/sirg/people/hiramatu/

大和 淳司

(同  上)

Junji Yamato [email protected], http://www.brl.ntt.co.jp/people/yamato/

山田 武士

(同  上)

Takeshi Yamada [email protected], http://www.kecl.ntt.co.jp/as/members/yamada/index-j.html

Keywords:

speech recognition, scene analysis, machine learning, big data analysis, machine translation. 「企業における AI 研究の最前線」

(2)

らない.マイクの位置が口元から離れると,空調などの 背景雑音や残響(音がテーブルや壁に反射して遅れてマ イクに届く現象)の影響が大きくなり,音質が低下する. また会話中の複数の人の声が混ざり合うことで,目的と する音の判別が難しくなる.これらの要因により,音声 認識の精度は著しく低下してしまうのが普通である. これらの問題に関しては長い研究の歴史があり,特に 1980年代以降,雑音除去や音源分離の課題が盛んに研 究されて,ビームフォーミングや独立成分分析などの有 効な手法が提案されてきた.我々も,これまでマイクロ フォンアレーを利用するものなど,さまざまな音声強調 技術を提案している [Hori 12].ここではその中から残 響除去技術について紹介しよう. 実環境における残響の除去や制御は近年まで困難な未 解決問題として残されていたが,我々は,線形予測の原 理に立脚し,実環境で高精度に動作する残響制御を世界 で初めて実現した [Kinoshita 09].本年度開催された残 響下音声認識に関する国際競争型ワークショップである “REVERB Challange”では,約 30 の研究機関が参加 する中,我々は,音声認識の前処理として残響除去を行 うアプローチによって多くのタスクで最高性能を達成し た [Delcorix 14]. 本技術は,単に雑音を除去するだけではなく,収録済 みの音楽信号を直接音成分と残響成分に分離することを 可能にしている.この分離ができることは,録音時の環 境に近い音環境を再生時に再構成できることを意味して おり,実際に,海外有名アーティストの再現ライブなど のステージや,ホームオーディオシステムにおける音場 再現などにもすでに適用されていて,なお活用の幅を広 げている. 2・3 多様な会話を捉える─音声言語一体型モデル 自然な会話の認識におけるもう一つの問題点は,会話 音声の多様性である.会話中では,発音の明瞭さが低下 したり言葉を省略する傾向が強まったりしがちである. 喜怒哀楽などの感情が含まれることもある.これらによ り,発音表記上は同じ単語であってもさまざまな要因で 音響的特徴は大きく異なる.このような多様性は音声認 識の性能を著しく低下させる原因となる. この問題に対処するのが音声言語一体型モデルである. 従来の音声認識では,音韻の普遍的な特徴を表すモデル をつくり,これを入力音声と照合して最も確からしい認 識結果を求めていた.しかし,普遍的なモデルで会話音 声の多様な音響的特徴を捉えることには限界がある.そ こで我々は,話す内容や話し方といった言語的な要因に よる音響的特徴の変動を直接表現できる音声言語一体型 モデルを考案し,会話音声の認識精度を大きく向上させ た [久保 13]. 2・4 会話シーンを捉える─リアルタイム会話分析 図 2 に示すシステムは,音声認識と話者識別によって 「誰が何を話しているか」を検出し,映像処理によって「誰 が誰を見ているか」を推定して,各参加者の状態や会話 状況に関する情報を抽出し,リアルタイムで表示する実 験システムである. ブラウザの左中央のパネルにはカメラから得られる 360°のライブストリーミング映像が表示される.各参加 者がどこにいるか,発話しているか,誰を見ているか, といった情報が色分けされた○印や矢印によって示され る.右側のパネルには参加者の顔写真とリアルタイムで 得られたそれぞれの音声認識結果が表示される.写真の 横にある顔印のアイコンは,参加者の状態(話している, 笑っている,黙っている)を表す.さらにアイコンの右 隣にある二つの棒グラフは,参加者の現在までの発言語 数と他の参加者から見られた時間に対応する被注目度を 示している.左下のパネルは現在の会話の状況を表して おり,話題,盛り上がり,和み度,了解度を表示している. 本システムは,単一話者が発話したテキストレベルの 認識ではなく,複数人の会話から「いつ誰が何をどのよ うに話したか」をリアルタイムで把握する機能を有して いる点に特徴があり,会話シーン全体を捉えることを主 眼とするユニークなシステムである. 図 1 会話シーンの例 図 2 会話シーンブラウザ

(3)

2・5 音声のニュアンスを捉える─韻律モデル 前述のように,音声によるコミュニケーションにおい て韻律の果たす役割は大きく,その認識や合成は重要な 課題である.韻律に関しては,例えば基本周波数などの 音響的特徴と感性情報とを表面的に対応付けるといった アプローチも散見されるが,我々のアプローチは,韻律 の生成過程のモデルに立脚するものである. 最近の成果の一つに,藤崎モデルの確率モデル化があ げられる.藤崎モデル [Fujisaki 88] は,甲状軟骨の平行 移動と回転運動に伴う声帯の伸びの長さの和が声帯の固 有振動数の対数に比例するという仮定をもとに,甲状軟 骨の運動方程式を通して音声の基本周波数パターンの生 成過程を表現したモデルである.生理学的・言語学的に 意味のある少数のパラメータで,実際に観測される基本 周波数パターンを精度良く近似できる優れたモデルとし て知られていたが,そのパラメータの推定と統計的アプ ローチとの親和性は高くなかった.これに対し,我々は 藤崎モデルをベースにした基本周波数パターン生成過程 の確率モデルを提案し,統計的手法に基づいて,観測さ れた基本周波数パターンからモデルパラメータを推定す るための基本アルゴリズムの導出に成功した [Kameoka 10].このことは,藤崎モデルを統計学習可能な形に翻 訳できたことを意味しており,今後,音声のニュアンス の認識や生成を見通し良く行ううえで重要な成果である と考えている. 2・6 メディアの辞書を引く─メディア同一性の高速探索 ここまで,コミュニケーションの観点から人間の音声 の認識について述べてきたが,音声によるコミュニケー ションにおいて何も人間の音声の認識だけが重要という わけではない.コミュニケーションの基本となるのは認 識の共有であり,音響信号や画像信号をもとに周囲の物 や出来事を認識することは,円滑なコミュニケーション の実現のための重要な要素である.我々は音響や画像の 情報から物や出来事を認識する課題をメディア認識と呼 び,研究に取り組んでいる. 我々は,1990 年代後半から,特に記憶と探索に基づ くメディア認識技術の研究に注力してきた.その研究成 果の一つである音・映像の高速探索技術「ロバストメディ ア探索技術(RMS:Robust Media Search)」は,任意 の音や映像のある時点に,既知の音や映像が含まれてい るかを高速に探索する技術である.いわば高速文字列探 索の音・映像版である.この課題はコピー検出(near duplicate content detection)などとも呼ばれ,2000 年 代に入って特に研究が盛んとなった.RMS は,米国標 準技術研究所(NIST:National Institute of Standards and Technology)が主催する国際競争型ワークショップ TRECVID(コピー検出タスク)において,平均スコア 第 1 位の精度を獲得した [Mukai 10].RMS は,現在,ネッ ト上における既知のメディアコンテンツの流通状況を把 握する「ネットモニタリング」,放送番組やネット配信 コンテンツに使用されている音楽を,背景音楽も含めて 自動的に全曲リスト化する「楽曲リスト作成」,スマー トフォンで音や映像を捉えることで放送番組とネットコ ンテンツとの連動を可能にする「セカンドスクリーン」 をはじめとして,広く実用に供されている. また,我々は RMS の発展形の一つとしてインスタ ンス探索の研究に取り組んでいる.インスタンス探索 とは,画像を入力して動画データベースを探索し,「同 一の具体物」を検出することを指す.同一の具体物と は,同一人物,同一のロゴマーク,同一の建造物などで ある.これは従来の類似画像探索の機能とは異なり,同 一物であれば見掛けが異なっていても検出すべき対象と なる一方,たとえ見た目が類似していても異なる物を検 出してはいけない.このように,メディア同士で同一性 (sameness)をもつ部分を検出することは,より高度な メディア認識を実現するための基礎となる重要な機能と 考えられる.我々が 2013 年に提案した手法は,それま での RMS と同様に局所特徴同士の適合度を評価して探 索結果を導くが,その際に対象を判別する能力の高い局 所特徴に重みを付けて評価するなどの工夫を行っており [Murata 14],2013 年の TRECVID(インスタンス探索 タスク)において参加チーム中トップレベルの精度を達 成するなどの有望な結果を得ている. テキスト処理では辞書が重要な役割を果たしている が,メディア処理でも,同一性の解析技術や高速・頑健 なメディア探索技術が発展すると,メディア認識に使え るメディア辞書の構築や活用が可能となり,コンピュー タによる外界の事物の認識が大きく進歩する可能性があ る.

3.知 識 の 獲 得

3・1 ビッグデータからの統計的機械学習 人間が手動で処理できる範疇をはるかに超えた大きさ のデータセットに対して,データの性質を把握したり役 に立つ知識を抽出したりするためには,統計的・確率的 な基準に従って最適な答えを探す,統計的機械学習に基 づいたデータマイニング技術が重要である. 統計的機械学習では,多くの場合,データ行列に変 換可能なデータを対象とする(図 3).例えば,オンラ インショッピングの購買履歴データは,縦軸に顧客 ID, 横軸に商品 ID をとることで,「ある顧客が,ある商品を 何度購入した」というデータ行列をつくることができる. また,SNS 上でのユーザ間の友達関係やフォロー関係 といったリンク関係も,縦軸をリンク元のユーザ,横軸 をリンク先のユーザと定義することで,「あるユーザが あるユーザを友達・フォロー先に指定している」という データ行列に変換することができる. 我々は,このようなデータ行列からデータに潜む特

(4)

徴的なパターンやクラスタ構造,コミュニティ構造な どを自動的に抽出する技術の研究を進めている.本稿 では,広い適用範囲をもつ非負値行列分解(NMF: Nonnegative Matrix Factorization)と無限関係モデル (IRM:Infinite Relational Model)に関する研究事例を

紹介しよう. 3・2 NMF によるデータ行列からのパターン発見 NMFは,非負の実数を要素とする行列を二つの行列 の積に分解する手法で,分解された各行列の要素も非負 値と制約して,元のデータ行列に対する誤差が最小にな る分解を求めるものである [澤田 12].分解された行列は, 一定数の「パターン」と,データごとのパターンの「含 有度」とに対応すると見ることができる(図 4). 例えば,新聞記事における単語ごとの出現頻度を数え て縦に並べると各記事の特徴を列ベクトルで表すことが でき,これを横に並べると新聞記事を表すデータ行列が できる.これを NMF によって分解して得られるパター ンは,記事に共通に出現しがちな要素,例えばスポーツ, 経済,政治,……といった話題に対応する.このとき,デー タごとのパターンの含有度とは,ある新聞はある話題を よく報道しているが他の話題は報道していない,といっ た情報に相当する. twitterにおける話題抽出を行った例を図 5 に示す. twitterのつぶやきにおいて,どのような話題が存在す るのかを事前に定義することは難しい.そこで NMF を 適用する.twitter のまとめサイトを参照し,その個々 の記事における単語の出現頻度を数えてベクトルにし, 各記事を一つの列ベクトルで表す.これを並べたデータ 行列を NMF で分解する(図 5(A)).この場合,NMF で見いだされるのは,話題(パターン)および話題ごと の単語の頻度と,各まとめ記事における各話題の含有度 である.実際に,2010 年 2 月∼ 2011 年 4 月の間のおよそ 10万記事(1 000 万ツイート),10 万単語のデータ行列 を収集して解析したところ,図 5(B)のような結果が 得られた.話題 1 は経済,話題 2 は映画,話題 3 は宮崎 での口蹄疫,話題 4 は東北大震災における三陸地方の津 波,話題 5 は緊急地震速報,といったように,明瞭に話 題を抽出できている.話題とは何か,どんな話題が存在 し得るのかといった情報を事前に与えておくことなく, データのみから話題を抽出できるのが NMF に基づく手 法の特徴である. 我々はこのような NMF のパターン発見能力に着目し, 音響信号の複素スペクトルを対象とする「複素 NMF」 の考案 [Kameoka 09] や多チャネルへの拡張 [Sawada 13]なども含めて,さまざまな研究に取り組んでいる. 3・3 IRM によるデータ行列からの関係クラスタ抽出 IRMは,関係データと呼ばれるデータ行列に対する モデルである [Kemp 06].関係データとは,図 6 の例で 示すように,一般に複数のオブジェクト(サーバ,顧客, アイテム,……)の間のリンクの有無でオブジェクト間 の関係を表現するものであり,図 7 に示すように要素が 1(リンクあり)または 0(リンクなし)の 2 値のデー タ行列に変換することができる. このようなデータ行列において,その行(縦方向)と 列(横方向)の入替えを繰り返して白黒が明瞭なまとま りを発見することを関係クラスタ抽出という.図 7 の例 では,「ある特定の顧客グループ」に対して「購入頻度 の高い商品群」という,「グループ×グループ」の購買 パターン構造を発見する用途に利用できる.IRM の特 徴は,グループ分けのパターン数を,統計的最適性の観 点で自動的に決定する点にあり,1 と 0 の要素をもつデー 図 3 統計的機械学習で対象とするデータ 図 4 非負値行列分解 図 5 twitter からの話題抽出例

(5)

タ行列を用意すれば,上記のような解析を自動的に行う ことができる. 我々は,IRM に関する基礎的研究 [Nakano 14] や, 実際の解析において重要となる基本的手法の提案を行っ てきている.後者の最近の研究成果には,データの時間 変化を表現する機械学習モデルの提案 [Ishiguro 10] や, データのスパースネスの問題への対処 [Ishiguro 12] な どがある.スパースネスとは,データ行列のほとんどの 要素が 0 であることを指す.例えば,購買履歴データで は,非常に多数の「ユーザ×商品」の組合せに対して, 実際に購買行動が観測される組合せはごく少数であるた め,データ行列がスパースとなる.スパースなデータ行 列に単純に IRM を適用すると,図 8 の左図のように, 多くの関係のブロックが抽出され,このままでは,購買 行動をパターン化しても有益な解釈が困難となる.そこ で我々が提案したのが SIRM(Subset IRM)と呼ぶ手 法である.これは,例えば「皆が買っている,あるいは 誰も買っていない商品」,「何も買わない,あるいは何で も買うユーザ」のように,重要でないパターンに該当す るオブジェクトをデータ行列から自動的に除外し,残り のオブジェクトだけで IRM を適用できるようにしたも ので,図 8 の右図のように,スパースなデータ行列から, 直感的に人間が理解しやすい購買パターンを発見するこ とができる.

4.機 械 翻 訳

4・1 ルールベース翻訳から統計翻訳へ 言葉の壁を越えて人とコミュニケーションしたい,あ るいは,言葉の壁を越えて知識を交換したいという想い は人類の普遍的な要求の一つである.これを可能にする ことを目指すのが機械翻訳の研究である.機械翻訳の研 究はコンピュータの誕生とほぼ同時の 1950 年代から始 まり,多数の機械翻訳システムが開発されてきている. 従来の機械翻訳システムでは,新しい言語間の翻訳を 実現するために専門家のチームが何年もの歳月をかけて 翻訳規則や対訳辞書を人手で作成していた.このような 機械翻訳へのアプローチは「ルールベース翻訳」と呼ば れているが,人手作業による精度向上は限界に到達し, さらなる改善は難しいといわれている.これに対して「統 計翻訳」は,数十万∼数百万文の大規模な対訳データか ら,翻訳規則や対訳辞書に相当する統計モデルを自動的 に学習し,新しい言語対や特定の分野の機械翻訳システ ムを短期間に低コストで作成することを目指す,発展途 上の技術である.統計翻訳の概要を図 9 に示す. 統計翻訳の試みは 1990 年前後から見られ,2000 年代 には翻訳の基本単位を単語から句に拡張する「句に基づ く翻訳」の研究が進み,英語とフランス語のような語順 が近い言語対においては実用レベルに到達した.2005 年前後からは自然言語の階層構造や構文理論を利用する 「木に基づく翻訳」の研究が進み,英語とフランス語の 翻訳に比べて語順が大きく異なることが問題となる英語 と中国語の翻訳でも,統計翻訳の精度がルールベース翻 訳より高められることが確実となった.しかし,英語と 中国語に比べてさらに大きく語順が異なる英語と日本語 の翻訳では,統計翻訳の精度は従来のルールベース翻訳 の精度を上回ることができなかった. 図 6 関係データの例(1) 図 8 関係データの例(3) 図 9 統計的機械翻訳の概要 図 7 関係データの例(2)

(6)

4・2 事前並べ替え翻訳 原言語(翻訳元)の文の単語を目的言語(翻訳先)の 語順に並べ替えてから統計翻訳を行う「事前並べ替え」 というアイディアは,2000 年代前半から存在していた が,2010 年前後から,世界の主要な研究機関が語順の 違いを克服する技術としての事前並べ替えに注目し始め た.事前並べ替えは,原言語の文を構文解析して得られ た構文構造に対して「並べ替え規則」を適用して目的言 語の語順に変換する.並べ替え規則は人手で作成する場 合が多いが,単語対応付きの対訳データから自動学習す る方法も提案されている. このような状況の中で,我々は主辞後置性と呼ばれる 日本語の言語学的な特徴に着目し,「主辞を後置する」(主 辞後置化)というただ一つの規則を使って英語の単語を 日本語の語順に並べ替える方法を考案し,英日翻訳の精 度を劇的に改善した [Isozaki 12].2011 年に開催された 評価型ワークショップ NTCIR-9 の特許翻訳タスクの英 日翻訳において,NTT と東京大学の共同チームは高精 度な英語構文解析器 Enju と,主辞後置化に基づく事前 並べ替えを組み合わせることにより,トップの成績を収 めた.人手による英日翻訳の精度評価で統計翻訳がルー ルベース翻訳を上回ったのは,これが史上初めてだった [Goto 12, Sudoh 12]. 4・3 日本語の主辞後置性に基づく事前並べ替え 日本語の主辞後置性に基づく事前並べ替えの概要を図 10に示す.主辞とは,文を構成する部品である句にお いて,句の文法的な役割を決める単語である.例えば前 置詞句なら前置詞が主辞である.別の言い方をすると, 小学校の国語の授業に習う「係り受け」において係り先 になる単語が主辞である.日本語は「必ず前から後ろへ 係る」,すなわち修飾先の単語が必ず文の後ろにある. 実は,日本語ほど厳密な主辞後置性をもつ言語は世界 の中でもまれである.一般的には,図 10 の英語や中国 語の例のように「前から後ろ」にも「後ろから前」にも 修飾する.例えば,英語は動詞に対して主語は前から, 目的語は後ろから修飾する.また名詞に対して形容詞は 前から,前置詞は後ろから修飾する.中国語も動詞に対 して主語は前から,目的語は後ろから修飾するが,名詞 に対しては基本的に前から修飾する. この日本語の主辞後置性のおかげで,翻訳元の言語(英 語や中国語)の構文構造(係り受け関係)に基づいて,「必 ず前から後ろへ係る」ように単語の順番を入れ替えると, 翻訳元の言語を日本語と同じ語順に変換できる.これが 主辞後置化による事前並べ替えである.語順が同じにな れば,あとは逐語訳するだけなので,非常に高精度な翻 訳が実現可能になる.日本語の主辞後置性に基づく事前 並べ替えは,翻訳先の言語である日本語の性質だけを用 いるので,翻訳元の言語の構文構造がわかっていれば, どんな言語へも適用可能である. 一方,日本語を外国語(英語や中国語)へ翻訳する場合, 日本語の構文構造において「後ろから前へ」反転させる 係り受け関係を翻訳先の言語に応じて選択する必要があ る.この問題を解決しなければならないため,日本語か ら外国語への翻訳は,外国語から日本語への翻訳に比べ て難しい. 4・4 技術文書の多言語翻訳 我々は,事前並べ替え方式による外国語から日本語 への統計翻訳の実現可能性を検証するために,特許文書 を対象として,英語・中国語・韓国語から日本語への統 計翻訳システムを作成した.特許には「パテントファミ リー」と呼ばれるものがある.これは同じ発明を複数の 国へ出願するために,一つの特許出願に対して優先権を 主張して各国へ出願した「特許出願のまとまり」のこと である.パテントファミリーは完全な対訳ではないが, 対訳になっている部分を多く含んでいるので,パテント ファミリーをマイニングすることにより大規模な対訳 データを抽出することができる.我々は,2004 年以降 の日本,米国,中国,韓国の特許文書から,英語─日本 語(約 300 万文),中国語─日本語(約 800 万文),韓国 語─日本語(約 200 万文)の対訳データを作成した.特 に中日と韓日の特許対訳データは,我々の知る限り,こ れらの言語対に関する世界最大の対訳データである. NTTが考案した日本語の主辞後置性に基づく事前並 べ替えを適用するためには,翻訳元の言語の文の構文構 造(係り受け関係)を高精度で解析する技術が必要であ る.我々は,英語(新聞記事 4 万文,特許 1 万文)と中 国語(新聞記事 5 万文,特許 2 万文)の学習データを用 意し,「半教師あり学習」による係り受け解析モデルの 学習技術を利用して,英語と中国語の係り受け解析器を 作成した.この半教師あり学習による係り受け解析モデ 図 10 日本語の主辞後置性に基づく事前並べ替え 図 11 中国語の特許文の係り受け解析の例 , , . .

(7)

ルの学習技術は,2009 年に NTT が考案したもので,係 り受け解析に関する国際標準ベンチマークテストデータ (英語,チェコ語)でトップの成績を収めている [Suzuki 09]. 図 11 に中国語の特許文の係り受け解析の例,図 12 に 特許文の中日翻訳の例を示す.一般に特許文は非常に長 く,複雑な係り受け構造をもっているが,中国語の係り 受け構造を正しく解析できれば,主辞後置化によって中 国語における修飾・被修飾の関係を正確に反映した日本 語を生成できる.なお,韓国語は日本語とほぼ語順が同 じなので,韓日翻訳には事前並べ替えを適用していない. 4・5 翻訳精度の自動評価 我々は翻訳精度の自動評価についても研究している. 機械翻訳の精度を客観的に計測することは実は非常に難 しい.ある文に対する翻訳の正解は何通りもあり,訳語 選択の誤りと語順の誤りのどちらを重視するかは主観的 な判断となる.1990 年代に考案された機械翻訳の自動 評価尺度 BLEU(BiLingual Evaluation Understudy) は,機械翻訳の研究の活性化に大きく貢献した.これ は食味計の発明によりお米のおいしさを数値化すること で,産地間の競争や品種改良が進むのに似ている.しか し,BLEU は日本語と英語の翻訳では人手による評価と あまり一致しないという問題があった.2008 年に開催 された評価型ワークショップ NTCIR-7 における自動評価 尺度 BLEU と人手による評価の相関関係を図 13 に示す. そこで我々は,翻訳結果と正解の語順の一致度を重 視 す る 自 動 評 価 尺 度 RIBES(Rank-based Intuitive Bilingual Evaluation Score:ライビーズ)を考案し,オー プンソースソフトウェアとして公開している [RIBES 11]. RIBESは,前述の NTCIR-9 において自動評価尺度の一 つとして採用され,主催者の評価においても,英日・日 英・中英翻訳タスクにおいて人間による評価との相関が BLEUより高いことが示されている [Isozaki 10]. 4・6 機械翻訳の実用化に向けて 特許,マニュアル,科学技術論文などの技術文書では, 客観的・論理的な内容の伝達,すなわち翻訳元の言語に おける修飾・被修飾の関係を翻訳先の言語に反映するこ とが,意味を正確に伝達するうえで最も重要である.我々 は,特許に代表されるような,100 万文を超える対訳デー タが得られる分野において,外国語から日本語への統計 翻訳は実用レベルに到達したと考えている.一方,日本 語から英語への翻訳については,その差は縮まっている が,統計翻訳の精度は依然として従来のルールベースの 翻訳の精度を上回っていない.今後,日本語から外国語 への翻訳の精度向上に取り組むとともに,技術文書から ビジネス文書,話し言葉へと翻訳対象を広げていく予定 である.

5.お わ り に

本稿では,NTT コミュニケーション科学基礎研究所 における研究の中から,人工知能の基本機能と関係の深 い,外界の事象の認識,知識獲得,および機械翻訳に関 する研究事例を紹介した.これらの研究に共通の特徴は, 既存技術の改良やシステムとしての統合というよりは, 重要で有用性の高い要素技術の考案を主眼としながら, 考案した技術を商用を含む実際の環境に実証的に適用し つつ中長期的に高度化していくアプローチをとっている 点である.我々は,このような取組みを継続することで, 人間の良きパートナーとしての知的システムに求められ るさまざまな機能を創出し,高度化していきたいと考え ている.

◇ 参 考 文 献 ◇

[Delcorix 14] Delcorix, M., Yoshioka, T., Ogawa, A., Kubo, Y., Fujimoto, M., Ito, N., Kinoshita, K., Espi, M., Hori, T., Nakatani, T. and Nakamura, A.: Linear prediction-based dereverberation with advanced speech enhancement and recognition technologies for the reverb challenge, REVERB

Challenge (2014)

[Fujisaki 88] Fujisaki, H.: Vocal Physiology: Voice Production,

Mechanisms and Functions, Raven Press (1988)

[Goto 12] Goto, I., Lu, B., Chow, K. P., Sumita, E. and Tsou, B. K.: Overview of the patent machine translation task at the 図 12 特許文の中日翻訳の例

図 13 NTCIR-7 日英特許翻訳タスク(2008)における BLEU と 人手評価の関係

(8)

NTCIR-9 Workshop, NTCIR-9, pp. 559-578 (2012)

[Hori 12] Hori, T., Araki, S., Yoshioka, T., Fujimoto, M., Watanabe, S., Ogawa, A., Otsuka, K., Mikami, D., Kinoshita, K., Nakatani, T., Nakamura, A. and Yamato, J.: Low-latency real-time meeting recognition and understanding using distant microphones and omni-directional camera, IEEE Trans. on

Audio, Speech, and Language Proc., Vol. 20, No. 2, pp. 499-513

(2012)

[Ishiguro 10] Ishiguro, K., Iwata, T., Ueda, N. and Tenenbaum, J. B.: Dynamic infinite relational model for time-varying relational data analysis, Advances in Neural Information

Processing Systems, Vol. 23, pp. 919-927 (2010)

[Ishiguro 12] Ishiguro, K., Ueda, N. and Sawada, H.: Subset Infinite relational models, Proc. 15th Int. Conf. on Artificial

Intelligence and Statistics(AISTATS2012),pp. 547-555 (2012)

[Isozaki 10] Isozaki, H., Hirao, T., Duh, K., Sudoh, K. and Tsukada, H.: An empirical study of semi-supervised structured conditional models for dependency parsing, Proc. 2010 Conf.

on Empirical Methods in Natural Language Processing

(EMNLP),pp. 944-952 (2010)

[Isozaki 12] Isozaki, H., Sudoh, K., Tsukada, H. and Duh, K.: HPSG-based preprocessing for English-to-Japanese translation, ACM Trans. on Asian Language Information

Processing (TALIP),Vol. 11, No. 3, pp. 8:1-8:16 (2012) [Kameoka 09] Kameoka, H., Ono, N., Kashino, K. and Sagayama,

S.: Complex NMF: A new sparse representation for acoustic signals, Proc. IEEE Int. Conf. on Acoustics, Speech and Signal

Proc. (ICASSP),pp. 3437-3440 (2009)

[Kameoka 10] Kameoka, H., Roux, J. L. and Ohishi, Y.: A statistical model of speech F0 contours, Proc. SAPA, pp. 43-48

(2010)

[Kemp 06] Kemp, C., Tenenbaum, J. B., Griffiths, T. L., Yamada, T. and Ueda, N.: Learning systems of concepts with an infinite relational model, AAAI’06 Proc. 21st National Conf. on

Artificial intelligence, pp. 381-388 (2006)

[Kinoshita 09] Kinoshita, K., Delcroix, M., Nakatani, T. and Miyoshi, M.: Suppression of late reverberation effect on speech signal using long-term multiple step linear prediction, IEEE

Trans. on Audio, Speech, and Language Proc., Vol. 17, No. 4,

pp. 534-545 (2009)

[久保 13] 久保陽太郎,小川厚徳,堀 貴明,中村 篤:音声と言語 の一体型学習に基づく音声認識,NTT 技術ジャーナル,Vol. 25, No. 9, pp. 22-25 (2013)

[Mukai 10] Mukai, R., Kurozumi, T., Hiramatsu, K., Kawanishi, T., Nagano, H. and Kashino, K.: NTT communication science laboratories at TRECVID 2010 content-based copy detection,

TRECVID Workshop(2010)

[Murata 14] Murata, M., Nagano, H., Mukai, R., Kashino, K. and Satoh, S.: BM25 with exponential IDF for instance search,

IEEE Trans. on Multimedia, Vol. 16, No. 6, to appear (2014) [Nakano 14] Nakano, M., Ishiguro, K., Kimura, A., Yamada, T.

and Ueda, N.: Rectangular tiling process, Proc. Int. Conf. on

Machine Learning (ICML),pp. 361-369 (2014)

[RIBES 11] RIBES (2011),http://www.kecl.ntt.co.jp/ icl/lirg/ribes/index-j.html

[澤田 12] 澤田 宏:非負値行列因子分解 NMF の基礎とデータ/信 号解析への応用,信学誌, Vol. 95, No. 9, pp. 829-833 (2012) [Sawada 13] Sawada, H., Kameoka, H., Araki, S. and Ueda, N.:

Multichannel extensions of non-negative matrix factorization with complex-valued data, IEEE Trans. on Audio, Speech and

Language Processing, Vol. 21, No. 5, pp. 971-982 (2013) [Sudoh 12] Sudoh, K., Duh, K., Tsukada, H., Nagata, M., Wu,

X., Matsuzaki, T. and Tsujii, J.: NTT-UT statistical machine translation in NTCIR-9 PatentMT, NTCIR-9, pp. 585-592 (2012)

[Suzuki 09] Suzuki, J., Isozaki, H., Carreras, X. and Collins, M.: An empirical study of semi-supervised structured conditional models for dependency parsing, Proc. 2009 Conf. on Empirical

Methods in Natural Language Processing (EMNLP),pp. 551-560 (2009) 2014年 8 月 11 日 受理

著 者 紹 介

柏野 邦夫(正会員) 1990年東京大学工学部卒業,1995 年同大学院工学 系研究科博士課程修了.同年,日本電信電話株式会 社に入社.現在,NTT コミュニケーション科学基礎 研究所メディア情報研究部長.この間,2002 年,英 国ケンブリッジ大学訪問研究員.博士(工学). 平松  薫(正会員) 1994年慶應義塾大学理工学部卒業,1996 年同大学 院理工学研究科修士課程修了.同年日本電信電話株 式会社に入社.現在,NTT コミュニケーション科学 基礎研究所主幹研究員.この間,2003 ∼ 04 年,米 国メリーランド大学訪問研究員.博士(情報学). 大和 淳司 1988年東京大学工学部卒業,1990 年同大学院工学 系研究科修士課程修了.同年,日本電信電話株式 会社に入社.現在,NTT コミュニケーション科学 基礎研究所協創情報研究部長.この間,1996 ∼ 98 年,MIT 人 工 知 能 研 究 所.MIT 修 士(Electrical Engineering and Computer Science).博士(工学).

山田 武士 1988年東京大学理学部卒業.同年,日本電信電話株 式会社に入社.現在,NTT コミュニケーション科学 基礎研究所企画担当主席研究員.この間,1996 ∼ 97年,英国コベントリー大学客員研究員.博士(情 報学).

参照

関連したドキュメント

日本語接触場面における参加者母語話者と非母語話者のインターアクション行動お

平均 4月分 5月分 6月分 7月分 8月分 9月分 平均 1. 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

このように,先行研究において日・中両母語話

: Semi-empirical formula for the seismic characteristics of the ground, Bull. : Stochastic simulation of high-frequency ground motions based on seismological models of the

<第 1 会場> 総合研究棟 III 132L 9 月 7 日(水)13:30 〜 16:24..

「主体的・対話的で深い学び」が求められる背景 2030 年の社会を見据えて 平成 28(2016)年

Here, we investigated the transethnic polygenetic features shared between Japanese PD patients and European patients with psychiatric disorders and their intermediate phenotypes

日時  9 月 12 日(月) 午前 9:30–12:30. 会場  S