NTT 465 図 1.,,..,, 1980,.,, [Hori 12]..,, [Kinoshita 09]. REVERB Challange, 30,, [Delcorix 14].,,.,,,,.,.., [ 13]. 2 4 会話シーンを捉えるリアルタイム会話分析 2,. 360,,,

(1)

1．は　じ　め　に

外界の事物を認識し，知識を獲得し，それらの結果に基づいて情報の提示や行動などといった外界への働きかけを行うことは，知的活動における基本的な機能である． NTTコミュニケーション科学基礎研究所では，これらの機能の実現を目指した基礎研究を中長期的な視点をもって進めている．本稿ではその例をいくつか紹介しよう．

2．外界の事物の認識

2･1　音声認識からコミュニケーション理解へ近年，スマートフォンの音声検索に見られるように，音声認識技術は我々にとって身近なものとなり，その利便性が広く知られるようになった．検索語や操作コマンドの入力において，音声入力がかなり使えるレベルの完成度になっているとの印象をもつ人も少なくない．しかし，音声によるコミュニケーションという観点から見れば，現在身近になっている音声認識技術は，極めて限定された環境の中で，極めて限定されたタスクを扱っているに過ぎない．音声入力では，認識対象となる話者は普通一人であり，その人がマイクの近くで丁寧に話すことが暗黙のうちに想定されていて，発話から言語情報を認識することがタスクとなっている．しかし，この前提から外れる状況では，音声認識は途端に困難となる．試しに，現在の標準的な音声認識技術で，IC レコーダからの議事録の書き起こしのように普通の部屋で複数人が会話している音声を認識させてみると，ほとんど満足な結果は得られない．また，仮に会話を正しく認識できたとしても，話された言葉の文字データを得ただけではコミュニケーションとしてははなはだ不十分である．我々の日常のコミュニケーションでは，誰が誰に言ったことなのかを把握することはもちろん，文字に表せない音声の韻律をくみ取ることも大変重要である．韻律とは声の高さ，強さ，声色など，言語情報以外の情報の総称である．ドーナツの穴がドーナツの一部なのかどうかはわからないが，音声の「間」，つまり音と音との間の無音でさえ，重要な韻律的特徴の一つであり，しばしば雄弁に情報を伝達することは話芸の例を引くまでもないだろう．我々はこのような問題認識のもと，より日常に近い状況における豊かなコミュニケーションを実現するための要素技術について研究を進めている． 2･2　マイクを意識しない会話を捉える ─残響の除去と制御例として，図 1 のように，4 名の参加者がテーブルを囲んで自由に会話し，その音声をテーブル中央のマイクで収録している状況を考えよう．対面の会話の収音では，スマートフォンに話す場合と異なり，常にマイクを口元に近接して設置できるとは限

コミュニケーション科学と人工知能研究

─ NTTコミュニケーション科学基礎研究所の取組み─

Communication Science and Artificial Intelligence Research

　─ Activities at NTT Communication Science Laboratories ─

柏野　邦夫

日本電信電話株式会社コミュニケーション科学基礎研究所

Kunio Kashino NTT Communication Science Laboratories, Nippon Telegraph and Telephone Corporation. [email protected], http://www.brl.ntt.co.jp/people/kunio/

平松　　薫

（同上）

Kaoru Hiramatsu [email protected], http://www.kecl.ntt.co.jp/csl/sirg/people/hiramatu/

大和　淳司

（同上）

Junji Yamato [email protected], http://www.brl.ntt.co.jp/people/yamato/

山田　武士

（同上）

Takeshi Yamada [email protected], http://www.kecl.ntt.co.jp/as/members/yamada/index-j.html

Keywords:

speech recognition, scene analysis, machine learning, big data analysis, machine translation. 「企業における AI 研究の最前線」

(2)

らない．マイクの位置が口元から離れると，空調などの背景雑音や残響（音がテーブルや壁に反射して遅れてマイクに届く現象）の影響が大きくなり，音質が低下する．また会話中の複数の人の声が混ざり合うことで，目的とする音の判別が難しくなる．これらの要因により，音声認識の精度は著しく低下してしまうのが普通である．これらの問題に関しては長い研究の歴史があり，特に 1980年代以降，雑音除去や音源分離の課題が盛んに研究されて，ビームフォーミングや独立成分分析などの有効な手法が提案されてきた．我々も，これまでマイクロフォンアレーを利用するものなど，さまざまな音声強調技術を提案している [Hori 12]．ここではその中から残響除去技術について紹介しよう．実環境における残響の除去や制御は近年まで困難な未解決問題として残されていたが，我々は，線形予測の原理に立脚し，実環境で高精度に動作する残響制御を世界で初めて実現した [Kinoshita 09]．本年度開催された残響下音声認識に関する国際競争型ワークショップである “REVERB Challange”では，約 30 の研究機関が参加する中，我々は，音声認識の前処理として残響除去を行うアプローチによって多くのタスクで最高性能を達成した [Delcorix 14]．本技術は，単に雑音を除去するだけではなく，収録済みの音楽信号を直接音成分と残響成分に分離することを可能にしている．この分離ができることは，録音時の環境に近い音環境を再生時に再構成できることを意味しており，実際に，海外有名アーティストの再現ライブなどのステージや，ホームオーディオシステムにおける音場再現などにもすでに適用されていて，なお活用の幅を広げている． 2･3 多様な会話を捉える─音声言語一体型モデル自然な会話の認識におけるもう一つの問題点は，会話音声の多様性である．会話中では，発音の明瞭さが低下したり言葉を省略する傾向が強まったりしがちである．喜怒哀楽などの感情が含まれることもある．これらにより，発音表記上は同じ単語であってもさまざまな要因で音響的特徴は大きく異なる．このような多様性は音声認識の性能を著しく低下させる原因となる．この問題に対処するのが音声言語一体型モデルである．従来の音声認識では，音韻の普遍的な特徴を表すモデルをつくり，これを入力音声と照合して最も確からしい認識結果を求めていた．しかし，普遍的なモデルで会話音声の多様な音響的特徴を捉えることには限界がある．そこで我々は，話す内容や話し方といった言語的な要因による音響的特徴の変動を直接表現できる音声言語一体型モデルを考案し，会話音声の認識精度を大きく向上させた [久保 13]． 2･4 会話シーンを捉える─リアルタイム会話分析図 2 に示すシステムは，音声認識と話者識別によって「誰が何を話しているか」を検出し，映像処理によって「誰が誰を見ているか」を推定して，各参加者の状態や会話状況に関する情報を抽出し，リアルタイムで表示する実験システムである．ブラウザの左中央のパネルにはカメラから得られる 360°のライブストリーミング映像が表示される．各参加者がどこにいるか，発話しているか，誰を見ているか，といった情報が色分けされた○印や矢印によって示される．右側のパネルには参加者の顔写真とリアルタイムで得られたそれぞれの音声認識結果が表示される．写真の横にある顔印のアイコンは，参加者の状態（話している，笑っている，黙っている）を表す．さらにアイコンの右隣にある二つの棒グラフは，参加者の現在までの発言語数と他の参加者から見られた時間に対応する被注目度を示している．左下のパネルは現在の会話の状況を表しており，話題，盛り上がり，和み度，了解度を表示している．本システムは，単一話者が発話したテキストレベルの認識ではなく，複数人の会話から「いつ誰が何をどのように話したか」をリアルタイムで把握する機能を有している点に特徴があり，会話シーン全体を捉えることを主眼とするユニークなシステムである．図 1　会話シーンの例図 2　会話シーンブラウザ

(3)

2･5　音声のニュアンスを捉える─韻律モデル前述のように，音声によるコミュニケーションにおいて韻律の果たす役割は大きく，その認識や合成は重要な課題である．韻律に関しては，例えば基本周波数などの音響的特徴と感性情報とを表面的に対応付けるといったアプローチも散見されるが，我々のアプローチは，韻律の生成過程のモデルに立脚するものである．最近の成果の一つに，藤崎モデルの確率モデル化があげられる．藤崎モデル [Fujisaki 88] は，甲状軟骨の平行移動と回転運動に伴う声帯の伸びの長さの和が声帯の固有振動数の対数に比例するという仮定をもとに，甲状軟骨の運動方程式を通して音声の基本周波数パターンの生成過程を表現したモデルである．生理学的・言語学的に意味のある少数のパラメータで，実際に観測される基本周波数パターンを精度良く近似できる優れたモデルとして知られていたが，そのパラメータの推定と統計的アプローチとの親和性は高くなかった．これに対し，我々は藤崎モデルをベースにした基本周波数パターン生成過程の確率モデルを提案し，統計的手法に基づいて，観測された基本周波数パターンからモデルパラメータを推定するための基本アルゴリズムの導出に成功した [Kameoka 10]．このことは，藤崎モデルを統計学習可能な形に翻訳できたことを意味しており，今後，音声のニュアンスの認識や生成を見通し良く行ううえで重要な成果であると考えている． 2･6　メディアの辞書を引く─メディア同一性の高速探索ここまで，コミュニケーションの観点から人間の音声の認識について述べてきたが，音声によるコミュニケーションにおいて何も人間の音声の認識だけが重要というわけではない．コミュニケーションの基本となるのは認識の共有であり，音響信号や画像信号をもとに周囲の物や出来事を認識することは，円滑なコミュニケーションの実現のための重要な要素である．我々は音響や画像の情報から物や出来事を認識する課題をメディア認識と呼び，研究に取り組んでいる．我々は，1990 年代後半から，特に記憶と探索に基づくメディア認識技術の研究に注力してきた．その研究成果の一つである音・映像の高速探索技術「ロバストメディア探索技術（RMS：Robust Media Search）」は，任意の音や映像のある時点に，既知の音や映像が含まれているかを高速に探索する技術である．いわば高速文字列探索の音・映像版である．この課題はコピー検出（near duplicate content detection）などとも呼ばれ，2000 年代に入って特に研究が盛んとなった．RMS は，米国標準技術研究所（NIST：National Institute of Standards and Technology）が主催する国際競争型ワークショップ TRECVID（コピー検出タスク）において，平均スコア第 1 位の精度を獲得した [Mukai 10]．RMS は，現在，ネット上における既知のメディアコンテンツの流通状況を把握する「ネットモニタリング」，放送番組やネット配信コンテンツに使用されている音楽を，背景音楽も含めて自動的に全曲リスト化する「楽曲リスト作成」，スマートフォンで音や映像を捉えることで放送番組とネットコンテンツとの連動を可能にする「セカンドスクリーン」をはじめとして，広く実用に供されている．また，我々は RMS の発展形の一つとしてインスタンス探索の研究に取り組んでいる．インスタンス探索とは，画像を入力して動画データベースを探索し，「同一の具体物」を検出することを指す．同一の具体物とは，同一人物，同一のロゴマーク，同一の建造物などである．これは従来の類似画像探索の機能とは異なり，同一物であれば見掛けが異なっていても検出すべき対象となる一方，たとえ見た目が類似していても異なる物を検出してはいけない．このように，メディア同士で同一性（sameness）をもつ部分を検出することは，より高度なメディア認識を実現するための基礎となる重要な機能と考えられる．我々が 2013 年に提案した手法は，それまでの RMS と同様に局所特徴同士の適合度を評価して探索結果を導くが，その際に対象を判別する能力の高い局所特徴に重みを付けて評価するなどの工夫を行っており [Murata 14]，2013 年の TRECVID（インスタンス探索タスク）において参加チーム中トップレベルの精度を達成するなどの有望な結果を得ている．テキスト処理では辞書が重要な役割を果たしているが，メディア処理でも，同一性の解析技術や高速・頑健なメディア探索技術が発展すると，メディア認識に使えるメディア辞書の構築や活用が可能となり，コンピュータによる外界の事物の認識が大きく進歩する可能性がある．

3．知識の獲得

3･1 ビッグデータからの統計的機械学習人間が手動で処理できる範疇をはるかに超えた大きさのデータセットに対して，データの性質を把握したり役に立つ知識を抽出したりするためには，統計的・確率的な基準に従って最適な答えを探す，統計的機械学習に基づいたデータマイニング技術が重要である．統計的機械学習では，多くの場合，データ行列に変換可能なデータを対象とする（図 3）．例えば，オンラインショッピングの購買履歴データは，縦軸に顧客 ID，横軸に商品 ID をとることで，「ある顧客が，ある商品を何度購入した」というデータ行列をつくることができる．また，SNS 上でのユーザ間の友達関係やフォロー関係といったリンク関係も，縦軸をリンク元のユーザ，横軸をリンク先のユーザと定義することで，「あるユーザがあるユーザを友達・フォロー先に指定している」というデータ行列に変換することができる．我々は，このようなデータ行列からデータに潜む特

(4)

徴的なパターンやクラスタ構造，コミュニティ構造などを自動的に抽出する技術の研究を進めている．本稿では，広い適用範囲をもつ非負値行列分解（NMF： Nonnegative Matrix Factorization）と無限関係モデル（IRM：Inﬁnite Relational Model）に関する研究事例を

紹介しよう． 3･2　NMF によるデータ行列からのパターン発見 NMFは，非負の実数を要素とする行列を二つの行列の積に分解する手法で，分解された各行列の要素も非負値と制約して，元のデータ行列に対する誤差が最小になる分解を求めるものである [澤田 12]．分解された行列は，一定数の「パターン」と，データごとのパターンの「含有度」とに対応すると見ることができる（図 4）．例えば，新聞記事における単語ごとの出現頻度を数えて縦に並べると各記事の特徴を列ベクトルで表すことができ，これを横に並べると新聞記事を表すデータ行列ができる．これを NMF によって分解して得られるパターンは，記事に共通に出現しがちな要素，例えばスポーツ，経済，政治，……といった話題に対応する．このとき，データごとのパターンの含有度とは，ある新聞はある話題をよく報道しているが他の話題は報道していない，といった情報に相当する． twitterにおける話題抽出を行った例を図 5 に示す． twitterのつぶやきにおいて，どのような話題が存在するのかを事前に定義することは難しい．そこで NMF を適用する．twitter のまとめサイトを参照し，その個々の記事における単語の出現頻度を数えてベクトルにし，各記事を一つの列ベクトルで表す．これを並べたデータ行列を NMF で分解する（図 5（A））．この場合，NMF で見いだされるのは，話題（パターン）および話題ごとの単語の頻度と，各まとめ記事における各話題の含有度である．実際に，2010 年 2 月∼ 2011 年 4 月の間のおよそ 10万記事（1 000 万ツイート），10 万単語のデータ行列を収集して解析したところ，図 5（B）のような結果が得られた．話題 1 は経済，話題 2 は映画，話題 3 は宮崎での口蹄疫，話題 4 は東北大震災における三陸地方の津波，話題 5 は緊急地震速報，といったように，明瞭に話題を抽出できている．話題とは何か，どんな話題が存在し得るのかといった情報を事前に与えておくことなく，データのみから話題を抽出できるのが NMF に基づく手法の特徴である．我々はこのような NMF のパターン発見能力に着目し，音響信号の複素スペクトルを対象とする「複素 NMF」の考案 [Kameoka 09] や多チャネルへの拡張 [Sawada 13]なども含めて，さまざまな研究に取り組んでいる． 3･3 IRM によるデータ行列からの関係クラスタ抽出 IRMは，関係データと呼ばれるデータ行列に対するモデルである [Kemp 06]．関係データとは，図 6 の例で示すように，一般に複数のオブジェクト（サーバ，顧客，アイテム，……）の間のリンクの有無でオブジェクト間の関係を表現するものであり，図 7 に示すように要素が 1（リンクあり）または 0（リンクなし）の 2 値のデータ行列に変換することができる．このようなデータ行列において，その行（縦方向）と列（横方向）の入替えを繰り返して白黒が明瞭なまとまりを発見することを関係クラスタ抽出という．図 7 の例では，「ある特定の顧客グループ」に対して「購入頻度の高い商品群」という，「グループ×グループ」の購買パターン構造を発見する用途に利用できる．IRM の特徴は，グループ分けのパターン数を，統計的最適性の観点で自動的に決定する点にあり，1 と 0 の要素をもつデー図 3　統計的機械学習で対象とするデータ図 4　非負値行列分解図 5　twitter からの話題抽出例

(5)

タ行列を用意すれば，上記のような解析を自動的に行うことができる．我々は，IRM に関する基礎的研究 [Nakano 14] や，実際の解析において重要となる基本的手法の提案を行ってきている．後者の最近の研究成果には，データの時間変化を表現する機械学習モデルの提案 [Ishiguro 10] や，データのスパースネスの問題への対処 [Ishiguro 12] などがある．スパースネスとは，データ行列のほとんどの要素が 0 であることを指す．例えば，購買履歴データでは，非常に多数の「ユーザ×商品」の組合せに対して，実際に購買行動が観測される組合せはごく少数であるため，データ行列がスパースとなる．スパースなデータ行列に単純に IRM を適用すると，図 8 の左図のように，多くの関係のブロックが抽出され，このままでは，購買行動をパターン化しても有益な解釈が困難となる．そこで我々が提案したのが SIRM（Subset IRM）と呼ぶ手法である．これは，例えば「皆が買っている，あるいは誰も買っていない商品」，「何も買わない，あるいは何でも買うユーザ」のように，重要でないパターンに該当するオブジェクトをデータ行列から自動的に除外し，残りのオブジェクトだけで IRM を適用できるようにしたもので，図 8 の右図のように，スパースなデータ行列から，直感的に人間が理解しやすい購買パターンを発見することができる．

4．機　械　翻　訳

4･1　ルールベース翻訳から統計翻訳へ言葉の壁を越えて人とコミュニケーションしたい，あるいは，言葉の壁を越えて知識を交換したいという想いは人類の普遍的な要求の一つである．これを可能にすることを目指すのが機械翻訳の研究である．機械翻訳の研究はコンピュータの誕生とほぼ同時の 1950 年代から始まり，多数の機械翻訳システムが開発されてきている．従来の機械翻訳システムでは，新しい言語間の翻訳を実現するために専門家のチームが何年もの歳月をかけて翻訳規則や対訳辞書を人手で作成していた．このような機械翻訳へのアプローチは「ルールベース翻訳」と呼ばれているが，人手作業による精度向上は限界に到達し，さらなる改善は難しいといわれている．これに対して「統計翻訳」は，数十万∼数百万文の大規模な対訳データから，翻訳規則や対訳辞書に相当する統計モデルを自動的に学習し，新しい言語対や特定の分野の機械翻訳システムを短期間に低コストで作成することを目指す，発展途上の技術である．統計翻訳の概要を図 9 に示す．統計翻訳の試みは 1990 年前後から見られ，2000 年代には翻訳の基本単位を単語から句に拡張する「句に基づく翻訳」の研究が進み，英語とフランス語のような語順が近い言語対においては実用レベルに到達した．2005 年前後からは自然言語の階層構造や構文理論を利用する「木に基づく翻訳」の研究が進み，英語とフランス語の翻訳に比べて語順が大きく異なることが問題となる英語と中国語の翻訳でも，統計翻訳の精度がルールベース翻訳より高められることが確実となった．しかし，英語と中国語に比べてさらに大きく語順が異なる英語と日本語の翻訳では，統計翻訳の精度は従来のルールベース翻訳の精度を上回ることができなかった．図 6　関係データの例（1）図 8　関係データの例（3）図 9　統計的機械翻訳の概要図 7　関係データの例（2）

(6)

4･2　事前並べ替え翻訳原言語（翻訳元）の文の単語を目的言語（翻訳先）の語順に並べ替えてから統計翻訳を行う「事前並べ替え」というアイディアは，2000 年代前半から存在していたが，2010 年前後から，世界の主要な研究機関が語順の違いを克服する技術としての事前並べ替えに注目し始めた．事前並べ替えは，原言語の文を構文解析して得られた構文構造に対して「並べ替え規則」を適用して目的言語の語順に変換する．並べ替え規則は人手で作成する場合が多いが，単語対応付きの対訳データから自動学習する方法も提案されている．このような状況の中で，我々は主辞後置性と呼ばれる日本語の言語学的な特徴に着目し，「主辞を後置する」（主辞後置化）というただ一つの規則を使って英語の単語を日本語の語順に並べ替える方法を考案し，英日翻訳の精度を劇的に改善した [Isozaki 12]．2011 年に開催された評価型ワークショップ NTCIR-9 の特許翻訳タスクの英日翻訳において，NTT と東京大学の共同チームは高精度な英語構文解析器 Enju と，主辞後置化に基づく事前並べ替えを組み合わせることにより，トップの成績を収めた．人手による英日翻訳の精度評価で統計翻訳がルールベース翻訳を上回ったのは，これが史上初めてだった [Goto 12, Sudoh 12]． 4･3　日本語の主辞後置性に基づく事前並べ替え日本語の主辞後置性に基づく事前並べ替えの概要を図 10に示す．主辞とは，文を構成する部品である句において，句の文法的な役割を決める単語である．例えば前置詞句なら前置詞が主辞である．別の言い方をすると，小学校の国語の授業に習う「係り受け」において係り先になる単語が主辞である．日本語は「必ず前から後ろへ係る」，すなわち修飾先の単語が必ず文の後ろにある．実は，日本語ほど厳密な主辞後置性をもつ言語は世界の中でもまれである．一般的には，図 10 の英語や中国語の例のように「前から後ろ」にも「後ろから前」にも修飾する．例えば，英語は動詞に対して主語は前から，目的語は後ろから修飾する．また名詞に対して形容詞は前から，前置詞は後ろから修飾する．中国語も動詞に対して主語は前から，目的語は後ろから修飾するが，名詞に対しては基本的に前から修飾する．この日本語の主辞後置性のおかげで，翻訳元の言語（英語や中国語）の構文構造（係り受け関係）に基づいて，「必ず前から後ろへ係る」ように単語の順番を入れ替えると，翻訳元の言語を日本語と同じ語順に変換できる．これが主辞後置化による事前並べ替えである．語順が同じになれば，あとは逐語訳するだけなので，非常に高精度な翻訳が実現可能になる．日本語の主辞後置性に基づく事前並べ替えは，翻訳先の言語である日本語の性質だけを用いるので，翻訳元の言語の構文構造がわかっていれば，どんな言語へも適用可能である．一方，日本語を外国語（英語や中国語）へ翻訳する場合，日本語の構文構造において「後ろから前へ」反転させる係り受け関係を翻訳先の言語に応じて選択する必要がある．この問題を解決しなければならないため，日本語から外国語への翻訳は，外国語から日本語への翻訳に比べて難しい． 4･4　技術文書の多言語翻訳我々は，事前並べ替え方式による外国語から日本語への統計翻訳の実現可能性を検証するために，特許文書を対象として，英語・中国語・韓国語から日本語への統計翻訳システムを作成した．特許には「パテントファミリー」と呼ばれるものがある．これは同じ発明を複数の国へ出願するために，一つの特許出願に対して優先権を主張して各国へ出願した「特許出願のまとまり」のことである．パテントファミリーは完全な対訳ではないが，対訳になっている部分を多く含んでいるので，パテントファミリーをマイニングすることにより大規模な対訳データを抽出することができる．我々は，2004 年以降の日本，米国，中国，韓国の特許文書から，英語─日本語（約 300 万文），中国語─日本語（約 800 万文），韓国語─日本語（約 200 万文）の対訳データを作成した．特に中日と韓日の特許対訳データは，我々の知る限り，これらの言語対に関する世界最大の対訳データである． NTTが考案した日本語の主辞後置性に基づく事前並べ替えを適用するためには，翻訳元の言語の文の構文構造（係り受け関係）を高精度で解析する技術が必要である．我々は，英語（新聞記事 4 万文，特許 1 万文）と中国語（新聞記事 5 万文，特許 2 万文）の学習データを用意し，「半教師あり学習」による係り受け解析モデルの学習技術を利用して，英語と中国語の係り受け解析器を作成した．この半教師あり学習による係り受け解析モデ図 10　日本語の主辞後置性に基づく事前並べ替え図 11　中国語の特許文の係り受け解析の例，，．．

(7)

ルの学習技術は，2009 年に NTT が考案したもので，係り受け解析に関する国際標準ベンチマークテストデータ（英語，チェコ語）でトップの成績を収めている [Suzuki 09]．図 11 に中国語の特許文の係り受け解析の例，図 12 に特許文の中日翻訳の例を示す．一般に特許文は非常に長く，複雑な係り受け構造をもっているが，中国語の係り受け構造を正しく解析できれば，主辞後置化によって中国語における修飾・被修飾の関係を正確に反映した日本語を生成できる．なお，韓国語は日本語とほぼ語順が同じなので，韓日翻訳には事前並べ替えを適用していない． 4･5 翻訳精度の自動評価我々は翻訳精度の自動評価についても研究している．機械翻訳の精度を客観的に計測することは実は非常に難しい．ある文に対する翻訳の正解は何通りもあり，訳語選択の誤りと語順の誤りのどちらを重視するかは主観的な判断となる．1990 年代に考案された機械翻訳の自動評価尺度 BLEU（BiLingual Evaluation Understudy）は，機械翻訳の研究の活性化に大きく貢献した．これは食味計の発明によりお米のおいしさを数値化することで，産地間の競争や品種改良が進むのに似ている．しかし，BLEU は日本語と英語の翻訳では人手による評価とあまり一致しないという問題があった．2008 年に開催された評価型ワークショップ NTCIR-7 における自動評価尺度 BLEU と人手による評価の相関関係を図 13 に示す．そこで我々は，翻訳結果と正解の語順の一致度を重視する自動評価尺度 RIBES（Rank-based Intuitive Bilingual Evaluation Score：ライビーズ）を考案し，オープンソースソフトウェアとして公開している [RIBES 11]． RIBESは，前述の NTCIR-9 において自動評価尺度の一つとして採用され，主催者の評価においても，英日・日英・中英翻訳タスクにおいて人間による評価との相関が BLEUより高いことが示されている [Isozaki 10]． 4･6 機械翻訳の実用化に向けて特許，マニュアル，科学技術論文などの技術文書では，客観的・論理的な内容の伝達，すなわち翻訳元の言語における修飾・被修飾の関係を翻訳先の言語に反映することが，意味を正確に伝達するうえで最も重要である．我々は，特許に代表されるような，100 万文を超える対訳データが得られる分野において，外国語から日本語への統計翻訳は実用レベルに到達したと考えている．一方，日本語から英語への翻訳については，その差は縮まっているが，統計翻訳の精度は依然として従来のルールベースの翻訳の精度を上回っていない．今後，日本語から外国語への翻訳の精度向上に取り組むとともに，技術文書からビジネス文書，話し言葉へと翻訳対象を広げていく予定である．

5．お　わ　り　に

本稿では，NTT コミュニケーション科学基礎研究所における研究の中から，人工知能の基本機能と関係の深い，外界の事象の認識，知識獲得，および機械翻訳に関する研究事例を紹介した．これらの研究に共通の特徴は，既存技術の改良やシステムとしての統合というよりは，重要で有用性の高い要素技術の考案を主眼としながら，考案した技術を商用を含む実際の環境に実証的に適用しつつ中長期的に高度化していくアプローチをとっている点である．我々は，このような取組みを継続することで，人間の良きパートナーとしての知的システムに求められるさまざまな機能を創出し，高度化していきたいと考えている．

◇　参　考　文　献　◇

[Delcorix 14] Delcorix, M., Yoshioka, T., Ogawa, A., Kubo, Y., Fujimoto, M., Ito, N., Kinoshita, K., Espi, M., Hori, T., Nakatani, T. and Nakamura, A.: Linear prediction-based dereverberation with advanced speech enhancement and recognition technologies for the reverb challenge, REVERB

Challenge （2014）

[Fujisaki 88] Fujisaki, H.: Vocal Physiology: Voice Production,

Mechanisms and Functions, Raven Press （1988）

[Goto 12] Goto, I., Lu, B., Chow, K. P., Sumita, E. and Tsou, B. K.: Overview of the patent machine translation task at the 図 12　特許文の中日翻訳の例

図 13 NTCIR-7 日英特許翻訳タスク（2008）における BLEU と人手評価の関係

(8)

NTCIR-9 Workshop, NTCIR-9, pp. 559-578 （2012）

[Hori 12] Hori, T., Araki, S., Yoshioka, T., Fujimoto, M., Watanabe, S., Ogawa, A., Otsuka, K., Mikami, D., Kinoshita, K., Nakatani, T., Nakamura, A. and Yamato, J.: Low-latency real-time meeting recognition and understanding using distant microphones and omni-directional camera, IEEE Trans. on

Audio, Speech, and Language Proc., Vol. 20, No. 2, pp. 499-513

（2012）

[Ishiguro 10] Ishiguro, K., Iwata, T., Ueda, N. and Tenenbaum, J. B.: Dynamic infinite relational model for time-varying relational data analysis, Advances in Neural Information

Processing Systems, Vol. 23, pp. 919-927 （2010）

[Ishiguro 12] Ishiguro, K., Ueda, N. and Sawada, H.: Subset Infinite relational models, Proc. 15th Int. Conf. on Artificial

Intelligence and Statistics（AISTATS2012），pp. 547-555 （2012）

[Isozaki 10] Isozaki, H., Hirao, T., Duh, K., Sudoh, K. and Tsukada, H.: An empirical study of semi-supervised structured conditional models for dependency parsing, Proc. 2010 Conf.

on Empirical Methods in Natural Language Processing

（EMNLP），pp. 944-952 （2010）

[Isozaki 12] Isozaki, H., Sudoh, K., Tsukada, H. and Duh, K.: HPSG-based preprocessing for English-to-Japanese translation, ACM Trans. on Asian Language Information

Processing （TALIP），Vol. 11, No. 3, pp. 8:1-8:16 （2012） [Kameoka 09] Kameoka, H., Ono, N., Kashino, K. and Sagayama,

S.: Complex NMF: A new sparse representation for acoustic signals, Proc. IEEE Int. Conf. on Acoustics, Speech and Signal

Proc. （ICASSP），pp. 3437-3440 （2009）

[Kameoka 10] Kameoka, H., Roux, J. L. and Ohishi, Y.: A statistical model of speech F0 contours, Proc. SAPA, pp. 43-48

（2010）

[Kemp 06] Kemp, C., Tenenbaum, J. B., Grifﬁths, T. L., Yamada, T. and Ueda, N.: Learning systems of concepts with an inﬁnite relational model, AAAI’06 Proc. 21st National Conf. on

Artificial intelligence, pp. 381-388 （2006）

[Kinoshita 09] Kinoshita, K., Delcroix, M., Nakatani, T. and Miyoshi, M.: Suppression of late reverberation effect on speech signal using long-term multiple step linear prediction, IEEE

Trans. on Audio, Speech, and Language Proc., Vol. 17, No. 4,

pp. 534-545 （2009）

[久保 13] 久保陽太郎，小川厚徳，堀貴明，中村篤：音声と言語の一体型学習に基づく音声認識，NTT 技術ジャーナル，Vol. 25, No. 9, pp. 22-25 （2013）

[Mukai 10] Mukai, R., Kurozumi, T., Hiramatsu, K., Kawanishi, T., Nagano, H. and Kashino, K.: NTT communication science laboratories at TRECVID 2010 content-based copy detection,

TRECVID Workshop（2010）

[Murata 14] Murata, M., Nagano, H., Mukai, R., Kashino, K. and Satoh, S.: BM25 with exponential IDF for instance search,

IEEE Trans. on Multimedia, Vol. 16, No. 6, to appear （2014） [Nakano 14] Nakano, M., Ishiguro, K., Kimura, A., Yamada, T.

and Ueda, N.: Rectangular tiling process, Proc. Int. Conf. on

Machine Learning （ICML），pp. 361-369 （2014）

[RIBES 11] RIBES （2011），http://www.kecl.ntt.co.jp/ icl/lirg/ribes/index-j.html

[澤田 12] 澤田宏：非負値行列因子分解 NMF の基礎とデータ／信号解析への応用，信学誌， Vol. 95, No. 9, pp. 829-833 （2012） [Sawada 13] Sawada, H., Kameoka, H., Araki, S. and Ueda, N.:

Multichannel extensions of non-negative matrix factorization with complex-valued data, IEEE Trans. on Audio, Speech and

Language Processing, Vol. 21, No. 5, pp. 971-982 （2013） [Sudoh 12] Sudoh, K., Duh, K., Tsukada, H., Nagata, M., Wu,

X., Matsuzaki, T. and Tsujii, J.: NTT-UT statistical machine translation in NTCIR-9 PatentMT, NTCIR-9, pp. 585-592 （2012）

[Suzuki 09] Suzuki, J., Isozaki, H., Carreras, X. and Collins, M.: An empirical study of semi-supervised structured conditional models for dependency parsing, Proc. 2009 Conf. on Empirical

Methods in Natural Language Processing （EMNLP），pp. 551-560 （2009） 2014年 8 月 11 日受理

著　者　紹　介

柏野　邦夫（正会員） 1990年東京大学工学部卒業，1995 年同大学院工学系研究科博士課程修了．同年，日本電信電話株式会社に入社．現在，NTT コミュニケーション科学基礎研究所メディア情報研究部長．この間，2002 年，英国ケンブリッジ大学訪問研究員．博士（工学）．平松　　薫（正会員） 1994年慶應義塾大学理工学部卒業，1996 年同大学院理工学研究科修士課程修了．同年日本電信電話株式会社に入社．現在，NTT コミュニケーション科学基礎研究所主幹研究員．この間，2003 ∼ 04 年，米国メリーランド大学訪問研究員．博士（情報学）．大和　淳司 1988年東京大学工学部卒業，1990 年同大学院工学系研究科修士課程修了．同年，日本電信電話株式会社に入社．現在，NTT コミュニケーション科学基礎研究所協創情報研究部長．この間，1996 ∼ 98 年，MIT 人工知能研究所．MIT 修士（Electrical Engineering and Computer Science）．博士（工学）．

山田　武士 1988年東京大学理学部卒業．同年，日本電信電話株式会社に入社．現在，NTT コミュニケーション科学基礎研究所企画担当主席研究員．この間，1996 ∼ 97年，英国コベントリー大学客員研究員．博士（情報学）．

NTT 465 図 1.,,..,, 1980,.,, [Hori 12]..,, [Kinoshita 09]. REVERB Challange, 30,, [Delcorix 14].,,.,,,,.,.., [ 13]. 2 4 会話シーンを捉える リアルタイム会話分析 2,. 360,,,

1．は じ め に

2．外界の事物の認識

コミュニケーション科学と人工知能研究

─ NTTコミュニケーション科学基礎研究所の取組み─

Communication Science and Artificial Intelligence Research

─ Activities at NTT Communication Science Laboratories ─

柏野 邦夫

平松 薫

大和 淳司

山田 武士

Keywords:

3．知 識 の 獲 得

4．機 械 翻 訳

5．お わ り に

◇ 参 考 文 献 ◇

著 者 紹 介

NTT 465 図 1.,,..,, 1980,.,, [Hori 12]..,, [Kinoshita 09]. REVERB Challange, 30,, [Delcorix 14].,,.,,,,.,.., [ 13]. 2 4 会話シーンを捉えるリアルタイム会話分析 2,. 360,,,

1．は　じ　め　に

　─ Activities at NTT Communication Science Laboratories ─

柏野　邦夫

平松　　薫

大和　淳司

山田　武士

3．知識の獲得

4．機　械　翻　訳

5．お　わ　り　に

◇　参　考　文　献　◇

著　者　紹　介