西野 正彬
†・鈴木 潤
†・梅谷 俊治
††・平尾 努
†・永田 昌明
† 2つの系列が与えられたときに,系列の要素間での対応関係を求めることを系列ア ラインメントとよぶ.系列アラインメントは,自然言語処理分野においても文書対 から対訳関係にある文のペアを獲得する対訳文アラインメント等に広く利用される. 既存の系列アラインメント法は,アラインメントの単調性を仮定する方法か,もし くは連続性を考慮せずに非単調なアラインメントを求める方法かのいずれかであっ た.しかし,法令文書等の対訳文書に対する対訳文アラインメントにおいては,単 調性を仮定せず,かつ対応付けの連続性を考慮できる手法が望ましい.本論文では, ある大きさの要素のまとまりを単位として系列の順序が大きく変動する場合にアラ インメントを求めるための系列アラインメント法を示す.手法のポイントは,系列 アラインメントを求める問題を組合せ最適化問題の一種である集合分割問題として 定式化して解くことで,要素のまとまりの発見と対応付けとを同時に行えるように した点にある.さらに,大規模な整数線形計画問題を解く際に用いられる技法であ る列生成法を用いることで,高速な求解が可能であることも同時に示す. キーワード:系列アラインメント,組合せ最適化,列生成法Sequence Alignment as a Set Partitioning Problem
Masaaki Nishino†, Jun Suzuki†, Shunji Umetani††,Tsutomu Hirao† and Masaaki Nagata†
Sequence alignment, which involves aligning elements of two given sequences, occurs in many natural language processing (NLP) tasks such as sentence alignment. Previous approaches for solving sequence alignment problems in NLP can be categorized into two groups. The first group assumes monotonicity of alignments; the second group does not assume monotonicity or consider the continuity of alignments. However, for example, in aligning sentences of parallel legal documents, it is desirable to use a sentence alignment method that does not assume monotonicity but can consider continuity. Herein, we present a method to align sequences where block-wise changes in the order of sequence elements exist. Our method formalizes a sequence alignment problem as a set partitioning problem, a type of combinatorial optimization problem, and solves the problem to obtain an alignment. We also propose an efficient algorithm to solve the optimization problem by applying column generation.
Key Words: Sequence Alignment, Combinatorial Optimization, Column Generation
†日本電信電話株式会社 NTT コミュニケーション科学基礎研究所, NTT Communication Science Laboratories,
Nippon Telegraph and Telephone Corporation
1 はじめに
系列アラインメントとは,2 つの系列が与えられたときに,その構成要素間の対応関係を求 めることをいう.系列アラインメントは特にバイオインフォマティクスにおいて DNA や RNA の解析のために広く用いられているが,自然言語処理においてもさまざまな課題が系列アライ ンメントに帰着することで解かれている.代表的な課題として対訳文アラインメント (Moore 2002; Braune and Fraser 2010; Quan, Kit, and Song 2013)があげられる.対訳文アラインメン トは対訳関係にある文書対が与えられたときに,文書対の中から対訳関係にある文のペアをす べて見つけるタスクである.統計的機械翻訳においては,対訳コーパスにおいてどの文がどの 文と対訳関係にあるかという文対文での対応関係が与えられているという前提のもとで学習処 理が実行されるが,実際の対訳コーパスでは文書対文書での対応付けは得られていても文対文 の対応付けは不明なものも多い.そのため,対訳文書間での正しい対訳文アラインメントを求 めることは精度のよいモデルを推定するための重要な前処理として位置づけられる.統計的機 械翻訳以外の,例えば言語横断的な情報検索 (Nie, Simard, Isabelle, and Durand 1999) などの 課題においても対訳文書間の正しい文アラインメントを求めることは重要な前処理として位置 づけられる.また,対訳文アラインメントのほかにも,対訳文書に限定されない文書間の対応 付けタスクも系列アラインメントとして解かれている (Qu and Liu 2012; 角田,乾,山本 2015; 竹中,若尾 2012). 自然言語処理のタスクにおける系列アラインメント問題を解く手法は,対応付けの単調性を 仮定する方法とそうでない方法とに大別される.単調性を仮定する系列アラインメント法は特 に対訳文アラインメントにおいて広く用いられる方法であり,対訳関係にある二つの文章にお ける対応する文の出現順序が大きく違わないことを前提として対応付けを行う.すなわち,対 訳関係にある文書のペアF ,E に対し,F の i 番目の文 fiにE の j 番目の文 ejが対応すると したら,F の i + 1 番目の文に対応する E の文は,(存在するならば)j + 1 番目以降であるとい う前提のもとで対応付けを行っていた.この前提は,例えば小説のように文の順序が大きく変 動すると内容が損なわれてしまうような文書に対しては妥当なものである.一方で単調性を仮 定しない方法は (Qu and Liu 2012; 角田 他 2015; 竹中,若尾 2012) などで用いられており,文 間の対応付けの順序に特に制約を課さずに系列アラインメントを求める.図 1 は,それぞれ単 調性を仮定した系列アラインメント,仮定しない系列アラインメントの例を表している.白丸 が系列中のある要素を表現しており,要素の列として系列が表現されている.図では 2 つの系 列の要素間で対応付けがとられていることを線で示している.単調性を仮定した対応付け手法 では,対応関係を表す線は交差しない.一方で仮定しない手法では交差することが分かる. 系列アラインメントにおいて単調性を仮定することは,可能なアラインメントの種類数を大 きく減少させる一方で,動的計画法による効率的な対応付けを可能とする.先述したように,対
図 1 既存の系列アラインメント法によるアラインメント例 訳文アラインメントを行う際に単調性を仮定することは多くの対訳文書に対しては妥当な仮定 である.しかし,単調性を仮定することが妥当でない対訳文書も存在する.例えば文献 (Quan et al. 2013)では,単調性が成り立たない文書の例として法令文書を挙げている.そのほかにも 例えば百科事典や Wikipedia の記事のように一つの文書が独立な複数の文のまとまりからなる 場合には,文のまとまりの出現順序が大きく変動しても内容が損なわれないことがある.この ような文書においては,文の順序が大きく変動しないという前提は必ずしも正しいものではな いため,既存の単調性を仮定した系列アラインメント法では正しい対訳文アラインメントが行 えない可能性が高い. 一方で,単調性を仮定しない既存のアラインメント法では非単調な対応付けを実現できるも のの,対応付けの連続性を考慮することが難しいという問題がある.対応付けの連続性とは,fi がejと対応付けられているならば,fi+1はej の近傍の要素と対応付けられる可能性が高いと する性質のことである1.もし対応付けにおいて連続性を考慮しないとすると,系列F 中のあ る要素fiとそれに隣接する要素fi+1とが,それぞれE 中で離れた要素と対応付けられてもよ いとすることに相当する.対応付けの単調性を仮定できるような対訳文書の対訳文アラインメ ントについては,明らかに対応付けの連続性を考慮する必要がある.さらに,単調性が仮定で きないような文書のペアに対する対訳文アラインメントにおいても,ある文とその近傍の文が 常に無関係であるとは考えにくい.以上より,文アラインメントにおいては連続性を考慮する ことが不可欠である.また,対訳文アラインメント以外の系列アラインメントを用いるタスク においても,対応付けの対象となる系列は時系列に並んだ文書等,何らかの前後のつながりを 仮定できるものが多いことから,連続性を考慮する必要がある. 単調性を仮定できない文アラインメントの例を示す.図 2 は,文献 (Quan et al. 2013) の検証 で用いられている Bilingual Laws Information System (BLIS)2コーパスに含まれる対訳文書に
1 4節以降の提案手法の説明では,説明を簡単にするために,対応付けに順方向の連続性がある場合,すなわちfiと ejが対応付けられているならばfi+1はejより後ろにある近傍の要素と対応付けられやすい場合のみを扱ってい る.しかし,実際には提案法は順方向に連続性がある場合と同様に逆方向の連続性がある場合の対応付けを行うこ ともできる.逆方向の連続性とは,fiとejが対応付けられているならば,fi+1はej以前の近傍の要素と対応付 けられる可能性が高いとする性質のことである. 2 http://www.legistlation.gov.hk
図 2 法令文書における非単調な対訳文アラインメントの例 おける文アラインメントの例である.BLIS は香港の法令文書の電子データベースであり,対訳 関係にある英語・中国語の文書を保持している.図に示す対訳文は用語の定義を行っている箇 所である.両言語の文を比べると,定義する用語の順番が英語と中国語とで異なっており,結 果として,局所的には連続なアラインメントが非単調に出現する対訳文書となっている. 本論文では系列の連続性を考慮しつつ,かつ非単調な系列アラインメントを求めるための手 法を提案する.このような系列アラインメント法は,単調性を仮定できない文書対の対訳文ア ラインメントを求める際に特に有効であると考える.仮に文書F の文が E の任意の文と対応し てもよいとすれば,ある文のペアの良さを評価するスコアを適切に設定することによって,問 題を二部グラフにおける最大重みマッチング問題 (Korte and Vygen 2008) として定式化して解 くことができる.しかし,F のある文が E の任意の文と対応してもよいという前提では,近傍 の文間のつながりを無視して対応付けを行うことになる.実際の文書ではすべての文がその近 傍の文と無関係であるとは考えにくいため,正しい対応付けが行えない可能性が高い.そこで, 提案手法では対訳文アラインメントを組合せ最適化の問題の一つである集合分割問題として定 式化して解く.集合分割問題は,ある集合S とその部分集合族 S1, . . . , SN が与えられたときに, スコアの和が最大となるようなS の分割 D ⊆ {S1, . . . , SN} を見つける問題である.ここで D がS の分割であるとは,S = ∪Si∈DSiかつi = j ならば任意の Si, Sj ∈ D について Si∩ Sj =∅ となることをいう.2 つの系列F , E のある部分列に対する単調な系列アラインメントの集合を S1, . . . , SN として表現することで,部分列に対するアラインメントの集合S1, . . . , SN から系列 全体の分割となるような部分集合を選択する問題としてF , E 全体に対する系列アラインメン トを求めることができる. また,本論文では集合分割問題としての系列アラインメントの定式化とともに,その高速な 求解法も同時に示す.提案する集合分割問題に基づく定式化を用いると,系列F , E に含まれ
る要素の数が増加するに伴い,急激に厳密解の求解に時間がかかるようになるという課題があ る.これは,それぞれの系列に含まれる要素の総数を|F |, |E| とすると,集合分割問題に出現 する変数の数3がO(|F |2|E|2)となるためである.集合分割問題は NP 困難であり,変数の数が 増加すると各変数に対応する重みの計算および整数線形計画法ソルバを用いた求解に時間がか かるようになる.本論文ではこの課題に対処するために,多くの変数が問題中に出現する大規 模な線形計画問題を解く際に用いられる,列生成法 (L¨ubbecke and Desrosiers 2005)を用いる ことで高速な系列アラインメントを実現する近似解法も同時に提案する.列生成法は大規模な 問題の解を,出現する変数の個数を制限した小さな問題を繰り返し解くことによって求める手 法である.列生成法を用いることによって,そのままでは変数の数が膨大となり解くことがで きなかった問題を解くことができる.なお,列生成法を用いることで線形計画問題の最適解を 得られることは保証されているが,整数線形計画問題については解を得られることは必ずしも 保証されていない.そこで本論文では列生成法で得られた近似解を実験によって最適解と比較 し,よい近似解が得られていることを確認する. なお,以下では説明を簡単にするために特に対訳文書の対訳文アラインメントに話題を限定 して説明を進める.ただし,系列の要素間のスコアさえ定まれば提案法を用いて任意の系列の ペアに対する系列アラインメントを行うことが可能である.
2 関連研究
対訳文アラインメントに関しては,これまで,文の長さを対応付けに利用する方法 (Gale and Church 1993),語の翻訳確率と文の長さを利用する方法 (Moore 2002; Braune and Fraser 2010) などが提案されてきているが,ほとんどの方法でアラインメントの単調性を仮定している.単 調性を仮定することによって動的計画法によって効率的に対訳文アラインメントを求めること ができるという利点はあるが,序章で述べたように単調性が成り立たない文書対に対しては正 しいアラインメントを求めることができないという欠点がある.Deng らは系列マッチングとク ラスタリングをあわせて利用することで,文の順序が入れ替わる場合でも対訳文アラインメン トを行える手法を提案している (Deng, Kumar, and Byrne 2007).しかし,Deng らの手法は, ある隣接する二つの文の順序が入れ替わるなど,順序の入れ替わりが小さい範囲で起きること を想定した手法であり,より大きな範囲での順序の入れ替わりには対処できない.対訳文間の単調性を仮定しない,非単調な対訳文アラインメントを求めるための手法として, 近年 Quan らは半教師あり学習の枠組みに基づく文対応付け手法を提案している (Quan et al. 2013).彼らの手法は基本的には二部グラフマッチングに基づくアラインメント法であるが,各
文書における文間の類似度合いを対応付けのための目的関数に用いている点が特徴的である. Quanらの手法と比較すると,提案法は文のまとまり単位のアラインメントをより明示的に意 識した手法となっていることが異なる.Quan らの手法は隣り合う文間の関係を明示的には考 慮しないため,対訳文書間で文の出現順序が全く異なる文書により適している.また,Quan ら の手法は二部グラフマッチングに基づく手法のため多対多のアラインメントには対応できない が,提案法は内部で呼び出す既存の単調性を仮定した対訳文アラインメント法を多対多のマッ チングを考慮するものに変更することによって,容易に多対多の対訳文アラインメントを行う ように拡張できる点も異なる. 対訳文アラインメント以外にも,さまざまな自然言語処理のタスクが系列アラインメント問 題として定式化され解かれている.例えば質問応答ウェブサイトにおける質問と回答との対応 付け (Qu and Liu 2012) や,ウェブサイトにおけるレビュー文とそれに対する返答のペア (角田 他 2015),条例文 (竹中,若尾 2012) の対応付けといったタスクなどがある.
対訳文アラインメント以外の自然言語処理における重要な系列アラインメント問題の適用先 として,単語アラインメントが挙げられる.単語アラインメント問題に関しては非単調なアライ ンメントを求めるための手法が数多く提案されてきている.Brown らは,原言語の各単語は必 ず目的言語のある単語に対応付けられるなどの制約のもとで,生成モデルに基づいた単語の非 単調なアラインメントを行っている (Brown, Petra, Pietra, and Mercer 1993).また,Wu は反転 トランスダクション文法に基づいた非単調な単語アラインメント法を提案している (Wu 1997). これらのうち,(Brown et al. 1993) は単語アラインメントに固有の性質を扱っており,本論文 で扱っている対訳文アラインメントに直接適用するのは難しい.また,反転トランスダクショ ン文法に基づく手法は,提案法に類似の非単調な対訳文アラインメントを実現可能な文法規則 を設計できる.しかし,反転トランスダクション文法では連続な文間の非単調なアラインメン トの形態が制限される点が提案手法と異なる.
3 単調性を仮定した対訳文アラインメント法
提案法の説明の準備として,単調性を仮定した動的計画法に基づく既存の対訳文アラインメ ント法について説明する.単調性を仮定した対訳文アラインメント法では,対訳文書F , E の ある文のペアs ∈ F , t ∈ E が対応付けられた時のスコア S(s, t) が与えられたときに4,スコアの 総和が最大となるような単調な対訳文アラインメントを求める.アラインメントの単調性を仮 定すると,最適な系列アラインメントは動的計画法を用いることで高速に求めることができる. 4 なお,対訳文アラインメントの手法によっては多対多の対応付けのスコアも加味することによって,多対多の対応 付けが可能なものも存在する.これまでにさまざまなスコアS(s, t) の定義が提案されてきているが,代表的な対訳文アライ ンメント法である Moore による手法 (Moore 2002) では,文の長さと文中の語の翻訳確率とを 用いることでペアのスコアを定義し,対訳文アラインメントに含まれるペアのスコアが最大と なるようにアラインメントを求める.具体的には,s ∈ F である文 s と t ∈ E である文 t とのペ アのスコアS(s, t) を S(s, t) = P (ms, mt) (ms+ 1)mt m t j=1 ms i=1 tr(tj|si) m s i=1 u(si) (1) として定める.ここで,ms,mtはそれぞれ文s, t に含まれる単語の総数である.また,si,tjは それぞれs の i 番目の語,t の j 番目の語を表す.tr(tj|si)は語siがtjに翻訳される確率であ る.u(si)は語siの文書中での相対頻度を表す.P (ms, mt)は,文の長さ(語の数)に応じてス コアを定める関数であり,ポアソン分布を用いて P (ms, mt) = exp (−msr)(msr) mt mt! (2) として定義される.r はパラメータである.各確率分布は (Brown et al. 1993) にある手法によっ てデータから推定できる.
4 集合分割問題に基づく対訳文アラインメントのモデル化
本論文で提案する対訳文アラインメント法の概観を示す.提案法のポイントは,文書を連続 する文のまとまりに分割してアラインメントを求める点にある.すなわち,対訳文書のそれぞ れを同数の文のまとまりに分割したのち, (1) どの文のまとまり同士が対応付けられるか (2) 対応付けられた文のまとまりのペアの中で,どの文のペアが対応付けられるか を同時に求めることで対応付けを行う.このときに (1) について非単調な対応付け,(2) につい ては単調な対応付けを行うことによって,連続性を考慮した非単調な対応付けを実現する.そ れぞれの文書を 3 つのまとまりに分割したときの提案法による対訳文アラインメントの様子を 図 3 に示す.図中の白い丸がひとつの文に対応している.また,複数の丸を囲む四角が文のま とまりを表す.図より,文のまとまり同士の対応付けにおいては非単調な対応付けを行ってい ることと,文のまとまりに含まれている文同士の対応付けにおいては単調な対応付けを行って いることが分かる.文のまとまりに含まれる文同士の対応付けは,既存の単調な対訳文アライ ンメント法によって行われる.つまり,対応付けられる各文書を 1 つのまとまりだとみなした 場合は,文書全体で単調な対応付けを行うことになるため,提案手法は既存の対訳文アライン メント法と同等である.図 3 提案法による対訳文アラインメントの概観.各文書を 3 つの連続する文のまとまりに分割し,文の まとまり間で非単調な対応付けを行っている.対応付けられた文のまとまりのペアに含まれる文間 では,単調な対応付けを行っている.結果として文書全体に対する対訳文アラインメントが得られ ている. 以下で用いる記法について述べる.対応付けをとる対象の 2 つの文書をF , E とし,それぞれ |F |,|E| 個の文からなるとする.fiをF に含まれる i 番目の文,ekをE に含まれる k 番目の文と する.F の i 番目から j 番目までの連続する文の集合を fij ⊆ F とする.ただし 1 ≤ i ≤ j ≤ |F | である.同様に,ekl ⊆ E は E の k 番目から l 番目までの連続する文の集合とする.ただし 1 ≤ k ≤ l ≤ |E| である.また,aijklを文のまとまりのペア (fij, ekl)を表現するために用い,
f(aijkl) =fij,e(aijkl) =eklと定義する.
文のまとまりfijとeklのペアに対して,既存の単調性を仮定した対訳文アラインメント法を 適用することによって得られる文アラインメントのスコアを seqMatch(fij, ekl)とする.すなわ ち,fij,ekl間のある単調なアラインメントをX, すべての単調な対訳文アラインメントの集合 をAijklとすると,seqMatch(fij, ekl)は seqMatch(fij, ekl) = max X∈Aijkl (s,t)∈X S(s, t) (3) として定義される.
4.1 集合分割問題に基づく定式化
前節で定義した seqMatch(fij, ekl)は,文のまとまりfijとeklのペアに対する対応付けスコア であるとみなすことができる.このスコアを用いて文のまとまり同士の一対一の対応付けを求 める.文のまとまり同士の対応付けを求めることができれば,それに含まれる文間の対応付け は seqMatch(fij, ekl)を求める際に既に求めてあるため,結果として対訳文アラインメントが得 られる.可能なすべての文のまとまりのペアaijklの集合をM とすると,ある文アラインメン トは,M の部分集合であり,かつ文書対の分割となっているような文のまとまりのペアの集合 A ⊆ M として表現できる.ただし,A に含まれる任意の文のまとまりのペア a, a∈ A についてとする.上記の条件を満たすA の集合を A とすると,対訳文アラインメントを求める問題は, ˆ A = argmax A∈A {score(A)} (4) として,マッチングのスコアを最大とする ˆA を求める問題として定式化することができる.こ こで score(A) は,F と E に対する分割 A を定めたときのスコアであり,以下のように定義する. score(A) = λK a∈A
seqMatch(f(a), e(a)) (5) ここでK は A 中に含まれる文のまとまりのペアの総数,λ はペアの個数に応じて課されるペナ ルティを表すパラメタであり,0< λ ≤ 1 を満たすように設定する.λ = 1 とすると解に出現 する文のまとまりのペアの個数に制限をつけないことに相当するため,文の連続性を考慮しな いアラインメントが得られる.一方でλ に小さな値を設定することは,解に出現する文のまと まりの個数に対して大きなペナルティを与えることに相当するため,できるだけ小ない個数の 文のまとまりが解に含まれるようになる.λ をある程度以上小さな値に設定すると常に 1 つの 文のまとまりのペアに分割されるようになる.これは既存の単調な対訳文アラインメントと等 しい. 式 (5) の対数をとると,score(A) は文のまとまりのペア a に対する線形式に置き換えること ができる.よって,ここでの対訳文アラインメント問題は整数線形計画問題 (ILP) として定式 化することができる.ILP による定式化は, maximize ijkl
(wijkl+ logλ)yijkl (6) subject to i,j:i≤x≤j kl yijkl= 1 ∀x : 1 ≤ x ≤ |F | (7) ij k,l:k≤x≤l yijkl= 1 ∀x : 1 ≤ x ≤ |E| (8) yijkl∈ {0, 1} ∀i, j, k, l (9) となる.ここで,wijklは log seqMatch(fij, ekl)の値である.yijklは文のまとまりのペアaijklを アラインメントに含むことを表す変数であり,yijkl = 1のときはaijklが対訳文アラインメン トに含まれるとする.制約 (7) は,F 中の x 番目の文を含むすべての文のまとまりのペア aijkl のうち,必ず 1 つだけが解に選択されることを保証するものである.(8) は同様の制約をE に 課したものであり,これら 2 つの制約を併せてF と E に含まれる各文が最終的に得られた文 のまとまり同士の対応付けのいずれか 1 つに必ず含まれることを保証する.今回用いた定式化 は,任意のペア (fij, ekl)に対応する集合の集まりである集合族に対する集合分割問題となって いる.なお,提案法は既存の単調な文アラインメント法として,多対多のアラインメントを求
めることができる手法を用いることによって,非単調な多対多のアラインメントを実現するこ とができる5.
5 列生成法
式 (6) から (9) からなる整数線形計画問題はすべての文のまとまりのペア数に対応する数の 変数を含む.このようなペアは|F ||E|(|F | + 1)(|E| + 1)/4 種類存在するため,文の数が増加す ると整数線形計画問題に含まれる変数の数が急増し,解を求めるのに時間がかかるという問題 がある.本論文では列生成法 (L¨ubbecke and Desrosiers 2005)を用いた近似解法を導入すること でこの問題に対応する.一般的な整数線形計画問題の解法では,すべての変数を求解時に明示 的に扱って解を求めるが,列生成法では目的関数の増加に寄与する可能性がある変数を逐次的 に追加しながら問題を解くことで解を求める.最適解において非ゼロとなる変数の数が問題全 体で扱う変数の数に対して非常に小さい場合,最適解においてゼロとなる変数を考慮せずに解 が得られる可能性が高いことから,列生成法によって高速に解を得られることが期待できる. 以下,列生成法に基づく解法の詳細を述べる.列生成法を導入するにあたり,いくつかの概 念を定義する.まず,式 (6) から (9) からなる整数線形計画問題を線形緩和した問題,つまり 制約aijkl ∈ {0, 1} を 0 ≤ aijkl≤ 1 へと緩和した問題を主問題 (Master problem: MP) とよぶ. 主問題に含まれるすべての変数の集合をM とする.MP からいくつかの変数を取り除いた問題 を制限された主問題 (Restricted master problem: RMP) とよぶ.RMP に出現する変数の集合 をM ⊆ M と表す.ある線形計画問題の双対問題とは,もとの問題の各変数にそれぞれ対応 する制約条件と,もとの問題の各制約条件に対応する変数からなる線形計画問題のことである. RMPに対しても双対問題を考えることができる.双対問題において RMP における文fnに関 する制約に対応する変数をun,emに関する制約に対応する変数をvmとする.線形計画問題が 最適解を持つのであれば,最適解の値はそれは双対問題の最適解の値と一致することが知られ ており,RMP の最適解を単体法を用いて得ることができたならば,双対問題の最適解も容易に 計算可能である. 列生成法は RMP の求解と RMP に追加する変数を求める問題とを繰り返し解くことで MP を解く.追加する変数を求める問題は列生成部分問題とよばれ,具体的にはaijkl∈ M \ Mで あるようなaijklのうち, 5 多対多のアラインメントのほかには,例えばf1-e4,f2-e3,f3-e2,f4-e1といったような逆順で単調なアラインメン トを解の一部として含むようにすることも可能である.具体的には式 (3) において seqMatch(fij, ekl)を通常順, 逆順の全ての可能な対応付けからスコアを最大にするものを選択するように修正すればよい.逆順の単調なアライ ンメントは,片方の系列を逆順にしたうえで,単調性を仮定した動的計画法によるアラインメント法を実行するこ とで求めることができる.wijkl=wijkl+ logλ − j n=i ˆ un− l m=k ˆ vm (10) を最大とするものを一つ求める問題である.ここで,ˆunは RMP の双対問題の最適解における 変数unの値,ˆvmは変数vmの値とする.以下ではwijklのことを被約費用とよぶ.ある RMP を解いた後に各変数に対する被約費用がすべて負となるとき,RMP の最適解は MP の最適解 となることが知られている.最適解において多くの変数の値がゼロとなるような問題において は,出現する変数の数が MP よりも大幅に少ない RMP を解くことで MP の最適解が得られる ことが期待できるため,列生成法は大規模な最適化問題を高速に解くことができる. 列生成部分問題を解くことを考える.前述のとおり,変数は|F ||E|(|F | + 1)(|E| + 1)/4 個あ るため,その全てについて被約費用を求めるのは困難である.しかし,スコアwijklが 3 章で 述べたように動的計画法によって求められること,および被約費用の式 (10) において ˆun, ˆvm が対応する文ごとにそれぞれ独立に作用していることを利用すると,最大の被約費用を Smith-Waterman法 (Smith and Waterman 1981) に類似した動的計画法によって求めることができる. Smith-Waterman法はバイオインフォマティクスの分野で提案された,配列の局所アラインメ ントを求めるためのアルゴリズムであり,動的計画法に基づいて長さN, M の二本の配列に対 する局所アラインメントをO(NM) 時間で求めることができる.ここで局所アラインメントと は,二本の配列の可能な部分配列間の系列アラインメントのうち,スコアを最大とするものの ことである.動的計画法は以下の局所アラインメントの再帰的な定義に沿って計算する.なお, 以下では説明を簡単にするため,提案法内で利用する単調なアラインメントを求める手法が一 対一のアラインメントのみを求めると仮定している.しかし,多対多のアラインメントを求め ることができる手法を利用した場合であっても,下記の再帰式を容易に拡張することが可能で ある6. q[j, l] をその末尾の要素がそれぞれ fj, elであるような文のまとまりのペアの被約費用wijkl (1≤ i ≤ j, 1 ≤ k ≤ l) の最大値とすると,q[j, l] は q[j, l] = max ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ logλ q[j − 1, l − 1] + S(fj, el)− ˆuj− ˆvl q[j − 1, l] + S(fj)− ˆuj q[j, l − 1] + S(el)− ˆvl (11) として再帰的に計算することができる.なおq[0, 0] = log λ とする.ここで S(fj, el),S(fj),S(el) は,既存の単調性を仮定した(例えば (Moore 2002) など)対訳文アラインメント法において利 用されるスコアであり,それぞれ文fjと文elとを対応付けたときのスコア,fjをE のどの文 6 逆順の単調なアラインメントを含むときも同様に,列生成法に対応する事が可能である.
とも対応させなかったときのスコア,elをF のどの文とも対応させなかったときのスコアであ る.最上段の選択肢 logλ は,fj+1,el+1を開始位置とする文のまとまりのペアの被約費用が, fj,elを含む文のまとまりのペアの被約費用よりも必ず大きくなるときに選択される.すべての 1≤ j ≤ |F |, 1 ≤ l ≤ |E| について動的計画法によって q[j, l] を計算したのちに,それらのうち最 大値をとることで被約費用の最大値を求めることができる.さらに,q[j, l] を計算する際に (11) のどの式をもとに計算したかを記憶しておけば,最大値をとるq[j, l] からバックトラッキングを 実行することによって被約費用を最大とするxijklを求めることができる.すなわち,(11) の 4 種類の選択肢のうち,下 3 種類の選択肢のいずれかが利用されたのであればそれぞれの式中に 出現しているq[j − 1, l − 1], q[j − 1, l], q[j, l − 1] のいずれかに遷移し,バックトラッキングを続 ける.もし最上段の選択肢 logλ が利用されたのであれば,そこでバックトラッキングを終了す る.バックトラッキングを終了したときの状態をq[j, l]とすると,i = j+ 1,k = l+ 1,と してi と k が求まる.すべての q[j, l] を計算する動的計画法は O(|F ||E|),バックトラッキング は高々O(|F | + |E|) 時間で実行できるため,Smith-Waterman 法によって被約費用を最大とす るアイテムを効率的に選択できる. 列生成法の手順を図 4 に示す.まず RMP に含まれる変数の集合をM={x1|F |,1|E|} として 初期化する (line 1).x1|F |,1|E|はすべての文からなる文のまとまりであり,実行可能解であるこ とから,以降の RMP は必ず実行可能解をもつことが保証される.以降,RMP の求解7(line 3) と Smith-Waterman 法による列生成部分問題の求解 (line 4) とを繰り返す.もしすべての変数 で被約費用が負となったら (line 5) ,その時点で MP の最適解が得られていることになるので, 最後に現在の RMP に整数制約を追加したうえで整数線形計画問題を解いて得られた解を出力 する (line 8) .ここで,RMP に整数制約を追加して得られた解が必ずしも元の MP に整数制約 を追加して得られた解と一致するわけではないことに注意する必要がある.すなわち,提案法 図 4 列生成法を用いた近似アルゴリズム 7 RMPは線形計画問題であるため効率的に解ける.また,各繰り返しにおいて前回 RMP を解いたときの解を初期 解とすることで高速に解を求めることができることが知られている.
はヒューリスティクスであり,必ずしも厳密な最適解を得られるわけではない.そこで検証に よって厳密解との差を評価する.
6 検証
6.1 検証設定
提案手法の有効性を検証する.非単調な系列アラインメントはいくつかの研究で検証されて いるが,正解の対応付けが公開されていないことから,今回は検証のためのデータとして文対 応が既知である日本語と英語の対訳文書から生成した人工データを用いた.対訳文書はそれぞ れ約 25,000 文からなる.この文書から取り出した 2,500 文から文の長さが一定以上に長いもの と短いものとを除いたものをテストデータを生成する元データ,残りを翻訳確率等を推定する ための訓練データとして用いた. テストデータの生成手順は以下のとおりとする.まず,元データのそれぞれの文書集合から, K 個の対応関係にある連続する文のまとまりをランダムに取り出す.なお,対応関係にある文 のまとまりには,対訳関係になっていない文も含まれる.その後,取り出した文のまとまりをラ ンダムに並べなおしたのちに,各まとまりに含まれる文を順に並べることで文のまとまり単位 での移動があるデータセットを作成した.テストデータの文の数は日本語,英語ともに 60 文と し,まとまりの数はK = 1, 3, 6, 12, 20 とした.このデータセットを以下では対称データセット とよぶ.K = 1 のときは単調な対訳文アラインメントを求める問題となっている.次に,日本 語と英語の文の数が異なるデータセットも同様に作成した.こちらでは日本語の文数を 60 文, 英語の文数を 40 文とし,日本語の 20 文は対応する文が存在しないようにした.日本語のまと まりの数はK = 3, 6, 12 とし,英語のまとまりの数は日本語のまとまりの数の 2/3 とした.こ のデータセットを以下では非対称データセットとよぶ.最後に,日本語と英語からそれぞれ 60 文選ぶが,そのうち対応関係にあるのは 40 文であり,残りの日本語・英語の 20 文は対応する 文が存在しないようなデータも作成した.以下では対応なしデータセットとよぶ.文のまとま りの数はK = 3, 6, 12 とし,そのうち 1/3 については対応する文が存在しないものとした. 比較対象として,Moore らによる系列マッチングに基づく手法 (Moore) と,二部グラフの重 み最大マッチングとして解いた方法 (BM) とを用いた.なお,重み最大マッチングにおける対 応付けの重みは式 (1) を用いた.評価は Moore(Moore 2002) にならって,文の対応付けの再現 率 (recall),適合率 (precision),F 値 (F-measure) を算出した.対称,非対称の各データセットに ついて,異なるK ごとに 5 つのデータセットを生成し,その平均値を最終的な評価値とした. 翻訳確率の算出には GIZA++(Och and Ney 2003) を用いた.整数線形計画問題のソルバとして ILOG CPLEXを用いた.文のまとまりの個数に対するペナルティλ は,λ = 0.1 と λ = 0.01 の 2種類を試した.6.2 結果
実験結果を表 1, 2,3 に示す.表中の SP + ILP は集合分割問題を整数線形計画問題ソルバで 解いた結果,SP + CG は集合分割問題を列生成法で解いた結果を表す.また,BM は二部グラ フマッチングによって対訳文アラインメントを行った結果,Moore は Moore らの手法 (Moore 2002)を適用した結果をそれぞれ表す.表より,対称データセットでK = 1 の場合を除く,い ずれのデータセット,およびK の値においても,λ = 0.1 としたときの提案手法(厳密解)が 2 種類のベースラインよりも高い F 値を示していることが分かる.対称データセットでK = 1 の 場合は単調な対訳文アラインメントとなることから, 単調性を仮定する Moore の手法の方がや や高い F 値を示している.しかし,提案法との差分は 0.003 ポイントと小さい.次にλ の値の 表 1 再現率,適合率,F 値の比較(対称データ) K = 1 K = 3 K = 6 再現率 適合率 F 値 再現率 適合率 F 値 再現率 適合率 F 値 SP+ILP (λ = 0.1) 0.961 0.866 0.911 0.986 0.917 0.950 1.000 0.822 0.902 SP+CG (λ = 0.1) 0.961 0.872 0.914 0.986 0.923 0.954 1.000 0.815 0.898 SP+ILP (λ = 0.01) 0.961 0.872 0.914 0.986 0.923 0.954 0.804 0.831 0.817 SP+CG (λ = 0.01) 0.961 0.872 0.914 0.928 0.908 0.918 0.833 0.843 0.838 BM 0.955 0.765 0.849 0.986 0.853 0.915 1.000 0.730 0.844 Moore 0.961 0.872 0.914 0.585 0.873 0.701 0.524 0.743 0.614 K = 12 K = 20 再現率 適合率 F 値 再現率 適合率 F 値 SP+ILP (λ = 0.1) 0.990 0.764 0.862 0.986 0.731 0.840 SP+CG (λ = 0.1) 0.991 0.769 0.866 0.986 0.743 0.847 SP+ILP (λ = 0.01) 0.609 0.776 0.682 0.504 0.697 0.585 SP+CG (λ = 0.01) 0.536 0.776 0.634 0.441 0.659 0.528 BM 0.990 0.694 0.816 0.986 0.623 0.763 Moore 0.506 0.776 0.613 0.400 0.694 0.508 表 2 再現率,適合率,F 値の比較(非対称データ) K = 3 K = 6 K = 12 再現率 適合率 F 値 再現率 適合率 F 値 再現率 適合率 F 値 SP+ILP (λ = 0.1) 0.989 0.876 0.929 0.990 0.869 0.926 0.988 0.758 0.858 SP+CG (λ = 0.1) 0.989 0.876 0.929 0.990 0.843 0.911 0.988 0.761 0.859 SP+ILP (λ = 0.01) 0.989 0.883 0.933 0.879 0.896 0.887 0.721 0.790 0.754 SP+CG (λ = 0.01) 0.989 0.899 0.942 0.801 0.872 0.835 0.703 0.806 0.751 BM 0.989 0.772 0.867 0.990 0.794 0.881 0.988 0.674 0.801 Moore 0.638 0.907 0.749 0.707 0.827 0.762 0.486 0.719 0.580
表 3 再現率,適合率,F 値の比較(対応なしデータ) K = 3 K = 6 K = 12 再現率 適合率 F 値 再現率 適合率 F 値 再現率 適合率 F 値 SP+ILP (λ = 0.1) 1.000 0.810 0.895 0.990 0.760 0.860 0.990 0.799 0.884 SP+CG (λ = 0.1) 1.000 0.792 0.884 0.990 0.760 0.860 0.990 0.791 0.879 SP+ILP (λ = 0.01) 1.000 0.826 0.905 0.910 0.805 0.854 0.749 0.783 0.766 SP+CG (λ = 0.01) 0.987 0.870 0.925 0.748 0.805 0.775 0.762 0.798 0.779 BM 1.000 0.703 0.825 0.978 0.673 0.797 0.990 0.678 0.805 Moore 0.684 0.885 0.772 0.655 0.796 0.719 0.484 0.685 0.567 違いによる影響を厳密解同士で比較すると,いずれのデータセットにおいてもK = 1, 3 のとき はλ = 0.01 の方が λ = 0.1 のときよりもやや高い F 値を示し,一方で K = 6, 12, 20 のときには λ = 0.1 の方が高い値を示していることが分かる.これは,λ が文のまとまりの個数に対するペ ナルティであり,λ が小さいほど大きなペナルティを与えていることによって説明できる.つ まり,K が小さいときは文のまとまりの個数が小さくなりがちな λ = 0.01 の方がよい結果を出 力し,K が大きいときはより多くのまとまりが出現することを許容する λ = 0.1 の方がよい結 果を出力していると考えられる.Moore による対応付け手法は単調性を仮定した手法であるた め,他の方法と比べると極端に F 値が悪くなっているのが確認できる. 次に提案手法で厳密解を求めたときと,列生成法による近似解を求めたときとの結果を比較 する.再現率,適合率,F 値の低下度合いは,今回の検証では最大で 0.08 ポイント程度の低下 におさまっていることが確認できた.特にλ = 0.1 のときはいずれのデータに対しても 0.03 ポ イント程度の低下におさまっている.なお,表 1 では列生成法のほうが厳密解法よりも再現率, 適合率,F 値が大きくなる結果が得られているが,これは目的関数と評価指標とが必ずしも一 致するわけではないことに起因すると考えられる. 厳密解法と列生成法との平均計算時間の比較を表 4 に示す.表より,CPLEX で数十秒から数 百秒かかっていた問題が列生成法によって数秒で解けていることが確認できる.すべてのデー タで 30 倍から 400 倍程度の高速化が達成できたが,特に変数の総数が多い対称データ,対応な しデータではほぼすべての設定で 100 倍以上の高速化が確認できた.表 5 に利用された変数の 数を示す.集合分割問題をそのまま整数線形計画問題ソルバによって解くと,今回扱ったよう な数十文程度の対応付けであっても 106個程度の変数を明示的に扱う必要がある.扱う変数の 個数が多いほどソルバによる求解には時間がかかるため,文の数が増加するとさらに求解に時 間がかかる可能性が高い.一方で列生成法を用いた場合は,最適解において非零になる可能性 がある変数しか扱わないため,最終的に利用された変数は 103個程度となり,問題をソルバで 素朴に解いた場合と比較して利用される変数の数が大幅に少ないことが分かる.問題中に出現 する変数の個数が少ないとソルバによって高速に解を求めることが可能であるため,列生成法
表 4 実行時間の比較 (a) 対称データ (λ = 0.1) 実行時間(秒) k = 1 K = 3 K = 6 K = 12 K = 20 SP+ILP 3.60 × 102 5.57 × 102 6.08 × 102 6.41 × 102 4.46 × 102 SP+CG 1.48 2.35 1.32 1.19 0.79 (b) 対称データ (λ = 0.01) 実行時間(秒) k = 1 K = 3 K = 6 K = 12 K = 20 SP+ILP 3.55 × 102 5.51 × 102 5.91 × 102 5.83 × 102 4.07 × 102 SP+CG 1.63 7.88 3.92 3.49 3.72 (c) 非対称データ (λ = 0.1) 実行時間(秒) K = 3 K = 6 K = 12 SP+ILP 8.80 × 10 9.04 × 10 1.10 × 103 SP+CG 2.03 1.09 2.31 (d) 非対称データ (λ = 0.01) 実行時間(秒) K = 3 K = 6 K = 12 SP+ILP 6.12 × 10 8.11 × 10 7.05 × 10 SP+CG 1.96 1.30 2.24 (e) 対応なしデータ (λ = 0.1) 実行時間(秒) K = 3 K = 6 K = 12 SP+ILP 4.11 × 102 4.26 × 102 4.61 × 102 SP+CG 1.58 1.38 1.09 (f) 対応なしデータ (λ = 0.01) 実行時間(秒) K = 3 K = 6 K = 12 SP+ILP 4.04 × 102 4.04 × 102 4.01 × 102 SP+CG 3.83 3.98 3.99 は高速に動作したと考えられる. 提案法は NP 困難問題である集合分割問題を解いているため,厳密解法の実行時間は問題サ イズに対して指数的に増加する.一方で,既存の単調性を仮定した動的計画法に基づく対訳文 アラインメント法は,問題サイズに対して多項式時間で動作する.そのため,提案法は列生成 法による近似解法を用いたとしても実行時間的には既存手法に対する優位性はない.一方で, 対訳文アラインメントはおもに対訳文コーパスを作成するために用いられる技術であり,コー パス生成に用いるために問題とならない速度で動作することが重要である.実験結果が示すよ うに,列生成法による対訳文アラインメント法は数十文からなる対訳文書の文アラインメント を数秒で行うことができるため,提案法は十分に実用に足る技術であるといえる. 最後に,対称データにおいて入力文のサイズを変化させたときの,厳密解法と列生成法の実 行時間の変化を図 5 に示す.図の横軸が入力のサイズであり,縦軸が実行時間を表す.なお, 実行時間が 3,600 秒を超えたら実験を打ち切りとしている.入力サイズが大きくなるほど,列 生成法と厳密解法の差が広がる傾向があることが分かる.
表 5 出現した変数の数の比較 (a) 対称データ (λ = 0.1) 変数の数 k = 1 K = 3 K = 6 K = 12 K = 20 SP+ILP 3.35 × 106 3.35 × 106 3.35 × 106 3.35 × 106 3.35 × 106 SP+CG 9.39 × 102 1.02 × 103 8.31 × 102 7.38 × 102 7.00 × 102 (b) 対称データ (λ = 0.01) 変数の数 k = 1 K = 3 K = 6 K = 12 K = 20 SP+ILP 3.35 × 106 3.35 × 106 3.35 × 106 3.35 × 106 3.35 × 106 SP+CG 1.02 × 103 1.50 × 103 1.10 × 103 1.12 × 103 1.21 × 103 (c) 非対称データ (λ = 0.1) 変数の数 K = 3 K = 6 K = 12 SP+ILP 1.50 × 106 1.50 × 106 1.50 × 106 SP+CG 7.14 × 102 7.18 × 102 5.90 × 102 (d) 非対称データ (λ = 0.01) 変数の数 K = 3 K = 6 K = 12 SP+ILP 1.50 × 106 1.50 × 106 1.50 × 106 SP+CG 9.24 × 102 8.35 × 102 9.09 × 102 (e) 対応なしデータ (λ = 0.1) 変数の数 K = 3 K = 6 K = 12 SP+ILP 3.35 × 106 3.35 × 106 3.35 × 106 SP+CG 9.30 × 102 8.89 × 102 7.65 × 102 (f) 対応なしデータ (λ = 0.01) 変数の数 K = 3 K = 6 K = 12 SP+ILP 3.35 × 106 3.35 × 106 3.35 × 106 SP+CG 1.27 × 103 1.17 × 103 1.10 × 103 0.01 0.1 1 10 100 1,000 10,000 0 100 200 300 400 500 600 図 5 入力サイズを変化させたときの実行時間の変化
7 おわりに
本論文では,対応付けの連続性を考慮しつつ非単調な系列アラインメントを求めるための方 法を提案した.集合分割問題として定式化し,整数線形計画法を用いて解くことによって,既 存手法では対応付けをとるのが難しい状況でも対応付けができることを示した.このような方 法は,特に単調性を仮定できないような文書対に対する対訳文アラインメントにおいて効果的 である.さらに,数理計画法の分野で大規模な問題を解く際に利用される技法である列生成法 を適用することによって,最適化問題を解くときに扱わなければならない変数の数および各変 数のスコアの計算に必要となる動的計画法の実行回数を劇的に減らすことができ,結果として 高速な求解を可能とした.参考文献
Braune, F. and Fraser, A. (2010). “Improved Unsupervised Sentence Alignment for Symmetrical and Asymmetrical Parallel Corpora.” In Proceedings of COLING 2010, pp. 81–89.
Brown, P. F., Petra, S. A. D., Pietra, V. J. D., and Mercer, R. L. (1993). “The Mathematics of Statistical Machine Translation: Parameter Estimation.” Computational Linguistics,19 (2), pp. 263–311.
Deng, Y., Kumar, S., and Byrne, W. (2007). “Segmentation and Alignment of Parallel Text for Statistical Machine Translation.” Natural Language Engineering,13 (3), pp. 235–260. Gale, W. A. and Church, K. W. (1993). “A Program for Aligning Sentences in Bilingual Corpora.”
Computational Linguistics,19 (1), pp. 75–102.
Korte, B. H. and Vygen, J. (2008). Combinatorial Optimization: Theory and Algorithms. Springer Verlag.
L¨ubbecke, M. E. and Desrosiers, J. (2005). “Selected Topics in Column Generation.” Operations
Research,53 (6), pp. 1007–1023.
Moore, R. C. (2002). “Fast and Accurate Sentence Alignment of Bilingual Corpora.” In
Proceed-ings of AMTA’02, pp. 135–144.
Nie, J.-Y., Simard, M., Isabelle, P., and Durand, R. (1999). “Cross-language Information Re-trieval Based on Parallel Texts and Automatic Mining of Parallel Texts from the Web.” In Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and
Development in Information Retrieval, pp. 74–81. ACM.
Och, F. J. and Ney, H. (2003). “A Systematic Comparison of Various Statistical Alignment Models.” Computational Linguistics,29 (1), pp. 19–51.
Qu, Z. and Liu, Y. (2012). “Sentence Dependency Tagging in Online Question Answering Fo-rums.” In Proceedings of the 50th Annual Meeting of the Association for Computational
Linguistics (Volume 1: Long Papers), pp. 554–562, Jeju Island, Korea. Association for
Com-putational Linguistics.
Quan, X., Kit, C., and Song, Y. (2013). “Non-Monotonic Sentence Alignment via Semisupervised Learning.” In Proceedings of the 51st Annual Meeting of the Association for Computational
Linguistics (Volume 1: Long Papers), pp. 622–630, Sofia, Bulgaria. Association for
Compu-tational Linguistics.
Smith, T. F. and Waterman, M. S. (1981). “Identification of Common Molecular Subsequences.”
Journal of Molecular Biology,147, pp. 195–197.
竹中要一,若尾岳志 (2012). 地方自治体の例規比較に用いる条文対応表の作成支援. 自然言語処 理,19 (3), pp. 193–212.
角田孝昭,乾孝司,山本幹雄 (2015). 対をなす二文書間における文対応関係の推定. 自然言語処 理,22 (1), pp. 27–58.
Wu, D. (1997). “Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora.” Computational Linguistics,23 (3), pp. 377–403.
略歴
西野 正彬:2008 年京都大学大学院情報学研究科修士課程修了.同年,日本電 信電話株式会社入社.現在,コミュニケーション科学基礎研究所研究員.自 然言語処理,アルゴリズムの研究に従事.博士(情報学).情報処理学会,人 工知能学会,言語処理学会,ACL 各会員. 鈴木 潤:1999 年慶應義塾大学理工学部数理科学科卒業.2001 年同大学院理 工学研究科計算機科学専攻修士課程修了.同年,日本電信電話株式会社入社. 2005年奈良先端大学院大学博士後期課程修了.2008–2009 年 MIT CSAIL 客 員研究員.現在,NTT コミュニケーション科学基礎研究所に所属.博士(工 学).主として自然言語処理,機械学習に関する研究に従事.ACL,情報処理 学会,言語処理学会各会員. 梅谷 俊治:1998 年大阪大学大学院基礎工学研究科博士前期課程修了.2002 年 京都大学大学院情報学研究科博士後期課程指導認定退学.博士(情報学).豊 田工業大学助手,電気通信大学助教を経て,現在,大阪大学大学院情報科学 研究科准教授.組合せ最適化の研究に従事.日本オペレーションズ・リサー チ学会,情報処理学会,人工知能学会,INFORMS,MOS,AAAI 各会員.平尾 努:1995 年関西大学工学部電気工学科卒業.1997 年奈良先端科学技術 大学院大学情報科学研究科博士前期課程修了.同年株式会社 NTT データ入 社.2000 年より NTT コミュニケーション科学基礎研究所に所属.博士(工 学).自然言語処理の研究に従事.言語処理学会,情報処理学会,ACL 各会員. 永田 昌明:1987 年京都大学大学院工学研究科修士課程修了.同年,日本電信 電話株式会社入社.現在,コミュニケーション科学研究所 主幹研究員(上席 特別研究員).工学博士.統計的自然言語処理の研究に従事.電子情報通信学 会,情報処理学会,人工知能学会,言語処理学会,ACL 各会員. (2015 年 9 月 2 日 受付) (2015 年 11 月 5 日 再受付) (2015 年 12 月 3 日 採録)