1.は じ め に
人工知能の研究領域,特に著者が対象としている自然 言語処理は「工学」である.世界の真理を発見すること を目標としている「理学」と違い,いかに人の役に立つ もの,喜ぶものをつくれるかということを最終目標とし ており,そのための基礎技術や応用技術を開発している. このような研究分野における究極の評価方法は,つくっ たものをユーザに提示し,役に立つかどうか,面白いも のかどうかを評価してもらうということである.しかし, この方法は評価に時間と費用を要するため,現実的には 難しい.そのために代用として出来上がったのがベンチ マークと呼ばれるものである.特にコンポーネントのベ ンチマークが有効となる前提として,人の役に立つもの を大きな形で設計し,それをコンポーネントに分解して, それぞれのコンポーネントがどのくらい期待されている 能力を出せるかを評価することで,技術の進展などの客 観的な評価ができるということがある.この前提は大方 正しいように見えるが,このような前提には重要な問題 が 2 点ある. まず 1 点目は,大きな目標の設定とそのコンポーネン ト化の正当性である.自然言語処理における大きな目標 とは,例えば機械翻訳や対話システムということになる が,それだけでは漠然としている.例えば機械翻訳の場 合には,どのような対象の文章をどのような目的で利用 するためにどのような翻訳をしたいのかが設定できない と本当に求めている翻訳システムの定義ができない.対 話システムにおいては,目的志向なのか暇つぶしの会話 をしたいのか,誰を対象とした対話なのか,モダルは音 声なのかテキストなのかなどで目標が大きく変化する. そして,そのような目標を立てられたとしても,その中 のコンポーネントの切出しが本当に正しいのか,元々そ のようなコンポーネントは最適に設計し得るものなのか というような問題がある.これはタスクとコンポーネン トのトップダウン的な設計の問題である. 二つ目の問題は,ボトムアップ的な形での問題になる. たとえコンポーネントがうまく設計され得たとしても, そのコンポーネントの最適化が全体の最適化につながっ ているのかという開発者視点の問題がある.この問題を 認識しないでコンポーネントのスコアの最適化だけに取 り組む姿勢はベンチマークにおける大きな問題であると 著者は考えている. 著者は 1998 年に自然言語処理分野におけるベンチ マークのさきがけとなる IREX というプロジェクトを運 営した [IREX].日米の 45 団体が参加し,情報検索と 情報抽出のサブタスクである固有表現抽出の評価型ワー クショップ(ベンチマーク)を行った.このプロジェ クトの最終報告会は,現在も開催されている NTCIR [NTCIR]の 1 回目と合同で開催したが,IREX および NTCIR-1の予稿集に記載されている目標を重ね合わせ ると,この二つのプロジェクトが当時考えていた目標は ほぼ以下の 3 点にまとめられる. (1)データコレクションの作成 (2)研究者の交流,拡大 (3)研究の推進 それぞれの目標がどのようにどこまで達成されたか という点はこの記事の後半で分析するが,このようなベ ンチマークを設計するオーガナイザ,および参加する参 加者,それを評価する方々は,このような視点を自覚的 に認識することが非常に重要であると著者は考えている. また,著者は 2014 年に Project Next NLP というプ ロジェクトを,200 人を超える参加者とともに推進した [Project Next NLP].これは,自然言語処理が,単なる 機械学習を使った最適化問題に陥っているのではないか という危機感に端を発し,実際に我々がやっている研究 を見つめ直すことで,上記のボトムアップ的な問題点の 解決の示唆が得られるかもしれないと考えたためであ自然言語処理におけるベンチマークと研究
─エラー分析ワークショップを通じて─
Benchmark Test and Research Strategy in NLP
─ Discussion Based on the Experience of Error Analysis Workshop ─
関根 聡
ニューヨーク大学Satoshi Sekine New York University.
[email protected], http://nlp.cs.nyu.edu/sekine
Keywords:
benchmark, evaluation based workshop, error analysis, natural language processing. 「人工知能研究のベンチマークとは─標準問題・データセット・評価手法─」る.非常に多くの参加者を得たことは,この危機感が多 くの研究者に共有されており,自然言語処理の研究分野 を本当の意味で先に進める方法論の一つとしての重要性 を感じていただいたためと思っている.この活動につい ても本記事において簡単に触れる.
2.そもそも研究対象は何なのか
自然言語処理の研究課題は細分化され,一人の研究者 が全体を見渡すことが非常に難しくなっている.例えば, 形態素解析の研究者が同時に機械マニュアルの情報構造 化を研究していることや,曖昧性解消の研究者が言換え の研究を同時に推進していることはまれである.しかし, 自然言語処理の究極の目標が人に役立つものをつくるこ とであるとしたら,全体的なシステムにおいて,そのよ うな上流過程と下流過程の関係や,自分のタスクの裏側 にある関係したタスクを知っておくことは非常に重要で ある.機械マニュアルの情報構造化のための最適な形態 素解析システムと,バイオ関係の翻訳システムのための 形態素解析システムの最適な在り方は全く異なるかもし れないからである. 反面,もし形態素解析システムを対象としている応 用システムごとにつくらなければならないとしたら,無 数の形態素解析システムをつくらなければならないこと になる.したがって,ある程度の共有化をし,さまざま な応用システムで使えるコンポーネント化された形態素 解析システムをつくることは効率化の観点から重要であ る.この点は,ベンチマークの設計においても全く同じ ことがいえる.理想的には,応用システムまでつくり上 げそのシステムがユーザを満足させられるかどうかで評 価は行うべきであるが,そうなると全体システムと評価 が 1 対 1 で対応するしかなく,とても労力がかかる仕 事になってしまう.ある程度の共有可能なタスクをコン ポーネントとして設定し,そのうえでの精度向上を目指し ていくことが,研究分野全体の効率化では必要であろう. このような背景を鑑みると,重要なのは,「まずベン チマークありき」や「コンポーネントありき」ではな く,「全体システムの中での効率的なタスクの切取り」 としてコンポーネントがあり,そこにベンチマークが存 在しているという事実である.それは何も,現在一般に 認識されている形態素解析や構文解析というタスクの切 取り方を否定しているわけではない.コンポーネントの 意義をきちんと認識し,それは最終的な応用に対して相 対的に決められるべきことであるという認識をもつこと がとても重要である.特に若い研究者においては,「形 態素解析の研究において最も重要なのは,与えられたベ ンチマークテストの定義に従い,それを最高精度ででき る技術の開発である」という認識も一部にあるような印 象を受ける.これは与えられたタスクの最適化の課題で しかなく,そのような認識をもっているだけでは,自然 言語処理の研究者のマインドとしては不十分である.3.ベンチマークの目標
評価型プロジェクト(ベンチマーク)が日本で始まっ た当初,どのようなことが目的でこの試みが始まった か,NTCIR-1 の予稿集と IREX の予稿集をひもといて みた [IREX, NTCIR].それぞれ NTCIR の目的は四つ,IREXは五つに箇条書きで述べられているが,総合する とほぼ以下の 3 点にまとめられる.それぞれのポイント について現状を分析してみる(当時は「ベンチマーク」 を「評価型ワークショップ」と呼んでいた.本章では当 時の表現をそのまま用いる). 3・1 データコレクションの作成 少なくとも,情報検索,要約,質問応答,用語抽出, 固有表現抽出などの分野で,評価型ワークショップで作 成されたデータは,それ以前には存在していない規模や 内容のものであり,現在は各分野の研究で広く使用され ている.データコレクションを作成し,それを幅広い人 に使ってもらい,研究の推進に役立てたいという当初の 目的は達成されていると考える.しかし,反面,与えら れたデータを使うだけで,データの意義や問題を直視し 考えるきっかけが失われかねないという危惧がある. 3・2 研究者の交流,拡大 評価型ワークショップが存在していない状態では研究 推進が困難であった若い学生や,言語横断タスクなどへ の国内外の参加者が,幅広く評価型ワークショップに集 い,研究者の交流が行われている状態は非常に望ましい ものであると思う.この点も目的は達成されていると考 えられる.しかし,数多くの参加者が集まり,評価が行わ れたというそのこと自体がワークショップの成功の基準 ではない.参加者間での刺激が新しい技術の開発や新し い研究の芽の発見につながることが重要である.その点 が十分達成されているかどうか判断するのは難しい.ま たその目的のためには「自分の頭で考える」積極的な参 加者が増え,その間での交流こそが重要なのだと考える. 3・3 研 究 の 推 進 評価型ワークショップにおける参加者の最終的な目標 は,新しい技術の開発や新しい研究の芽を見つけ,自然 言語に関する技術の発展を実現することのはずである. しかし,著者の知る限り,現在の評価型ワークショップ では,既存の技術をチューニングさせたり,知識の量を 労力によって増やしたり,非常に優れているといわれる 他の人の技術をもってきたりするだけでシステムを作成 し,順位を競っていたり,参加することにのみ意義を見 いだしている参加者が少なからずいるように思う.また, 主催者側にも,主催すること自体が目的となってしまっ
ていて,自分の研究目的なり問題意識をもとに,その解 決の手段としてワークショップを主催しているという意 識が薄い場合もあるように思える.参加者も主催者も研 究の推進が最終目的であり,そのためのワークショップ への参加であり,そのための主催であるという認識を常 にもち続けることが必要であると思う.
4.ベンチマークの功罪
すでにここまででも,ベンチマークの功罪についての 考えを述べているが,本章においてベンチマークの功罪 を整理して議論したい. 4・1 宣伝効果としてのベンチマーク わかりやすいベンチマークの宣伝効果は絶大である. 自然言語処理関係でも,日本では NTCIR,海外では DARPAのさまざまなプロジェクトや CoNLL [CoNLL] を始め,大小合わせてさまざまなベンチマークがある. 研究者がそこで優秀な成績を取ることで,システムや研 究成果のある意味での価値を容易に伝えることができ る.また,適切なベンチマークを設定することで研究者 内だけの評価ではなく一般の方に対しての宣伝効果も期 待できる.例えば,非常に難しいクイズ番組のチャンピ オンを破るシステムや,難しい大学入試に挑戦するシス テムなどは,一般の方にも理解しやすく,自然言語処理 や人工知能のレベルの理解,研究活動の理解に大きく貢 献している.これらの活動が研究的に,つまり技術の高 度化や一般化に役に立っているかどうかは疑問を抱かざ るを得ない場合もあるが,そうであっても宣伝効果は無 視できない.研究推進には費用がかかり,研究のための 予算を得るためには,一般の方に夢を伝えることもとて も重要で必要な活動である.研究分野全体として,内に こもって技術の高度化のみに集中するのではなく,宣伝 と割り切った形での活動も,一般の方に向けた効果だけ ではなく,研究者にとっても非常に重要である. 4・2 ベンチマークのタスク設計 自然言語処理の場合には,最終目標が個別的であり, その目標に達するには数多くのコンポーネント技術が必 要であるため,最終目標自身をベンチマークのゴールに 決めることは比較的難しい.これは,ロボット,統計的 最適化問題やユーザインタフェースのベンチマークと は異なる点である.ロボットによる特定の作業,自動運 転,統計的最適化を用いた映画のレーティングの予測や 画像処理における物体認識においては,それ自体を最終 目標としたベンチマークをつくることによって,直接的 に工学として役に立つシステムの技術的な貢献をするこ とができる.それに対して自然言語処理では,書き言葉 の入力であれば形態素解析技術が,音声入力であれば音 声認識が必要であることから始まり,構文的または意味 的な解析が多層にわたり必要となる.このような状況下 でベンチマークを行う際には,そのコンポーネント技術 として,最終目標に向けて有益で適切なコンポーネント を切り出し,ベンチマークのタスクとして設定すること が非常に重要である.また,このような設計こそが本当 の意味での研究につながるので,この部分への多くの人 の参加が必要である.特に,効率的なベンチマークを設 計するためには,多くの最終目標に役に立つタスクをつ くることが重要であり,そのためには多くの人の経験や 目標の共有が必須になってくる.例えば,著者が行っ た IREX では,タスクの設計は物理的なミーティングや 200通を超えるメーリングリストの議論を通してまとめ あげていった.このようなメイリングリストでは発言す る参加者が限られてくることがままあるが,それでも, 定義の過程を参加者と共有することで,議論に参加しな い参加者にもタスクの意義や設定した背景が共有でき, 本来の意味の研究を促すことができる.オーガナイザに よる適切なリードと客観的な視点からのタスク設計を参 加者と共有することは,ベンチマークの成功のためには 欠かせない部分だと思う. 4・3 最適化は研究なのか 実際にベンチマークを行うと,オーガナイザの意図し なかった方も含めて多くのタスク参加者が集まることが 多く,実際の関係者の大部分はいわゆるタスク参加者で あることが多い.前節に書いたように,オーガナイザの 適切なリーダーシップにより,本質的な研究の部分に参 加者を誘導し,タスク設計などに積極的に参加してもら うことが重要ではあるがなかなか難しい.現実的には, 与えられたタスクをそのまま受け取り,機械学習ツール などを駆使して最適化に集中し好成績を収めることを目 標にしているだけの参加者がほとんどである.コンポー ネントの本質的な精度向上は望ましくないわけはない. しかし,さまざまな機械学習の手法を試し,さまざまな 考え得る素性を試してその最適化をすることは,本質的 に自然言語処理の研究の推進につながっているのかは著 者にははなはだ疑問である.機械学習の専門家ならばそ れは本質的な研究であろう.しかし,出来合いの機械 学習のツールを適応し,ベンチマークにおいて最も高い 精度を得たからといって何か自然言語処理の研究に役に 立っているのか本当のところわからない.すでに述べた とおり,自然言語処理では一つのコンポーネントのツー ルがオールマイティーにさまざまな最終目標である応用 に役に立つことは珍しい.そういった中,偶然に切り取 られた一つのタスクにおいての最適化をしたところで, それが自然言語処理の研究においてどのような進展が得 られたことになるのだろうか. 4・4 ベンチマークを通じた若手の育成 自然言語処理の研究はまだまだ道のりが遠い.そのような状況においては若手の育成は非常に重要な課題で あり,それなしには本当の意味で自然言語処理が世の中 の役に立つという状況にはなり得ない.そのような状況 では,若手がやる気をもつ施策やプロジェクトが必要に なってくる.若手にとって,ベンチマークで好成績を収 めて目立つことは大きな研究の動機付けにつながる.こ れは多くの若者にとって歴然とした事実であって,それ を否定してストイックな研究だけを求めても,やる気を もって研究に取り組む若者が減っていくのは避けられな い.そういった意味でのベンチマークの存在意義は非常 に高いと思う.そこで,ベンチマークを否定するのでは なく,うまく利用する方法を考えるべきだと思う.例え ば,修士の学生などがベンチマークに興味をもって参加 するのは大きな心で歓迎し,経験を積む機会とすること が一つのやり方かもしれない.その際にも,タスクを設 定する場面を若手にも公開し,本当の研究につながる重 要な判断がどのように行われているかを見せていくこと が若手研究者の教育につながるのではないかと思われる.
5.ベンチマークとエラー分析
著 者 は 2014 年 か ら 2015 年 に か け て Project Next NLPと い う プ ロ ジ ェ ク ト を 推 進 し た [Project Next NLP].本プロジェクトはエラー分析を通じて自然言語 処理技術の方向性を考える目的で,ボランティアベース で 200 名を超える研究者が何らかの形で参加して行われ た.自然言語処理において重要な基礎技術,要素技術, 応用技術について 18 個の技術に分け,それぞれの研究 をしている研究者が集い,協調的に各分野の技術の分析 を行った.分析の方法を各グループに委ねたところ,さ まざまな方法での分析が行われ,エラー分析の方法論の 研究という側面ももっている.本プロジェクトの背景は 以下のようなものである.プロジェクトのホームページ からそのまま引用する. ─ Project Next NLP の背景─科学技術が“trial and error”によって進展してき たことは間違いありません.この“trial and error” を科学技術の効率的な発展につなげるためには,偶 然の産物を求めた無作為な試行の繰り返しではなく, 「error を深く分析し次の有効な trial につなげる」プ ロセスが重要であると我々は考えています. 自然言語処理の技術は,様々な応用を目指して進ん できました.1960 年代には対話技術が,70 年代には 情報検索技術が,80 年代には情報抽出,要約技術が, 2000年頃からは質問応答が盛んに研究されてきまし たが,それらすべての応用システムの精度は 60% 程 度まで達成した後にそれ以上の精度向上が見られない まま,新たな応用を求めて移ろって来たという歴史が あります.90 年代から始まった大規模なコーパスを 元にした経験的な手法により新たな展開が生まれ,統 計手法や機械学習を巻き込み発展してきた事は事実で すが,未だ 60% の精度の先に必要とされているものの 正体がきちんと見えているとは言いがたい状況です. そこで,この問題の正体を明らかにするために,様々 な言語処理技術においてしっかりとしたエラー分析を 行い,次に対処すべき課題を明確にする事は非常に 重要だと思います.言語処理技術の各領域においてエ ラー分析はこれまでも個別の研究の一部として個々の 研究者が行ってきていますが,そのほとんどは特定の タスクにおける特定のシステム・手法を対象とするも ので,システム・手法に固有の問題が混在した形で課 題が明らかにされてきただけでした.このプロジェク トでは,それぞれのタスクについて複数のシステムで エラー分析を行う事で,そのタスクにおいて共通に重 要な問題点を明らかにしていきたいと考えます.また, 一つのタスクだけではなく,多くのタスクのエラー分 析を同時に行う事で自然言語処理全体における問題点 の列挙ができるものと考えます.このような大規模な エラー分析は過去に経験がなく,どのような結果が得 られるのかやってみないと分からない部分もあります が,今後の自然言語処理研究の方向性を決めるために 重要なデータになる事は間違いないと思われます.一 人でも多くの研究者に今回のワークショップに参加し ていただき,自然言語処理研究における次なる展開に つなげていくことを期待しています. このような背景のもと,1 年にわたってプロジェクト は進められた.多くの研究者が参加し,考え,議論をし, 発表をしたこの機会は,特に積極的に考えた参加者に とっては,単なるベンチマークに参加する以上のものが 得られたのではないかと考えている.まずは,言うまで もなく研究において「エラー分析」が重要であるという 点の再認識である.今回の参加者の声の中にも「エラー 分析は思った以上に大変でした」という意見も聞かれた. これは,そのような経験をしていただいて良かったと思 う反面,これまで「エラー分析」をしないで研究してい たのではないかという疑問をもつことになり複雑な気持 ちになった.さまざまな機械学習手法を適応したり,素 性を組み合わせてツールを走らせたりするだけの「作業」 ではなく,自分のシステムのエラーを分析し,その結果 を元に新たなアイディアを練り,それをできる限り最適 な形で実現するという「研究」を行っていなかったとい う証拠である.そういった意味で,自覚的にエラー分析 をし,その意義を感じた研究者が今後の研究に,この経 験を生かしてくれることを祈る. また,今回のエラー分析は,それぞれのタスクを研究 している研究者が集い,協調的にエラー分析を行った. この機会を通して,同じ対象を研究している研究者同士 が,論文を読み合ったり,ベンチマークで競い合ったり
という従来の方法とは異なるつながり方ができたものと 思う.いくつかのタスクでは,参加者が実際に集まる機 会を何度も設け,同じデータに対する分析結果を交換し 議論していた.また,エラー分析に基づきベンチマーク を設定したタスクも存在した.数多くの参加者によるエ ラー分析を比較し,本質的な問題に迫っていく研究成果 をあげたタスクもあった.このように,今回の試みは, 自然言語処理技術のタスクを対象とした 18 ものエラー 分析を行ったため,本分野におけるエラー分析手法の研 究という側面もある.その内容を詳しく書くのは別の機 会に譲ることにするが,具体的には以下のような興味深 い結果が見られた. ● システムの入力と出力のみを見て分析を行うブラッ クボックス分析と,システムの中のデータの動きを 分析するホワイトボックス分析の手法があり,タス クに応じた適切な手法を使う必要がある. ● 主観的な判断が必要な場合に,多くの参加者に何のイ ンストラクションも与えずにエラーの原因をあげるこ とをしてもらった結果,その分析視点がかなり幅広 く,タスクの見方に多面性があることが理解できた. ● あるタスクにおいて,知識の欠如(例えば,形態素 解析における未知語の問題)などの既知の大きな問 題がある場合,その問題が解決したと仮定して(つ まり,テストデータの中の単語に未知語はない状態 をつくって)システムを走らせることにより,その 知識の意義と他の問題のあぶり出しができた. ● シンプルな方法である程度の精度が出るタスクの場 合,その方法で作成したシステムに対してエラー分 析することで,本質的な問題の発見ができた. ● 複雑な応用システムの分析を行う場合には,ある側 面に絞ってエラー分析をすることが重要である. ● タスク間の関連性に配慮を払い,そのタスクが他の タスクのどのような問題に起因したエラーを生んで いるのかを分析することが重要である. ● システムを走らせてそのエラーを分析するだけでは なく,そのタスクをタスクとして観察し,そこに必 要な技術や知識を列挙し,その分布を見るだけでも, 非常に面白い分析となる. 単なるベンチマークのプロジェクトで見られるよう に,オーガナイザが独自にベンチマークのタスクを設計 し,それを参加者がそのまま受け止め,システムの最適 化をするだけのベンチマークの参加という形ではなく, 本プロジェクトでは,より効果的に研究対象について考 える機会ができ,より本質に迫る研究の機会になったの ではないかと思う. ベンチマークにおいてもエラー分析を行うことを積極 的に推奨する仕組みなどを考えてもよいと思う.国際的 に行われている RTE という含意表現のベンチマークで は,Ablation text(使っている素性を一つずつ引いてシ ステムをつくった場合の性能評価)を実施することを義 務化している.少なくとも,最適化に力を注ぎ高い精度 を求め,その結果を分析もせずに先に進むようなことの ないようにオーガナイザは注意を払うことが重要だと思 われる.
6.今 後 へ の 提 言
最後に,現状のベンチマークを改良していく方向での 具体的な提案を行いたい.今後のベンチマークの設計に 興味をもつ人が議論を始めるためのきっかけとなれば幸 いである. 6・1 問題,テーマのボトムアップな設定 すでに述べたように,自然言語処理を含めた人工知能 の分野における研究とは,ベンチマークに参加して良い 得点を取るだけのことではなく,極端にいえば,適切な 課題を設計することであるといえる.したがって,ベン チマークには自然言語処理の応用システムや技術に対す る夢や自分の考えが必要であり,その夢をぶつけ合い, その実現への道のりを設計する場が必要である.例えば, 同じような夢をもつ者が集まり「ロードマップワーキン ググループ」といった場で次の課題を議論するのが一つ であると思う.ワーキンググループに参加者が積極的に 集い,新しい課題への議論が活発に行われる状態が理想 的である.参加者は何も多数である必要はない.同じ課 題に多くの積極的な参加者が集まるという状態は,もし かしたら逆に危惧されるべき状態であるかもしれない. とにかく,課題を設計するワーキンググループもなく, オーガナイザと呼ばれる人達がほぼ絶対的に課題を決め てしまうベンチマークは非常に危険であり,場合によっ ては単に「こなす」だけのイベントでしかないように思 われる. しかし,現実的問題として,ロードマップワーキング グループをつくってそこで議論するだけでは,やはり若 い研究者の参加に障壁をつくりかねず,例えば,オープ ンな課題の設定のためだけのワークショップがあっても よいように思う.そこでは,課題やデータのデザインを 議論したり,ベンチマークでつくったデータコレクショ ンの性質,問題点などを分析し,新しいデザインのため の予備調査をしたりする.そういった論文を公募して, 予稿集などを出すことによって,若い研究者も主体的に 議論に参加できる設定を整えることを目指すと若手の育 成のためにも役に立つのではないだろうか. 6・2 応用を考えた運営 自然言語処理を含めた人工知能分野の研究は,人間に 役に立つシステムを作成することが究極の目標であり, すべての課題は何らかの応用につながっていると考えら れる.特に,現在,ベンチマークとして課題になってい るようなものは,非常に応用に近い位置にあり,それがどのようなユーザにどのように使われるのかということ を心に描いて実現することが必要である.実際のユーザ を招聘し,そのユーザの満足度を評価の基準を作成する 際の参考にするという方法も検討の価値があると思う. 6・3 参加者はできる限りの情報を公開する 現実的な問題として,著作権や企業秘密などの問題 はあるが,目的の一つが研究者の交流であることを考え ると,究極的には,ベンチマークに参加したグループは 開発したプログラムやデータを公開することが望まし い.例えば,IREX の発表ワークショップではシステム 発表以外に,さまざまなアンケート項目を事前に用意 し,すべてのシステムの深い評価結果の分析を行った. TMRECでも,横断的な結果の分析にかなりの労力が払 われている.しかしながら,どうしても参加者のシステ ムの詳細がわからないことには分析が進まないことが経 験上わかった.研究者の交流とは,一緒に集い雑談レベ ルで研究の話をするのではなく,結果の分析や分析に基 づいた改良や新しい問題の発見こそが交流の本当の意義 であり,研究の推進につながると考える.プログラムや データの公開を参加者に義務付けるなり,公開する参加 者に特典を与えるなどの処置があるとよいように思う. 6・4 ワークショップの期間について考える ワークショップが連続的に行われている場合,その間 隔は重要である.あまり間隔が長いと参加への熱が冷め てしまうが,あまり間隔が短いといわゆる研究を行う間 もなく次のタスクに取り組まなければならない.そのま までは,新しい試みに挑戦することができず,学生が既 存ツールを用いてタスクをこなすだけという状況になり かねない.また,新しい課題を提案し議論していく期間 も非常に重要である.ある程度のデータができたならば, それと同じような課題を繰り返し行うことの意義はあま りないのではないだろうか.その課題で研究を続けてい きたい人は,そのデータを常に使い続けて性能の向上を 見ていけばよい.新しいデータは新しい問題が見つかり, その角度から課題やデータを見直す必要ができたときに 必要になってくるものではないだろうか. 6・5 参加者の投票による優秀賞の設定 数値的な評価の弊害を除去するために,数値だけで はない評価基準をつくることも面白いのではないだろう か.既存の技術の洗練による最高点よりも,新しいアイ ディアや挑戦的な試みのほうをより高く評価すべきであ ると考えるためである.評価が終了したら参加者は他の すべてのシステムについての論文を細かく読み,新しい アイディアや挑戦的な試みを行っているものに対して高 い評価を与えるような仕組みを導入する.これは,参加 者にモティベーションをもってもらう効果とともに,す べての参加者が他のシステムをしっかり調べなければな らないことからくる,本当の意味での研究交流の促進が 期待できる. 6・6 ベンチマークの次の活動へのアドバイス Project Next NLPでは,著者のベンチマーク運営の 経験や,ベンチマークに基づいた研究推進への危惧が一 つの原動力となり,そこにあるべき研究の流れを自然な 形で考えた結果,エラー分析という課題に辿り着き,多 くの賛同を得てプロジェクトが推進できた.このような プロジェクトは,まさに,多くの自然言語処理の研究者 がベンチマークの弊害に気が付き,何らかの次のステッ プが必要という“もわっとした”倦怠感が生んだもので あり,いってみれば「期が熟していた」という背景があ ると著者は考えている.そこに至るには,多くのベンチ マーク主催者の努力や,研究者同士の議論,ワークショッ プでの活発な話し合いなどがあった.ベンチマークの次 の活動が「エラー分析」だけであるとは限らない.その ような活動の種類は分野によっても違うかもしれない し,まさに「期」を計り,よく考える必要がある.今回 の Project Next NLP が,このような大きな活動にする ことを狙っていたわけでもなく,「必要である」という 考えを声に出してみたら多くの賛同者を得たというのが 現実である.人工知能の他の分野でも,「ベンチマーク がある」,「ベンチマークを企画する」,「ベンチマークに 参加する」というところで思考停止するのではなく,そ れがどのように自分のやりたい研究に影響しているの か,自分の夢を実現するにはどのような活動を自分はし たいのか,それは他の人も共有できる問題なのか,そし てそれは他の人の夢をも実現する活動なのかを考え,何 か思いついた際には,声に出して語ってみることが,そ のような「次の活動」を実現していく方法だと思う.
◇ 参 考 文 献 ◇
[CoNLL] http://ifarm.nl/signll/conll/ [IREX] http://nlp.cs.nyu.edu/irex/ [NTCIR] http://research.nii.ac.jp/ntcir/index-en.html [Project Next NLP] https://sites.google.com/site/projectnextnlp/
2016年 1 月 18 日 受理
著 者 紹 介
関根 聡(正会員)
New York University Associate Research Professor. 1998年 NYU Ph D. 松下電器産業(株),University of Manchester,(株)ソニー CSL,MSR,楽天技 術研究所ニューヨークなどでの研究職を歴任.ラン ゲージ・クラフト代表.専門は自然言語処理,特に 情報抽出,固有表現抽出,質問応答の研究に従事.