自然言語処理におけるベンチマークと研究 : エラー分析ワークショップを通じて(<特集>人工知能研究のベンチマークとは-標準問題・データセット・評価手法-)

(1)

1．は　じ　め　に

人工知能の研究領域，特に著者が対象としている自然言語処理は「工学」である．世界の真理を発見することを目標としている「理学」と違い，いかに人の役に立つもの，喜ぶものをつくれるかということを最終目標としており，そのための基礎技術や応用技術を開発している．このような研究分野における究極の評価方法は，つくったものをユーザに提示し，役に立つかどうか，面白いものかどうかを評価してもらうということである．しかし，この方法は評価に時間と費用を要するため，現実的には難しい．そのために代用として出来上がったのがベンチマークと呼ばれるものである．特にコンポーネントのベンチマークが有効となる前提として，人の役に立つものを大きな形で設計し，それをコンポーネントに分解して，それぞれのコンポーネントがどのくらい期待されている能力を出せるかを評価することで，技術の進展などの客観的な評価ができるということがある．この前提は大方正しいように見えるが，このような前提には重要な問題が 2 点ある．まず 1 点目は，大きな目標の設定とそのコンポーネント化の正当性である．自然言語処理における大きな目標とは，例えば機械翻訳や対話システムということになるが，それだけでは漠然としている．例えば機械翻訳の場合には，どのような対象の文章をどのような目的で利用するためにどのような翻訳をしたいのかが設定できないと本当に求めている翻訳システムの定義ができない．対話システムにおいては，目的志向なのか暇つぶしの会話をしたいのか，誰を対象とした対話なのか，モダルは音声なのかテキストなのかなどで目標が大きく変化する．そして，そのような目標を立てられたとしても，その中のコンポーネントの切出しが本当に正しいのか，元々そのようなコンポーネントは最適に設計し得るものなのかというような問題がある．これはタスクとコンポーネントのトップダウン的な設計の問題である．二つ目の問題は，ボトムアップ的な形での問題になる．たとえコンポーネントがうまく設計され得たとしても，そのコンポーネントの最適化が全体の最適化につながっているのかという開発者視点の問題がある．この問題を認識しないでコンポーネントのスコアの最適化だけに取り組む姿勢はベンチマークにおける大きな問題であると著者は考えている．著者は 1998 年に自然言語処理分野におけるベンチマークのさきがけとなる IREX というプロジェクトを運営した [IREX]．日米の 45 団体が参加し，情報検索と情報抽出のサブタスクである固有表現抽出の評価型ワークショップ（ベンチマーク）を行った．このプロジェクトの最終報告会は，現在も開催されている NTCIR [NTCIR]の 1 回目と合同で開催したが，IREX および NTCIR-1の予稿集に記載されている目標を重ね合わせると，この二つのプロジェクトが当時考えていた目標はほぼ以下の 3 点にまとめられる．（1）データコレクションの作成（2）研究者の交流，拡大（3）研究の推進それぞれの目標がどのようにどこまで達成されたかという点はこの記事の後半で分析するが，このようなベンチマークを設計するオーガナイザ，および参加する参加者，それを評価する方々は，このような視点を自覚的に認識することが非常に重要であると著者は考えている．また，著者は 2014 年に Project Next NLP というプロジェクトを，200 人を超える参加者とともに推進した [Project Next NLP]．これは，自然言語処理が，単なる機械学習を使った最適化問題に陥っているのではないかという危機感に端を発し，実際に我々がやっている研究を見つめ直すことで，上記のボトムアップ的な問題点の解決の示唆が得られるかもしれないと考えたためであ

自然言語処理におけるベンチマークと研究

─エラー分析ワークショップを通じて─

Benchmark Test and Research Strategy in NLP

　─ Discussion Based on the Experience of Error Analysis Workshop ─

関根　　聡

ニューヨーク大学

Satoshi Sekine New York University.

[email protected], http://nlp.cs.nyu.edu/sekine

Keywords:

benchmark, evaluation based workshop, error analysis, natural language processing. 「人工知能研究のベンチマークとは─標準問題・データセット・評価手法─」

(2)

る．非常に多くの参加者を得たことは，この危機感が多くの研究者に共有されており，自然言語処理の研究分野を本当の意味で先に進める方法論の一つとしての重要性を感じていただいたためと思っている．この活動についても本記事において簡単に触れる．

2．そもそも研究対象は何なのか

自然言語処理の研究課題は細分化され，一人の研究者が全体を見渡すことが非常に難しくなっている．例えば，形態素解析の研究者が同時に機械マニュアルの情報構造化を研究していることや，曖昧性解消の研究者が言換えの研究を同時に推進していることはまれである．しかし，自然言語処理の究極の目標が人に役立つものをつくることであるとしたら，全体的なシステムにおいて，そのような上流過程と下流過程の関係や，自分のタスクの裏側にある関係したタスクを知っておくことは非常に重要である．機械マニュアルの情報構造化のための最適な形態素解析システムと，バイオ関係の翻訳システムのための形態素解析システムの最適な在り方は全く異なるかもしれないからである．反面，もし形態素解析システムを対象としている応用システムごとにつくらなければならないとしたら，無数の形態素解析システムをつくらなければならないことになる．したがって，ある程度の共有化をし，さまざまな応用システムで使えるコンポーネント化された形態素解析システムをつくることは効率化の観点から重要である．この点は，ベンチマークの設計においても全く同じことがいえる．理想的には，応用システムまでつくり上げそのシステムがユーザを満足させられるかどうかで評価は行うべきであるが，そうなると全体システムと評価が 1 対 1 で対応するしかなく，とても労力がかかる仕事になってしまう．ある程度の共有可能なタスクをコンポーネントとして設定し，そのうえでの精度向上を目指していくことが，研究分野全体の効率化では必要であろう．このような背景を鑑みると，重要なのは，「まずベンチマークありき」や「コンポーネントありき」ではなく，「全体システムの中での効率的なタスクの切取り」としてコンポーネントがあり，そこにベンチマークが存在しているという事実である．それは何も，現在一般に認識されている形態素解析や構文解析というタスクの切取り方を否定しているわけではない．コンポーネントの意義をきちんと認識し，それは最終的な応用に対して相対的に決められるべきことであるという認識をもつことがとても重要である．特に若い研究者においては，「形態素解析の研究において最も重要なのは，与えられたベンチマークテストの定義に従い，それを最高精度でできる技術の開発である」という認識も一部にあるような印象を受ける．これは与えられたタスクの最適化の課題でしかなく，そのような認識をもっているだけでは，自然言語処理の研究者のマインドとしては不十分である．

3．ベンチマークの目標

評価型プロジェクト（ベンチマーク）が日本で始まった当初，どのようなことが目的でこの試みが始まったか，NTCIR-1 の予稿集と IREX の予稿集をひもといてみた [IREX, NTCIR]．それぞれ NTCIR の目的は四つ，

IREXは五つに箇条書きで述べられているが，総合するとほぼ以下の 3 点にまとめられる．それぞれのポイントについて現状を分析してみる（当時は「ベンチマーク」を「評価型ワークショップ」と呼んでいた．本章では当時の表現をそのまま用いる）． 3･1　データコレクションの作成少なくとも，情報検索，要約，質問応答，用語抽出，固有表現抽出などの分野で，評価型ワークショップで作成されたデータは，それ以前には存在していない規模や内容のものであり，現在は各分野の研究で広く使用されている．データコレクションを作成し，それを幅広い人に使ってもらい，研究の推進に役立てたいという当初の目的は達成されていると考える．しかし，反面，与えられたデータを使うだけで，データの意義や問題を直視し考えるきっかけが失われかねないという危惧がある． 3･2　研究者の交流，拡大評価型ワークショップが存在していない状態では研究推進が困難であった若い学生や，言語横断タスクなどへの国内外の参加者が，幅広く評価型ワークショップに集い，研究者の交流が行われている状態は非常に望ましいものであると思う．この点も目的は達成されていると考えられる．しかし，数多くの参加者が集まり，評価が行われたというそのこと自体がワークショップの成功の基準ではない．参加者間での刺激が新しい技術の開発や新しい研究の芽の発見につながることが重要である．その点が十分達成されているかどうか判断するのは難しい．またその目的のためには「自分の頭で考える」積極的な参加者が増え，その間での交流こそが重要なのだと考える． 3･3　研究の推進評価型ワークショップにおける参加者の最終的な目標は，新しい技術の開発や新しい研究の芽を見つけ，自然言語に関する技術の発展を実現することのはずである．しかし，著者の知る限り，現在の評価型ワークショップでは，既存の技術をチューニングさせたり，知識の量を労力によって増やしたり，非常に優れているといわれる他の人の技術をもってきたりするだけでシステムを作成し，順位を競っていたり，参加することにのみ意義を見いだしている参加者が少なからずいるように思う．また，主催者側にも，主催すること自体が目的となってしまっ

(3)

ていて，自分の研究目的なり問題意識をもとに，その解決の手段としてワークショップを主催しているという意識が薄い場合もあるように思える．参加者も主催者も研究の推進が最終目的であり，そのためのワークショップへの参加であり，そのための主催であるという認識を常にもち続けることが必要であると思う．

4．ベンチマークの功罪

すでにここまででも，ベンチマークの功罪についての考えを述べているが，本章においてベンチマークの功罪を整理して議論したい． 4･1　宣伝効果としてのベンチマークわかりやすいベンチマークの宣伝効果は絶大である．自然言語処理関係でも，日本では NTCIR，海外では DARPAのさまざまなプロジェクトや CoNLL [CoNLL] を始め，大小合わせてさまざまなベンチマークがある．研究者がそこで優秀な成績を取ることで，システムや研究成果のある意味での価値を容易に伝えることができる．また，適切なベンチマークを設定することで研究者内だけの評価ではなく一般の方に対しての宣伝効果も期待できる．例えば，非常に難しいクイズ番組のチャンピオンを破るシステムや，難しい大学入試に挑戦するシステムなどは，一般の方にも理解しやすく，自然言語処理や人工知能のレベルの理解，研究活動の理解に大きく貢献している．これらの活動が研究的に，つまり技術の高度化や一般化に役に立っているかどうかは疑問を抱かざるを得ない場合もあるが，そうであっても宣伝効果は無視できない．研究推進には費用がかかり，研究のための予算を得るためには，一般の方に夢を伝えることもとても重要で必要な活動である．研究分野全体として，内にこもって技術の高度化のみに集中するのではなく，宣伝と割り切った形での活動も，一般の方に向けた効果だけではなく，研究者にとっても非常に重要である． 4･2　ベンチマークのタスク設計自然言語処理の場合には，最終目標が個別的であり，その目標に達するには数多くのコンポーネント技術が必要であるため，最終目標自身をベンチマークのゴールに決めることは比較的難しい．これは，ロボット，統計的最適化問題やユーザインタフェースのベンチマークとは異なる点である．ロボットによる特定の作業，自動運転，統計的最適化を用いた映画のレーティングの予測や画像処理における物体認識においては，それ自体を最終目標としたベンチマークをつくることによって，直接的に工学として役に立つシステムの技術的な貢献をすることができる．それに対して自然言語処理では，書き言葉の入力であれば形態素解析技術が，音声入力であれば音声認識が必要であることから始まり，構文的または意味的な解析が多層にわたり必要となる．このような状況下でベンチマークを行う際には，そのコンポーネント技術として，最終目標に向けて有益で適切なコンポーネントを切り出し，ベンチマークのタスクとして設定することが非常に重要である．また，このような設計こそが本当の意味での研究につながるので，この部分への多くの人の参加が必要である．特に，効率的なベンチマークを設計するためには，多くの最終目標に役に立つタスクをつくることが重要であり，そのためには多くの人の経験や目標の共有が必須になってくる．例えば，著者が行った IREX では，タスクの設計は物理的なミーティングや 200通を超えるメーリングリストの議論を通してまとめあげていった．このようなメイリングリストでは発言する参加者が限られてくることがままあるが，それでも，定義の過程を参加者と共有することで，議論に参加しない参加者にもタスクの意義や設定した背景が共有でき，本来の意味の研究を促すことができる．オーガナイザによる適切なリードと客観的な視点からのタスク設計を参加者と共有することは，ベンチマークの成功のためには欠かせない部分だと思う． 4･3　最適化は研究なのか実際にベンチマークを行うと，オーガナイザの意図しなかった方も含めて多くのタスク参加者が集まることが多く，実際の関係者の大部分はいわゆるタスク参加者であることが多い．前節に書いたように，オーガナイザの適切なリーダーシップにより，本質的な研究の部分に参加者を誘導し，タスク設計などに積極的に参加してもらうことが重要ではあるがなかなか難しい．現実的には，与えられたタスクをそのまま受け取り，機械学習ツールなどを駆使して最適化に集中し好成績を収めることを目標にしているだけの参加者がほとんどである．コンポーネントの本質的な精度向上は望ましくないわけはない．しかし，さまざまな機械学習の手法を試し，さまざまな考え得る素性を試してその最適化をすることは，本質的に自然言語処理の研究の推進につながっているのかは著者にははなはだ疑問である．機械学習の専門家ならばそれは本質的な研究であろう．しかし，出来合いの機械学習のツールを適応し，ベンチマークにおいて最も高い精度を得たからといって何か自然言語処理の研究に役に立っているのか本当のところわからない．すでに述べたとおり，自然言語処理では一つのコンポーネントのツールがオールマイティーにさまざまな最終目標である応用に役に立つことは珍しい．そういった中，偶然に切り取られた一つのタスクにおいての最適化をしたところで，それが自然言語処理の研究においてどのような進展が得られたことになるのだろうか． 4･4　ベンチマークを通じた若手の育成自然言語処理の研究はまだまだ道のりが遠い．その

(4)

ような状況においては若手の育成は非常に重要な課題であり，それなしには本当の意味で自然言語処理が世の中の役に立つという状況にはなり得ない．そのような状況では，若手がやる気をもつ施策やプロジェクトが必要になってくる．若手にとって，ベンチマークで好成績を収めて目立つことは大きな研究の動機付けにつながる．これは多くの若者にとって歴然とした事実であって，それを否定してストイックな研究だけを求めても，やる気をもって研究に取り組む若者が減っていくのは避けられない．そういった意味でのベンチマークの存在意義は非常に高いと思う．そこで，ベンチマークを否定するのではなく，うまく利用する方法を考えるべきだと思う．例えば，修士の学生などがベンチマークに興味をもって参加するのは大きな心で歓迎し，経験を積む機会とすることが一つのやり方かもしれない．その際にも，タスクを設定する場面を若手にも公開し，本当の研究につながる重要な判断がどのように行われているかを見せていくことが若手研究者の教育につながるのではないかと思われる．

5．ベンチマークとエラー分析

著者は 2014 年から 2015 年にかけて Project Next NLPというプロジェクトを推進した [Project Next NLP]．本プロジェクトはエラー分析を通じて自然言語処理技術の方向性を考える目的で，ボランティアベースで 200 名を超える研究者が何らかの形で参加して行われた．自然言語処理において重要な基礎技術，要素技術，応用技術について 18 個の技術に分け，それぞれの研究をしている研究者が集い，協調的に各分野の技術の分析を行った．分析の方法を各グループに委ねたところ，さまざまな方法での分析が行われ，エラー分析の方法論の研究という側面ももっている．本プロジェクトの背景は以下のようなものである．プロジェクトのホームページからそのまま引用する． ─ Project Next NLP の背景─

　科学技術が“trial and error”によって進展してきたことは間違いありません．この“trial and error” を科学技術の効率的な発展につなげるためには，偶然の産物を求めた無作為な試行の繰り返しではなく，「error を深く分析し次の有効な trial につなげる」プロセスが重要であると我々は考えています．　自然言語処理の技術は，様々な応用を目指して進んできました．1960 年代には対話技術が，70 年代には情報検索技術が，80 年代には情報抽出，要約技術が， 2000年頃からは質問応答が盛んに研究されてきましたが，それらすべての応用システムの精度は 60% 程度まで達成した後にそれ以上の精度向上が見られないまま，新たな応用を求めて移ろって来たという歴史があります．90 年代から始まった大規模なコーパスを元にした経験的な手法により新たな展開が生まれ，統計手法や機械学習を巻き込み発展してきた事は事実ですが，未だ 60% の精度の先に必要とされているものの正体がきちんと見えているとは言いがたい状況です．　そこで，この問題の正体を明らかにするために，様々な言語処理技術においてしっかりとしたエラー分析を行い，次に対処すべき課題を明確にする事は非常に重要だと思います．言語処理技術の各領域においてエラー分析はこれまでも個別の研究の一部として個々の研究者が行ってきていますが，そのほとんどは特定のタスクにおける特定のシステム・手法を対象とするもので，システム・手法に固有の問題が混在した形で課題が明らかにされてきただけでした．このプロジェクトでは，それぞれのタスクについて複数のシステムでエラー分析を行う事で，そのタスクにおいて共通に重要な問題点を明らかにしていきたいと考えます．また，一つのタスクだけではなく，多くのタスクのエラー分析を同時に行う事で自然言語処理全体における問題点の列挙ができるものと考えます．このような大規模なエラー分析は過去に経験がなく，どのような結果が得られるのかやってみないと分からない部分もありますが，今後の自然言語処理研究の方向性を決めるために重要なデータになる事は間違いないと思われます．一人でも多くの研究者に今回のワークショップに参加していただき，自然言語処理研究における次なる展開につなげていくことを期待しています．このような背景のもと，1 年にわたってプロジェクトは進められた．多くの研究者が参加し，考え，議論をし，発表をしたこの機会は，特に積極的に考えた参加者にとっては，単なるベンチマークに参加する以上のものが得られたのではないかと考えている．まずは，言うまでもなく研究において「エラー分析」が重要であるという点の再認識である．今回の参加者の声の中にも「エラー分析は思った以上に大変でした」という意見も聞かれた．これは，そのような経験をしていただいて良かったと思う反面，これまで「エラー分析」をしないで研究していたのではないかという疑問をもつことになり複雑な気持ちになった．さまざまな機械学習手法を適応したり，素性を組み合わせてツールを走らせたりするだけの「作業」ではなく，自分のシステムのエラーを分析し，その結果を元に新たなアイディアを練り，それをできる限り最適な形で実現するという「研究」を行っていなかったという証拠である．そういった意味で，自覚的にエラー分析をし，その意義を感じた研究者が今後の研究に，この経験を生かしてくれることを祈る．また，今回のエラー分析は，それぞれのタスクを研究している研究者が集い，協調的にエラー分析を行った．この機会を通して，同じ対象を研究している研究者同士が，論文を読み合ったり，ベンチマークで競い合ったり

(5)

という従来の方法とは異なるつながり方ができたものと思う．いくつかのタスクでは，参加者が実際に集まる機会を何度も設け，同じデータに対する分析結果を交換し議論していた．また，エラー分析に基づきベンチマークを設定したタスクも存在した．数多くの参加者によるエラー分析を比較し，本質的な問題に迫っていく研究成果をあげたタスクもあった．このように，今回の試みは，自然言語処理技術のタスクを対象とした 18 ものエラー分析を行ったため，本分野におけるエラー分析手法の研究という側面もある．その内容を詳しく書くのは別の機会に譲ることにするが，具体的には以下のような興味深い結果が見られた． ● _{システムの入力と出力のみを見て分析を行うブラッ} クボックス分析と，システムの中のデータの動きを分析するホワイトボックス分析の手法があり，タスクに応じた適切な手法を使う必要がある． ● _{主観的な判断が必要な場合に，多くの参加者に何のイ} ンストラクションも与えずにエラーの原因をあげることをしてもらった結果，その分析視点がかなり幅広く，タスクの見方に多面性があることが理解できた． ● _{あるタスクにおいて，知識の欠如（例えば，形態素} 解析における未知語の問題）などの既知の大きな問題がある場合，その問題が解決したと仮定して（つまり，テストデータの中の単語に未知語はない状態をつくって）システムを走らせることにより，その知識の意義と他の問題のあぶり出しができた． ● シンプルな方法である程度の精度が出るタスクの場合，その方法で作成したシステムに対してエラー分析することで，本質的な問題の発見ができた． ● 複雑な応用システムの分析を行う場合には，ある側面に絞ってエラー分析をすることが重要である． ● _{タスク間の関連性に配慮を払い，そのタスクが他の} タスクのどのような問題に起因したエラーを生んでいるのかを分析することが重要である． ● システムを走らせてそのエラーを分析するだけではなく，そのタスクをタスクとして観察し，そこに必要な技術や知識を列挙し，その分布を見るだけでも，非常に面白い分析となる．単なるベンチマークのプロジェクトで見られるように，オーガナイザが独自にベンチマークのタスクを設計し，それを参加者がそのまま受け止め，システムの最適化をするだけのベンチマークの参加という形ではなく，本プロジェクトでは，より効果的に研究対象について考える機会ができ，より本質に迫る研究の機会になったのではないかと思う．ベンチマークにおいてもエラー分析を行うことを積極的に推奨する仕組みなどを考えてもよいと思う．国際的に行われている RTE という含意表現のベンチマークでは，Ablation text（使っている素性を一つずつ引いてシステムをつくった場合の性能評価）を実施することを義務化している．少なくとも，最適化に力を注ぎ高い精度を求め，その結果を分析もせずに先に進むようなことのないようにオーガナイザは注意を払うことが重要だと思われる．

6．今後への提言

最後に，現状のベンチマークを改良していく方向での具体的な提案を行いたい．今後のベンチマークの設計に興味をもつ人が議論を始めるためのきっかけとなれば幸いである． 6･1　問題，テーマのボトムアップな設定すでに述べたように，自然言語処理を含めた人工知能の分野における研究とは，ベンチマークに参加して良い得点を取るだけのことではなく，極端にいえば，適切な課題を設計することであるといえる．したがって，ベンチマークには自然言語処理の応用システムや技術に対する夢や自分の考えが必要であり，その夢をぶつけ合い，その実現への道のりを設計する場が必要である．例えば，同じような夢をもつ者が集まり「ロードマップワーキンググループ」といった場で次の課題を議論するのが一つであると思う．ワーキンググループに参加者が積極的に集い，新しい課題への議論が活発に行われる状態が理想的である．参加者は何も多数である必要はない．同じ課題に多くの積極的な参加者が集まるという状態は，もしかしたら逆に危惧されるべき状態であるかもしれない．とにかく，課題を設計するワーキンググループもなく，オーガナイザと呼ばれる人達がほぼ絶対的に課題を決めてしまうベンチマークは非常に危険であり，場合によっては単に「こなす」だけのイベントでしかないように思われる．しかし，現実的問題として，ロードマップワーキンググループをつくってそこで議論するだけでは，やはり若い研究者の参加に障壁をつくりかねず，例えば，オープンな課題の設定のためだけのワークショップがあってもよいように思う．そこでは，課題やデータのデザインを議論したり，ベンチマークでつくったデータコレクションの性質，問題点などを分析し，新しいデザインのための予備調査をしたりする．そういった論文を公募して，予稿集などを出すことによって，若い研究者も主体的に議論に参加できる設定を整えることを目指すと若手の育成のためにも役に立つのではないだろうか． 6･2　応用を考えた運営自然言語処理を含めた人工知能分野の研究は，人間に役に立つシステムを作成することが究極の目標であり，すべての課題は何らかの応用につながっていると考えられる．特に，現在，ベンチマークとして課題になっているようなものは，非常に応用に近い位置にあり，それが

(6)

どのようなユーザにどのように使われるのかということを心に描いて実現することが必要である．実際のユーザを招聘し，そのユーザの満足度を評価の基準を作成する際の参考にするという方法も検討の価値があると思う． 6･3　参加者はできる限りの情報を公開する現実的な問題として，著作権や企業秘密などの問題はあるが，目的の一つが研究者の交流であることを考えると，究極的には，ベンチマークに参加したグループは開発したプログラムやデータを公開することが望ましい．例えば，IREX の発表ワークショップではシステム発表以外に，さまざまなアンケート項目を事前に用意し，すべてのシステムの深い評価結果の分析を行った． TMRECでも，横断的な結果の分析にかなりの労力が払われている．しかしながら，どうしても参加者のシステムの詳細がわからないことには分析が進まないことが経験上わかった．研究者の交流とは，一緒に集い雑談レベルで研究の話をするのではなく，結果の分析や分析に基づいた改良や新しい問題の発見こそが交流の本当の意義であり，研究の推進につながると考える．プログラムやデータの公開を参加者に義務付けるなり，公開する参加者に特典を与えるなどの処置があるとよいように思う． 6･4　ワークショップの期間について考えるワークショップが連続的に行われている場合，その間隔は重要である．あまり間隔が長いと参加への熱が冷めてしまうが，あまり間隔が短いといわゆる研究を行う間もなく次のタスクに取り組まなければならない．そのままでは，新しい試みに挑戦することができず，学生が既存ツールを用いてタスクをこなすだけという状況になりかねない．また，新しい課題を提案し議論していく期間も非常に重要である．ある程度のデータができたならば，それと同じような課題を繰り返し行うことの意義はあまりないのではないだろうか．その課題で研究を続けていきたい人は，そのデータを常に使い続けて性能の向上を見ていけばよい．新しいデータは新しい問題が見つかり，その角度から課題やデータを見直す必要ができたときに必要になってくるものではないだろうか． 6･5　参加者の投票による優秀賞の設定数値的な評価の弊害を除去するために，数値だけではない評価基準をつくることも面白いのではないだろうか．既存の技術の洗練による最高点よりも，新しいアイディアや挑戦的な試みのほうをより高く評価すべきであると考えるためである．評価が終了したら参加者は他のすべてのシステムについての論文を細かく読み，新しいアイディアや挑戦的な試みを行っているものに対して高い評価を与えるような仕組みを導入する．これは，参加者にモティベーションをもってもらう効果とともに，すべての参加者が他のシステムをしっかり調べなければならないことからくる，本当の意味での研究交流の促進が期待できる． 6･6　ベンチマークの次の活動へのアドバイス Project Next NLPでは，著者のベンチマーク運営の経験や，ベンチマークに基づいた研究推進への危惧が一つの原動力となり，そこにあるべき研究の流れを自然な形で考えた結果，エラー分析という課題に辿り着き，多くの賛同を得てプロジェクトが推進できた．このようなプロジェクトは，まさに，多くの自然言語処理の研究者がベンチマークの弊害に気が付き，何らかの次のステップが必要という“もわっとした”倦怠感が生んだものであり，いってみれば「期が熟していた」という背景があると著者は考えている．そこに至るには，多くのベンチマーク主催者の努力や，研究者同士の議論，ワークショップでの活発な話し合いなどがあった．ベンチマークの次の活動が「エラー分析」だけであるとは限らない．そのような活動の種類は分野によっても違うかもしれないし，まさに「期」を計り，よく考える必要がある．今回の Project Next NLP が，このような大きな活動にすることを狙っていたわけでもなく，「必要である」という考えを声に出してみたら多くの賛同者を得たというのが現実である．人工知能の他の分野でも，「ベンチマークがある」，「ベンチマークを企画する」，「ベンチマークに参加する」というところで思考停止するのではなく，それがどのように自分のやりたい研究に影響しているのか，自分の夢を実現するにはどのような活動を自分はしたいのか，それは他の人も共有できる問題なのか，そしてそれは他の人の夢をも実現する活動なのかを考え，何か思いついた際には，声に出して語ってみることが，そのような「次の活動」を実現していく方法だと思う．

◇　参　考　文　献　◇

[CoNLL] http://ifarm.nl/signll/conll/ [IREX] http://nlp.cs.nyu.edu/irex/ [NTCIR] http://research.nii.ac.jp/ntcir/index-en.html [Project Next NLP] https://sites.google.com/site/

projectnextnlp/

2016年 1 月 18 日　受理

著　者　紹　介

関根　　聡（正会員）

New York University Associate Research Professor. 1998年 NYU Ph D. 松下電器産業（株），University of Manchester，（株）ソニー CSL，MSR，楽天技術研究所ニューヨークなどでの研究職を歴任．ランゲージ・クラフト代表．専門は自然言語処理，特に情報抽出，固有表現抽出，質問応答の研究に従事．

自然言語処理におけるベンチマークと研究 : エラー分析ワークショップを通じて(<特集>人工知能研究のベンチマークとは-標準問題・データセット・評価手法-)

1．は じ め に