論文書誌情報の俯瞰とキーワード抽出技術の検証

(1)

論文書誌情報の俯瞰とキーワード抽出技術の検証

Key term detection in academic paper: application of meme

detection method

浅谷公威

1∗

坂田一郎

1,2

Kimitaka Asatani

1

Ichiro Sakata

1,2

1

_{東京大学工学系研究科}

1

_{Department of Engineering, The University of Tokyo}

Abstract: Recently, information on science and technology has exponentially increased and the number of academic papers increases exponentially. Thus, it is necessary to make decisions regarding policy and strategy planning using the latest scientific and technological information. In this research, we extract important words in the collection of the academic papers by applying the recently proposed method. We also combined with the result of clustering by quoted network analysis. As the result, in some aspect, the detected keywords are better than the widely used method (TF - IDF). Finally, we discuss the application of keyword detection method of making a landscape of academic domain.

1 はじめに

近年，学術論文の数は指数関数的に増加している [1]．また，最新の科学技術情報を用いて政策や戦略立案に関する意思決定を行うことが必要とされている．そのため，爆発的に増加する学術文献の大量の情報から有用な情報を抽出することを目的とした，大規模な学術文献情報を分析するための技術やそのプラットフォーム開発に関する研究が近年特に盛んに行われている．これらの技術は，科学技術のロードマッピングやフォーサイト・ホライゾンスキャンニング [2] のような意思決定支援に活用されている．学術論文が大量に増えている中で，知識の量はそれほど増えていないことを示唆する研究もある [1]．この論文の著者らは，学術論文中の文章を解析することで，新たに出現するタームの数は指数関数的ではなく線形に増加していることを発見した．このことが正しいと言えるならば，指数関数的に増加する情報の中から適切に知識を抽出するシステムがあれば多くの時間を掛けることなく学術分野の俯瞰・理解が行うことができると考えられる．これまで開発されてきた，引用ネットワーク解析の手法は複雑に細分化する学術分野の構造化に有用に機能している．例えば，学術俯瞰システム [3] ではモジュラリティ最大化などの方法で引用ネットワーク解析を ∗_{東京大学工学系研究科} 〒 113-0033 東京都本郷 7-3-1 E-mail: [email protected] クラスタリングし，各クラスタな簡単な基礎統計料（頻出ワード，平均出版年，高頻度著者や高頻度組織）を観察することで学術領域全体を俯瞰することが可能である．また，同様のシステムが様々なところで提供されている [4]．さらに，引用ネットワークの情報やテキスト分析を組み合わせて数年後の出版の引用数を予測する手法の開発が行われている [5, 6, 7]．しかしながら，これらの手法で提示された情報はマクロすぎるかミクロすぎるために具体的な科学技術政策や投資の意思決定に直接的に結びつけることは難しい．具体的には，引用ネットワーク解析の俯瞰によりもたらされる機械学習の分野の論文数が伸びているという予想を超えない示唆や，引用数予測により抽出した今後引用数が伸びそうな有力な論文のリストである．これらは意思決定のための支援となるが，これらの技術で抽出された情報に加えて論文の読み込みを大量に行う必要がある．具体的には「Deep learning」の分野が成長している，もしくは特定の論文が大量に引用されている情報は，国家機関や企業の意思決定者に有用な情報となるとは限らない．本論文では上記のような俯瞰的な分析や将来予測を，クラスタ単位や論文単位で行うことではなくキーワード単位で行えると，意思決定者が理解しやすいと考えた．具体的には，学術論文のデータセットから特定の分野で集中的に使われるキーワードを抽出することを目標とする．このような分析は，メゾなレベルでの分析は実用的な観点での結果の了解性が高いと想定される．例えば，機械学習の分野で「Network convolution」な人工知能学会研究会資料 SIG-KBS-B801-05

(2)

どの将来成長が見込まれるキーワードを予測できれば結果の了解性が高いと考えられる．萌芽的なキーワードの予測は，自然言語処理によるキーワード抽出に加え，ネットワーク分析による各論文の特徴量を用いる．具体的に使用する手法は，[8] らによるキーワード抽出の手法である．この手法では，引用先・元の双方の論文の中にあるタームが含まれているときに，特定の論文の引用関係の中をそのタームがミームとして伝わったとして解釈する．そのことにより，引用ネットワークの中でミームとして伝播しやすいタームの集合を取り出す．このようなターム抽出の手法により得られた結果と論文の引用ネットワークの手法を組み合わせることで，学術領域の俯瞰や将来予測につながるかどうかを議論した．

2 手法

2.1 前処理

論文の書誌情報より引用ネットワークを作成し，モジュラリティを最大化するように Louvain 法でクラスタリングを行う．また，論文のタイトル，アブストラクトから Stopword を除き N-gram(n=1,2,3) によりタームを抽出する．

2.2 手法

論文のタームが引用ネットワーク上でどれだけ伝わっているかを先行研究の手法 [8] で測定する．この手法で は，以下の式.1 で各タームの Meme Score M を測定す る．式.1 において，タームを含む論文のセットを m と し，タームを含まない論文のセットを ¯mと定義してい る．dm→mは，タームを含む論文のセット間での引用の数であり，タームが引用をたどってどれだけ先に伝 わったかを示している．d_→mタームを含む論文を引用している論文数である．これらの２つの変数の割り算は，タームの可能な伝わる先にどれだけの確率でタームが伝わったかを示している． M (t) = dm→m d_→m / dm¯_{→ ¯}m d_{→ ¯}m (1) 式.1 の右側の部分は，タームを含むがタームを含む 論文を引用していない論文数 dm¯_{→ ¯}mと，タームむ論文 を引用していない論文数 d_{→ ¯}mで構成されている．前者は，タームが論文の集合内で伝わりだした始点の数を意味しており，論文を引用していない論文数である後者で割ることにより，タームが伝わりだす始点ができる確率を意味している． このようにして，式.1 で各タームの Meme Score M はあるタームがどれだけの確率で引用先に伝わったかということと，タームを含む論文がどれだけデータセット内に発生しやすいかの確率で割ったものとなっている．このことがあるタームがそのデータセット内でミームとして存在しているかを示している．そのうえで，あるタームがデータセット全体でどれだけのインパクト を持っているかをしめす Meme Spred ScoreM S(t) は， Meme ScoreM (t)とタームの出現頻度 N (t) の掛け算で 表される．本論文では，M S(t) が大きいタームを取り 出すことによりあるデータセット内やそのデータセットの特定の領域におけるミームを取り出す． M S(t) = M (t)∗ N(t) (2)

2.3 比較手法

比較手法として，TF-IDF により抽出されたドキュメント内のタームの重要度スコアの全ドキュメントでの合計をあるタームの tf-idf score として用いる．

3 データ

本論文では ACL Anthology から提供されている論文の書誌情報（タイトル，アブストラクト，引用）を分析に使用する．ACL Anthology は，会議，ワークショップ，雑誌を含む 33 以上の自然言語処理関連の論文で発表された 4 万件を超えるリサーチ記事で構成されています．表 1 にデータセットの一般的な統計を示す． #Papers 43,563 #Citations 222,577 #Year 1968-2018 #Average Year 2007.1 表 1: データセット (ACL Anthology の基礎的な統計量) また，各タームはスコアを計算した後にデータセットの全体の 5%の 2,178 以下の論文で出現するタームに絞って分析を行った．

4 結果

4.1 データセット全体におけるミームの伝播

ここではデータセット全体において検出した，Meme Scoreが高いタームに関して結果を示す．はじめに，結果を示す前に手法の妥当性を考察する意味で，ミームとして機能しているタームとそうでないタームそれぞれに対して，引用ネットワーク内でのタームの伝播の様子を図示する．図.1 の左には better peformance というター

(3)

ムの引用ネットワーク内での伝播の様子を示している．このタームは 240 の論文に出現しているが，それらの論文の間に引用関係が存在するのはわずか 30 論文でありタームは引用ネットワーク内で伝播しているとはいえない．一方で，図.1 の右の texutual entailment というタームを含む論文同士は引用ネットワークでつながっており，引用ネットワークを texutual entailment というタームが伝播したと捉えることも可能である．算出され た Meme score M (betterpef ormance) = 0.017 と低い 値になっているが， M (texutualentailment) = 0.339 と高い値となっている．図 1: 引用ネットワーク上のタームの伝播の例次にデータセット全体で検出されたミームとなるタームの上位 20 件を，比較手法となる TF-IDF により検出された重要ターム 20 件とともに表.2 と表.3 に示す．それぞれの結果において客観的にどちらが ACL の論文内で研究されているデータかどうかの検証は難しいが， 表 3 の Meme Spred ScoreM S(t) で並び替えたほうが 比較的一般的でないタームを検出しているように思える．表 2 における Semeval を除いて殆どが高頻度 (閾値となる 5%の 2,178 論文以下) の論文であるが，表 3 では Sentiment analysis や word sence などの比較的低頻度のタームも検出できている．表 2 における Semeval は Semeval–2011–task5 などの複数のバリエーションがあり曖昧な意味合いであるが，固有名詞として一つの論文内で複数回使われることが多いことが tf-idf スコアの向上につながったといえる．

4.2 クラスタごとのタームの伝播

また，引用ネットワークのクラスタリングにより分割したクラスタ内で伝播しているタームのリストを表.4 にまとめた．各タームが出現する論文がもっとも多く含まれているクラスタをタームの所属クラスタとした．表.4 を上から見ていくと，Parsing，Machine Translation, CCG, Sense disambiguationなどと各クラスタの特徴がはっきりと読み取れると考えられる．このようにタームの出現頻度に適切な閾値（全体の 5%以下の論文で出

Freq Year tf-idf score semeval 457 2014.02 63.75 web 1969 2009.98 63.27 discourse 1912 2004.93 54.84 sense 1685 2006.99 52.94 lexicon 2124 2006.85 51.84 topic 1782 2009.53 50.89 verb 1704 2006.63 49.83 japanese 1318 2004.61 49.00 dialogue 1724 2006.39 44.52 vector 1675 2011.91 44.39 german 1217 2008.01 43.77 shared 1848 2011.97 43.40 neural 1911 2015.18 43.28 spoken 1685 2005.90 43.13 event 1493 2009.60 41.78 表 2: TF-IDF で計算した重要キーワードの上位 15 個． 5%以上のドキュメントに出現する頻出キーワードは除く

Freq Year Score neural 1911 2015.18 1157.37 sentiment 1356 2013.68 1132.97 statistical machine translation 1428 2010.90 1091.77 statistical machine 1462 2010.85 943.58 bleu 891 2011.95 726.12 dialogue 1724 2006.39 716.59 sentiment analysis 860 2013.95 555.24 neural network 1248 2014.83 493.42 twitter 759 2014.63 480.71 alignment 1561 2009.65 465.67 discourse 1912 2004.93 444.74 sense 1685 2006.99 418.13 disambiguation 1619 2006.62 405.75 unsupervised 1761 2010.81 384.46 word sense 930 2007.87 380.06 表 3: Meme Spread Score で計算した重要キーワードの上位 15 個．5%以上のドキュメントに出現する頻出キーワードは除く

現するタームに絞る）ことで適切に論文内を流れるキーワードが検知でできたと言える．

(4)

#Papers Top 10 memes C

0 4255 unsupervised dependency parsing treebank tagging german random

cross-lingual conditional random random field conditional random field induction tagger 1 3715 neural statistical machine translation statistical machine bleu alignment shared

shared task parallel phrase-based smt bilingual neural machine 2 3380 japanese ccg hpsg categorial adjoining categorial grammar

tree adjoining adjoining grammar tree adjoining grammar sign quantifier lfg

3 3219 sense disambiguation word sense lexicon sense disambiguation word sense disambiguation wordnet verb semantic role argument sens role labeling

4 2937 named entity named web entity recognition named entity recognition biomedical wikipedia relation extraction clinical knowledge base mention compound 5 2925 sentiment sentiment analysis neural network twitter detection topic

tweet social polarity opinion medium social medium

6 2840 dialogue spoken dialogue system speech recognition spoken dialogue conversation multimodal language generation act visual referring expression referring

7 2828 embeddings vector distributional answering answer question answering

semantic textual similarity semantic textual entailment paraphrase textual similarity word embeddings 8 2385 summarization summary image topic model multi-document simplification

sentence compression multi-document summarization readability extractive keyphrase extraction compression 9 1630 resolution coreference coreference resolution pronoun anaphora antecedent

anaphora resolution resolution system abstract of current current literature coreference resolution system african 10 1533 morphological arabic morphology native language identification language identification finite-state

dialect native language standard arabic modern standard authorship attribution modern standard arabic 11 1397

transliteration comparable corpus machine transliteration bilingual lexicon cognate bilingual lexicon extraction lexicon extraction transliteration system bilingual terminology grapheme-to-phoneme articulatory transliteration model

12 1076 expression multiword expression multiword metaphor mwes mwe

light verb verb construction metonymy light verb construction automatic term deaf 13 1071 segmentation word segmentation chinese word segmentation chinese word bakeoﬀ thai

sighan chinese named chinese named entity

14 1042 discourse event temporal discourse relation discourse parsing narrative

temporal relation connective rhetorical discourse connective penn discourse discourse treebank

5 考察

本研究では，論文書誌情報の集合における重要なタームを情報を引用ネットワーク解析により算出し，引用ネットワーク分析によるクラスタリングの結果と合わせることで効率的に論文の集合から知識を抽出できることを示した．算出した結果は定量的ではないものの既存手法である TF-IDF よりもよく論文の集合内で重要なタームを検出していることが示唆された．この結果に関しては今後定量的な考察を実施していく．本研究では新しいキーワード抽出とランキングの方法を定義する前に，既存手法の検証を行い改善点を発見する段階である．重要なキーワード抽出の定量的な検証手法を定義した上で，本手法の改善を実施していく．例えば，先行研究における Meme Spread Score の式は必ずしもキーワード抽出のタスクに最適とは言えない．例えば，Meme Score に Meme が出現する論文数をかけて Meme Spread Score としているが，このスコアは出現する論文数に大きく依存する．特定の領域にのみ出現しているタームを検出したいのであれば，先行研究の式を見直す必要がある．さらに，図 1 のようなターム伝播のネットワークから抽象化したスコアを算出することも視野に入れている．本研究の結果は，様々な専門家による検証が必要である．論文のデータセットから特定の領域で伝播しているタームを検出する手法の有効性を示すために，様々な領域の研究開発担当者や国家機関の政策策定の担当者とディスカッションを実施していく．

謝辞

この成果は，国立研究開発法人新エネルギー・産業技術総合開発機構（ＮＥＤＯ）の委託業務の結果得られたものです．

(5)

参考文献

[1] S. Milojevi´c, “Quantifying the cognitive extent of science,” Journal of Informetrics, vol. 9, no. 4, pp. 962–973, 2015.

[2] E. Amanatidou, M. Butter, V. Carabias, T. Könnölä, M. Leis, O. Saritas, P. Schaper-Rinkel, and V. van Rij, “On concepts and methods in horizon scanning: Lessons from initiating policy dialogues on emerging issues,” Science and Public Policy, vol. 39, no. 2, pp. 208–221, 2012.

[3] Y. Kajikawa, J. Ohno, Y. Takeda, K. Matsushima, and H. Komiyama, “Creating an academic land-scape of sustainability science: an analysis of the citation network,” Sustainability Science, vol. 2, no. 2, p. 221, 2007.

[4] J. Tang, “Aminer: Toward understanding big scholar data,” in Proceedings of the Ninth ACM International Conference on Web Search and Data Mining, pp. 467–467, ACM, 2016.

[5] F. Davletov, A. S. Aydin, and A. Cakmak, “High impact academic paper prediction using temporal and topological features,” in Proceedings of the 23rd ACM International Conference on Confer-ence on Information and Knowledge Management, pp. 491–498, ACM, 2014.

[6] E. Garfield, “The history and meaning of the jour-nal impact factor,” Jama, vol. 295, no. 1, pp. 90– 93, 2006.

[7] R. Yan, J. Tang, X. Liu, D. Shan, and X. Li, “Ci-tation count prediction: learning to estimate fu-ture citations for literafu-ture,” in Proceedings of the 20th ACM international conference on Informa-tion and knowledge management, pp. 1247–1252, ACM, 2011.

[8] T. Kuhn, M. Perc, and D. Helbing, “Inheri-tance patterns in citation networks reveal scien-tific memes,” Physical Review X, vol. 4, no. 4, p. 041036, 2014.

論文書誌情報の俯瞰とキーワード抽出技術の検証