第14回情報プロフェッショナルシンポジウム予稿集

(1)

Mapping Science

～飛躍が期待される科学技術領域の抽出～

○川村隆浩１）_，渡邊勝太郎１）_，松本尚也１）_，江上周作１）_，治部眞里１）国立研究開発法人科学技術振興機構１）〒102-8666 東京都千代田区四番町五番地３

Mapping Science

- Extraction of Emerging Research Area -

KAWAMURA Takahiro1)_{, WATANABE Katsutaro}1)_{, MATSUMOTO Naoya}1)_,

EGAMI Shusaku1)_{, JIBU Mari}1)

Japan Science and Technology Agency (JST) 1)

5-3, Yonbancho, Chiyoda-ku, Tokyo 102-8666 Japan 【発表概要】近年，科学技術の関係性や発展を把握するため，さまざまなサイエンスマップが作られている．しかし，ファンディング情報や最新の論文は，十分な引用情報を持たないため，従来の引用分析を用いてマップ化することが難しい．そこで，我々は研究内容の類似度に基づいてマップを作成するため，ニューラルネットワーク技術を用いてプロジェクト概要や論文抄録などのテキスト情報を多次元ベクトルに変換する手法を開発した．文書ベクトル化することによって内容の類似性を定量的に測定することを始め，クラスタリングなどの統計処理や機械学習にかけることが可能になる．本論では，実際に2012～2016 年の米国 NSF における約 3 万のプロジェクト情報，および同期間の Scopus 収録 IEEE 論文誌・国際会議論文約 27 万編の抄録を文書ベクトル化し，マップとして表した結果を示す．また，マップ上において，いくつかの萌芽領域が形成されていく様子（時系列的な構造変化）が確認できたことを示す．【キーワード】サイエンスマップ，萌芽研究，文書ベクトル化，ニューラルネットワーク 1. はじめに 近年，複雑化する科学技術の関係性や時間的進展を把握し，適切な科学技術政策やファンディングに活かすべく，さまざまな種類のサイエンスマップが作られている．サイエンスマップとは，80 年代後半から欧米を中心に盛んに作られてきた「科学の地図（Map of Science）」であり，論文や学術論文誌をノードとし，それらをネットワーク状に繋いだものである．現状，多くのサイエンスマップは論文間の引用・共引用関係に基いてノード間の類似度が計算され，マップ化されている．しかし，サイエンスマップ上に現在ファンディングされているプロジェクト情報を表す際には引用情報に基いて類似度を計算することができない．また，最新の論文も十分な引用がついていないため，マップ上に表すことが難しい．そこで，我々はニューラルネットワークを用いた自然言語処理技術を用

(2)

いてプロジェクト情報や論文抄録などテキスト間の内容的な類似性を用いてマップを構築することを提案する．また，構築したマップ上で今後飛躍が期待される科学技術領域（萌芽領域）がどのように表されているかを確認する．以下，2 章で文書ベクトル化手法を説明し，3 章で構築したサイエンスマップの概要を示す．また，4 章で萌芽領域の抽出に関するケーススタディを示し，最後に5 章でまとめと今後の課題について述べる． 2. ニューラルネットワークを用いた文書 ベクトル化これまでもテキスト情報に基づくマップはいくつか提案されてきたが [1,2]，いずれも語の集合（Bag of Word）間の類似性に基づく手法であり，文章のコンテキスト（文脈や語順）に踏み込んで類似度性を計算したものはなかった．そこで我々は，近年発展が目覚ましいニューラルネットワークを用いた単語ベクトル[3]，文書ベクトル化技術[4]を用いてプロジェクト情報や抄録などの文書を多次元ベクトルに変換することを試みた．しかし，Google らが開発したオリジナルの文書ベクトル[4]では，わずかな言葉遣いの違い（同義語など）によってほぼ同じ内容の文書でも異なるベクトルが生成されたり，逆に技術的には異なる内容の文書でも科学技術用語ではない共通語によって近しいベクトルが生成されてしまうことが分かった．そこで我々は，JST が 1975 年より整備してきた科学技術用語シソーラスの Linked Data 版[5]を参照し，科学技術的観点に沿って文書ベクトルを構築する手法を開発した[6,7]．文書ベクトル化の流れを図1 に示す．文書ベクトルを単語ベクトルから生成する際，まず JST シソーラスを参照し，約 2 万概念（1 つの上位語と 1 つ以上の下位語から成る）それぞれが持つ意味的な多様性を表す指標として，シャノンの情報エントロピー [8]を算出した．そして，単語ベクトル空間内における各概念の広がり（超球面）がこのエントロピーに比例することを仮定して，ベクトル空間のクラスタリングを行った．これによっ

(3)

て似た意味を持つ単語ベクトル群は，科学技術的に重要な概念を表すクラスタベクトル（クラスタの重心とする）にまとめられる．そして，このクラスタベクトルから文書ベクトルを生成することで，技術用語以外を無視しつつ，技術的な概念の類似性を強調した文書ベクトルを構築した．表 1 に生成した文書ベクトルの精度評価を示す．表1. ベクトル類似度評価結果弱中強適合率 77.5 83.3 100.0 再現率 _98.6 _33.3 _83.3 F 値 86.8 47.6 90.9 実験では，まずプロジェクト情報を表す文書ベクトル群から cosine 類似度で 0.5 以上のペアをランダムに 100 サンプル抽出し，0.5～1.0（1.0 に近いほど類似性が高い）までを弱，中，強に分けた．そして，1 ペアに付きメンバー3 名による目視確認の結果の多数決を正解として比較を行った．適合率は推定結果の正解率を，再現率は全正解数のカバー率を，F 値はその調和平均を表す．全ペアを通じての適合率は 79%であった．尚，オリジナルの文書ベクトルでは 21%であった．より詳細な手法，評価については文献[6,7]を参照してほしい． 3. Mapping Science サイトの開発 次に，実際に 2012 年～2016 年にScopus に収録された IEEE 論文誌論文・国際会議論文266,774 編，および同期間の米国 NSF における

3 分野（Computer & Information Science & Engineering ， Mathematical & Physical Sciences，Engineering）34,192 件のプロジェクト情報を文書ベクトル化し，内容の類似度（ベクトル間の cosine 類似度を用いた）に基いて作成したマップを図2 に示す．マップは大きくポートフォリオビュー，領域ビュー，詳細ビューの 3 つに分かれている．ポートフォリオビューは全論文，プロジェクトを全文検索し，あらかじめいくつかの分野に分けたものである．今回は，電気電子情報分野であることから Information, Communication, Electronics & Mechatronics,

ポートフォリオビュー

領域ビュー

詳細ビュー DC-DC converter, Grid-connect, 3-phase

MIMO, CSI, Downlink, Relay Network

Insulator, Inverse Synthetic Aperture Radar, POMDP

Traffic Sign, Logarithmic Image Processing, action recognition

論文プロジェクト引用リンク

(4)

Power & Energy, Mathematics & Physics の 5 つの分野に分けてある（分野分けは検索語の変更によって変えることができる）．円の大きさは含まれる論文・プロジェクトの数に対応する．ポートフォリオビューにおけるいずれかの分野をクリックすると開く領域ビューでは，当該分野内に含まれる全論文・プロジェクトをクラスタリングし，より詳細な技術レベルの領域に分けてある．分野内の技術を概観するためのものである．尚，クラスタリング手法は infomap 法によるコミュニティ検出であり，cosine 類似度 0.5 以上，1 ノード最大 30 エッジに限定している．更に，クラスタサイズが 50 以下のものは最も距離の近いクラスタに結合している．また，領域毎に 10 単語以下の特徴語を抽出してラベリングしてある．領域間の距離は含まれる論文・プロジェクトの重心間の距離である．領域ビューにおけるいずれかの領域をクリックすると開く詳細ビューではノードは 1 論文または 1 プロジェクトを表し，ノード間の距離はそれらの内容的類似性（cosine 類似度）にほぼ比例している．また，詳細ビューでは論文間の直接引用関係をエッジとして表した．エッジラベルは 2 論文間の特徴語を表している（何繋がりの引用かを表す）．主な分析はこのビューにて行う．ノードをクリックすると該当する論文・プロジェクトの詳細情報を表示する．また，画面下部には含まれる論文・プロジェクトの統計情報（被引用数やIF など）を表示可能である．それぞれのビューでは左上に検索ボックスを用意しており，ビューに含まれる論文を全文検索し，該当するノードをハイライト表示することができる．また，詳細ビューにおいては発行年毎の時間的な変化をアニメーション表示で確認することもできる． 4. 萌芽領域抽出に関する事例研究 今回，構築したマップ上にて，いくつかの萌芽領域が形成されていく様子（ネットワーク構造の時系列的な変化）が確認できた．ここでは，紙面の都合から主に Internet of Things (IoT)に関する領域について考察する．図 3 は，Information 分野内の IoT に関する領域の詳細ビューであり，2016 年時点で 574 のノードを含んでいる．この領域の 2012 年からの5 年分と最後に 2016 年のビュー上に一定の cosine 類似度を表すエッジを表示させたものである． 2012 年時点では，IoT に関する主にフレームワーク・ネットワークやシステム・ソフトウェア，セキュリティなどに関する独立した4 つの島（ノードが密集した場所）を見つけることができる（主なテーマ名は目視で抽出した）． 2013 年時点では，いち早くセキュリティに関してファンド（橙色の点）が投下され，島が大きくなっている．更に，2014 年にはフレームワーク・ネットワークの島にもファンドが投下され，同時に各島の研究者が互いの研究を認識したためか，島間に相互引用（緑色の線）が引かれ始めている． 2015 年，2016 年にはその流れが加速し，島の巨大化，密集化が進むと同時に相互引用数も増えていることが分かる．また，左上のサービス・セマンティクスに関する島など，

(5)

当初の4 つ以外の島も徐々に大きくなり，中にはファンドを付けられることで大きく論文数が増える島も出てきていることが確認できる．最後に，右下の図は2016 年のビュー上に一定の cosine 類似度（0.6 ～0.7）を表すエッジを表示させたものである．0.6～0.7 は 2 章における弱い類似性に相当している．尚，図では確認できないが，１つの島を構成するノード同士はより強い類似性で相互にリンクしている．したがって，IoT 領域全体としては複数の特化したテーマに関する島（いわば研究コミュニティ）が存在し，それらが内容的にも引用関係的にも互いに弱く繋がりながら，島自体を発展させつつ，IoT という領域全体を大きくしてきた，という経緯を読み取ることができる．言うまでもなく，これは一事例であり，我々の事例探索においてもその 2012 年 2013 年 2014 年 2015 年 2016 年 2016 年 cosine エッジ表示付き IoT のフレームワーク・ネットワーク IoT のシステム・ソフトウェア IoT のセキュリティ IoT 全般 IoT のサービス・セマンティクスファンディング PJ （橙色の点）ファンディング PJ （橙色の点）

(6)

他さまざまな形での領域発展の様子を見てとることができた．例えば， Brain Computer Interface (BCI)

に関する領域においては，1 つの島が医療系や神経科学，ロボット， Electroencephalogram などそれぞれ特化した島の論文を引用しながら発展してきたことが見て取れた．これは BCI というテーマが，複数の異なる従来テーマから同時多発的にアプローチされ，統合的に発展してきたことを意味していると考えられる．このように時系列的に本マップを見ていくことで萌芽領域の形成過程（ネットワーク構造の変化）を捉えられることが確認できた．今後は，これらの変化を数値的に捉えることを試みる．更に，それらの特徴量に基いて今後の伸びてくるであろう萌芽領域を予測するため，統計処理や機械学習技術の適用を検討している． 5. まとめと今後の課題 本研究では，引用分析が難しいファンディングプロジェクト情報や最新の論文を対象に，独自に開発した文書ベクトル化技術を適用し，研究内容の類似性に基づくサイエンスマップを開発した．また，萌芽領域の発展の様子がマップから捉えられることを確認した．今後は，４章最後で述べた萌芽領域の予測について検討していきたい．また，データ・セットに特許情報を加えることや，引用分析に基づく従来マップとの比較も行っていきたい．更に，JST シソーラスと文書ベクトルを介して日本語で書かれたファンディング情報や論文と，英語による海外のファンディング情報，論文を重ね合わせることで，国内外のファンディング傾向の違いなどを明らかにしていきたい． 6. 参考文献

[1] Talley, E. M. et al. Database of NIH grants using machine-learned categories and graphical clustering. Nature Methods. 2011, vol. 9, p. 443–444. [2] Wang, S.; Koopman, R.

Clustering articles based on semantic similarity.

Scientometrics. 2017, vol.111, no. 2, p. 1017–1031.

[3] Mikolov, T. et al. Distributed representations of words and phrases and their

compositionality. 2013, In Proc. of NIPS 26, p. 3111–3119. [4] Le, Q.; Mikolov, T. Distributed

representations of sentences and documents. In Proc. of ICML 2014. 2014, vol. 32, p. 1188– 1196.

[5] Kimura, T. et al. J-GLOBAL knowledge: Japan’s largest linked data for science and technology. In Proc. of ISWC 2015. 2015.

[6] Kawamura, T. et al. Funding Map for Research Project Relationships using Paragraph Vectors, In Proc. of ISSI 2017. 2017.

[7] Kawamura, T. et al. Science Graph for characterizing the recent scientific landscape using Paragraph Vectors, In Proc. of K-Cap 2017. 2017.

[8] Shannon, C. A mathematical theory of communication. Bell System Technical Journal. 1948, vol. 27, p. 379–423.