Mapping Science
~飛躍が期待される科学技術領域の抽出~
○川村 隆浩1),渡邊 勝太郎1),松本 尚也1),江上 周作1),治部 眞里1) 国立研究開発法人科学技術振興機構1) 〒102-8666 東京都千代田区四番町五番地3Mapping Science
- Extraction of Emerging Research Area -
KAWAMURA Takahiro1), WATANABE Katsutaro1), MATSUMOTO Naoya1),EGAMI Shusaku1), JIBU Mari1)
Japan Science and Technology Agency (JST) 1)
5-3, Yonbancho, Chiyoda-ku, Tokyo 102-8666 Japan 【発表概要】 近年,科学技術の関係性や発展を把握するため,さまざまなサイエンスマップ が作られている.しかし,ファンディング情報や最新の論文は,十分な引用情報を 持たないため,従来の引用分析を用いてマップ化することが難しい.そこで,我々 は研究内容の類似度に基づいてマップを作成するため,ニューラルネットワーク 技術を用いてプロジェクト概要や論文抄録などのテキスト情報を多次元ベクトルに 変換する手法を開発した.文書ベクトル化することによって内容の類似性を定量 的に測定することを始め,クラスタリングなどの統計処理や機械学習にかけること が可能になる.本論では,実際に2012~2016 年の米国 NSF における約 3 万の プロジェクト情報,および同期間の Scopus 収録 IEEE 論文誌・国際会議論文約 27 万編の抄録を文書ベクトル化し,マップとして表した結果を示す.また,マップ 上において,いくつかの萌芽領域が形成されていく様子(時系列的な構造変化) が確認できたことを示す. 【キーワード】 サイエンスマップ,萌芽研究,文書ベクトル化,ニューラルネットワーク 1. はじめに 近年,複雑化する科学技術の関 係性や時間的進展を把握し,適切 な科学技術政策やファンディングに 活かすべく,さまざまな種類のサイエ ンスマップが作られている.サイエン スマップとは,80 年代後半から欧米 を中心に盛んに作られてきた「科学 の地図(Map of Science)」であり, 論文や学術論文誌をノードとし,そ れらをネットワーク状に繋いだもので ある.現状,多くのサイエンスマップ は論文間の引用・共引用関係に基 いてノード間の類似度が計算され, マップ化されている.しかし,サイエ ンスマップ上に現在ファンディングさ れているプロジェクト情報を表す際 には引用情報に基いて類似度を計 算することができない.また,最新の 論文も十分な引用がついていない ため,マップ上に表すことが難しい. そこで,我々はニューラルネットワー クを用いた自然言語処理技術を用
いてプロジェクト情報や論文抄録な どテキスト間の内容的な類似性を用 いてマップを構築することを提案す る.また,構築したマップ上で今後 飛躍が期待される科学技術領域(萌 芽領域)がどのように表されているか を確認する. 以下,2 章で文書ベクトル化手法 を説明し,3 章で構築したサイエンス マップの概要を示す.また,4 章で 萌芽領域の抽出に関するケーススタ ディを示し,最後に5 章でまとめと今 後の課題について述べる. 2. ニューラルネットワークを用いた文書 ベクトル化 これまでもテキスト情報に基づくマ ッ プ は い く つ か 提 案 さ れ て き た が [1,2],いずれも語の集合(Bag of Word)間の類似性に基づく手法で あり,文章のコンテキスト(文脈や語 順)に踏み込んで類似度性を計算し たものはなかった.そこで我々は, 近年発展が目覚ましいニューラルネ ットワークを用いた単語ベクトル[3], 文書ベクトル化技術[4]を用いてプロ ジェクト情報や抄録などの文書を多 次元ベクトルに変換することを試み た.しかし,Google らが開発したオリ ジナルの文書ベクトル[4]では,わず かな言葉遣いの違い(同義語など) によってほぼ同じ内容の文書でも異 なるベクトルが生成されたり,逆に技 術的には異なる内容の文書でも科 学技術用語ではない共通語によっ て近しいベクトルが生成されてしまう ことが分かった.そこで我々は,JST が 1975 年より整備してきた科学技 術用語シソーラスの Linked Data 版[5]を参照し,科学技術的観点に 沿って文書ベクトルを構築する手法 を開発した[6,7]. 文書ベクトル化の流れを図1 に示 す.文書ベクトルを単語ベクトルから 生成する際,まず JST シソーラスを 参照し,約 2 万概念(1 つの上位語 と 1 つ以上の下位語から成る)それ ぞれが持つ意味的な多様性を表す 指標として,シャノンの情報エントロ ピー [8]を算出した.そして,単語ベ クトル空間内における各概念の広が り(超球面)がこのエントロピーに比 例することを仮定して,ベクトル空間 のクラスタリングを行った.これによっ
て似た意味を持つ単語ベクトル群は, 科学技術的に重要な概念を表すク ラスタベクトル(クラスタの重心とする) にまとめられる.そして,このクラスタ ベクトルから文書ベクトルを生成する ことで,技術用語以外を無視しつつ, 技術的な概念の類似性を強調した 文書ベクトルを構築した.表 1 に生 成した文書ベクトルの精度評価を示 す. 表1. ベクトル類似度評価結果 弱 中 強 適合率 77.5 83.3 100.0 再現率 98.6 33.3 83.3 F 値 86.8 47.6 90.9 実験では,まずプロジェクト情報を 表す文書ベクトル群から cosine 類 似度で 0.5 以上のペアをランダムに 100 サンプル抽出し,0.5~1.0(1.0 に近いほど類似性が高い)までを弱, 中,強に分けた.そして,1 ペアに付 きメンバー3 名による目視確認の結 果の多数決を正解として比較を行っ た.適合率は推定結果の正解率を, 再現率は全正解数のカバー率を,F 値はその調和平均を表す.全ペア を通じての適合率は 79%であった. 尚,オリジナルの文書ベクトルでは 21%であった.より詳細な手法,評 価については文献[6,7]を参照して ほしい. 3. Mapping Science サイトの開発 次に,実際に 2012 年~2016 年 にScopus に収録された IEEE 論文 誌論文・国際会議論文266,774 編, および同期間の米国 NSF における
3 分野(Computer & Information Science & Engineering , Mathematical & Physical Sciences,Engineering)34,192 件 のプロジェクト情報を文書ベクトル化 し , 内 容 の 類 似 度 ( ベ ク ト ル 間 の cosine 類似度を用いた)に基いて作 成したマップを図2 に示す. マップは大きくポートフォリオビュ ー,領域ビュー,詳細ビューの 3 つ に分かれている.ポートフォリオビュ ーは全論文,プロジェクトを全文検 索し,あらかじめいくつかの分野に 分けたものである.今回は,電気電 子 情 報 分 野 で あ る こ と か ら Information, Communication, Electronics & Mechatronics,
ポートフォリオビュー
領域ビュー
詳細ビュー DC-DC converter, Grid-connect, 3-phase
MIMO, CSI, Downlink, Relay Network
Insulator, Inverse Synthetic Aperture Radar, POMDP
Traffic Sign, Logarithmic Image Processing, action recognition
論文 プロジェクト 引用リンク
Power & Energy, Mathematics & Physics の 5 つの分野に分けてある (分野分けは検索語の変更によって 変えることができる).円の大きさは 含まれる論文・プロジェクトの数に対 応する. ポートフォリオビューにおけるいず れかの分野をクリックすると開く領域 ビューでは,当該分野内に含まれる 全論文・プロジェクトをクラスタリング し,より詳細な技術レベルの領域に 分けてある.分野内の技術を概観す るためのものである.尚,クラスタリン グ手法は infomap 法によるコミュニ ティ検出であり,cosine 類似度 0.5 以上,1 ノード最大 30 エッジに限定 している.更に,クラスタサイズが 50 以下のものは最も距離の近いクラス タに結合している.また,領域毎に 10 単語以下の特徴語を抽出してラ ベリングしてある.領域間の距離は 含まれる論文・プロジェクトの重心間 の距離である. 領域ビューにおけるいずれかの 領域をクリックすると開く詳細ビュー ではノードは 1 論文または 1 プロジ ェクトを表し,ノード間の距離はそれ らの内容的類似性(cosine 類似度) にほぼ比例している.また,詳細ビュ ーでは論文間の直接引用関係をエ ッジとして表した.エッジラベルは 2 論文間の特徴語を表している(何繋 がりの引用かを表す).主な分析は このビューにて行う.ノードをクリック すると該当する論文・プロジェクトの 詳細情報を表示する.また,画面下 部には含まれる論文・プロジェクトの 統計情報(被引用数やIF など)を表 示可能である. それぞれのビューでは左上に検 索ボックスを用意しており,ビューに 含まれる論文を全文検索し,該当す るノードをハイライト表示することが できる.また,詳細ビューにおいては 発行年毎の時間的な変化をアニメ ーション表示で確認することもできる. 4. 萌芽領域抽出に関する事例研究 今回,構築したマップ上にて,いく つかの萌芽領域が形成されていく 様子(ネットワーク構造の時系列的 な変化)が確認できた.ここでは,紙 面 の 都 合 か ら 主 に Internet of Things (IoT)に関する領域につい て考察する. 図 3 は,Information 分野内の IoT に関する領域の詳細ビューであ り,2016 年時点で 574 のノードを含 んでいる.この領域の 2012 年から の5 年分と最後に 2016 年のビュー 上に一定の cosine 類似度を表すエ ッジを表示させたものである. 2012 年時点では,IoT に関する 主にフレームワーク・ネットワークや システム・ソフトウェア,セキュリティな どに関する独立した4 つの島(ノード が密集した場所)を見つけることがで きる(主なテーマ名は目視で抽出し た). 2013 年時点では,いち早くセキュ リティに関してファンド(橙色の点)が 投下され,島が大きくなっている. 更に,2014 年にはフレームワー ク・ネットワークの島にもファンドが投 下され,同時に各島の研究者が互 いの研究を認識したためか,島間に 相互引用(緑色の線)が引かれ始め ている. 2015 年,2016 年にはその流れ が加速し,島の巨大化,密集化が進 むと同時に相互引用数も増えている ことが分かる.また,左上のサービ ス・セマンティクスに関する島など,
当初の4 つ以外の島も徐々に大きく なり,中にはファンドを付けられること で大きく論文数が増える島も出てき ていることが確認できる. 最後に,右下の図は2016 年のビ ュー上に一定の cosine 類似度(0.6 ~0.7)を表すエッジを表示させたも のである.0.6~0.7 は 2 章における 弱い類似性に相当している.尚,図 では確認できないが,1つの島を構 成するノード同士はより強い類似性 で相互にリンクしている. したがって,IoT 領域全体として は複数の特化したテーマに関する 島(いわば研究コミュニティ)が存在 し,それらが内容的にも引用関係的 にも互いに弱く繋がりながら,島自 体を発展させつつ,IoT という領域 全体を大きくしてきた,という経緯を 読み取ることができる. 言うまでもなく,これは一事例であ り,我々の事例探索においてもその 2012 年 2013 年 2014 年 2015 年 2016 年 2016 年 cosine エッジ表示付き IoT のフレームワーク・ ネットワーク IoT のシステム・ ソフトウェア IoT のセキュリティ IoT 全般 IoT のサービス・ セマンティクス ファンディング PJ (橙色の点) ファンディング PJ (橙色の点)
他さまざまな形での領域発展の様子 を 見 て とる こ とが でき た .例 え ば , Brain Computer Interface (BCI)
に関する領域においては,1 つの島 が 医 療 系 や 神 経 科 学 , ロ ボ ッ ト , Electroencephalogram な ど そ れ ぞれ特化した島の論文を引用しなが ら発展してきたことが見て取れた.こ れは BCI というテーマが,複数の異 なる従来テーマから同時多発的にア プローチされ,統合的に発展してき たことを意味していると考えられる. このように時系列的に本マップを 見ていくことで萌芽領域の形成過程 (ネットワーク構造の変化)を捉えら れることが確認できた.今後は,これ らの変化を数値的に捉えることを試 みる.更に,それらの特徴量に基い て今後の伸びてくるであろう萌芽領 域を予測するため,統計処理や機 械学習技術の適用を検討している. 5. まとめと今後の課題 本研究では,引用分析が難しい ファンディングプロジェクト情報や最 新の論文を対象に,独自に開発した 文書ベクトル化技術を適用し,研究 内容の類似性に基づくサイエンスマ ップを開発した.また,萌芽領域の 発展の様子がマップから捉えられる ことを確認した. 今後は,4章最後で述べた萌芽 領域の予測について検討していき たい.また,データ・セットに特許情 報を加えることや,引用分析に基づ く従来マップとの比較も行っていきた い.更に,JST シソーラスと文書ベク トルを介して日本語で書かれたファ ンディング情報や論文と,英語によ る海外のファンディング情報,論文 を重ね合わせることで,国内外のフ ァンディング傾向の違いなどを明らか にしていきたい. 6. 参考文献
[1] Talley, E. M. et al. Database of NIH grants using machine-learned categories and graphical clustering. Nature Methods. 2011, vol. 9, p. 443–444. [2] Wang, S.; Koopman, R.
Clustering articles based on semantic similarity.
Scientometrics. 2017, vol.111, no. 2, p. 1017–1031.
[3] Mikolov, T. et al. Distributed representations of words and phrases and their
compositionality. 2013, In Proc. of NIPS 26, p. 3111–3119. [4] Le, Q.; Mikolov, T. Distributed
representations of sentences and documents. In Proc. of ICML 2014. 2014, vol. 32, p. 1188– 1196.
[5] Kimura, T. et al. J-GLOBAL knowledge: Japan’s largest linked data for science and technology. In Proc. of ISWC 2015. 2015.
[6] Kawamura, T. et al. Funding Map for Research Project Relationships using Paragraph Vectors, In Proc. of ISSI 2017. 2017.
[7] Kawamura, T. et al. Science Graph for characterizing the recent scientific landscape using Paragraph Vectors, In Proc. of K-Cap 2017. 2017.
[8] Shannon, C. A mathematical theory of communication. Bell System Technical Journal. 1948, vol. 27, p. 379–423.