• 検索結果がありません。

離散一般化ベータ分布を仮定した研究分野マッピングの導出

N/A
N/A
Protected

Academic year: 2021

シェア "離散一般化ベータ分布を仮定した研究分野マッピングの導出"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 77 回全国大会. 1B-01. 離散一般化ベータ分布を仮定した研究分野マッピングの導出 蔵川 圭† 孫 媛‡ 国立情報学研究所†‡ . . はじめに. WoS. . . . , Bi , . . . , B 3 , B 2 , B1. . S1 , S2 , S3 , . . . , Sj , . . . f11 f12 f13 f21 f22 f23 f31 f32 f33 fij. 図 1 科研 費研 究分野 と W oS カテ ゴリ を二 軸と する 分割表 l2-01:(a, b, R ) = (0.093843, 0.851991, 0.990958) 3000. 2. 2000. l2-02:(a, b, R2 ) = (0.041544, 1.201662, 0.989316) l2-03:(a, b, R2 ) = (0.172279, 1.888833, 0.970143). 1000 900 800. l2-04:(a, b, R2 ) = (0.069683, 1.581106, 0.983542). 700 600 500 400. l2-05:(a, b, R2 ) = (0.083868, 1.302309, 0.992243). 300. l2-06:(a, b, R2 ) = (0.026035, 2.035807, 0.993300). 200. l2-07:(a, b, R2 ) = (0.046317, 1.111342, 0.989435) l2-08:(a, b, R2 ) = (0.115364, 1.267557, 0.990455). Count. 本研究は,エビデンスベースの研究開発戦略や 政策立案に必要なツールとして,科研費の分野 分類とトムソン・ロイター社の論文データベー ス Web of Science (WoS)の分野カテゴリのマッ ピングテーブルを構築する.マッピングテーブ ルは,科研費と WoS のデータベースを利用して 共通要素である論文をカウントして作成した研 究分野の対応関係を示す分割表に対し,ランク 順分布の一つである離散一般化ベータ分布を非 線形最小二乗法で当てはめて観測値から理論値 を導出して作成する.我々のこれまでの研究か ら,この非線形最小二乗法の適用で解を得るた めに重要なパラメータ初期値の与え方によって 解が導出できる場合とそうでない場合があるこ とがわかった[1].本報では,パラメータ初期値 に着目し,実際のデータ処理を通して考察した 結果を示す. . l2-09:(a, b, R2 ) = (0.002781, 1.696132, 0.990693). 100 90 80 70 60 50 40. l2-10:(a, b, R2 ) = (0.014864, 1.092725, 0.993683). l2-01-総合領域 l2-02-複合新領域 l2-03-人文学 l2-04-社会科学 l2-05-数物系科学 l2-06-化学 l2-07-工学. 30. 分割表. field. l2-08-生物学. 20. l2-09-農学. 論文と対応づけられた科研費研究分野と WoS カテゴリの 2 種の分類に対しクロス集計して分 割表を作成する(図 1).分割表は,一論文に 対し対応した研究分野の出現度数をそのまま 1 とする整数カウントと案分する分数カウントの 2 種類である.科研費研究分野は,用いたデータ では 4 系・10 分野・67 分科・284 細目からなり, 図 2 離散一般化ベータ分布の当てはめ例 系から細目に詳細化されるような階層構造にな をランク順に並べた分布は,log-log スケールに っている.一方,WoS カテゴリはフラットに 251 おいて直線になるという Zipf の法則への当ては 分類となっている. まりを見る.観測数→ ∞のときに頻度→ ∞,ラン ク→ ∞であるようなスケールフリーの時であるが, 離散一般化ベータ分布の当てはめ 我々の分布においてランクは有限であるため 科研費のある研究分野 𝐵! ごとに WoS カテゴリ Zipf の法則へは当てはまらない. 𝑆 の 度 数 𝑓!! , … , 𝑓!" , … , 𝑓!" を 降 順 に 並 べ 替 え , スケールフリーの性質を持ちつつも,頻度→ ∞, 𝑓′!! > ⋯ > 𝑓′!" > ⋯ > 𝑓′!" となるよう順序を付け ランク→ 𝑅となるような制約のある特徴を表した た WoS カテゴリ 𝑆 ! を定める.すなわち,WoS カ 分 布 と し て , 離 散 一 般 化 ベ ー タ 分 布 (discrete テゴリ 𝑆 のランク順の分布に対し理論的モデル generalized beta distribution: DGBD) が提案 を当てはめる.様々な自然現象の中で出現頻度 されている[2][3].この分布は, Mapping subject categories based on discrete generalized beta (𝑅 − 𝑟 + 1)! 𝑓 𝑟 =𝐾 distribution 𝑟! † Kei Kurakawa, National Institute of Informatics で定義され,𝑟 はランク,𝑅 はランクの最大値, ‡ Yuan Sun, National Institute of Informatics 𝐾 は正規化定数,(𝑎, 𝑏) はパラメータである. l2-10-医歯薬学. 10 9 8 7 6 5 4 3 2. 1. 0. 1-215. 50. 100. Rank. 150. 200. Copyright 2015 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 77 回全国大会. 分割表に対し,科研費の分野ごとに R の非線 形最小二乗ソルバーnlmrt パッケージを用いて DGBD をフィッティングした一例を図 2 に示す. 図では,科研費研究分野分類の 10 分野ごとに 251 の WoS カテゴリへのランク-頻度分布を同時 にプロットした.科研費分野分類は,系・分 野・分科・細目が包含される階層構造を持つた め,得られた細目と WoS カテゴリの分割表の度 数を集計することで上位のレベルの科研費分野 分類と WoS カテゴリとの分割表を導出できる. 得られたパラメータ値と決定係数 𝑅 ! も記した. 決定係数は,0.99~0.97 を得た. . 1.00. init_b. 0.75. resolved FALSE TRUE. 0.50. 0.25. 0.25. 0.50. init_a. 0.75. 1.00. 図 4 パラ メー タ初期 値によ る解 の導出 結果 . パラメータ初期値による当てはめの成否 ここに図示した科研費研究分野 𝐵! 以外で,パ ラメータの初期値を(𝑎, 𝑏, K) = (1,1,1)と与えるの では R の非線形最小二乗ソルバーnlmrt パッケー ジでは解決できないものが存在した. 一般に,非線形最小二乗法は,局所的に線形 近似して残差が最小となる方向にパラメータ x を漸近更新して、推定値 x を求める[4]. もっと も 簡 単 な 解 法 は , 最 急 降 下 法 (method of steepest descent) で あ り , 他 に は Newton 法 , Gauss-Newton 法がある.モデル関数値と1階偏 微分からヘシアン行列を推定する方法は準 Newton 法 と 呼 び , 変 形 は , Gill-Murray 法 , BFGS 法 , Biggs 法 な ど が あ る . ま た , GaussNewton 法 の 変 形 と し て は 、 Marquardt 法 、 Powell の最小二乗法,Powell のハイブリッド法 などがある. 推定値を得られるかどうかは、解法の選択と初 期値の与え方に依存する.基本的戦略は以下の 2点に集約される. l モデル関数の形から、解法を選択する l 推定値の近傍がわからない場合は、数多 くの初期値を用意する ここでは初期値の与え方に着目して,パラメ ータ初期値(𝑎, 𝑏, K) = (1,1,1)で解が導出できなか った分科「心理学」を例に,幾つかのパラメー タ初期値から解が導出できるかどうか実験を行 った.パラメータa, bは0.1から1.0まで0.1刻みの 10 点づつ,パラメータKは1に固定して,合計 100 通りの組み合わせに対し非線形最小二乗法ソ ルバーnlmrt を適用した.その結果を図 3 に示 す.83 通りのパラメータ初期値で推定値を得る ことができ,17 通りで推定値を得ることができ なかった.また,得られた推定値の分布を図 4 に示す.図の左はパラメータaの推定値のヒスト グラムであり,図の右はパラメータbの推定値の ヒストグラムである. . 図 3 パラ メー タ推定 値(左 :a , 右: b) . 考察 100 通りのパラメータ初期値を与えた際に,推 定値を導出できなかった部分は図の左上に偏在 している.nlmrt では,ランク落ちなどの原因で 推定値の得られない場合があり,計算過程にお ける丸め誤差があることを考慮すると,推定値 の導出できない初期値は近傍に偏在する可能性 はある. 推定値の導出できたパラメータa, bそれぞれを 見ると,必ずしも一致はしていないが,ほぼ等 しい.しなしながら,その分布は解の平均に対 して正規分布をなしてはいない.むしろ,平均 を避けるように 2 極に分離して推定値が得られ ている.非線形最小二乗法における解の収束過 程が漸近更新であるため,収束方向によって 2 極に分離したと考えられる. . まとめ 非線形最小二乗法においてパラメータ初期値 を数多く用意することによって,パラメータ推 定値を導出できることを示した.今後の展望と して,残った事例についても実験を行う. 参考文献 [1] 蔵川圭, 孫媛 "レコードリンケージに基づく研究分野マ ッピングの導出" 日本計算機統計学会第 28 回シンポジウ ム論文集, pp.183-186 (2014). [2] Naumis, G.G., Cocho, G.: Tail universalities in rank distributions as an algebraic problem: The beta-like function. Phys. A Stat. Mech. its Appl. 387, 1, 84–96 (2008). [3] Martínez-Mekler, G. et al.: Universality of rankordering distributions in the arts and sciences. PLoS One. 4, 3, e4791 (2009). [4] 中川徹、小柳義夫:最小二乗法による実験データ解析、 東京大学出版会、206 pages (1982). . 1-216. Copyright 2015 Information Processing Society of Japan. All Rights Reserved..

(3)

図   1 科研 費研 究分野 と W oS カテ ゴリ を二 軸と する 分割表       WoS  f11f12f13f21f22f23f31f32f33 f ijS1, S2, S3,

参照

関連したドキュメント

化 を行 っている.ま た, 遠 田3は変位 の微小増分 を考慮 したつ り合 い条件式 か ら薄 肉開断面 曲線 ば りの基礎微分 方程式 を導 いている.さ らに, 薄木 ら4,7は

2.1で指摘した通り、過去形の導入に当たって は「過去の出来事」における「過去」の概念は

今回チオ硫酸ナトリウム。クリアランス値との  

 仮定2.癌の進行が信頼を持ってモニターできる

を塗っている。大粒の顔料の成分を SEM-EDS で調 査した結果、水銀 (Hg) と硫黄 (S) を検出したこと からみて水銀朱 (HgS)

となる。こうした動向に照準をあわせ、まずは 2020

 リスク研究の分野では、 「リスク」 を検証する際にその対になる言葉と して 「ベネフ ィッ ト」

町の中心にある「田中 さん家」は、自分の家 のように、料理をした り、畑を作ったり、時 にはのんびり寝てみた