アブストラクトを用いた原子分子物理学分野の論文分類支援システムの設計と実装
10
0
0
全文
(2) 190. 情報処理学会論文誌:数理モデル化と応用. Oct. 2007. ラクトは無料で入手でき誰でも閲覧可能である.実際 これまでに,論文のアブストラクトを用いて論文の分 類を行う試み3) があり,有効であることが示されてい る.そこで,本論文ではアブストラクトのみを用いて 原子分子物理学分野の論文の中から原子分子データが 掲載されている論文を探し出すための新しいシステム を開発する.我々はこれまでにも原子分子物理学分野 の論文アブストラクトを少数用いた論文分類支援シス テムの開発を行い,試行錯誤を重ねてきている4),5) . 機械による論文の分類はテキスト分類6) の研究分野 に属している.テキスト分類とは,論文や電子メール. 図 1 システム概要 Fig. 1 System overview.. 等のテキストドキュメント(以下,テキストと表記) をあらかじめ決められた 2 つ以上のカテゴリに分類す る処理のことをいい,情報検索や自然言語の分野にお. 10 件を探し出さなければならない場合に,100 件のア. いて非常に注目されてきた重要課題である.分類技術. ブストラクトを読んで探し出せるようにする.テキス. としては,1990 年代より機械学習による手法が主流. トの特徴を多次元のベクトルで表現した特徴ベクトル. となっている.これは大量のテキストデータが利用可. を用い,機械学習法を使用して分類を行う.システム. 能になったことやコンピュータの性能が大幅に向上し. の構成としては,図 1 のようになっている.以下にシ. たことによるもので,これまでにテキスト分類に対す. ステムの作成手順を示す. ( 1 ) トレーニングデータ(論文本体とアブストラク. る非常に多くの学習法が提案されている7) .代表的な ものとして,Naive Bayes 8) ,決定木9) ,ブースティ 10). 11). を適用した例があ. を入手する.トレーニングデータは論文の内. り,それらの有効性が示されている.また,近年では. 容から原子分子データが掲載されているもの. カテゴリの重複を許してテキストを分類するためのモ. (D1)と掲載されていないもの(D2)に分類す. ング. やサポートベクタマシン. ト),テストデータ(アブストラクトのみ,D3). デル12) も提案されている.しかし,原子分子物理学. る.D1 をカテゴリ 1,D2 をカテゴリ 0 に割り. 分野の論文には化学式等の原子分子に関する特異な表. 当てる.. 現☆ が含まれており,この特異表現(以下,化学式と. (2). D1,D2,D3 の各アブストラクトに前処理を施. 略記)を一般的な単語と同じように機械に認識させる. し,単語や用語の出現頻度情報を使用した特徴. ことが容易でない.よって,原子分子物理学分野の論. ベクトルを作成する.. 文分類において機械学習法を適用してきた例はない.. (3). 械学習法を適用し,論文の分類を試みる.本研究は,. ( 2 ) で作成された D1,D2 の特徴ベクトルを使 用し機械学習を行う.. そこで,我々は原子分子物理学分野の論文に対して機. (4). ( 3 ) で作成された分類器に D3 の特徴ベクトル. 日本原子力研究開発機構,核融合科学研究所との共同. を適用し,原子分子データが掲載されている論. 研究13) である特異表現に適応可能な論文分類システ. 文のアブストラクトであるかを判断する. 以下 2.1 節,2.2 節で ( 2 ) の前処理および特徴ベク. ム開発の一環である. 以下 2 章で論文分類支援システムについて説明し,. 3 章においてシステムの評価方法について述べる.4 章 でシステムの評価を行い,5 章でまとめる.. 2. 論文分類支援システム. トル作成について説明する.2.3 節において本論文で 用いる学習方法について述べる.. 2.1 前 処 理 2.1.1 化 学 式 原子分子物理学分野の論文には化学式が含まれてい. 本研究において開発する論文の分類支援システムの. ることが多い.化学式には空白が含まれている場合や. 目的は,人間がより効率的に原子分子データ掲載論文. 著者によって書き方が異なる場合があるため,論文か. を探索できるようにすることである.たとえば,1,000. ら単語を抽出する際に 1 つの化学式が複数の化学式,. 件のアブストラクトを読んで原子分子データ掲載論文. あるいは,単語として抽出されることがある.このよ うな問題を避けるため,NICT 原子分子重要表現抽出. ☆. たとえば O. 5+. 2. 2. 2. 2. ,1s 2s 2p , S1/2 等.. システム14) を用いて化学式に前処理を施す.NICT.
(3) Vol. 48. No. SIG 15(TOM 18). アブストラクトを用いた原子分子物理学分野の論文分類支援システム. 191. かという 2 値,あるいは,出現頻度を用いて重み付け を行い実数値で表す場合がある.本研究では単語や用 語の出現頻度を用いて特徴ベクトルを作成する.さら に,原子分子物理学分野の論文には一般の論文には含 まれていない化学式が含まれているため,化学式も論 文の特徴を表す重要な表現であると考え,CHEM1∼. CHEM8 の 8 種類に分類した化学式の出現頻度を特 図 2 化学式へのタグの挿入 Fig. 2 Inserting tags to chemical symbols.. 徴ベクトルの要素として加えることにする.したがっ て,本研究では以下の 6 種類の出現頻度を用いて特徴 ベクトルを作成する.. 原子分子重要表現抽出システムは,アブストラクト. F(D1). に掲載されている化学式の部分を色付きで表示させ る HTML ファイルを作成するためのシステムである. 我々は NICT 原子分子重要表現抽出システムの出力. F(D1)+Chem F(D1+D2). 結果を利用して図 2 のように化学式の部分に化学式 であることを表すタグを挿入し,これらのタグによっ て化学式の機械的な認識を可能とする.. CHEM3 分子 (e.g., H2 O) CHEM4 原子核 (e.g., 3 He,63 Cu) 2. 2. 2. F(D1) + 化学式の出現頻度 D1,D2 のアブストラクトに 含まれる全単語の出現頻度. F(D1+D2)+Chem F(D1+D2) + 化学式の出現頻度 F(Dic) 専門用語辞典に掲載されている 見出し語の出現頻度. また,化学式を次のように分類する.. CHEM1 原子 (e.g., Li,hydrogen) CHEM2 イオン種 (e.g., Xe II,O5+ ). D1 のアブストラクトに含まれる 全単語の出現頻度. F(Dic)+Chem F(Dic) + 化学式の出現頻度 我々は論文分類の対象として原子分子物理学分野の 論文を扱うため,F(Dic) の専門用語辞典は物理・化 学分野中心の用語が含まれている理化学辞典17) を用. CHEM5 電子配置(e.g., 1s 2s 2p ) CHEM6 スペクトル項(e.g., 1 S0 ,2 S1/2 ) CHEM7 数式 (e.g., l=0,n=0). いる.特徴ベクトル F(D1)+Chem ,F(D1+D2)+Chem ,. CHEM8 CHEM5 + 数 + l(e.g., 2p4 3snl) 2.1.2 ストップワード除去・ステミング処理. るベクトルであるので,(F(D1)+Chem の要素数) =. 論文に含まれている化学式以外の単語に対してス トップワードを除去しステミング処理を行う. ストップワードとは冠詞,前置詞,接続詞等を指し,. F(Dic)+Chem は 特 徴 ベ ク ト ル F(D1) ,F(D1+D2) , F(Dic) にそれぞれ 8 種類の化学式を加えて作成す (F(D1) の要素数) + 8 となる. 特徴ベクトル F(D1) はトレーニングデータセット によりベクトルの各要素が示す内容が変わり,要素数 も一定にならない.これは特徴ベクトル F(D1)+Chem ,. あらゆる文章に含まれている.したがって,論文の特. F(D1+D2) ,F(D1+D2)+Chem についてもいえることで. 徴を表す単語としての重要度は低いと考えられるため,. ある.特徴ベクトル F(Dic) ,F(Dic)+Chem で使用す. 文章から除去する.. る理化学辞典には見出し語として 23,500 語が掲載さ. ステミングとは単語の語幹を解釈する手法であり,. れており,本システムではそれらをすべて使用する.. この処理を行うことにより語幹の様々な変化形とマッチ. よって,特徴ベクトル F(Dic) ,F(Dic)+Chem はそれぞ. ングさせることが可能となる.本研究では最も広く利. れ 23,500 次元,23,508 次元のベクトルとなる.. 用されている有名な Porter stemming algorithm 15) を使用した Perl モジュール. 16). を用いてステミングを. 我々は 6 種類の単語・用語の出現頻度と TF・IDF 法18) を利用して特徴ベクトルを作成し,本システム. 行う.. の評価を行う.. 2.2 特徴ベクトル テキストの分類に機械学習法を適用する際には通常, 特徴ベクトルを用いるが,特徴ベクトルによりシステ. TF・IDF 法は単語の出現頻度から文書内の単語の 重要性を測る方法であり,各単語の重み付けに一般 的に用いられる技法である.TF(Term Frequency). ムの性能は大きく左右される.ゆえに,特徴ベクトル. 法は単語の頻度をもとに重み付けする技法であり,式. を作成する作業は機械学習法を使用するにあたって最. (1) のようにある文書中に含まれる単語ごとの頻度で. も重要な作業である.特徴ベクトルの各要素はテキス. 表すものである.本論文では式 (2) で表される各単語. トに含まれている各単語やキーワードが出現するか否. の出現頻度を文書中の全単語の出現数で割った相対頻.
(4) 192. Oct. 2007. 情報処理学会論文誌:数理モデル化と応用. 度を重みとして採用する.IDF(Inverse Document. Frequency)法は単語の特定性をもとに重み付けする 技法であり,ある単語が全文書中のどれくらいの文書 に出現するかを表すもので,式 (3) によって定義され る.これら 2 つを掛け合わせる技法が TF・IDF 法で ある.. wtd = tf (t, d) tf (t, d) wtd = tf (i, d). (1). i∈d. idf (t) = log. 図 3 再現率と適合率 Fig. 3 Recall and precision rates.. (2). な論文誌で,A∼E の 5 つの分野に分かれており,原. N +1 df (t). (3). 子分子物理学分野は A に属している☆☆ .Phys. Rev.. 式 (1),式 (2) の wtd は文書 d における索引語 t の重. A 誌(Vol.41∼62)に掲載されているすべてのアブス. み,式 (2) にある i は文書に出現する索引語を表す.. トラクトのうち,カテゴリ 1 以外のものをカテゴリ 0. 式 (3) において,N は対象となる文書集合に含まれ. とする.このカテゴリ 0 の全アブストラクトは市川が. ている全文書数,df (t) は索引語 t が出現する文書数. すべてチェックしたもので,データ数は 15,944 件で. を示す.. ある.. 3.2 評 価 尺 度. 2.3 学 習 方 法 我々は今回,システムの学習方法として Learning 19). 性能評価を行うために,全アブストラクトの中から. Vector Quantization(LVQ) を採用する.LVQ は. ランダムに選び出されたトレーニングデータセット. 入力データのパターン分類を目的とした教師ありの競. とテストデータセットを用いて実験を行い,その際の. 合学習を行う手法で,解空間を分割するための参照ベ. 認識率,再現率,適合率を求める.認識率とはテスト. クトルを用いて学習を行う.LVQ で使用する参照ベ. データが正しいカテゴリに分類された率をいう.再現. クトルはランダムに生成しても学習が可能であるが,. 率(Recall rate)は探索対象である(カテゴリ 1 に属. 学習に要する時間が長くなるため,本研究ではすべて. している)と認識されるべきデータが正しく分類され. の参照ベクトルをトレーニングデータセットより作成. た率であり,適合率(Precision rate)はカテゴリ 1 に. する.カテゴリごとにランダムに 5 つの特徴ベクトル. 属していると認識されたデータに対する本来のカテゴ. を選択し,その平均ベクトルを求め,これを参照ベク. リ 1 のデータの含有率を示す.なお,本論文では原子. トルとする.LVQ による学習は学習させた参照ベク. 分子データ掲載論文をカテゴリ 1 としている.. トルによって 97%以上のトレーニングデータを正しく. E. :全テストデータセット. 分類できるようになるまで学習を行い,20 回学習さ. Ei N (X) R1 (X). :カテゴリ i のテストデータセット. せて 97%以上のトレーニングデータを正しいカテゴ リに分類できないようであれば 20 回で学習を打ち切 る.LVQ の学習係数の初期値は 0.8 とし,学習回数 に応じて 0.04 ずつ減少させる.. 3. 評 価 方 法 3.1 データセット システムの評価に使用するデータセットは,市川リ スト☆ に記載されている原子分子データ掲載論文 379 20). 件. のうち,ジャーナル Phys. Rev. A 誌. 2). に掲載さ. れている 126 件をカテゴリ 1 として用いる.ジャーナ ル Phys. Rev. 誌は物理学者の業界では最もメジャー ☆. 原子分子物理の専門家が原子分子データを収集し,データベー ス化することを目的として,1995∼1999 年の間に原子分子物 理の主要な学術雑誌中のデータが記載されている論文のリスト を作成したもの.. :データセット X の要素数 :データセット X においてカテゴリ 1 で. あると認識されたデータセット R1T (X) :データセット X においてカテゴリ 1 で あると認識されたカテゴリ 1 のデータセット R1F (X) :データセット X においてカテゴリ 1 で あると認識されたカテゴリ 0 のデータセット 以上の記号を用いると,. N (E) = N (E1 ) + N (E0 ) R1 (E) =R1T (E) +R1F (E) =R1 (E0 ) +R1 (E1 ) が得られ,再現率,適合率は,図 3 を用いて次のよう に定義できる.. . . N R1T (E) N (R1 (E1 )) = Recall = N (E1 ) N (E1 ) ☆☆. Phys. Rev. A には他に物理光学分野の論文が含まれている..
(5) Vol. 48. No. SIG 15(TOM 18). . アブストラクトを用いた原子分子物理学分野の論文分類支援システム. . 193. N R1T (E) N (R1 (E1 )) = N (R1 (E)) N (R1 (E)) 3.3 再現率と適合率 再現率と適合率はトレードオフの関係にある.再現 率の向上を図るとカテゴリ 1 であると認識されるデー. いる重要な語が一般的な語として認識されてしまうお. タが増えるため,一般に適合率は低下する.一方,適. 正しいことが証明されている.. P recision =. 合率の向上を目指すとカテゴリ 1 から省かれるデータ. それがある.ゆえに,カテゴリが混在している集合の みを使用して作成された特徴ベクトルの方が優れてい ると仮定できる.紙面の都合上,実験結果は掲載しな いが,過去に我々が行った実験の結果よりこの仮定は また,本システムを実用化する場合,未分類のデー. が多くなるために,再現率が低下する.したがって,. タに適用する前にトレーニングデータによって学習. どちらを重要とするかは評価を行うシステムの目的を. を行っておく必要がある.したがって,トレーニング. 考慮して決定する必要がある.我々のシステムでは,. データの特徴ベクトルを作成する際に適用する未分類. 原子分子データ掲載論文のアブストラクトを正しいカ. のデータを含む文書集合を用いるのは実用的ではない.. テゴリに分類することよりももれなく収集することが. よって,本論文における実験ではシステムを実用化す. 重要であるため,再現率を重視する.. る場合を考慮し,トレーニングデータの特徴ベクトル. 4. 性 能 評 価. を作成する場合にはトレーニングデータセットに含ま. 4.1 特徴ベクトル作成方法の違いによる比較実験 3.1 節で述べたデータセットのうち,600 件のアブ. を作成する際にはテストデータセットに含まれる全文. ストラクトを使用して実験を行う.600 件のデータに 属するものに関してはランダムに選ばれた 474 件か. 4.1.2 単語・用語の出現頻度の違いによる比較 特徴ベクトルを作成する際に使用する単語・用語の 出現頻度の違いにより認識率,再現率,適合率を比較. らなっているとする.カテゴリ 1:カテゴリ 0 = 63:. する.図 4,図 5,図 6 は 4.1 節に記述したデータ. 237 とするトレーニングデータセットとテストデータ. セットを用いた場合に得られた認識率,再現率,適合. セットを各 100 セット用意し,それらを用いる際の認. 率の平均値を並べたグラフである.. はカテゴリ 1 に属する 126 件を含み,カテゴリ 0 に. れる全文書数を使用し,テストデータの特徴ベクトル 書数を用いる.. 識率,再現率,適合率の平均を比較する.参照ベクト. 図 4,図 5,図 6 より,どの特徴ベクトルを用いた. ル数は 200 とし,そのうちの半分がカテゴリ 1 に,残. 場合にも再現率が 90%以上の値になっていることが. りの半分がカテゴリ 0 に属するものとする.. 確認でき,認識率,適合率に関しては特徴ベクトル. 4.1.1 文書集合の違いによる比較. F(D1) ,F(D1+D2) を使用した場合に高い値が出ている. 2.2 節で述べた IDF 法を表す式 (3) には対象となる 文書集合に含まれる全文書数 N が含まれている.こ. ことが認められる.その一方で,特徴ベクトル F(D1) ,. の文書集合を P とする.一般に情報検索分野で用い. ないという問題がある.要素数が一定でないことはシ. られる場合には P は検索対象となる文書全体の集合. ステムの性能がトレーニングデータセットに大きく依. をさしているが,本論文ではトレーニングデータセッ. 存することを意味する.それに対し,理化学辞典の見. トとテストデータセットという 2 つの文書集合を使用. 出し語をもとに作成された特徴ベクトルは,理化学辞. しているために,様々な文書集合の組合せが考えられ. 典に掲載されている見出し語やその数が決まっている. る.特徴ベクトル要素の値は計算に用いる文書集合に. ため,要素が示す内容や要素数は変化しない.本実験. F(D1+D2) には 2.2 節で述べたとおり要素数が一定で. 依存するため,どの文書集合を選択するかということ. で使用した特徴ベクトル F(Dic) ,F(Dic)+Chem の要. は本システムの評価に関わる重要な課題である.文書. 素数は 1,182,1,190 である.これは,全アブストラク. 集合の組合せは,2 つのカテゴリが混在している集合. トに掲載されていない理化学辞典の見出し語に属する. のみでなっている集合と混在していない集合が含まれ. 要素は本実験で分類を行う際には何の意味もなさない. る集合に分けて考えることができる.TF・IDF 法に. ことから,特徴ベクトルより省いたためである☆ .特. よって他の文書との関連性を示す部分である文書頻度. 徴ベクトル F(Dic) を用いた際の実験結果を確認する. を計算する場合,カテゴリが混在している集合におい. と,適合率が若干低い値ではあるが,本研究で重視し. ては,カテゴリ 1 に属しているアブストラクトの数が. ている再現率は特徴ベクトル F(D1) ,F(D1+D2) と比. 少ないことからカテゴリ 1 のアブストラクト内の語が 重要であると認識される率が高いが,混在していない 集合では,カテゴリ 1 のアブストラクトに掲載されて. ☆. 実用化する際には,全アブストラクトに掲載されていない理化 学辞典の見出し語の数は把握できないため,全 23,500 語に属 する要素を用いる..
(6) 194. 情報処理学会論文誌:数理モデル化と応用. Oct. 2007. 4.2 参照ベクトル数の違いによる比較実験 3.1 節で述べた 16,070 件のデータセットをすべて使 用して実験を行う.トレーニングデータとテストデー タを 8,035 件ずつ用い,どちらのデータセットにも 63 件のカテゴリ 1 のアブストラクトを含めるようにす る.トレーニングデータ数とテストデータ数を各 300 とした実験 4.1 においては参照ベクトル数を 200 と したが,今回はデータ数がそれぞれ約 8,000 件と多い 図 4 実験 4.1 における認識率 Fig. 4 The recognition rates in experiment 4.1.. ため,最適な参照ベクトル数を調べる必要がある.そ こで,参照ベクトル数を 1,000∼8,000 とし 1,000 ず つ増やして実験を行う.本実験で用いる特徴ベクトル. F(Dic) ,F(Dic)+Chem は全アブストラクトに掲載され ていない理化学辞典の見出し語に属する成分を省いた ため,それぞれ 3,557 次元,3,565 次元のベクトルに なる. 図 7,図 8,図 9 はトレーニングデータセットを 10 セット作成しそれぞれ学習させた結果の平均値をグラ フ化したものである.認識率はすべての場合において. 95%以上の値になっており,参照ベクトルの数に関係 図 5 実験 4.1 における再現率 Fig. 5 The recall rates in experiment 4.1.. なくほぼ一定の値になっている.再現率については参 照ベクトル数が増加するに従ってグラフが一定の状態 に達している.適合率は徐々に低くなっているが,再 現率が一定状態になっている段階,つまり,参照ベク トル数 3,000∼8,000 のときには大きな差はみられな い.特徴ベクトル作成時に化学式を使用する場合とし ない場合を比較すると,実験 4.1 の結果と同様に化学 式を使用しない場合により高い再現率が得られている. この実験結果により,原子分子データが記載されてい る論文を探索する際の化学式の重要度は高くないと判 断できる.本実験ではデータとして Phys. Rev. A 誌. 図 6 実験 4.1 における適合率 Fig. 6 The precision rates in experiment 4.1.. に収録されている論文を扱っているが,Phys. Rev. A 誌には原子分子物理学分野だけでなく物理光学分野も 含まれている.したがって,化学式は原子分子物理学. 較して遜色のない結果になっている.よって,特徴ベ. 分野の論文と物理光学分野の論文を分類する際には役. クトル F(Dic) が最適であると考えられる.. に立つのではないかと思われる.. 4.1.3 化学式使用の違いによる比較 特徴ベクトル作成時に化学式を使用する場合と使用. 4.3 参照ベクトルの属するカテゴリの割合の違い による比較実験. しない場合での認識率・再現率・適合率の比較を行う.. 実験 4.2 では,過去に我々が行ってきた研究結果5). 原子分子物理学分野において化学式は非常に重要な. により,LVQ に用いる参照ベクトルのカテゴリの割合. 表現であり専門性が高いと考えられるが,図 4,図 5,. をカテゴリ 1:カテゴリ 0 = 1:1 としている.文献 5). 図 6 の化学式を使用する場合としない場合での実験結. においては,扱っているアブストラクトデータの総数. 果を比較してみると,再現率に対して化学式が重要な. が 364 でそのうちの 127 がカテゴリ 1 に属している. 役割を果たしているとはいえない.これはアブストラ. アブストラクトであるため,この割合が最適であると. クトに掲載されている単語や理化学辞典に掲載されて. いう実験結果を得ている.しかし,今回は約 8,000 の. いる見出し語に化学式よりも専門性の高い単語が含ま. データの中から約 60 のカテゴリ 1 のデータを探し出. れているためであると考えられる.. す作業であることから 1:1 という割合は適していな.
(7) Vol. 48. No. SIG 15(TOM 18). アブストラクトを用いた原子分子物理学分野の論文分類支援システム. 195. 図 7 実験 4.2 における認識率 Fig. 7 The recognition rates in experiment 4.2.. 図 10 実験 4.3 における認識率の変化 Fig. 10 The recognition rates in experiment 4.3.. 図 8 実験 4.2 における再現率 Fig. 8 The recall rates in experiment 4.2.. 図 11 実験 4.3 における再現率の変化 Fig. 11 The recall rates in experiment 4.3.. 図 9 実験 4.2 における適合率 Fig. 9 The precision rates in experiment 4.2.. 図 12 実験 4.3 における適合率の変化 Fig. 12 The precision rates in experiment 4.3.. い可能性がある.そこで,トレーニングデータセット,. が 55.56%,70.16%であり,実験 4.2 と比べると 11∼. テストデータセットともに実験 4.2 で使用したもの. 19%低下している.また,参照ベクトル数が 8,000 の. を用いて,参照ベクトルの数が 2,000 と 8,000 の場合. 場合において再現率のグラフ全体からは 50%に近づく. にカテゴリ 1 に属している参照ベクトルの割合を 5∼. につれて一定になっていく様子が確認でき,参照ベク. 50%に変化させたときの認識率,再現率,適合率の変. トル数 2,000 の際の再現率についてもグラフが一定状. 化を調べる.図 10,図 11,図 12 は結果の平均値を. 態になっているといえる.結果として,参照ベクトル数. とったものである.. が 8,000 でカテゴリ 1 の参照ベクトルの割合が 50%で. 図 10,図 11,図 12 より,参照ベクトルの数が 2,000. あるときに最高の再現率になっており,最適な割合で. と 8,000 のどちらの場合にも,カテゴリ 1 の割合が. あると判断できる.このとき,認識率は 95.42%,再. 5%であるときに適合率が 20%以上であるものの再現率. 現率は 81.59%,適合率は 12.66%になっているが,参.
(8) 196. 情報処理学会論文誌:数理モデル化と応用. Oct. 2007. 図 13 TermExtract の出力ファイル Fig. 13 Output file from TermExtract.. 照ベクトルの数が 8,000 でカテゴリ 1 の参照ベクトル の割合が 50%であるということは,カテゴリ 1 に属 している 63 件のアブストラクトを 4,000 の参照ベク トルによって探し出すということである.これは非効. 図 14 “TermExtract” を用いる場合のテストデータの認識率・ 再現率・適合率 Fig. 14 Recognition, Recall and Precision rates with “TermExtract”.. 率的な方法ではあるが,使用したデータの総数に対し カテゴリ 1 のデータ数が極端に少ないことが原因であ. レーニングデータセットを使って TermExtract の学. ると思われる.したがって,本システムを利用してよ. 習機能により情報を蓄積させ,その情報を用いて,再. り多くのカテゴリ 1 の論文を探し出し,カテゴリ 1 の. 度 TermExtract によりトレーニングデータとテスト. データ数を増やしていくことによって解決できる問題. データに含まれるキーワードのスコアを計算する.各. であると考えている.. アブストラクトのスコアはカテゴリ 1 のトレーニング. 4.4 人間による論文分類の模倣実験 人間が論文を分類する場合には,必要としている論. データに含まれているキーワードのスコアの自然対数. 文に含まれていると推測されるいくつかのキーワード. カテゴリ 1 とカテゴリ 0 の境界値はトレーニング. が論文に含まれているか否かで必要な論文を判断して. データの再現率が 80∼100%になるように設定する.. いると思われる.同様に,アブストラクトによる分類. 具体的には,カテゴリ 1 のトレーニングデータ 63 件. の際にも,アブストラクトに含まれるいくつかのキー. のうち,63 件を正しくカテゴリ 1 であると認識でき. ワードによって必要な論文を判断すると考えられる.. る境界値,62 件を正しく認識できる境界値,という. そこで我々は,アブストラクトのみを用いる場合の,. ように境界値を設定していくものとし,トレーニン. 機械学習による論文分類と人間による論文分類を比較. グデータの再現率が 80∼100%になる際のテストデー. するために,いくつかのキーワードにスコアをつけ,. タの認識率,再現率,適合率を調べる.トレーニング. それらを合計して算出された各アブストラクトのスコ. データ,テストデータを各 10 セット使用して得られ. を合計して算出する.. アによって論文を分類する方法を試みる.この方法に. た実験結果の平均値を図 14 のグラフに示す.スコア. より,アブストラクトによる論文分類時に人間が行っ. の算出方法に関して,テストデータのスコアはテスト. ている判断を模倣できると考えられる.. データセットを使って蓄積させた情報を用いて算出す. キーワードの抽出において,我々はテキストデータ. る場合や TermExtract の学習機能を使用せずに算出. から専門用語を取り出すための Perl モジュール “Ter-. する場合の実験も行ったが,図 14 とほぼ変わらない. mExtract”. 21). を使用する.TermExtract は東京大学. 中川研究室・横浜国立大学森研究室で開発された用. 結果が出たため省略する. 図 14 より,再現率が 90%を超える値であるときに. 語抽出システム22) を全面的に組みなおしたもので,. は認識率,適合率ともに低い値になっており,対照的. TermExtract にテキストデータを適用すると,専門. に,認識率が 90%を超える値である場合や適合率が 20%近くになる際の再現率は 80%をきる結果となって. 用語とその重要度が図 13 のような形で出力される.. TermExtract には学習機能があり,この機能はそれ までに処理対象としたテキストからの情報を蓄積し, スコアを計算する際に用いるものである.我々は英文. いる.これは 1 つの境界値のみを用いてカテゴリを. の形態素解析ソフトとして “Brill’s Tagger” 23) を使. アブストラクトに掲載されている語が多く含まれてい. 分けたことが原因であると思われる.この実験結果に より,カテゴリ 1 に属しているトレーニングデータの. 用し,機械学習法を用いる場合との比較を行うために. ることとカテゴリ 1 に属していることとが,必ずしも. 4.2 節で使用した各 10 セットのトレーニングデータ セットとテストデータセットを用いて実験を行う.ト. 必要条件を満たすわけではないということが確認でき る.カテゴリを正しく認識させるためにはより複雑な.
(9) Vol. 48. No. SIG 15(TOM 18). アブストラクトを用いた原子分子物理学分野の論文分類支援システム. 197. 分類構造が必要であると考えられるため,本実験によ. よって,他の分野の論文を分類したい場合には,その. りアブストラクトのみで論文を分類する際には,人間. 分野に合った専門用語辞典を使用すればシステムの有. が分類するよりも機械学習が有効であることを示すこ. 効性が得られると思われ,様々な分野の論文を用いて. とができる.. システムの評価を行っていくことが今後の課題である.. 4.5 特徴ベクトルの次元数. また,本論文ではシステムに用いる機械学習法として. 我々は各種実験を行ってきたが,ここで,特徴ベク トル F(Dic) のベクトルデータについての考察を行う.. LVQ を採用し優れた性能を確保できたが,今後は他 の機械学習法を用いてシステムを評価していくことも. 16,070 件すべてのデータを使用した際の実験に用い. 課題の 1 つである.. た各アブストラクトの特徴ベクトルは 3,557 次元であ. 謝辞 特徴ベクトルデータの分析にご協力いただき. るが,それらのベクトルのうち 1 件のベクトルにしか. ましたお茶の水女子大学吉田裕亮教授に心より感謝い. 値のない成分が 902 ある.これは分類には何の意味. たします.. もなさない成分であるので,特徴ベクトルは明らかに. 2,655 次元には縮約されるといえる.また,10 件以下 の数件にしか値のない成分も数多くあり,このような 成分は,他の成分との相関が極端に小さくなるため分 類指標としての意味がない.分類の目的にもよるが, ある程度の数のアブストラクトに値のないような成分 は除かれるべきである.次元数が増大すると,一般に 統計モデルの安定性は非常に悪くなり意味のないモデ ルになるといわれていることから,次元数を縮約する ことは効果があると考えられる. しかし,今回使用したデータセットはカテゴリ 1 の データ数とカテゴリ 0 のデータ数にかなりの差があ るため,次元数の縮約には十分な注意が必要である. よって,本論文では次元数の縮約を行っていない.次 元数の縮約に関しては今後検討していく予定である.. 5. ま と め 本論文では,アブストラクトだけを用いて原子分子 物理学分野の論文を分類することが可能であることを 検証した.論文分類のための方法として LVQ を採用 した結果,以下のことが分かった.専門用語辞典に掲 載されている見出し語の出現頻度をもとに作成した特 徴ベクトルを使用した際に,認識率 95.42%,再現率. 81.59%,適合率 12.66%という良好な結果を得ること ができた.この結果は,10,000 件の論文のうち必要 な論文が 78 件しかない文書集合から必要である論文 を探索する場合に,今までは人間が 10,000 件の論文 を読んで探し出していた作業を,LVQ によるシステ ムを用いる場合には 503 件の論文を読んで 64 件の論 文を探し出す作業に置き換えることが可能であること を意味する.本システムにより人間は大きな労力を使 わずに効率的に必要な論文を収集できることを立証で きた. 本論文では原子分子物理学分野の論文の分類に理化 学辞典を使い,優秀な分類結果を得ることができた.. 参 考. 文. 献. 1) 加藤隆子ほか:プラズマ原子・分子過程の展望, プラズマ・核融合学会誌,Vol.75, No.10, p.1124 (1999). 2) APS physics Physical Review A. http://pra. aps.org/ 3) Aizawa, A.: The Feature Quantity: An Information Theoretic Perspective of Tfidf-like Measures, Proc. ACM SIGIR 2000, pp.104–111 (2000). 4) Kashiwagi, H., Watanabe, C., Sasaki, A. and Joe, K.: Text Classification for Constructing an Atomic and Molecular Journal Database by LVQ, International Conference on Parallel and Distributed Processing Techniques and Applications, Vol.II, pp.481–487 (2005). 5) 柏木裕恵,渡辺知恵美,佐々木明,城 和貴: Learning Vector Quantization(LVQ)による テキスト分類の試み,IPSJ Symposium Series, Vol.2004, No.12, pp.103–106 (2004). 6) 永田昌明,平 博順:テキスト分類—学習理論の 「見本市」 ,情報処理学会誌,Vol.42, No.1, pp.33– 37 (2000). 7) Sheng, G., Wen, W., Chin-Hui, L. and Tat-Seng, C.: Maximal Figure-of-Merit Learning Approach to Text Categorization, ACM SIGIR, pp.174–181 (2003). 8) Lewis, D.D.: Naive (Bayes) at Forty: Independence Assumption in Information Retrieval, Proc. 10th European Conference on Machine Learning (ECML-98 ), pp.4–15 (1998). 9) Lewis, D.D. and Ringuette, M.: A comparison of two learning algorithms for text categorization, The 3rd Annual Symposium on Document Analysis and Information Retrieval, pp.81–93 (1994). 10) 平 博順,春野雅彦:トランスダクティブ・ブー スティング法によるテキスト分類,情報処理学会 論文誌,Vol.43, No.6, pp.1843–1851 (2002). 11) 平 博順,春野雅彦:Support Vector Machine.
(10) 198. Oct. 2007. 情報処理学会論文誌:数理モデル化と応用. によるテキスト分類における属性選択,情報処理 学会論文誌,Vol.41, No.4, pp.1113–1123 (2000). 12) 上田修功,斉藤和巳:類似テキスト検索のため の多重トピックテキストモデル,情報処理学会論 文誌,Vol.44, No.SIG14, pp.1–8 (2003). 13) Atomic and Molecular Data Research Center, NIFS. http://dpc.nifs.ac.jp/amdrc/ index-j.html 14) 佐々木明,村田真樹ほか:論文アブストラクトか ら原子分子の状態の情報を検出,抽出する方法の 研究,Journal of Plasma and Fusion Research, Vol.81, No.9, pp.717–722 (2005). 15) Porter, M.: An algorithm for suffix stripping, Program, Vol.14, No.3, pp.130–137 (1980). 16) SWISH::Stemmer. http://search.cpan.org/ dist/SWISH-Stemmer/ 17) 長倉三郎ほか(編):岩波 理化学辞典 CD-ROM 版,5th edition,岩波書店 (1999). 18) Salton, G. and McGill, M.: Introduction to Modern Information Retrieval, McGraw-Hill Book Company (1983). 19) HUT – CIS – Research – SOM PAK, LVQ PAK. http://www.cis.hut.fi/research/ som-research/nnrc-programs.shtml 20) Itikawa, Y.: ANNOTES BIBLIOGRAPHY ON COLLISIONS WITH ATOMIC POSITIVE IONS: EXCITATION AND IONIZATION, 1995–1999, Atomic Data and Nuclear Data Tables, Vol.80, No.1, pp.117–146 (2002). 21) TermExtract. http://gensen.dl.itc.u-tokyo.ac. jp/termextract.html 22) 中川裕志,森 辰則,湯本紘彰:出現頻度と連 接頻度に基づく専門用語抽出,自然言語処理学会 論文誌,Vol.10, No.1, pp.27–45 (2003). 23) Brill’s Tagger. http://research.microsoft.com/ ˜brill/. 田 雅美(正会員). 1977 年生.2004 年奈良女子大学 大学院人間文化研究科複合領域科学 専攻修了.博士(理学)を同大学よ り取得.2004 年独立行政法人科学 技術振興機構戦略的創造研究推進事 業において,京都大学大学院情報学研究科にて委嘱研 究員.2006 年奈良女子大学大学院人間文化研究科助 手.2007 年奈良女子大学大学院人間文化研究科助教. 数値計算ライブラリの開発,分散メモリ環境を対象と する並列プログラムの開発に関する研究に従事. 佐々木 明 電気通信大学電気通信学部卒業. 1989 年電気通信大学新形レーザー 研究センター助手,1991 年工学博 士(東京工業大学),1996 年日本原 子力研究所関西研究所光量子科学研 究センター研究員,2000 年同副主任研究員,2005 年 日本原子力研究開発機構量子ビーム応用研究部門研究 副主幹,現在に至る.専門はプラズマ物理学,原子分 子データベース. 城. 和貴(正会員). 大阪大学理学部数学科卒業.日 本 DEC,ATR 視聴覚研究所(日本. DEC より出向),(株)クボタ・コ ンピュータ事業推進室で勤務の後, 1993 年奈良先端科学技術大学院大 学情報科学研究科博士前期課程入学,1996 年同研究 科後期課程修了,同年同研究科助手.1997 年和歌山. (平成 19 年 2 月 2 日受付). 大学システム工学部講師,1998 年同助教授.1999 年. (平成 19 年 3 月 23 日再受付) (平成 19 年 4 月 4 日採録). 奈良女子大学理学部情報科学科教授,現在に至る,博 士(工学博士).情報処理学会論文誌「数理モデル化 と応用」編集委員長.. 柏木 裕恵(正会員) 奈良女子大学理学部情報科学科卒 業,2007 年同大学大学院人間文化 研究科情報科学専攻博士前期課程修 了,現在,三菱電機株式会社に勤務. .
(11)
図
関連したドキュメント
非自明な和として分解できない結び目を 素な結び目 と いう... 定理 (
Jones, 村上順, 大槻知忠, 葉廣和夫, (量子力学, 統計学, 物理学など様々な分野との結びつき ながら大きく発展中!!
We generalized Definition 5 of close-to-convex univalent functions so that the new class CC) includes p-valent functions.. close-to-convex) and hence any theorem about
母子保健・子育て支援の領域では現在、親子が生涯
「1 建設分野の課題と BIM/CIM」では、建設分野を取り巻く課題や BIM/CIM を行う理由等 の社会的背景や社会的要求を学習する。「2
当図書室は、専門図書館として数学、応用数学、計算機科学、理論物理学の分野の文
目標を、子どもと教師のオリエンテーションでいくつかの文節に分け」、学習課題としている。例
はじめに 中小造船所では、少子高齢化や熟練技術者・技能者の退職の影響等により、人材不足が