CRFによる参考文献書誌情報抽出のための辞書素性の拡充

(1)

DEIM Forum 2016 C8-6

CRF による参考文献書誌情報抽出のための辞書素性の拡充

松岡

大樹

†

_太田

_学

††

_{高須淳宏}

†††

_安達

_淳

†††

† 岡山大学工学部情報系学科〒 700–8530 岡山市北区津島中 3 丁目 1 番 1 号

†† 岡山大学大学院自然科学研究科〒 700–8530 岡山市北区津島中 3 丁目 1 番 1 号

††† 国立情報学研究所〒 101–8430 東京都千代田区一ツ橋 2-1-2

E-mail:

†[email protected], ††[email protected], †††{takasu, adachi}@nii.ac.jp

あらまし膨大な文書が格納されている電子図書館を運用するためには，書誌情報データベースの整備が必要である．

特に，学術論文の参考文献欄には，タイトルや著者名などの有用な書誌情報が集約されている．本研究では Conditional

Random Field を用いて参考文献文字列から書誌情報を自動抽出するが，その際，利用する素性が抽出精度を決定する．

これまでの研究により，辞書素性の有効性が確認されているため，本研究では，正解データを利用して参考文献文字

列の全てのトークンに対応する文字列をエントリに持つ完全書誌要素対応辞書を作成し，辞書エントリの拡充により

見込める抽出精度を評価した．さらに，その知見に基づいて，実際に使用する辞書エントリの拡充について考察する．

キーワード

情報抽出，Conditional Random Feild，参考文献文字列，辞書素性

1. はじめに

多数の学術論文を蓄積している電子図書館のサービスでは，検索やソート，文書間リンク等の機能は必須といえる．しかし，そのための書誌情報を人手でデータベースに登録するコストは膨大なため，その作業を可能な限り自動化する文書解析技術が求められている．特に学術論文の参考文献欄には，関連する文献の情報が集約されており，タイトルや著者名などの書誌情報は有用である．本研究では川上ら[1]と同様の方法で，Conditional Random Field (CRF) [2]を用いて，参考文献文字列から書誌情報を自動抽出する．CRFを用いた参考文献書誌情報抽出においては，利用する素性が書誌情報の抽出精度を決定する．我々は，どのような素性が書誌情報の高精度抽出に有効であるのか検討し，辞書素性が有効であることを確認した[3]．そこで本研究では，正解データを利用して，参考文献文字列の全てのトークンに対応する文字列をエントリに持つ完全書誌要素対応辞書を作成し，辞書エントリの拡充により見込める抽出精度を評価する．そして，完全書誌要素対応辞書を用いた実験の結果等に基づいて辞書エントリの拡充に関して考察する．本稿の構成は次の通りである．2節で学術論文からの書誌情報抽出に関する研究を紹介し，続く3節で本研究で行うCRF による参考文献書誌情報の自動抽出について説明する．4節で完全書誌要素対応辞書について述べ，5節で実験による評価を行う．そして6節で辞書エントリの拡充に関して考察し，最後に7節で本稿をまとめる．

2. 関連研究

多数の学術論文を格納する電子図書館において，書誌情報の管理は必須であるが，学術論文からの書誌情報抽出では，ルールや機械学習がよく用いられる．ルールを用いて論文の，例えば参考文献文字列から書誌情報を抽出する場合，図1のように，図 1 学術論文誌による参考文献文字列の書式の違い著者名，タイトル，発行年などの書式が異なる論文誌ごとに抽出のためのルールを設定する必要がある．しかし，近年では学術論文の数が増大し，論文誌ごとにルールを設定し，管理することが困難になりつつある．そのため，学習データを準備すれば，どの学術論文にも対応することのできる機械学習が注目されている．機械学習による書誌情報抽出には，阿辺川ら[4]，Okada ら[5]，Peng ら[6]や Councillら[7]の研究がある．本研究では，CRF [2] を用いて書誌情報を抽出するが，阿辺川ら

[4]，Okadaら[5]はSupport Vector Machine(SVM) [8]やHidden

Marlov Model(HMM) [9]を利用して書誌情報を抽出した．阿辺川らは，pdftohtml（注 1）_{を用いて学術論文の}_PDF_{ファイルから，} 位置やフォント情報を抽出した．次に，“ はじめに ”や“ Intro-duction”などを手がかり語として，論文の本文が開始される前までをテキストとして切り出した．また，ファイル末尾の“ 参考文献 ”，“Reference”などの語を手がかり語として，参考文献文字列をテキストとして切り出した．論文の1ページ目の本文が開始されるまでのテキストに対しては，SVMを用いて書誌情報を抽出した．このとき，ページ上部からの距離や，フォン（注1）：http://pdftohtml.sourceforge.net

(2)

トサイズの差などの視覚的素性と，“ はじめに ”や“ 参考文献 ” などのキーワードや文字クラスなどの言語的素性を利用した．そして，参考文献文字列からはHMMとSVMのそれぞれを用いて書誌情報を抽出した．その際，日本語と英語では学習のモデルが異なると考え，参考文献文字列を和文と英文に分類して実験を行っている．HMMを用いた手法においては，文字クラスを入力とし，状態遷移モデルを用いて書誌情報を抽出した．また，SVMを用いた手法においては，文字そのものを素性とし，状態遷移モデルを用いて書誌情報を抽出した．実験の結果，タイトルページからの書誌情報抽出精度が論文単位で69.2%，参考文献文字列からの書誌情報抽出精度が，和文で74.8%，英文で81.6%であった．Okadaらは，カンマや“vol.”，“no.”，

“pp.”，“ed.”といった特定の文字列をデリミタとして参考文献文字列をトークンに変換し，SVMとHMMを用いて各トークンに書誌要素ラベルを付与した．実験では，電子情報通信学会論文誌Vol.J83-DIIのNo.1からNo.12に掲載されている論文

の参考文献文字列を対象にし，97.6%の精度で書誌情報を抽出した． Pengら[6]やCouncillら[7]はHMMやCRFを用いて書誌情報を抽出した．Pengらはタイトルページと参考文献欄の単語ごとに書誌要素ラベルを付与した．タイトルページにおける書誌情報抽出では，英語論文935件を対象に，500件を学習データ，435件をテストデータとして実験を行った．著者名やタイトル，所属など13項目の書誌情報を抽出し，そのF値の平均は0.939であった．一方，参考文献欄からの書誌情報抽出においては，英語論文500件を対象に，350件を学習データ，150件をテストデータとして実験を行った．著者名や論文誌名，日付など13項目の書誌情報を抽出し，そのF値の平均は0.915であった．また，Councillらは，参考文献文字列から書誌情報を抽出する，CRFに基づく書誌情報抽出ツールであるParsCitを開発した．ParsCitでは，空白文字をデリミタとして英文の参考文献文字列をトークン列に変換し，そのトークン列に書誌要素ラベルを付与する．彼らの実験は，Coraデータセット[10]を対象に，著者名やタイトルなど13項目の書誌情報を抽出し，そのF値の平均は0.950であった． Ohtaら[11]は，書誌情報抽出における学習データ生成コストの削減に関する研究を行った．Ohtaらは，CRFにより書誌情報を抽出する際に，能動サンプリングにより学習データを削減する方法を提案した．能動サンプリングは，CRFの学習の際に有効なデータを効率よく選択する方法である．具体的には，書誌情報抽出結果に確信度を定義し，ある時点の学習モデルにおいて，書誌情報抽出が困難な学習データを次回の学習データとする方法である．Ohtaらの書誌情報抽出では，文書画像の学術論文のタイトルページに対して，OCRによりレイアウト解析と文字認識を行い，CRFを用いて矩形テキスト領域に対して書誌要素ラベルを付与する．能動サンプリングを用いた実験の結果では，書誌情報抽出精度を維持したまま，学習データ量を三分の一以下に削減できたと報告している．さらにOhtaらは[12]において，論文タイトルページからCRFにより抽出した書誌情報の誤り検出を確信度に基づいて行うことで，人手に図 2 参考文献書誌情報抽出の例表 1 抽出する書誌情報 [1] 書誌要素書誌要素ラベル Author RA Editor RE Translator RTR

Author Other RAOT

Title RT Booktitle RBT Journal RW Conference RC Volume RV Number RN Page RPP Publisher RP Day RD Month RM Year RY Location RL URL RURL Other ROT よる後処理のコストを抑えながら，高品質な書誌情報が得られることを示した．これらの研究はいずれも論文タイトルページからの書誌情報抽出であるが，本研究では川上ら[1]の研究をもとに，レイアウト情報を持たない参考文献文字列から書誌情報を抽出する．

3. CRF

による書誌情報抽出

3. 1 書誌情報抽出本研究では，学術論文の参考文献文字列から書誌情報を自動抽出する．具体的には図2のように参考文献文字列をまずトークン列に変換し，その後トークン列から著者名やタイトルといった主要な書誌情報を抽出する．参考文献文字列から抽出する書誌情報の一覧とそれに対応する書誌要素ラベルを表1にまとめる[1]．表1のOtherは他のどの書誌要素にも分類されない書誌要素であり，具体的には所属機関などが含まれる．本研究では図2に示すように，トークン列の各トークンに対してRA やRTなどの書誌要素ラベル，またはDCなどのデリミタラベ

(3)

ルを付与する．なお，図2でDから始まるラベルはデリミタラベルを表し，DC(カンマ+空白)などが定義されている[1]． 3. 2 CRF 本研究の書誌情報抽出では，標準的なチェーンモデルの CRF [2]の定義を用いて，参考文献文字列をトークン列に変換し，そのトークン列に書誌要素ラベルを付与する．またCRFでは，入力系列x= x1, . . . , xnが与えられたとき，出力ラベル系列がy= y1, . . . , ynとなる条件付き確率を以下のように与える． P (y|x) = 1 Zx exp    n ∑ i=1 ∑ k λkfk(yi−1, yi, x)    (1) ただし、Zxは，全てのラベル系列を考慮したときに確率の和が 1となるための正規化項で， Zx= ∑ y′∈Y(x) exp    n ∑ i=1 ∑ k λkfk ( y′i−1, y′i, x )  (2) である．ここで，fk(yi−1, yi, x)は(i− 1)番目とi番目の出力ラベルと入力系列xに依存する任意の素性関数である．_λkは素性関数 fkの重みを表すパラメータで学習により定める．また， Y (x)は入力系列xに対する出力ラベル系列の集合である．そして，入力系列xに対する最適な出力ラベル系列y∗は次式で与えられる． y∗= arg max y∈Y(x) P(y|x) (3) 本研究の書誌情報抽出では，ラベル付与の対象である入力xi は，参考文献文字列をトークン化して得られるトークンであり，一方，ラベルyiは，書誌要素またはデリミタのラベルである．本稿の実験では，書誌要素ラベル付与の精度を評価するため，トークン化は人手で行った． 3. 3 素性テンプレート本研究では工藤が作成したCRF++（注 2）_{を利用して書誌情報} を抽出する．CRF++で用いる素性テンプレートは川上らの素性テンプレート[1]を拡充したもの使用する[3]．これを表2にまとめる．素性テンプレートについて説明する．この素性テンプレートは56種類のUnigram素性と1種類のBigram素性の合計 57種類の素性で構成されている．これらは全て言語的な素性で，レイアウトに関する素性はない．Unigram素性には，トークンのトークン列における出現位置や文字数，トークンを構成する文字種とその割合，トークンの先頭・末尾から四文字目までの文字列，大文字などの特定の文字や特徴的な文字列，各種辞書のエントリの有無などを用いている．また，_{<dictionary(i)>}における辞書としては，人名（注 3）_{，月名，地名}（注 4）_{，出版社名}（注5）_，論文誌名（注 6）_，会議名（注 7）_{の辞書と，学会誌名や新聞紙名など} の分類困難なものをまとめた辞書の7種類の辞書を使用する．（注2）：http://taku910.github.io/crfpp/ （注3）：http://www.census.gov/genealogy/names/など（注4）：http://www.fallingrain.com/world/index.html など（注5）：http://www.narosa.com/nbd/PublisherDistributed.asp など（注6）：http://science.thomsonreuters.com など（注7）：http://www.allconferences.com/など表 2 素性テンプレート [3] 種類素性数内容

Unigram <token ab pos(0)> 1 トークン列における絶対的な出現位置 <token re pos(0)> 1 トークン列における相対的な出現位置 <num char(0)> 1 トークンの文字数 <num word(0)> 4 トークン内の単語数 <num period(0)> 4 トークン内のピリオド数 <f kanji(0)> 1 トークン内の漢字数の割合 <f hiragana(0)> 1 トークン内のひらがな数の割合 <f katakana(0)> 1 トークン内のカタカナ数の割合 <f alphabet(0)> 1 トークン内の全角アルファベット数の割合 <f digit(0)> 1 トークン内の全角数字数の割合 <h alphabet(0)> 1 トークン内の半角アルファベット数の割合 <h digit(0)> 1 トークン内の半角数字数の割合 <h symbol(0)> 1 トークン内の記号数の割合 <first 1-4 string(0)> 4 トークンの先頭から四文字目までの文字列 <last 1-4 string(0)> 4 トークンの末尾から四文字目までの文字列 <token(0)> 1 トークン自身 <last char(i)> 1 トークンの最後の文字種 <token lc(i)> 1 トークンを小文字にした文字列 <capital(i)> 1 トークン中の大文字の有無 <digit(i)> 1 トークン中の数字の有無 <symbol(i)> 2 トークン中の記号の有無 <keyword(i)> 4 トークン中の特徴的な文字列の有無 <dictionary(i)> 15 辞書的素性 <num token(0)> 1 参考文献文字列のトークン数 <editor(0)> 1 参考文献文字列中の Editor に関する記述の有無 <URL(0)> 1 参考文献文字列中の URL に関する記述の有無

Bigram < y(-1), y(0)> 1 ラベルの遷移

また，辞書素性には，どの辞書のエントリに一致したかを示す Dictという素性があり，この素性はヒットしたエントリを持つ辞書のビットを1とし，2進表現したものを10進数に直した素性である．例えば，“July”という文字列が人名，月名の2つの辞書にヒットすると，Dictの値は3となる．また，[3]において拡充した素性は，<keyword(i)>に含まれる日本語姓辞書の素性と，_{<dictionary(i)>}に含まれる7種類の辞書素性である．川上ら[1]は，_<keyword(i)>に含まれる日本語姓辞書においては完全一致，前方一致，後方一致，部分一致，不一致の5段階の照合判定を用いた．一方，<dictionary(i)>に含まれる7種類の辞書においては，各辞書のエントリに一致したか一致してないかの2段階の照合判定を用いた．これを[3]で，どの辞書においても2段階と5段階のどちらの照合判定も可能にした．よって追加した素性は，日本語姓辞書と2段階の照合判定を行った素性が1種類と，それ以外の辞書と5段階の照合判定を行った素性が7種類である．表2の各素性の括弧内の数字はトークンの相対位置を表し，0が現在のトークンである．またi∈ {−4, −3, −2, −1, 0, 1, 2, 3, 4}である．なお，表2で，“ 数 ” はその素性に関する要素数を表し，例えば，_{<first 1-4 string(0)>} の場合，トークンの先頭の文字，先頭から二文字目までの文字，先頭から三文字目までの文字，先頭から四文字目までの文字という4つの要素を持つ．また，書誌要素ラベルの遷移を考慮するためBigram素性を用いる．この素性は付与される書誌要素ラベルの連接に関する情報を表し，これにより，例えば，著者名の後にタイトルがくるといった書誌要素の出現順に関する制約を考慮することができる．

4. 完全書誌要素対応辞書

本研究では，正解データを利用して全てのトークンに対応する文字列をエントリに持つ完全書誌要素対応辞書を作成し，そ

(4)

表 3 書誌要素ラベルの再分類 [1]

書誌要素ラベル分類名

RA, RE, RTR, RAOT AUTHOR

RT, RBT TITLE RW, RC JOURNAL RV, RN, RPP VOLUME RP PUBLISHER RD DAY RM MONTH RY YEAR

RL, RURL, ROT OTHER

表 4 作成した辞書

辞書 IEICE-J IEICE-E IPSJ 3journal

AUTHOR 7,210 6,272 6,730 19,391 TITLE 4,409 4,289 4,308 12,835 JOURNAL 1,551 1,747 2,026 5,004 VOLUME 2,221 2,181 1,763 3,441 PUBLISHER 274 336 400 842 DAY 9 54 11 67 MONTH 23 31 32 58 YEAR 60 59 52 78 OTHER 224 432 618 1,107 れを用いて書誌情報抽出精度を評価する．本研究においては，表1に示した書誌情報を先行研究[1]に倣って表3のように集約して正解判定を行うため，これに対応する辞書を作成した．よって，AUTHOR，TITLE，JOURNAL，VOLUME，PUBLISHER，

DAY，MONTH，YEAR，OTHERの9種類の辞書を作成した．

辞書は，実験で使用する3つの論文誌である，電子情報通信学会和文論文誌(IEICE-J)，電子情報通信学会英文論文誌(IEICE-E)，情報処理学会論文誌(IPSJ)の正解データから，表1に示した書誌要素ごとにトークンを抽出し，それを表3のように集約して，重複を除いて作成する．つまり，作成した辞書は正解データの全てのトークンの文字列を含んでいる．このようにして作成した辞書のエントリ数を表4に示す．表4には論文誌ごとに作成した辞書のエントリ数と，全ての論文誌をまとめて作成した辞書のエントリ数があるが，実験は全ての論文誌をまとめて作成した辞書である3journalを使用する．なお，辞書3journalにおいても作成の際に重複を削除している． CRFにより書誌要素ラベルを付与する際は，作成した9種類の辞書を表2の_{<dictionary(i)>}に含まれる人名辞書，月名辞書，地名辞書，出版社名辞書，論文誌名辞書，会議名辞書，分類困難なものをまとめた辞書と入れ替える．また，Dictはこの辞書の入れ替えに伴い，図3のようにする．図3では，ある

トークンがVOLUME，DAY，MONTHの3つの辞書のエントリに一致した場合を示しており，このときDictの値は104になる．この結果辞書素性は，Dict素性が1種類と各辞書における 2段階の照合判定を用いた素性と5段階の照合判定を用いた素性の18種類があり，合計19種類となる．よって，作成した辞書を用いた実験は，60種類のUnigram素性と1種類のBigram 素性の合計61種類の素性を用いて行う．図 3 変更後の Dict 素性表 5 完全書誌要素対応辞書を用いたときの抽出精度論文誌川上ら [1] の辞書完全書誌要素対応辞書 IEICE-J 0.9662 0.9887 IEICE-E 0.9709 0.9895 IPSJ 0.9646 0.9906

5. 評価実験

5. 1 実験概要 4節に示した完全書誌要素対応辞書を用いて書誌情報抽出精度を算出する．実験データとして，以下の参考文献文字列コーパスを利用する． IEICE-J 2000年の電子情報通信学会和文論文誌に含まれる参考文献文字列4,787件（内，和文2,193件） IEICE-E 2000年の電子情報通信学会英文論文誌に含まれる参考文献文字列4,497件（内，和文0件） IPSJ 2000年の情報処理学会論文誌に含まれる参考文献文字列 4,574件（内，和文1,537件）参考文献文字列に含まれる書誌要素が過不足なく抽出された参考文献文字列数を，全参考文献文字列数で割ったものを書誌情報抽出精度と定め，評価指標とする．また，この精度は5分割交差検定を用いて算出する．ただし，書誌要素ラベル付与においては，表1を先行研究[1]に倣って表3のように集約し，表3において同じ分類のものは正解判定において区別しない．そして，表3の分類に基づいて，CRFが全てのトークンに正しい書誌要素ラベルを付与した場合を成功とみなす．また，デリミタの種類の誤りは無視する．実験において，CRF++の学習パラメータはデフォルトの値を利用した． 5. 2 完全書誌要素対応辞書の効果 4節に示した完全書誌要素対応辞書を用いて実験を行い，書誌情報抽出精度を算出した．結果を表5に示す．完全書誌要素対応辞書を用いた結果，川上ら[1]の辞書に比べ，IEICE-Jにおいて2.25ポイント，IEICE-Eにおいて1.86ポイント，IPSJにおいて2.6ポイント抽出精度が向上した．この結果から，辞書を拡充し，照合するエントリが増えれば抽出精度の向上が期待できることがわかる．また，Dictと9種類の辞書の中でどの素性が有効であるか確かめるため，それぞれの辞書素性を1種類ずつを除いて比較実験を行った．なお，各辞書の素性を除いて比較するときには

(5)

(a) IEICE-J (b) IEICE-E (c) IPSJ 図 4 完全書誌要素対応辞書による比較実験 Dict素性は常に使用しない．素性を除いて実験を行っているため，精度が大きく低下した素性ほど書誌情報抽出精度への寄与が大きいといえる．実験の結果を図4に示す．図4の(a)より，

IEICE-Jにおいては，TITLE，JOURNAL，VOLUMEの辞書をそれぞれ除いたときに抽出精度が大きく低下していることがわかる．この結果から，IEICE-Jにおいては，TITLE，JOURNAL，

VOLUMEの3つの辞書が特に有効であるといえる．その中で

もJOURNAL辞書の寄与が1番大きい．また，図4の(b)よ

り，IEICE-Eにおいては，AUTHOR，TITLE，JOURNALの辞書をそれぞれ除いたときの抽出精度の低下が大きい．この結果から，IEICE-Eにおいては，AUTHOR，TITLE，JOURNALの

表 6 エントリ追加による書誌情報抽出精度の比較論文誌書誌情報抽出精度エントリ追加後の書誌情報抽出精度 IEICE-J 0.9662 0.9659 IEICE-E 0.9709 0.9702 IPSJ 0.9646 0.9646 3つの辞書が特に有効であることがわかる．IEICE-EにおいてもIEICE-Jと同様に，JOURNAL辞書の寄与が1番大きい．そ

して，図4の(c)より，IPSJにおいては，TITLE，JOUNRAL

の辞書をそれぞれ除いたときの抽出精度の低下が大きい．この結果から，IPSJにおいては，TITLE，JOURNALの2つの辞書が特に有効であることが確認できる．IPSJにおいても，前の2雑誌と同様，JOURNAL辞書の寄与が1番大きい．TITLE， JOURNALの2つの辞書はどの雑誌においても書誌情報抽出精度に大きな寄与を示したが，TITLE辞書の作成は一般には困難だと考えられる．よって，実用的にはJOURNAL辞書のエントリを拡充させることにより，書誌情報抽出精度の向上が期待できる．この辞書は表1と表3より論文誌名や会議名の辞書のことである．

6. 辞書エントリの拡充に関する考察

5. 2節の実験より，論文誌名や会議名の辞書のエントリの追加が書誌情報抽出精度の向上に有効であることがわかった．そこで，無作為に論文誌名辞書にエントリを追加して実験を行い，辞書にどのようなエントリを追加すれば書誌情報を高精度に抽出できるか考察する．実験では，論文誌名辞書に日本語，および英語のエントリを追加した．日本語のエントリはNII学術情報ナビゲータ(CiNii) の刊行物ディレクトリ（注 8）_{，および電子情報通信学会の学術雑} 誌略語表（注9）_より，_1,042_{件追加した．また，英語のエントリ} はdblp（注10）_の_journal_{の一覧より，}₇₄₂_{件追加した．なお，こ} れらエントリ数は既存のエントリとの重複を削除した後のエントリ数である．エントリを追加した論文誌名辞書を用いて実験を行った結果を表6に示す．表6より，いずれの雑誌においてもほとんど差は見られなかった．よって，無作為にエントリを 1,800件程度追加しても，抽出精度への影響はほとんどないことがわかる．抽出精度への影響がほとんどない理由としては，本稿で追加したエントリは無作為に選択したため，実際に実験データの参考文献にヒットするエントリが少なかったことが挙げられる．例えば英語のエントリは，全て論文誌名の正式名称を追加したため，省略して記載されている論文誌名には一致しない．よって，辞書にエントリを追加する際には，その学術論文の体裁等からよく使われている論文誌名の見当をつけて，エントリに追加することが重要である．また，論文誌名は雑誌によって省略されて表記されることがあり，それを考慮して省略名も辞書に加える必要がある．このように辞書にエントリを追加すれば，ヒットするエントリが増え，抽出精度の向上が期待（注8）：http://ci.nii.ac.jp/journal/society/all ja.html （注9）：https://www.ieice.org/jpn/shiori/pdf/furoku e.pdf （注10）：http://dblp.uni-trier.de/

(6)

できる．今後は，この知見を生かし，有効であると確認できた論文誌名辞書や会議名辞書のエントリを追加していく予定である．

7. まとめ

本稿では，CRFによる参考文献書誌情報の高精度抽出のために完全書誌要素対応辞書を作成し，辞書エントリの拡充により見込める抽出精度を評価した．実験の結果，完全書誌要素対応辞書を使用すれば，川上らの辞書に比べ，IEICE-Jにおいて 2.25ポイント，IEICE-Eにおいて1.86ポイント，IPSJにおいて 2.6ポイント書誌情報抽出精度が向上することを確認した．さらに，各辞書素性の中でどの辞書が有効であるか実験を行い， IEICE-Jにおいては論文題目名，論文誌名，会議名，ボリューム，ページ番号の辞書，IEICE-Eにおいては著者名，論文題目名，論文誌名，会議名の辞書，IPSJにおいては論文題目名，論文誌名，会議名の辞書が有効であることを確認した．また，辞書にどのようなエントリを追加すれば書誌情報を高精度に抽出できるかについて考察した．今後は，実験結果から得られた知見をもとに，辞書のエントリを拡充する予定である．

謝

辞

本研究の一部は，科学研究費補助金基盤研究(B)(課題番号 15H02789)，科学研究費補助金基盤研究(C)(課題番号25330384)，および国立情報学研究所公募型共同研究の援助による．ここに記して深謝する．文献 [1] 川上尚慶, 太田学, 高須淳宏, 安達淳, “少量学習データによる参考文献書誌情報抽出精度の向上”, 情報処理学会論文誌データベース, vol. 8, no. 2, pp. 18–29, 2015.

[2] J. Laﬀerty, A. McCallum and F. Pereira, “Conditional Random Fields : Probabilistic Models for Segmenting and Labeling Sequence Data”, In Proc. of 18th International Conference on Machine Learning, pp. 282–289, 2001. [3] 松岡大樹, 太田学, 高須淳宏, 安達淳, “CRF による参考文献書誌情報抽出のための有効な素性の検討と拡充”, 情報処理学会研究報告, vol. 2015-DBS-162, no. 3, pp. 1–8, 2015. [4] 阿辺川武, 難波英嗣, 高村大也, 奥村学, “機械学習による科学技術論文からの書誌情報の自動抽出”, 情報処理学会研究報告, 2003-FI-72/2003-NL-157, pp. 83-90, 2003．

[5] T. Okada, A. Takasu, and J. Adachi, “Bibliographic Component Ex-traction Using Support Vector Machines and Hidden Markov Mod-els”, ECDL 2004, LNCS 3332, pp. 501-512, 2004.

[6] F. Peng, A. McCallum, “Accurate Information Extraction from Re-search Papers Using Conditional Random Fields”, HLT-NAACL 2004, pp. 329–336, 2004.

[7] I.G. Councill, C.L. Giles and M.Y. Kan, “ParsCit: An Open-Source CRF Reference String Parsing Package”, In Proc. of language re-source and evaluation conference, 2008.

[8] C.Cortes and V.Vapnik, “Support-Vector Networks”, Machine Learn-ing, vol.20, no. 3, pp.273-297, 1995.

[9] K.Seymore, A.McCallum and R.Rosenfeld, “Learning hidden Markov model structure for information extraction”, In AAAI 99 Workshop on Machine Learning for Information Extraction, 1999. [10] A. McCallum, K. Nigam, J. Rennie and K. Seymore, “Automating

the Construction of Internet Portals with Machine Learning”, Infor-mation Retrieval, vol. 3, no. 2, pp. 127-163, 2000.

[11] M. Ohta, R. Inoue, A. Takasu, “Empirical Evaluation of Active Sam-pling for CRF-Based Analysis of Pages”, In Proc. of IEEE IRI 2010, pp. 13–18, 2010.

[12] M. Ohta, R. Inoue, A. Takasu, “Empirical Evaluation of CRF-Based Bibliography Extraction from Research Papers”, IADIS International Journal on Computer Science and Information Systems, vol. 7, no. 2, pp. 18–31, 2012.

CRFによる参考文献書誌情報抽出のための辞書素性の拡充

DEIM Forum 2016 C8-6