6章の考察で挙げたように,提案手法によって実際に出力される解答リストが示す質問 の曖昧性として多いのは,年や日付に関連する曖昧性である.また,解答や限定表現とし ても日付表現が抽出される場合が多い.しかし,「今年」や「先月」のような相対的な日 付表現が抽出された場合,これらをそのままユーザに提示しても,具体的な日時がわから ない.そこで,相対的な日付表現を絶対的な日付に変換する必要がある.以下,相対的な 日付表現のことを「参照日付表現」と呼ぶ.
先行研究のように新聞記事を知識源としている場合は,記事の日付を表わすタグに基づ いて日付を抽出し,その日付を元に相対的な日付表現を変換すればよい.しかし,ウェブ ページには日付を記録するための統一された方法はなく,書き手によって日付の表現方法 は多様である.また,日記やBlogのように,1つのウェブページ内においても違う日に 書かれたテキストが混在する場合も多い.そこで,ウェブページ全体の更新日時やウェブ ページ内のある特定のテキストの更新日時を特定した上で,参照日付表現を変換する必要 がある.
この章では参照日付表現を絶対的な日時に直すために,ウェブページにおけるセグメン トが書かれた日付を特定する手法について検討する.ここで,セグメントとは,5.1節で 述べた手法で検出されるウェブページの大きなまとまりを指す.
7.1 提案手法
セグメントが書かれた日付を特定するための手順を以下に示す.
1. 日付表現の抽出
2. セグメントとの対応づけ
これらの処理の詳細を以下に述べる.
日付表現の抽出
• ウェブページ全体の更新日時
同じセグメント内に更新を示唆する表現と共に出現する日付表現を抽出する.この ような日付表現はウェブページ全体が作成された日付を表わすことが多い.
• ウェブページの部分的な更新日時
セグメントに単独で存在する日付表現を抽出する.このような日付表現は日記やBlog 形式のウェブページにおいて,ウェブページの部分的なテキストの更新日時を表わ す事が多い.
日付表現は以下のパターンで抽出した.また,年の表記がない日付表現も抽出した.
• 日本語の表記のパターン
例:2008年2月7日,昭和58年11月13日
• 英語の表記のパターン
例:2008,7,February,1983,13,Nov.
• 数字と記号による表記のパターン 例:2008/02/07,2008/2/7,2008:11:13 次に,更新を示唆する表現を表7.1に示す.
表 7.1: 更新を示唆する表現
更新,更新日,更新日時,最終更新,最終更新日,最終更 新日時,作成,作成日,作成日時,last update,update,
updated,up,posted by,posted at
抽出される日付表現の例を示す.図7.1ではセグメント(A)内に更新を示唆する表現「最 終更新」と共に出現する「2007年9月3日」と,セグメントに単独で存在する「2007年 9月3日」,「2007年9月2日」,「2007年9月1日」の4つの日付表現が更新日時として抽 出される.セグメント(B)内の「9月5日」という日付表現はセグメントに単独で出現し ておらず,ウェブページ内のテキストの更新日時を表わしているわけではないので抽出し ない.
セグメントとの対応付け
本研究では,ウェブページをセグメントに分割し,セグメントの中から解答候補や限定 表現を抽出する.セグメント内にある参照日付表現を絶対的な日付に変換するためには,
そのセグメントが書かれた日付を特定する必要がある.特に,日記やBlogのようにペー ジ内に複数の更新日時が現われる場合,抽出された日付表現が解答候補を含むセグメント と正しく対応していなければならない.解答候補を含むセグメントと日付表現とを対応さ せる条件を以下に示す.
• 条件1:セグメントと日付表現との距離が最も短い日付表現をセグメントの更新日 時とする.
一般に,日記やBlogではセグメントに最も近い日付表現がそのセグメントの更新日 時を表わす.ここでの距離とは,セグメントと日付表現の間に存在するセグメント の数と定義する.
• 条件2:セグメントの前後の距離が等しい日付表現は,セグメントの前方に存在す
る日付表現を更新日時とする.
距離が等しい日付表現が検出される場合の殆どは,人手で書かれた日記形式のペー ジある.そのようなページの場合は,セグメントの前方に対応する日付表現が現れ る.セグメントの後ろに対応する日付表現が現れる場合は殆どがBlogであり,その 場合は条件1で検出される.
セグメントの対応付けの例を示す.図7.1のセグメント(B)の場合,距離が最も短くかつ そのセグメントの前に現われる「2007年9月2日」が更新日時となる.
図 7.1: 日付表現の抽出の例
7.2 評価
7.1節で述べたステップ1の日付表現を抽出する手法を評価する予備実験を行なった.こ の実験では,付録A.1に挙げた25個の質問を用意し,1つの質問に対してTSUBAKIの
検索結果の上位10件,合計250個のウェブページを日付表現抽出の対象とした.抽出さ れた日付表現が適切であるかを人手で判定した.適切な日付表現とは,抽出された日付 表現が,ページ全体,もしくはページの部分的な更新日時を表わしている場合を指す.表 7.2に実験結果を示す.(A)はシステムが出力した日付表現の総数である.(B)の適合率は システムが出力した日付表現のうち適切な日付表現の割合である.(C)の再現率は本来抽 出するべき日付表現のうち,システムが出力した適切な日付表現の割合である.
表 7.2: 日付表現抽出の実験結果 (A)抽出された日付表現の数 30
(B)適合率 67%
(C)再現率 61%
本来抽出するべき日付表現の抽出に失敗した要因は,「二〇〇七年二月七日」や「2008/02/07
23:38」など7.1節に示した日付表現のパターンだけでは抽出できない日付表現が存在した
ことであった.
一方,日付表現の抽出は成功したが,誤った日付表現を抽出した要因は,人物のプロ フィールなどに現れる生年月日やニュースサイトの記事の見出し等に含まれる日付表現で あった.
また,今回の予備実験に用いたデータは,250のウェブページに対して更新日時を表わ す日付表現の数は33と少なく,提案手法の評価に適しているとはいえない.日付表現を 多く含むページを対象に評価を行ない,またその結果を踏まえて日付表現を抽出する手法 を改良する必要がある.
また,抽出した日付表現とセグメントの対応関係をとる処理や,参照日付表現を絶対的 な日付に直す処理は実装していない.本論文では,参照日付表現を絶対的な日付表現に 直す手法を検討しただけにとどまったが,提案システムに組み込むモジュールとして実装 し,より適切な解答リストを提示できるようにすることが今後の課題である.