4.4 実験と検討
4.4.2 実験2:人名のみを指定した場合
実験では,人名を入力とし,検索エンジンを用いて収集した候補ページから人物情報 を収集する.人名は,前項と同様のものを用いる.なお,ここで収集する人物情報は,
職名に関係なく収集した人物情報である.つまり,参議院議員の名前を入力しても,そ の名前をもつ人物の情報であれば,人物が参議院議員でなくてもよい.
参議院議員50名を用いた結果を表4.7,表4.8に示す.50名のうち19名からプロフィー ルを収集した.ただし,19 名のうち 5 名は不正解のプロフィールしか存在しなかった.
したがって,正解プロフィールを収集していた人数は,全体の4分の1くらいであっ た.収集したプロフィールは,全部で 31 件あり,そのうち正解は 23 件であった.
著述家128名を用いた結果を表4.9,表4.10に示す.128名のうち109名からプロフィー ルを収集した.ただし,109名のうち 5 名は不正解のプロフィールしか存在しなかった.
したがって,正解プロフィールを収集していた人数は,全体の 81% であった.収集した プロフィールは,全部で 588 件あり,そのうち正解は 459 件(78%)であった.
プロフィールとして不適切なものを抽出した原因は,2つあった.1つは,前項で述 べた原因と同じである.もう1つは,見出しに人名が存在するかどうかの判定方法にあ る.本システムは,人名の文字列が含まれていないかどうかで判定している.そのため,
含まれていた文字列が人名そのものでなくても,見出しに人名が存在すると判定してし まう.例えば,図 4.11 に示すものがプロフィールとして抽出されていた.
表 4.9 実験2の人物情報の収集状況(著述家 128 名)
表 4.10 実験2の収集プロフィールの状況(著述家 128 名)
正解プロフィール 416件
43件 459件 不要な部分
ない ある 合計
不正解プロフィール
-129件
合計 109名 5名 14名 収集状況
プロフィールあり 個人情報リンクのみ 情報なし
不正解プロフィールのみ 5名
-正解プロフィールを含む 104名
-表 4.7 実験2の人物情報の収集状況(参議院議員 50 名)
表 4.8 実験2の収集プロフィールの状況(参議院議員 50 名)
合計 19名 29名※
2名 収集状況
プロフィールあり 他の情報のみ 情報なし
不正解プロフィールのみ 5名
-正解プロフィールを含む 14名
-※個人情報リンクのみが9名.残り20名は,人物紹介ページのURLが存在した.
正解プロフィール 22件
1件 23件 不要な部分 ない
ある 合計
不正解プロフィール
-8件
(「村上龍」を入力として,「村上龍大」の情報も収集している.)
(「庵野秀明」を入力として,小惑星の「庵野秀明」の情報も収集している.) 図 4.11 不正解プロフィールの例