• 検索結果がありません。

第 4 章 実験・評価

4.1 話者特定手法の評価

4.1.2 評価基準

今回の実験では、適用率と正解率を評価として、台詞の話者の認識手法を評価 する。

表 4.1: テストデータ1の概要

タイトル 独立型台詞 埋め込み型台詞 合計

晩餐 11 5 16

端午節 31 26 57

象牙の牌 51 10 61

さいかち淵 17 10 27

(全て) 110 51 161

表 4.2: テストデータ2の概要

タイトル 独立型台詞 埋め込み型台詞 合計

不思議な島 72 0 72

和尚さんと小僧 4 21 25

可哀相な姉 37 11 48

父を失う話 16 13 29

(全て) 129 45 174

適用率は、小説に含まれる台詞のうち、提案手法によって話者を特定できた台 詞の割合である。このとき、特定された話者が正解か不正解は問わない。適用率 の定義を式(4.1)に示す。

適用率= 話者を特定できた台詞の数

小説に含まれる台詞の数 (4.1) 一方、正解率は、提案手法によって話者を特定できた台詞のうち、正しく話者 を特定できた台詞の割合である。正解率の定義を式(4.2)に示す。

正解率= 正しく話者を特定できた台詞の数

話者を特定できた台詞の数 (4.2)

4.1.3 クローズドテストの結果

表 4.3: 話者特定手法の評価結果(クローズドテスト) タイトル 台詞数 適用率 正解率

晩餐 16 1.00 0.88 端午節 57 1.00 0.82 象牙の牌 61 1.00 0.74 さいかち淵 27 1.00 0.37

(全て) 161 1.00 0.72

テストデータ1に対する提案手法の評価結果、すなわちクローズドテストの実 験結果を表4.3に示す。提案手法の適用率は全ての小説で1となった。つまり、全 ての台詞について話者を特定できた。一方、正解率は、3つの小説については70%

から90%となり、比較的高い値となった。一方、「さいかち淵」については0.37と 低かった。4つの小説全体での正解率は0.72となった。

以下、解析誤りの主な原因について述べる。

しゅっこは、舜一なんだけれども、みんなはいつでもしゅっことい ふ。

...

しゅっこも、大きな白い石をもって、淵の上のさいかちの木にのぼっ てゐたが、それを見ると、すぐに、石を淵に落して叫んだ。「おゝ、

発破だぞ。知らないふりしてろ。石とりやめて、早くみんな、下流 へさがれ。」

(『さいかち淵』より抜粋) 図 4.1: 登場人物の抽出に失敗した例

『さいかち淵』に対する正解率が低いのは、登場人物がニックネームで表現さ れていて、固有表現抽出やシソーラスを用いた手法では人名と認識できなかった ためである。図4.1は『さいかち淵』の一部である。「しゅっこ」は人物のニック ネームで、最後の台詞の話者であるが、登場人物として抽出されなかった。小説 のメタ情報として登場人物リストのような情報があれば、登場人物抽出の再現率 が上がり、話者を正確に特定できるようになると考えられる。

彼女は、すぐに嬉しさうに、『坊や。』と大きな声を出した、子供は それと同時に大きな叫声を上げて、母親の顔を見ながら、『うま/

\/\/\。』とスプーンをテーブルにたゝきつけた。

(『晩餐』より抜粋)

図 4.2: 1つ文に2つの台詞があるときの解析誤り例

1つの文に2つの台詞が存在するとき、話者を特定することができなかった場合 があった。図4.2は『晩餐』の中の一文である。この文には「坊や。」と「うま/

\/\/\。」という2つの台詞があり、それぞれの話者は「彼女」と「子供」で ある。これらの話者は台詞を発っしたことが明示されていると言えるが、本研究 で用意した7つの明示的話者特定パターンのいずれにもマッチしないため、話者 を特定できなかった。この問題に対しては、明示的話者特定パターンを追加する ことで解決できる可能性がある。

複数の台詞が連続するときに、同じ話者が2回連続で台詞を発言するときがあ り、このときに誤った話者が特定された。図4.3は『象牙の牌』の一部である。67

67: 『 つまり、君の死はもう、思いのほか間近に的確に迫って来てい たと云うことですよ。 』

68: 西村は落ちつきはらった調子で静かにこう云った。

69: 『 ?…… 』

70: 清水は流石に狼狽してあたりを見まわした。

71: 『 その証拠は―― 』

72: 西村はそう云いながら、立って部屋の一隅に置かれた典雅な書棚の 抽斗を開けて、しばらくゴソゴソやっていたが、軈て、ひとふりの 抜き身の支那型の短剣を取り出して来た。

73: 『 これですよ…… 』 74: 『 おお!! 』

75: 清水は突き出されたその短剣のつかに目をやると、うめいた。

西村: 『 つまり、君の死はもう、思いのほか間近に的確に迫って来てい たと云うことですよ。 』

清水: 『 ?…… 』

西村: 『 その証拠は―― 』

unknown: 『 これですよ…… 』

清水: 『 おお!! 』

(『象牙の牌』より抜粋)

図 4.3: 話者交替パターンによる解析誤り例

行目の台詞の話者は明示的話者特定パターンによって「西村」と特定された。また 69行目の台詞は暗黙的話者特定パターンによって「清水」と特定された。71行目 の台詞の話者は明示的話者特定パターンによって「西村」と特定された。74行目 の台詞の話者は明示的話者特定パターンによって「清水」と特定された。一方、73 行目の台詞の話者はパターンマッチでは特定できなかったため、話者交替パターン を用いて特定を試みる。2つ前の台詞の話者が「清水」なので、話者交替パターン では73行目の話者は「清水」と特定された。しかし、実際には71行目と73行目 の台詞は同じ話者が2回続けて発言しており、73行目の正しい話者は「西村」で ある。この場合、連続する発話の話者は常に交替するという原則にしたがってい ないため、話者交替パターンによって誤った話者が特定された。

話者交替パターンでは、話者が台詞毎に必ず交替することを仮定していたが、図 4.3の例のように例外的にそうでない場合があるので、対処が必要である。同じよ うな解析誤りは『端午節』でも見つかった。また、現在の話者交替パターンは対 話の参加者が2名であることを仮定しているため、3名以上の人物が対話している 場面では正しい話者を認識できない。

関連したドキュメント