• 検索結果がありません。

第 4 章 トラブルの分類 23

4.3 実験

2.トラブル分類のスコア計算 上記で得られたトラブル名詞の深刻度とトラブル動詞の 深刻度を比較し,深刻度の差が小さいペアにより大きなスコアを与える.具体的な式は以 下のようになる.

score(t, v) = f(“tv′′)

1 +α× |SRt−SRv| (4.3)

ここでαは任意の係数である.この式は,式4.1の「tでv」というパターンの頻度を単 純にとったスコア付けを変形したものであり,トラブル名詞とトラブル動詞の深刻度の差 の絶対値が大きいほど,スコアが小さくなる.トラブル名詞をトラブル動詞で分類すると きは,トラブル名詞tについて,score(t, v)が最大になるトラブル動詞vを選択する.

トラブル表現

風邪 洪水

騒音 骨折

疲労 副作用

食中毒 渋滞

交通事故 盗難 脱水症状 大気汚染 土砂崩れ 脳梗塞 熱中症 人身事故

豪雨 肌荒れ

山火事 感染症

高血圧 害虫

湿疹 心臓病

地震 ドライアイ

サルモネラ菌 脱線事故

窃盗 日射病

パニック障害 アレルギー疾患

寄生虫 大嵐

光化学スモッグ 踏切事故

速度超過 急性アルコール中毒 残留農薬 寒波

表 4.4: 実験に用いたトラブル表現の一例

トラブル動詞とその類義語・同義語

死亡する,他界する,死去する,急死する 発症する,病む,発病する,患う

倒れる,ダウンする,ぶっ倒れる,倒れられる,たおれる

訴えられる,起訴される,告発される,告訴される,提訴される 怪我する,痛む,傷む,傷つく,痛める,けがする,負傷する 壊れる,破壊される,破壊する,破損する,壊される,こわれる 疲れる,疲弊する,疲れ果てる

眠れない,寝れない

汚れる,汚染される,汚す,汚染する 気絶する,失神する

折れる,折る

止まる,停止する,止められる,ストップする,とまる 動かない,作動しない

負ける,敗れる 歪む,ゆがむ

間違う,間違える,誤る 凍る,凍結する,凍結される 買えない

使えない,使用できない 遅れる,遅刻する

表 4.5: 実験に用いたトラブル動詞の一例 比較対象 比較基準 評価値 死亡する 入院する -2 怪我する 不足する -1 自殺する 気絶する -2 骨折する 逮捕される 2 倒れる 飲めない 0 発症する 水没する 1 感染する 飢える -1 寝込む 早退する -1 不足する 水没する 2 迷う うなされる 1

表 4.6: 人手で行ったシェッフェの一対比較法の結果の一例

なったデータを示し,それぞれのデータについて,4列目から8列目でどの評価値にいく つ分類されたかを示す.そのため,各評価値で正しい分類をされた数は,4列目から8列 目と1行目から5行目の,5×5行列の対角線上の値となる.

再現率 (%) 適合率 (%) 総数 -2 -1 0 1 2

評価値 -2 70.07 71.90 431 302 112 4 12 1

評価値 -1 64.27 65.42 736 100 473 29 129 5

評価値0 3.45 5.56 116 7 43 4 59 3

評価値1 71.47 61.81 736 8 87 32 526 83

評価値2 67.75 76.04 431 3 8 3 125 292

計 65.18 64.51 2450 420 723 72 851 384

表 4.7: SVMによる一対比較法の自動分類結果

再現率 (%) 適合率 (%) 総数 -2 -1 0 1 2

評価値 -2 67.75 78.07 431 292 126 5 5 3

評価値 -1 72.28 66.25 736 72 532 33 94 5

評価値0 13.79 17.39 116 2 48 16 48 2

評価値1 72.55 66.17 736 5 93 33 534 71

評価値2 67.98 78.34 431 3 4 5 126 293

計 68.04 68.12 2450 374 803 92 807 374

表 4.8: 最大エントロピー法による一対比較法の自動分類結果

この結果を見ると,最大エントロピー法では約68%の精度で,SVMによる分類を上回っ た.また,評価値が“-2”と“2”の一対比較(つまり,評価がはっきりしているペア)に おいて,“-2”が“-1”に分類された場合と“2”が“1”に分類された場合も正解と見なすと

(評価値“0”を考慮しなければ,評価がはっきりとしているペアに限定した2値分類とい える),最大エントロピー法では精度は約97%に達する.なお,表を見るとSVMと最大 エントロピー法の両方で,評価値“0”の結果が非常に悪いが,これは評価値“0”のペアの 総数が116と,他の評価値のペアに比べて少なかったことが原因だと考えられる.これに ついては,人手での一対比較データを作成した後,総数の少ない評価値“0”のペアの総数 に合わせ,他の評価値のペアの数を減らすことで解決できるが,全体のデータ量が減って しまうという問題もある.

215個の全トラブル動詞に最大エントロピー法による自動分類を行い,その結果得られ た各動詞ペアに対する評価値から一対比較法により各動詞の評価値を求めた.その各動詞 の評価値が各動詞の深刻度となる.その結果を表4.9に示す.(全体のデータは付録Dに 記載)ここでは深刻度の上位10個を示しているが,おおむね正しいランキングになって いるように見える.(「去る」が上位にきているが,これは「去る」が人手で作成した学習

データに含まれており,作業者の主観で「去る」が「死ぬ」を言い換える言葉だと判断さ れたためである)

トラブル動詞 トラブル動詞の評価値

自殺する -1.99532710

死亡する -1.96728972

去る -1.95327103

逮捕される -1.90186916

水没する -1.80607477

苦しむ -1.80140187

訴えられる -1.79906542

入院する -1.69158879

感染する -1.40654206

壊れる -1.37149533

表 4.9: トラブル動詞の全データのランク付けの結果(上位10個)

4.3.2 トラブル動詞によるトラブル表現の分類

式4.1で定義されるベースラインと,式4.3で定義される提案手法を用いて,トラブル 表現をトラブル動詞で分類した.提案手法の係数αは,予備実験で結果の良かったα= 5 とした.まず,20,183個のトラブル表現のうち3,345個のトラブル表現をランダムに選ん で実験データとし,3人の作業者によってチェックした.そして3人のうち2人以上が正 しいとしたトラブル表現/トラブル動詞のペアを正解とした.表4.10に正解データの一 例を示す.

ベースラインと提案手法による,トラブル表現の分類結果を表4.11に示す.この結果 を見ると,提案手法はベースラインよりわずかに正解率が低下し,精度の向上は見られな かった.提案手法が精度の向上に結びつかなかった原因としては,まず,深刻度の値の精 度が良くなかったことが考えられる.深刻度の値は,本研究でトラブル動詞を深刻度で自 動的にランク付けしたデータを用いたが,その時点である程度の誤差があり,特に深刻度 が低いトラブル動詞においては誤差が大きかった.しかし,ランキングデータから具体的 な深刻度の値を得る際に,単純にランクの最上位を1.0,最下位を0.0として線形補間で 値を求めたため,誤差がそのまま残ってしまった(一対比較での評価値をそのまま深刻度 とすることも試みたが,予備実験で結果が悪かったので採用しなかった).改善案として は,ランキングデータから深刻度の値を求める際,単純な線形補間ではなく,ランクの下 位の部分では値の変動が小さくなるような補間をすることが考えられる.ただ,トラブ ル動詞の深刻度の決定の仕方そのものにも問題があり,例えば「怪我をする」といったと

トラブル表現 トラブル動詞 どしゃ降り 遅れる

どしゃ降り 濡れる どしゃ降り 増水する 転落事故 入院する 転落事故 死亡する 転落事故 怪我する 転落事故 骨折する

吹雪 見えない

吹雪 走れない

吹雪 迷う

吹雪 立ち往生する 熱射病 倒れる

熱射病 入院する 熱射病 死亡する 熱射病 苦しむ

霧 見えない

霧 遅れる

霧 湿る

車両事故 止まる 車両事故 動けない

表 4.10: トラブル動詞によるトラブル表現の分類の正解データの一例

き,どの程度の怪我なのかによって深刻度は大きく変動する.こういった幅のある深刻度 をどのように扱うか,といったことも考慮することで改善できるかもしれない.

改善が見られなかった原因としてもう1つ考えられることは,単純に式4.3のような深 刻度を考慮して分類を行う手法に問題がある可能性である.これは,単純にトラブル表現 とトラブル動詞の共起頻度を基にするベースラインの手法が分類法として適切であり,そ こに深刻度という指標を加えるべきではなかったということも考えられる.これについて は,上記の改善案を基に実験を続けていくことで,深刻度という指標が分類に良い影響を 与えるのかがわかるものと考えている.

正解数 正解率(%) ベースライン 2,820/3,345 84.30

提案手法 2,802/3,345 83.77

表 4.11: トラブル動詞によるトラブル表現の分類の評価結果

なお,本研究で獲得したトラブル表現の分類データは,鳥澤らによる検索ディレクトリ

「鳥式」[1]で使用されている.図4.3に鳥式の画面を示す.ここで,中央の「トラブル」と いう語を中心に,トラブル表現が放射状に広がっているが,類似したトラブル表現は近く になるように配置され,中心からの距離は対象物名(ここでは「ディズニーランド」)と の関連度が大きいほど近くなっている.そして,本研究で得られたトラブル動詞による分 類結果を基に,それぞれのトラブル表現をまとめている.なお,分類数の少ないトラブル 動詞は「その他」でひとまとめにしている.トラブル動詞の並び順については,時計の3 時方向を基点とし,時計回りに深刻度が大きい順に並んでいる.この深刻度のデータも本 研究で獲得したものである.

図 4.3: 検索ディレクトリ「鳥式」でのトラブル情報の提示

5 章 おわりに

最後に,本研究のまとめと今後の課題について述べる.

5.1 まとめ

本研究では,観光ガイドシステムに必要な知識をWeb文書のコーパスデータから自動 獲得することを目的とし,Web文書のコーパスデータから得られた知識である,対象物の 属性情報とトラブル情報を分類することで,ユーザが必要とする情報を選別できるように することを目指した.特にトラブル情報については,深刻度によるランク付けも行った.

属性情報の分類では,属性語をユーザがとる行為を表す動詞で分類した(例:属性語

「交通情報」動詞「行く」,属性語「見所」動詞「見る」).その結果,単純に属性 語と係り受け関係にある動詞の頻度で分類したベースラインが26%の正解率だったのに 対し,“<名詞>の<属性語>”というパターンに当てはまる名詞を考慮し,その名詞と 係り受け関係にある動詞の頻度で分類した提案手法では42%となり,15%程度の改善がみ られた.ただし,それでも正解率は50%以下であり,まだまだ改善の余地はあると考えて いる.

トラブル情報に関しては,まずトラブル動詞(トラブルによって引き起こされる事象を 表す動詞,「死亡する」や「遅れる」など)の深刻度を求め,ランク付けした.深刻度の ランク付けにはシェッフェの一対比較法を用い,215個のトラブル動詞のうちランダムに 選択した50個について,人手で一対比較を行った.そしてその一対比較のデータを学習 データとして機械学習することで深刻度をランク付けした.機械学習には最大エントロ ピー法とSVMを用いたが,最大エントロピー法が再現率,適合率ともに約65%で,SVM が再現率,適合率がともに約68%だった.ただし,これは一対比較を5分類(「とても深 刻」,「やや深刻」,「同程度」,「やや深刻でない」,「まったく深刻でない」)としたためで,

評価がはっきりとしているペア(「とても深刻」,「まったく深刻でない」に人手で分類さ れたもの)に限定して,「同程度」よりも上か下かの2分類として解釈すると,最大エン トロピー法では再現率,適合率ともに約97%に達する.このように,今回得られた深刻 度のランク付けのデータは,評価のはっきりしているトラブル動詞(特に深刻度が大きい もの)についてはかなり良い結果が得られているが,評価のはっきりしないトラブル動詞

(特に深刻度が小さいもの)は適切でないランク付けになる傾向にあった.これはそもそ も,トラブル動詞は使われる文脈によって深刻度が大きく変化するものが多く,そういっ たトラブル動詞に対して深刻度を設定するのは,人手でも困難であるという背景がある.

関連したドキュメント