実験 - トラブルの分類 23 - 観光ガイドシステムに必要な知識の Web 文書からの自動獲得

第 4 章トラブルの分類 23

4.3 実験

２．トラブル分類のスコア計算 上記で得られたトラブル名詞の深刻度とトラブル動詞の深刻度を比較し，深刻度の差が小さいペアにより大きなスコアを与える．具体的な式は以下のようになる．

score(t, v) = f(“tでv^′′)

1 +α× |SR_t−SR_v| (4.3)

ここでαは任意の係数である．この式は，式4.1の「tでv」というパターンの頻度を単純にとったスコア付けを変形したものであり，トラブル名詞とトラブル動詞の深刻度の差の絶対値が大きいほど，スコアが小さくなる．トラブル名詞をトラブル動詞で分類するときは，トラブル名詞tについて，score(t, v)が最大になるトラブル動詞vを選択する．

トラブル表現

風邪洪水

騒音骨折

疲労副作用

食中毒渋滞

交通事故盗難脱水症状大気汚染土砂崩れ脳梗塞熱中症人身事故

豪雨肌荒れ

山火事感染症

高血圧害虫

湿疹心臓病

地震ドライアイ

サルモネラ菌脱線事故

窃盗日射病

パニック障害アレルギー疾患

寄生虫大嵐

光化学スモッグ踏切事故

速度超過急性アルコール中毒残留農薬寒波

表 4.4: 実験に用いたトラブル表現の一例

トラブル動詞とその類義語・同義語

死亡する，他界する，死去する，急死する発症する，病む，発病する，患う

倒れる，ダウンする，ぶっ倒れる，倒れられる，たおれる

訴えられる，起訴される，告発される，告訴される，提訴される怪我する，痛む，傷む，傷つく，痛める，けがする，負傷する壊れる，破壊される，破壊する，破損する，壊される，こわれる疲れる，疲弊する，疲れ果てる

眠れない，寝れない

汚れる，汚染される，汚す，汚染する気絶する，失神する

折れる，折る

止まる，停止する，止められる，ストップする，とまる動かない，作動しない

負ける，敗れる歪む，ゆがむ

間違う，間違える，誤る凍る，凍結する，凍結される買えない

使えない，使用できない遅れる，遅刻する

表 4.5: 実験に用いたトラブル動詞の一例比較対象比較基準評価値死亡する入院する -2 怪我する不足する -1 自殺する気絶する -2 骨折する逮捕される 2 倒れる飲めない 0 発症する水没する 1 感染する飢える -1 寝込む早退する -1 不足する水没する 2 迷ううなされる 1

表 4.6: 人手で行ったシェッフェの一対比較法の結果の一例

なったデータを示し，それぞれのデータについて，４列目から８列目でどの評価値にいくつ分類されたかを示す．そのため，各評価値で正しい分類をされた数は，４列目から８列目と１行目から５行目の，5×5行列の対角線上の値となる．

再現率 (%) 適合率 (%) 総数 -2 -1 0 1 2

評価値 -2 70.07 71.90 431 302 112 4 12 1

評価値 -1 64.27 65.42 736 100 473 29 129 5

評価値0 3.45 5.56 116 7 43 4 59 3

評価値1 71.47 61.81 736 8 87 32 526 83

評価値2 67.75 76.04 431 3 8 3 125 292

計 65.18 64.51 2450 420 723 72 851 384

表 4.7: SVMによる一対比較法の自動分類結果

再現率 (%) 適合率 (%) 総数 -2 -1 0 1 2

評価値 -2 67.75 78.07 431 292 126 5 5 3

評価値 -1 72.28 66.25 736 72 532 33 94 5

評価値0 13.79 17.39 116 2 48 16 48 2

評価値1 72.55 66.17 736 5 93 33 534 71

評価値2 67.98 78.34 431 3 4 5 126 293

計 68.04 68.12 2450 374 803 92 807 374

表 4.8: 最大エントロピー法による一対比較法の自動分類結果

この結果を見ると，最大エントロピー法では約68%の精度で，SVMによる分類を上回った．また，評価値が“-2”と“2”の一対比較（つまり，評価がはっきりしているペア）において，“-2”が“-1”に分類された場合と“2”が“1”に分類された場合も正解と見なすと

（評価値“0”を考慮しなければ，評価がはっきりとしているペアに限定した２値分類といえる），最大エントロピー法では精度は約97%に達する．なお，表を見るとSVMと最大エントロピー法の両方で，評価値“0”の結果が非常に悪いが，これは評価値“0”のペアの総数が116と，他の評価値のペアに比べて少なかったことが原因だと考えられる．これについては，人手での一対比較データを作成した後，総数の少ない評価値“0”のペアの総数に合わせ，他の評価値のペアの数を減らすことで解決できるが，全体のデータ量が減ってしまうという問題もある．

215個の全トラブル動詞に最大エントロピー法による自動分類を行い，その結果得られた各動詞ペアに対する評価値から一対比較法により各動詞の評価値を求めた．その各動詞の評価値が各動詞の深刻度となる．その結果を表4.9に示す．（全体のデータは付録Dに記載）ここでは深刻度の上位１０個を示しているが，おおむね正しいランキングになっているように見える．（「去る」が上位にきているが，これは「去る」が人手で作成した学習

データに含まれており，作業者の主観で「去る」が「死ぬ」を言い換える言葉だと判断されたためである）

トラブル動詞トラブル動詞の評価値

自殺する -1.99532710

死亡する -1.96728972

去る -1.95327103

逮捕される -1.90186916

水没する -1.80607477

苦しむ -1.80140187

訴えられる -1.79906542

入院する -1.69158879

感染する -1.40654206

壊れる -1.37149533

表 4.9: トラブル動詞の全データのランク付けの結果（上位１０個）

4.3.2 トラブル動詞によるトラブル表現の分類

式4.1で定義されるベースラインと，式4.3で定義される提案手法を用いて，トラブル表現をトラブル動詞で分類した．提案手法の係数αは，予備実験で結果の良かったα= 5 とした．まず，20,183個のトラブル表現のうち3,345個のトラブル表現をランダムに選んで実験データとし，３人の作業者によってチェックした．そして３人のうち２人以上が正しいとしたトラブル表現／トラブル動詞のペアを正解とした．表4.10に正解データの一例を示す．

ベースラインと提案手法による，トラブル表現の分類結果を表4.11に示す．この結果を見ると，提案手法はベースラインよりわずかに正解率が低下し，精度の向上は見られなかった．提案手法が精度の向上に結びつかなかった原因としては，まず，深刻度の値の精度が良くなかったことが考えられる．深刻度の値は，本研究でトラブル動詞を深刻度で自動的にランク付けしたデータを用いたが，その時点である程度の誤差があり，特に深刻度が低いトラブル動詞においては誤差が大きかった．しかし，ランキングデータから具体的な深刻度の値を得る際に，単純にランクの最上位を1.0，最下位を0.0として線形補間で値を求めたため，誤差がそのまま残ってしまった（一対比較での評価値をそのまま深刻度とすることも試みたが，予備実験で結果が悪かったので採用しなかった）．改善案としては，ランキングデータから深刻度の値を求める際，単純な線形補間ではなく，ランクの下位の部分では値の変動が小さくなるような補間をすることが考えられる．ただ，トラブル動詞の深刻度の決定の仕方そのものにも問題があり，例えば「怪我をする」といったと

トラブル表現トラブル動詞どしゃ降り遅れる

どしゃ降り濡れるどしゃ降り増水する転落事故入院する転落事故死亡する転落事故怪我する転落事故骨折する

吹雪見えない

吹雪走れない

吹雪迷う

吹雪立ち往生する熱射病倒れる

熱射病入院する熱射病死亡する熱射病苦しむ

霧見えない

霧遅れる

霧湿る

車両事故止まる車両事故動けない

表 4.10: トラブル動詞によるトラブル表現の分類の正解データの一例

き，どの程度の怪我なのかによって深刻度は大きく変動する．こういった幅のある深刻度をどのように扱うか，といったことも考慮することで改善できるかもしれない．

改善が見られなかった原因としてもう１つ考えられることは，単純に式4.3のような深刻度を考慮して分類を行う手法に問題がある可能性である．これは，単純にトラブル表現とトラブル動詞の共起頻度を基にするベースラインの手法が分類法として適切であり，そこに深刻度という指標を加えるべきではなかったということも考えられる．これについては，上記の改善案を基に実験を続けていくことで，深刻度という指標が分類に良い影響を与えるのかがわかるものと考えている．

正解数正解率(%) ベースライン 2,820/3,345 84.30

提案手法 2,802/3,345 83.77

表 4.11: トラブル動詞によるトラブル表現の分類の評価結果

なお，本研究で獲得したトラブル表現の分類データは，鳥澤らによる検索ディレクトリ

「鳥式」[1]で使用されている．図4.3に鳥式の画面を示す．ここで，中央の「トラブル」という語を中心に，トラブル表現が放射状に広がっているが，類似したトラブル表現は近くになるように配置され，中心からの距離は対象物名（ここでは「ディズニーランド」）との関連度が大きいほど近くなっている．そして，本研究で得られたトラブル動詞による分類結果を基に，それぞれのトラブル表現をまとめている．なお，分類数の少ないトラブル動詞は「その他」でひとまとめにしている．トラブル動詞の並び順については，時計の３時方向を基点とし，時計回りに深刻度が大きい順に並んでいる．この深刻度のデータも本研究で獲得したものである．

図 4.3: 検索ディレクトリ「鳥式」でのトラブル情報の提示

第 5 ^{章おわりに}

最後に，本研究のまとめと今後の課題について述べる．

5.1 ^まとめ

本研究では，観光ガイドシステムに必要な知識をWeb文書のコーパスデータから自動獲得することを目的とし，Web文書のコーパスデータから得られた知識である，対象物の属性情報とトラブル情報を分類することで，ユーザが必要とする情報を選別できるようにすることを目指した．特にトラブル情報については，深刻度によるランク付けも行った．

属性情報の分類では，属性語をユーザがとる行為を表す動詞で分類した（例：属性語

「交通情報」→動詞「行く」，属性語「見所」→動詞「見る」）．その結果，単純に属性語と係り受け関係にある動詞の頻度で分類したベースラインが26%の正解率だったのに対し，“＜名詞＞の＜属性語＞”というパターンに当てはまる名詞を考慮し，その名詞と係り受け関係にある動詞の頻度で分類した提案手法では42%となり，15%程度の改善がみられた．ただし，それでも正解率は50%以下であり，まだまだ改善の余地はあると考えている．

トラブル情報に関しては，まずトラブル動詞（トラブルによって引き起こされる事象を表す動詞，「死亡する」や「遅れる」など）の深刻度を求め，ランク付けした．深刻度のランク付けにはシェッフェの一対比較法を用い，215個のトラブル動詞のうちランダムに選択した50個について，人手で一対比較を行った．そしてその一対比較のデータを学習データとして機械学習することで深刻度をランク付けした．機械学習には最大エントロピー法とSVMを用いたが，最大エントロピー法が再現率，適合率ともに約65%で，SVM が再現率，適合率がともに約68%だった．ただし，これは一対比較を５分類（「とても深刻」，「やや深刻」，「同程度」，「やや深刻でない」，「まったく深刻でない」）としたためで，

評価がはっきりとしているペア（「とても深刻」，「まったく深刻でない」に人手で分類されたもの）に限定して，「同程度」よりも上か下かの２分類として解釈すると，最大エントロピー法では再現率，適合率ともに約97%に達する．このように，今回得られた深刻度のランク付けのデータは，評価のはっきりしているトラブル動詞（特に深刻度が大きいもの）についてはかなり良い結果が得られているが，評価のはっきりしないトラブル動詞

（特に深刻度が小さいもの）は適切でないランク付けになる傾向にあった．これはそもそも，トラブル動詞は使われる文脈によって深刻度が大きく変化するものが多く，そういったトラブル動詞に対して深刻度を設定するのは，人手でも困難であるという背景がある．

ドキュメント内観光ガイドシステムに必要な知識の Web 文書からの自動獲得 (ページ 35-64)

実験

第 4 章 トラブルの分類 23

4.3 実験

4.3.2 トラブル動詞によるトラブル表現の分類

第 5 章 おわりに

5.1 まとめ

第 4 章トラブルの分類 23

第 5 ^{章おわりに}

5.1 ^まとめ