• 検索結果がありません。

4. 火山災害における避難指示と想定外リスク

5.4 実証分析

5.4.2 オントロジー構築

2000年有珠山噴火災害を対象にオントロジーを構築する.対象と目的の明確化はすでに指摘 した通りである.再利用することを目的として既往のオントロジーを検索したが,有用な既存 オントロジーは発見できなかった.構築の流れを図 5‐3 に示す.同図に示すように,オント ロジーの構築にあたっては対象となる文書(領域専門文書)を選定した上でその中から要望表 現を含む「要望対象集合」を抽出する.さらに,多義性解消アルゴリズムにより複数の意味を 持つ概念の具体的な意味を特定化した上で,その概念構造は日本語wordnetを用いて表現する ことになる.

(1) 用語の獲得

マクロ討論領域においては,様々な意見や発言がなされる.しかし,その全てを考慮する ことが,社会的意思決定の正統性に関わるというわけではない.意見や発言の中には極めて 私的な理由によるものも存在し,それらを考慮してなされる意思決定が,社会に受け入れら れないのは明らかである.本章では

5.2.4

の議論からマクロ討論の中で人々の要求表現に注 目し,そこから用語を獲得する.大森18)は,ウェブから多様な「もの」や「こと」に関する 要求を抽出するために,そもそも要求とは何かについて研究している.大森によると,要求

(要望) とは,文に書かれている事態であり,発話時に次の条件を満たすものである.

120

図 5‐3 オントロジー構築フロー

条件1:当該事態は,それを捉える当事者にとって望ましい事態である.

条件2:当該事態は,当該当事者にとって未実現である.

条件3:当該事態の実現主体として,個人,集団,組織など,意志を持つ主体が存在する.

条件4 :当該当事者は,当該事態の実現を,当該事態の実現主体に求めている.

危機管理の文脈を考慮すると,避難などの社会的意思決定に対する人々の要求は,災害時 に人々が行政の妥当性要求に対して納得しておらず,より望ましい事態を求めており,社会 的意思決定の正統性の観点から,無視することはできない.逆に,多様な要求を把握し,十 分な検討が行われれば,マクロ討論の正統性要件に寄与すると考えられる,

コーパスから要望表現を抽出する方法として,金山ら19)と山本ら20)の研究がある.要望と は,大森による要求の態度の分類18)の一形態であり,「希望」に該当する.大森は,希望を表 す要求文の特徴として,「動詞連用形+たい」「動詞テ形+ほしい」「望む」「願う」「求める」

「期待する」などを挙げている.本章では,このような要求文に特有の表現を手がかり表現 と呼ぶことにする.金山らは,web上の掲示板やblogなどといった,コーパスから要望を抽 出することを目指している.この種のコーパスの特徴として PI どの意見収集型のテキスト に比べて,要望を表す文の割合が著しく低いが,遠慮の無い意見を大量に集めることができ る利点がある.本章においても,マクロ討論領域における討論的代表性を担保するためには 可能な限り多くの意見を網羅的に収集することが必要であり,この手法を採用することとす る.

要望文の抽出方法として山本らは,要望文の文末表現に注目して,「~してほしい」などの 特定の文末表現を持つ文と,要望文との関連を調べている.そこでは,要望の定義があいま いであり,例えば「必要である」を含む文を要望としているが,大森の定義では要求の態度 の中で当為(要求)である.以上の既往研究の多くは大森の定義によれば要望を抽出する方法 であり,本章においても要望に注目する.山本らは自由回答アンケートをデータとしており,

領域専門文書 要望対象集合 要望表現

の抽出

用語(名詞)集合

多義性解消 アルゴリズム

概念集合 日本語WordNet

オントロジー 構文パ

ターン

一方、依然規制が 続いている有珠漁 協(伊達市)は、オタ

モイノ岬を中心とし た半径約5・5キロ の「立ち入り禁止指 導海域」以外への立 ち入りを認めてほし いと、要望している。

漁協(伊達市)は、オ タモイノ岬を中心とし た半径約5・5キロの

「立ち入り禁止指導 海域」以外への立ち 入りを認めてほしい と、

w1 w2w3 アノ

テ ー シ ョン

指導 指導 コーチ 教え etc 禁止

禁止 禁制 禁則 etc

121

回答長さ(何文書いているか) と回答中の頻出文末表現が第何文目に出現するのか,その位置 の関係を調べている.新聞記事の特性上,人々の意見が何文にも及ぶことは想定できないこ とから,要望表現を表す「してほしい」をもつ単一の文を手がかり表現とする.その際,よ り多くの要望分を抽出するために,文末表現の中核要素に注目して抽出を行う.「してほしい」

であれば,「ほしい」を用いることにする.

次に,要望対象を同定する方法として,金山らは構文パターンを用いている.金山らは,

要望を表す文末表現にかかる名詞句を要望対象としている.本章では,文脈を加味する必要 があるため,より情報量が多くなるように,文末表現にかかる文節すべてを要望対象とする.

こうして得られた文節を構成する名詞を用語として獲得する.これら獲得した用語の中には,

公的討論においてあまり重要でない概念も含まれることが想定され,例えば SVM などの機 械学習を用いて除去する方法も考えられるが,一方で,重要な意見も除去してしまう可能性 がある.本章では,多種多様なマクロ討論を把握することに重点を置くため,ここでは特に 除去しないことが望ましいと考える.

(2) 概念化および概念階層

山口ら10)はWordNetを用いて,オントロジー学習における用語の概念化を行っている.獲

得された用語に対し,日本語WordNetの見出し句と字面レベルのスペルマッチを行う.複数 の概念(意味) を持つ語句については,次節で説明する多義性解消アルゴリズムを用いる.こう して得られた概念は,当該概念からWordNetの最上位の概念であるルート概念までの階層構 造を保持しており,これらを統合して初期オントロジーを獲得する.山口らは,この初期オン トロジーの当該概念とルート概念間の中間概念の内,不必要と思われる概念を除去する剪定作 業を提案している.ただし,任意の中間概念の下位概念に他の観測された概念が含まれる場合,

その中間概念を残すことにする.こうすれば,階層構造を維持しつつ,入力文書中の概念の把 握を容易にできる.本章においても,初期オントロジーの剪定作業を行い,オントロジーを構 築する.

(3) 多義性解消アルゴリズム

河原ら 21)は語彙の意味の類似度を図る手法として,日本語シソーラスの中の 2つの要素間 のパスの長さを基に計算している.単語𝑒1, 𝑒2間の類似度 𝑠𝑖𝑚𝑒(𝑒1, 𝑒2)を,日本語語彙大系シソ ーラスを利用して以下のように定義している.

𝑠𝑖𝑚𝑒(𝑒1, 𝑒2)) = 𝑚𝑎𝑥𝑥∈s1,𝑦∈s2 𝑠𝑖𝑚(𝑥, 𝑦) 𝑠𝑖𝑚(𝑥, 𝑦) = 2𝐿

𝑙𝑥+ 𝑙𝑦

𝑥, 𝑦は意味属性であり,𝑠1, 𝑠2はそれぞれ𝑒1, 𝑒2の日本語語彙大系における意味属性の集合で

ある.sim(x; y)は意味属性𝑥, 𝑦間の類似度であり,𝑙x, 𝑙yは𝑥, 𝑦のシソーラスの根からの階層の 深さ,𝐿は𝑥と𝑦の意味属性で一致している階層の深さを表す.

この考え方は,階層構造が似ている概念ほど意味が似ていることを表している.本章はこの 考え方に従い,同一文中の単語が表す意味は似ているという仮定の下,ルート概念からの階層 構造が似ている概念をその単語の意味として取得する.まず,獲得した名詞の概念候補からそ のルート概念までの各パスに出現する各概念の出現回数をカウントする.そして,獲得した名 詞の概念候補について,その概念からルート概念までの概念に対して,先ほどの出現回数を割

122

図 5‐4 構築したオントロジー(1)

り当てる.概念候補の内,出現回数の総和が最大となる概念を選択する.同一文中の概念が似 た階層構造を持つ場合,その概念のパスを構成する概念の出現回数は大きくなる.よって,出 現回数の総和が最大である概念は,他の同一文中の概念と似た階層構造を持ち,意味的に類似 している.