心象の変化を考慮した指示詞の照応解析
6
0
0
全文
(2) cantly outperforms a centering algorithm and enables some examples that centering alone cannot handle to be successfully resolved.. key words anaphora resolution, centering theory, demonstratives, movement verbs. 1 はじめに 会話や文章の中で同一の事物を話題にするとき, 人間は通常,その事物を表す語句を繰り返し述べず に別の語句に置き換えて表現することが多い.この 置き換えられた語句を照応語と呼ぶ.照応語に対応 する情報が文脈中から獲得できる場合を文脈照応, できない場合を文脈外照応と呼ぶ.本稿では,これ ら両方を対象とした指示詞の照応解析手法を提案し, その有効性を検討する.. NEC システムテクノロジー (株). y 現在,. 代名詞の照応解決に関する理論の 1 つに,センタ リング理論がある.センタリング理論では, 「 話題の 中心は基本的に変化しない」ことが照応解析の前提 となっている.この理論は文脈照応に対して有効で あり,文脈外照応の照応解決には適用できない.また 語彙知識をほとんど用いずに解析を行うため,文脈 照応の解析においても誤りが起きる事例が存在する. そこで本稿では,センタリングアルゴ リズムを基 本とする手法に対して,大きく分けて 3 つのモデル を適用することを提案する.特に,言語表現から心 象の変化を検出するためのモデルでは,心象の変化. −53−.
(3) につながる移動を文脈から検出する手法を提案して いる.心象の変化は,センタリング理論でいうとこ ろの「文中で話題となっている事物」の変化につな がると考えられる.このモデルによって,文脈外照 応の解析,またセンタリング理論の基本原則に反す る事例の解析を正しく行うことを目指す. 照応解析の対象として本研究では指示詞をとり上 げる. 「コソアド 」とも呼ばれる指示詞は,日本語の 語彙の中でも使用頻度の高い語群である.本研究で は,指示詞の有する属性の違いを照応解析に反映す るモデルを提案している.. 2 照応解析 照応解析とは,それ自身は意味をもたない語であ る照応語と,照応語の指示対象である先行詞の対応 付けを行う手続きである. 照応解析手法の 1 つにセンタリング理論がある. センタリング理論は,英語の代名詞の照応関係を決 定する手法として Grosz ら [1] によって提案された. この理論では,文中で話題の中心になっている事物 をセンターと呼ぶ.照応解析単位は,発話と呼ばれ る 1 つの述語を中心としたまとまりである.各発話 は以下の 2 つのセンター構造をもつ.. Forward-looking Centers(Cf). 制約 談話 U1 ,...,Um 中の各発話 Ui について. 1. Cb はちょうど 1 つだけ存在する 2. Cf(Ui ) の要素はすべて Ui で実体化1 していな ければならない 3. Cb(Ui ) は Cf(Ui01 ) の最高ランクの要素である Cf は「トピック > 視点 > 主語 > 間接目的語 > 直接目的語 > その他」の順に順序付けする. Walker らは Cf の順序付けに関して,トピックは 格助詞ハ,主語は格助詞ガ,間接目的語は格助詞ニ, 直接目的語は格助詞ヲ,に係る名詞句のことである, という前提でセンター構造を決定している. また,Transition とは発話の一貫性を表す指標で ある.発話の一貫性とは,センターが連続するか否 か,そして代名詞化される語が Cf の最高ランクに 位置しているか否かを表す表現である.. Transition 発話の一貫性を表す.Cf の最高ランクの要素で ある Cp,および Cb の情報から,表 2.1 に示す ように 4 つの状態が定義されている. 規則 談話 U1 ,...,Um 中の各発話 Ui について. 文中の名詞句を先行詞になりやすい順番に並べ たリスト.すなわち,次の文に出てきたら代名詞 になりそうな順番に並べたリストである.. 1. Cf(Ui01 ) の要素が Ui で (ゼロ) 代名詞になって いればそれは Cb(Ui ) である. 2. Transition は「 Continue > Retain > SmoothShift > Rough-Shift 」の順に順序付けられ,Continue が最も望ましい. Backward-looking Center(Cb) 文中で一番注目されている事物.前の文から引 き続き話題になっている事物である. また,代名詞と Cb については次の基本規則がある. センタリング理論の基本規則 現在の発話の Cb が前の発話の Cb と同じなら, 代名詞が使われているはずである. その後,Kameyama[2] はセンタリング理論を日本 語の省略解析に適用した.そして Walker ら [3] は, 日本語の省略解析に Transition を適用した.次にこ の Transition について述べる.. 2.1 Walker らによる拡張 Walker らは,センターの変化の度合いを表す Transition という指標を導入し,省略の補完に複数の解釈 が可能な場合,センターの変化が最も小さい Transition の型をもつ解釈を最適とする手法を提案した. Walker らは,Cf,Cb に関する以下に示す制約, 規則を定義した.. 2.2 センタリング理論の問題点 2.2.1. 文脈外照応への未対応. センタリング理論は,文脈照応に対して有効であ り,文脈外照応の照応解決には適用できない.した がって,センタリング理論に関する研究においては, 任意の照応語について対応する先行詞が文脈中に必 ず存在することを前提に解析を行う.しかし,会話 や文章に対して照応解析を行うためには,まず最初 に,照応語が文脈照応か文脈外照応かを判別する必 要があると考えられる.. 2.2.2. 語彙知識の欠如. センタリング理論は,大規模な知識を用いること なく照応解析を行える点が利点の 1 つとして挙げら れる.しかし,語彙知識を考慮しないために,文脈 中に正解である先行詞が明示されている場合でも,. −54−. 1 実体化. : 発話中で要素が語として明示されていること.
(4) Cb(Ui ) = Cp(Ui ) Cb(Ui ) 6= Cp(Ui ). 表 2.1: Transition の状態 Cb(Ui ) = Cb(Ui01 ), or Cb(Ui01 ) に要素が存在しない Continue Retain. センターの変化の度合いだけで先行詞獲得を行って 誤りとなる事例が存在する.この問題点については, 竹井ら [4] も,Continue の解釈が可能な事例におい て,Continue よりも下位の Transition の型をもつ解 釈が正解となる場合があることを指摘している.. 佐久間 [6] は,指示詞の体系を「コソアド 」の名 称でまとめた.指示詞の分類を表 4.1 に示す. 表 4.1: 指示詞の体系 属性. 4 指示詞 照応解析の対象として,コソアド の音で始まる指 示詞をとり上げる.今という時間,そして話し手の 今いる場所との関係において,事物を指し示す働き をもつ語が指示詞である. Kameyama や Walker らは日本語の省略解析にセ ンタリング理論を適用した.しかし,センタリング 理論は当初英語の代名詞の照応解析を行うために提 唱された理論であり,かつ言語依存性の低い手法で あるため,日本語の指示詞の照応解析にも応用する ことができると考えられる.. Smooth-Shift Rough-Shift. 4.1 指示詞の体系. 3 心象の変化 会話や文章において注目される事物が変化してい く事象を説明するために,心象の変化に着目する. 人間は,新たに見たり聞いたりした情報を基に,意 識の中に現れるイメージ,すなわち心象を頻繁に変 化させていると考えられる.会話や文章を解釈する 際,人間は文脈に出現する事物を常に心象にとどめ ているのではなく,新たに得られる文脈情報から心 象にとどめる事物の取捨を行っている.この処理が, 文中で注目している事物,すなわちセンターを変化 させる原因となっていると考えられる.事物の取捨 を判断するには,文脈から空間や時間の移行を検出 することが必要である.本研究では心象の変化につ ながる空間の移行,すなわち移動を検出するために, 移動動詞と呼ばれる動詞に着目する. 田中ら [5] によると、移動の事実や付随的要素,経 路位置関係を表現する動詞を移動動詞と呼ぶ.また, 移動動詞が移動の事実と同時に経路位置関係などを 表現することを,経路位置関係などが移動の事実と 共に包入されていると呼ぶ.また移動動詞を含む文 において経路を表すために使われる後置詞,すなわ ち格助詞は日本語には少なく,から・より・に・ま で・へ の 5 つの格助詞のみである.. Cb(Ui ) 6= Cb(Ui01 ). 事物 方角. 定称 近称. 中称. 遠称. 不定称. コレ. ソレ. アレ. ドレ. コチラ. ソチラ. アチラ. ド チラ. コッチ. ソッチ. アッチ. ド ッチ. 場所. ココ. ソコ. アソコ. ドコ. 事物,人. コイツ. ソイツ. アイツ. ド イツ. 性質,状態. コンナ. ソンナ. アンナ. ドンナ. 指定. コノ. ソノ. アノ. ドノ. 様態. コウ. ソウ. アア. ドウ. 本研究では照応解析の対象とする指示詞を定称の みに限定する.不定称では,指示対象を一意に同定 できないためである.また解析対象の要素について は,事物・方角・場所・指定の 4 要素に限定する.こ の 4 要素における指示詞の品詞は,指定の要素が連 体詞であり,残りの要素は代名詞である. 指示代名詞のうち,接尾辞-レをもつ語は,事物だ けでなく場所の属性を有する名詞句が対応する場合 があり,曖昧性が存在する.接尾辞-イツをもつ語に ついても,属性が事物と人の 2 通りある.一方,方 角の属性をもつ語は属性を一意に決定できると考え られる.. 5 指示詞の照応解析手法 2.1 節で述べた,Walker らの制約に基づいた照応 解析モデルを,本稿では「基本モデル」と呼ぶこと にする.基本モデルに対して,3 つの改良モデルを追 加適用することを提案する.このことによって,指 示詞の照応解析における精度向上を実現する.. 5.1 先行詞限定モデル 3 節で述べたように,人間は文脈から移動現象を 検出し,これによって文脈に出現する事物の中から 心象にとどめる事物の取捨を行っていると考えられ る.本節では,事物を心象にとどめるか否か,すな. −55−.
(5) わち文脈に現れる名詞句が先行詞候補として適切か 否かの判定を行うモデルについて述べる. 移動動詞を含む発話が後置詞 (格助詞) を伴って現 れる場合に包入する経路関係は,次の通りである.. . 起点 : 通過点 : 着点 : 方角 :. から,より を に,へ,まで から,より,に,へ. 移動においては,起点,通過点,着点の順に経路 をたどる.新たに現れる事物によって注目される事 物が変化するため,心象に現れた事物は早く現れる ほど心象にとどまりにくくなると考えられる.これ は,照応解析の場合に置き換えると,起点,通過点, 着点の順で,包入されている名詞句が先行詞候補に なりにくくなることを意味する. そこで本研究では,発話中の名詞句が指示詞の指 示対象,すなわち先行詞となり得るか否かを決定す るルールを定義した.以下にそのルールを示す. 先行詞限定ルール 発話 Ui 中に移動動詞が含まれている場合,Ui 中 の起点・通過点・着点の経路関係を包入する後置 詞 (格助詞) に係る名詞句について,直後の発話 Ui+1 中の指示詞に対する先行詞候補になること ができる条件を以下の通り定める.. Ui において起点を包入する名詞句は,Ui+1 中 の,は・が・から・より 格に存在する指示詞の 先行詞候補になることができる.. とできない場合とが存在する.本節では,属性を一 意に決定可能な方角属性を有する名詞句を分離して 扱うモデルについて述べる. 指示代名詞が指し示す対象としては事物・方角・ 場所がある.このうち方角属性を有する指示代名詞 には,同じく方角属性をもつ名詞句が対応付けられ ることが望ましい.本研究では日本語語彙大系 [7] を 用いて名詞の属性を抽出した.日本語語彙大系にお いて,属性が「場 (2610) 」に属する,もしくはこの 属性を親としてもつ名詞を,方角属性をもつ名詞と して,方角属性をもたない名詞句と分けて扱う.こ のため,1 発話につき Cf は 2 つ用意する.照応解析 の際には,同一属性の Cf から先行詞を探索すること により,特に指示代名詞を照応語とする場合に,適 切な属性を有する名詞句と指示代名詞とを対応付け ることを目指す.. 5.3 真偽判断モダリティ導入モデル 発話内容が命題であるとき,人間は発話内容,す なわち命題が正しいか否かについて言及する場合が ある.命題の真偽を表す言語表現のことを,青山 [8] は「真偽判断のモダリティ」と呼んでいる.青山が 挙げた日本語における真偽判断のモダリティのうち, 動詞に分類される語は, 「 信じる,思う,知る,考え る,感じる」である. 真偽判断のモダリティは,命題の正しさに関する 確信の度合いを表すことから,述語と解釈するのは 適切でないと考えられる.よって,本研究ではこれ らの動詞を述語として扱わない.. Ui において通過点を包入する名詞句は,Ui+1 中 の,は・が・を・から・より 格に存在する指示 詞の先行詞候補になることができる.. 6 システム構築と実験. Ui において着点を包入する名詞句は,Ui+1 中 の,は・が・に・へ・まで・を・から・より 格 に存在する指示詞の先行詞候補になることがで きる.. 5 章で述べた内容を基に作成したシステムの概観 を図 6.1 に示す.なお図中の矢印について,処理の 流れは実線,データの流れは破線で示す.. 先行詞限定ルールは,移動動詞を含む発話の格が 経路位置関係をもつことに着目したルールであり,一 般的な動詞の深層格情報を用いたルールとは異なる. このルールを用いることにより,優位な Transition の型をもつ解釈であっても,先行詞候補として不適 切な名詞句を含む場合は除外できる.これにより,発 話のセンターがより大きく変化する事例にも対応で きる.. 先行詞限定モデルでは,移動現象を考慮した照応 解析が行われる.このため,移動現象を文脈に含む 事例が数多く存在するコーパスとして,道案内発話 コーパス 30 件分を実験データとして用いた. 道案内発話コーパスを形態素解析ツール茶筌 [9] で形態素解析したところ,道案内発話コーパス中に 定称の指示詞は 110 個出現した.しかし,このうち 7 個はフィラーである.松本ら [10] は,フィラーの識 別が難しいことを指摘しているため,本研究では人 手で除去した.残る 103 個の指示詞について,指示 対象が文脈中に存在するか否かを人手で調べた.そ. 5.2 方角名詞句分離モデル 4 節で述べたように,本研究で解析対象とする指 示代名詞には,有する属性を一意に決定できる場合. 6.1 システムについて. 6.2 実験データについて. −56−.
(6) 異なるので,異なる事物と判断した.. 談話. 表 6.2: 照応解析結果 文脈指示 文脈外指示. 文分割. A 44/60 73.3% 25/38 A+B 44/60 73.3% 25/38 A+C 46/60 76.7% 27/38 A+D 50/60 83.3% 25/38 A+B+C 46/60 76.7% 31/38 A+B+D 50/60 83.3% 25/38 A+C+D 52/60 86.7% 27/38 A+B+C+D 52/60 86.7% 31/38 ※ A:基本モデル B:先行詞限定モデル C:方角名詞句分離モデル D:真偽判断モダリティ導入モデル. 形態素解析. 発話分割. 品詞情報. 先行詞候補 リスト. 照応解析部 移動動詞 データベース. 指示詞の先行詞補完. 先行詞候補リストの作成 語彙の属性情報 データベース (日本語語彙大系). 照応解析された発話列. 図 6.1: 構築したシステムの概観 の結果,文脈指示である指示詞は 60 個 (58.3%),文 脈外指示である指示詞は 38 個 (36.9%) となった.な お「文脈指示」とは,指示詞の出現箇所よりも前の 文脈に指示対象の名詞句が存在することを意味する. また,指示詞の出現傾向を比較するため,朝日新 聞社説 1 週間分 (2002 年 10 月 2 日から 2002 年 10 月 8 日まで) を収集した.2 つのコーパスの文数,本研 究のルールによって発話分割したときの発話数,全 発話のうち移動動詞を含む発話数,コーパス中の指 示詞の数を表 6.1 に示す. 表 6.1: 2 つのコーパスの基本データ 道案内発話 朝日新聞社説 文数 発話数 (移動動詞を含む) 指示詞数. 80 314 142 103. 399 1076 25 70. 表 6.1 より,道案内発話コーパスは文数および発 話数に対する指示詞数の割合が高く,移動動詞を含 む発話の割合も高くなっている.したがって,実験 対象を道案内発話コーパスとするほうが,本稿で提 案した改良モデルの有効性に関する検討をより多く の事例から行うことができる.. 6.3 実験結果. 65.8% 65.8% 71.1% 65.8% 81.6% 65.8% 71.1% 81.6%. 7 考察 7.1 先行詞限定モデル+方角名詞句分離モ デルの場合 先行詞限定モデルと,方角名詞句分離モデルを組 み合わせて適用した結果について考察する.先行詞 限定モデルを単独で用いた場合,起点・着点を包入 する格については,その格が方角の経路関係を包入 しているか否かを識別しないと,正しく解析できな い.方角名詞句分離モデルを組み合わせて用いるこ とにより,指示詞の先行詞候補として適切な属性を 有する名詞句を選択できるだけでなく,先行詞限定 モデルにおいて,移動動詞を含む発話に包入される 起点・着点と方角の経路関係を適切に決定すること ができるようになった.. 7.2 照応タイプによる結果の違い 文脈照応と文脈外照応の照応解析結果の違いにつ いて考察する.基本モデルのみの場合 (A) と 3 つの 改良モデルをすべて適用した場合 (A+B+C+D) の, 正解数および正解率の変化を表 7.1 に示す. 表 7.1: 改良モデルをすべて適用したときの精度変化. 照応解析アルゴリズムには基本モデル,および本 研究で提案した 3 つの改良モデルを用いた.実験結 果を表 6.2 に示す.なお,文脈指示である指示詞に 対しては,形態素が部分一致しており,かつ意味的 に同一の事物を表している場合を正解とした.例え ば, 「 女学院高校」と「女学院」「 ,県立美術館」と「美 術館」などは同一の事物と判断した.一方, 「 電車通 り」と「電車」は形態素は部分一致するが,実体が. 文脈 文脈外. 正解数 52. 正解率 86.7%. 正解数差 +8. 正解率差 +13.3%. 31. 81.6%. +6. +15.8%. 表 7.1 より,単純に正解率を比較すると文脈指示 のほうが正解率が高くなっている.しかし,正解率 の差を比較すると文脈外指示のほうが上昇幅が大き い.したがって,本研究で提案した 3 つの改良モデ. −57−.
(7) ルをすべて適用した場合,文脈外指示の検出に有効 であると言える.. 7.3 Transition による手法との比較 本節では,Walker らが提案した Transition によ る照応解析手法との比較を行う.道案内発話コーパ スの全発話,およびそのうち指示詞を含む発話,そ れぞれの Transition の型の分布を表 7.2 に示す.な お,全発話数が表 6.1 の発話数と一致しない理由は, 真偽判断モダリティ導入モデルの適用によって発話 数が減少したためである. 表 7.2: 実験データにおける Transition の型の分布 Transition 全発話 指示詞を含む発話 Continue 156 73. Retain Smooth-Shift Rough-Shift 計. 16 92 37 301. 12 7 1 93. 表 7.2 の指示詞を含む発話について,Transition の 型が Continue 以外であった 20 発話には 22 個の指示 詞が含まれる.このうち,より優位な Transition の 型が選択肢として存在する発話が 6 発話あった.こ の 6 発話には 7 個の指示詞が含まれていた.これら の正解/不正解の内訳を表 7.3 に示す. 表 7.3: Walker らの手法に反する事例の解析結果 Smooth- Rough- 計 Shift Shift 正解 4 4 文脈 不正解 0 0 正解 1 1 2 文脈外 不正解 1 0 1. の有効性を確認した.今後,本研究で提案した手法 をより規模の大きいコーパスに適用し,手法の有効 性をさらに検証する必要がある.また,文中で話題 となっている事物が変化する事象をより多く検出す るため,本研究でとり上げた移動動詞以外の言語表 現についても検討していきたい.. 参考文献 [1] S. Grosz,A. Joshi,S. Weinstein : Providing a Uni
(8) ed Account of De
(9) nite Noun Phrases in Discourse,21st Annual Meeting of the Association for Computational Linguistics,pp.4450(1983) [2] M. Kameyama : A Property-Sharing Constraint in Centering,24th Annual Meeting of the Association for Computational Linguistics,pp.200-206(1986) [3] M. Walker,M. Iida,S. Cote : Japanese Discourse and the Process of Centering,Computational Linguistics Vol.20,No.2,pp.193232(1994) [4] 竹井みつこ,高田美佳,相沢輝昭 : 日本語ゼ ロ代名詞補完のためのグローバルトピックの役 割,情報処理学会研究報告,Vol.135-10,pp.7178(2000) [5] 田中茂範,松本曜 : 日英語比較選書 6 空間と 移動の表現,研究社出版 (1997) [6] 佐久間鼎 : 現代日本語の表現と語法,厚生閣 (1936). Walker らが提案した手法では,複数の解釈が存在 するときには最も優位な Transition の型をもつ解釈 を最適とみなす.すなわち,本研究の手法で正解で あった 6 件の事例は,Walker らの手法を用いると 不正解となる.なお,この 6 発話以外の発話におい ては,Walker らの手法,本研究の手法のいずれを用 いても照応解析結果は変化しない.以上のことから, 本研究で提案した手法は,従来のセンタリング理論 では対応しない,センターの変化が大きくなる事例 についても対応することがわかる.. [7] NTT コミュニケーション基礎科学研究所 : 日 本語語彙大系 CD-ROM 版,岩波書店 (1999) [8] 青山広 : 真偽判断モダリティの数理的解析と会 話の論理,論理哲学研究 第 2 号,pp.1-19(2001) [9] 松本裕治,北内啓,山下達雄,平野善隆,松田 寛,高岡一馬,浅原正幸 : 日本語形態素解析シ ステム『茶筌』vertion2.2.9 使用説明書,奈良 先端科学技術大学院大学 松本研究室 (2002) [10] 松本裕治,伝康晴 : 話し言葉の形態素解析,情報 処理学会研究報告,Vol.143-7,pp.49-54(2001). 8 まとめと今後の課題 本稿では,文脈照応および文脈外照応の両方を対 象とした,計算機による照応解析手法を提案し,そ. −58−.
(10)
関連したドキュメント
2 つ目の研究目的は、 SGRB の残光のスペクトル解析によってガス – ダスト比を調査し、 LGRB や典型 的な環境との比較検証を行うことで、
しかし , 特性関数 を使った証明には複素解析や Fourier 解析の知識が多少必要となってくるため , ここではより初等的な道 具のみで証明を実行できる Stein の方法
析の視角について付言しておくことが必要であろう︒各国の状況に対する比較法的視点からの分析は︑直ちに国際法
今回工認モデルの妥当性検証として,過去の地震観測記録でベンチマーキングした別の 解析モデル(建屋 3 次元
ヘッジ手段のキャッシュ・フロー変動の累計を半期
★分割によりその調査手法や評価が全体を対象とした 場合と変わることがないように調査計画を立案する必要 がある。..
本検討では,2.2 で示した地震応答解析モデルを用いて,基準地震動 Ss による地震応答 解析を実施し,
鋼板中央部における貫通き裂両側の先端を CFRP 板で補修 するケースを解析対象とし,対称性を考慮して全体の 1/8 を モデル化した.解析モデルの一例を図 -1