意味空間に基づく文脈情報を用いた比喩生成
全文
(2) Vol.2017-NL-231 No.14 Vol.2017-SLP-116 No.14 2017/5/16. 情報処理学会研究報告 IPSJ SIG Technical Report. . ほど類似しているかを知ることは重要である.意味空間モ. 「(前略) 人間には,生きようという意志と一緒に,滅亡に赴こう. デルでは,各語を高次元の実ベクトル空間上のベクトルと. という意志があるような気がするんですよ.どうもそんな気が. して扱う.語と語の間の類似度は,対応する 2 つのベクト. する.此のような熾んな自然の中で,人間が ⃝⃝ のように. ル間の類似度として計算する.. もろく亡んでいく.奇体に美しいですね」. 語を実数ベクトルに変換する手法はいろいろなものが提. (梅崎 春生『桜島』). 案されている.ここでは,その具体例として,本研究で利. 図 1. 被喩辞「人間」に対する比喩表現を埋め込みたい文脈. 用している手法を説明する.. ( i ) テキストコーパスを段落単位に分割する 例えば,図 1*1 における,二重下線の被喩辞「人間」に対 して, 「もろい」という特徴を強調する喩辞を生成すること を考える.既存の研究における入力は,被喩辞「人間」と 特徴語「もろい」のみであり,周辺文脈の情報が利用され ることはない.既存のアルゴリズムを用いると,例えば, 「人間」と「もろい」から喩辞「ガラス」が得られる.確か に,「人間はガラスのようにもろい」という比喩表現は適 切な比喩であるが,この文脈には合わない.図 1 の場面で 述べられている「人間」は,単純に壊れやすいというだけ ではなく,厳しい自然の中で滅んだり,生きようという意 志を持っていたりする.『桜島』で著者の梅崎が実際に使 用した比喩表現は, 「人間が蛾のようにもろく亡んでいく」 であり,喩辞「蛾」はこのような文脈がうまく反映されて いる語である. 実用面でも有用である比喩を生成するためには,埋め込 まれる文章や場面への適合度を考慮すべきである.そこ で,本研究では,比喩生成において,被喩辞と特徴語のみ でなく,生成された比喩表現を実際に埋め込む先の文脈の 情報も利用する.すなわち,上記の手順 (iii) において,文 脈情報も考慮して喩辞候補の語句をランキングする. 本論文は,以下のように構成される.まず,2 章で,比 喩生成の先行研究について述べる.次に,3 章で,提案手 法である,文脈を考慮した比喩生成について説明する.4 章では,青空文庫を利用して作成した比喩表現データにつ いて述べる.5 章において,提案手法の評価実験について 述べる.6 章はまとめである.. ( ii ) 語彙 × 語彙の共起行列を作る.ここで,共起の範囲 は同一段落内として,その回数を数える. ( iii )共起行列の各要素に,重みとしてそれぞれのエントロ ピー [2] の値を掛ける. ( iv )特異値分解により行列を圧縮し,語彙 × 500 の行列を 得る. ( v ) この行列の 1 行が,各語の意味ベクトルである 意味空間の精度を高めるため,コーパスでの出現頻度が低 い語は,語彙リストに含めないことが多い.これは,確か らしさの度合いが低いベクトルが混じっていると,最も類 似度が高いベクトルを抽出したい時に,そのようなベクト ルがノイズとなってしまうからである.. 2.2 predication algorithm 計算機による意味処理において,1 語と 1 語の類似度だ けでなく,1 語と複合語の類似度や複合語と複合語の類似 度を計算したいことがある.意味空間モデルを採用する場 合,複数の語からなる語句を意味空間上の 1 つのベクトル として表現することが必要となる.. predication algorithm [1] は,これを実現するための 手法の 1 つである.このアルゴリズムに基づいて,「主要 語 t1 とその他の語 t2 からなる語句」の意味ベクトルを計 算する手順を説明する.. ( i ) 意味空間から,t2 と類似度の高い語を j 個抽出する ( ii ) j 個の語の中から,t1 と類似度の高い語を k 個抽出す る.ここで,k ≤ j である. ( iii )次のすべてのベクトルの重心を計算する. 2. 先行研究 この章では,まず,比喩生成においてよく利用される意. t1 ,t2 ,k 個の語 ( iv )その重心ベクトルを,t1 と t2 からなる語句の意味ベ クトルとする. 味空間モデルについて説明する.次に,複数の語からなる 語句を意味空間上の 1 つのベクトルとして表現するため の手法の 1 つである,predication algorithm [1] を説明す る.最後に,日本語を対象とした比喩生成の研究について. 語句「赤い花」を対象として,手順の具体例を示す.こ の例では,j = 5, k = 2 とした.. ( i ) 意味空間から,t2 =「赤い」と類似度が高い語を抽出 する. 述べる.. 2.1 意味空間モデル. 白い,緑色,黄色,真っ赤,赤*2. ( ii ) このリストから,t1 =「花」と類似度が高い語を抽出 する. 計算機による意味処理において,ある語と別の語がどれ *1. 本論文では,説明の都合上,引用する文章において,原著本文に 存在するオリジナルの比喩表現を伏せていたり,省略したりして いることがある.. ⓒ 2017 Information Processing Society of Japan. 黄色,赤 *2. 「赤い」(形容詞) と「赤」(名詞) は別語である.. 2.
(3) Vol.2017-NL-231 No.14 Vol.2017-SLP-116 No.14 2017/5/16. 情報処理学会研究報告 IPSJ SIG Technical Report. ( iii )次のすべてのベクトルの重心を計算する 花,赤い,黄色,赤. のステップでは,シソーラスを利用して,喩辞候補をフィ ルタリング (3.2 節) する.次のステップにおいて,以下の. 3 つの観点から,残った喩辞候補をランキングする. 2.3 日本語を対象とした比喩生成 北田ら [3] は, 「(被喩辞) は (特徴)」という形式の文から. ( i ) 被喩辞と特徴語の合成ベクトルと喩辞候補ベクトルの 類似度 (3.3 節). その比喩表現を生成する手法を提案している.この手法で. ( ii ) 喩辞候補の具象度 (3.4 節). は,認知心理学における知見を基にして比喩度という尺度. ( iii )文脈ベクトルと喩辞候補ベクトルの類似度 (3.5 節). を定義し,この尺度が高いものを良い喩辞であるとして. 以下,これらについて説明する.. いる. 岡本 [5] は,意味空間モデルに基づき,遺伝的アルゴリ. 3.2 喩辞候補のフィルタリング. ズムを利用して,被喩辞とその特徴の対から喩辞を生成す. 比喩表現が,字義通りの意味ではなく,受け手に比喩と. る手法を提案している.この手法を 1 回実行すると,1 つ. して解釈されるためには,被喩辞や喩辞のカテゴリーに注. の喩辞が得られる.複数回実行することにより,様々な喩. 目することが重要である.例えば,次の例文 (2) と (3) は,. 辞*3 が得られる.. 例文 (4) と比べて,「比喩」という感じを受けない.. これらの研究における入力は被喩辞と特徴語のみであ り,比喩表現が実際に使用される文章や場面を全く考慮し. (2) このレモンはみかんのようだ.. ていない.. (3) この海は湖のようだ.. 3. 提案手法. (4) 雪は真綿のようだ.. 意味空間モデルに基づき,被喩辞とその特徴語,および, 文脈情報を利用して喩辞を生成する手法を説明する.. 「レモン」と「みかん」は,柑橘類という同じカテゴリーに 属する.同様に, 「海」と「湖」は,湖沼という同じカテゴ リーに属する.一方, 「雪」と「真綿」は,全く異なるカテ. 3.1 システムの概要 本システムへの入力は,以下のものであり,出力は,ス コアでランキングされた喩辞のリストである.. ゴリーに属する. 比喩としての解釈可能性が高い比喩表現を生成するため には,入力される被喩辞とは離れたカテゴリーの喩辞を選. • 被喩辞. 択すると良さそうである.そこで,本研究では,既存のシ. • 被喩辞が持つ特徴を表す語句. ソーラスを利用して,被喩辞と同じカテゴリーに属する語. • 被喩辞を含むテキスト.被喩辞の位置情報も明示. を喩辞候補リストから排除する.具体的には,日本語大シ. 入力する文脈テキストにおいて,位置情報を必要とするの. ソーラス [7] が設定する 1,044 個のカテゴリーを利用する.. は,図 1 のように,被喩辞と同じ文字列が複数含まれてい. これらのカテゴリーの例を,カテゴリー番号とともに以下. る可能性があるためである.. に示す.. 本研究は,我々が知る限り,文脈情報を利用して比喩を. • 0021 美しい. 生成する初めてのものであるので,誤り分析等を見通しよ. • 0083 軽重. く実施するために,被喩辞と特徴語,および,出力される. • 0165 模様. 喩辞候補に次の条件を設定する.. • 0226 人気. • 被喩辞は名詞 1 語とする. • 0347 喜怒哀楽. • 特徴語は内容語 1 語とする. • 0501 口をきく. • 喩辞候補は名詞 1 語とする. • 0563 成否. これらの条件は本質的なものではない.本章で説明するア. • 1019 海. ルゴリズムは,被喩辞が動詞や形容詞であっても同様に適. • 1024 湖沼など. 用可能である.被喩辞が複合語であったとしても,2.2 節. 例として,被喩辞「海」と喩辞候補「湖」を使用して,. で説明した predication algorithm を利用することにより,. フィルタリング処理について説明する.. 本アルゴリズムを適用可能である.探索空間が指数的に広. ( i ) 被喩辞「海」に対してシソーラスを引き,それが属す. くなるため,探索方法を工夫する必要があるが,喩辞候補. るすべてのカテゴリーを得る.「海」の場合,“931 文. に複合語を許すような拡張も可能である.. 具” と “1019 海” と “1024 湖沼など” の 3 つのカテゴ. 提案手法では,2 ステップにより,喩辞を生成する.最初 *3. もちろん,すでに得られた喩辞と重複するものが生成されること もある.. ⓒ 2017 Information Processing Society of Japan. リーを得る.. ( ii ) 喩辞候補「湖」に対してシソーラスを引き,それが属 するすべてのカテゴリーを得る.「湖」の場合,“1024. 3.
(4) Vol.2017-NL-231 No.14 Vol.2017-SLP-116 No.14 2017/5/16. 情報処理学会研究報告 IPSJ SIG Technical Report 表 1. 辞書 [4] における心像性の例 語. 心像性. 波羅蜜. 1.542. 以後. 3.657. 堂々. 4.229. 雪道. 5.029. マウス. 6.114. ゴリラ. 6.657. は,コサイン類似度で計算する.. 3.4 喩辞候補の具象度 図 2 フィルタリングの全体像. 比喩生成において,喩辞に抽象度の高い語を用いること は,比喩の解釈可能性の観点から好ましくない.例えば,. 湖沼など” のカテゴリーのみを得る.. ( iii )上記 2 つのカテゴリー集合に 1 つでも重複がある場 合,喩辞候補を喩辞候補リストから排除する.この例 では,“1024 湖沼など” が重複するため, 「海」の喩辞 候補リストから「湖」を排除する. 前節で述べたように,本研究では,被喩辞も喩辞候補も 名詞 1 語である.モノである名詞に対して,コトである喩 辞候補を生成することは,比喩の解釈可能性の観点から好 ましくない.それゆえ,シソーラスによるフィルタリング に先立ち,品詞細分類によるフィルタリングを実施する. 具体的には,IPA 辞書*4 の名詞のうち,以下のものをあら かじめ喩辞候補リストから除外する. サ変接続,形容動詞語幹,副詞可能,非自立. 3.3 節から述べる次のステップにおいて,喩辞候補の意 味ベクトルを利用する.2.1 節で述べたように,コーパス での出現頻度が低い場合,その語は意味ベクトルを持たな い.システム全体の高速化のため,意味ベクトルを持たな い語は,このステップのうちにあらかじめ除外する. 本研究の最初の喩辞候補リストは,名詞全体である.3 種類のフィルタリングを適用し,残ったものを次のステッ プで利用する.図 2 に,フィルタリングの全体像を示す.. 3.3 被喩辞と特徴語の合成ベクトルと喩辞候補ベクトル の類似度. 1 章で述べたように,喩辞は,被喩辞が持つ特徴を強調. 以下の 2 つの例文はいずれも被喩辞「人間」を喩えたもの である.. (5) あの先輩は,以後のような人間だ. (6) あの先輩は,ゴリラのような人間だ. 抽象度のとても高い喩辞「以後」を使用した例文 (5) は, その意味を取ることが難しい.一方,例文 (6) の比喩の解 釈は容易である. 比喩としての解釈可能性が高い比喩表現を生成するため には,抽象的な語は避けるのが無難である.そこで,本研 究では,単語心像性の辞書 [4] を利用して,抽象度の低い 語に対して高いスコアを与える.ここで,心像性とは,心 理的な尺度であり,具体的イメージの思い浮かびやすさの ことである. この辞書 [4] では,各語に対して 1 から 7 の実数値で心 像性を与えている.表 1 に,心像性の値の例を示す.値が 高いほど,イメージしやすい具体的な語である. 心像性を 0 から 1 の範囲に正規化したものを,具象度と して定義し,この具象度を喩辞候補のスコアとして利用す る.ただし,心像性が 4.5 より高いものはそれほど具象度 に差がないように思われるので,これらは同じ具象度とな るように設定する.数式で表現すると,以下のようになる. (心像性 − 1)/6 (心像性 ≤ 4.5) 具象度 = (4.5 − 1)/6 (上記以外). する.比喩生成の観点からみると,喩辞は,その意味とし て, 「被喩辞が持つ特徴」の意味を持っていなければならな い.それゆえ,良い喩辞候補は,被喩辞やその特徴語に近 い意味を持っていると考えられる. 意味空間において,被喩辞と特徴語の合成ベクトルと喩. 3.5 文脈ベクトルと喩辞候補ベクトルの類似度 1 章で述べたように,実用面でも有用である比喩を生成 するためには,比喩表現が埋め込まれる文章や場面への適 合度を考慮すべきである.. 辞候補ベクトルの類似度を計算し,その類似度を上記を表. 意味空間において,文脈ベクトルと喩辞候補ベクトルの. すスコアとして利用する.被喩辞と特徴語の合成ベクトル. 類似度を計算し,その類似度を上記の適合度を表すスコア. の算出には,2.2 節で説明した predication algorithm を,. として利用する.ここで,文脈ベクトルをどのように算出. 被喩辞を主要語として適用する.2 つのベクトルの類似度. するかは,多くの選択肢があり,とても難しい問題である.. *4. https://ja.osdn.net/projects/ipadic/releases/. ⓒ 2017 Information Processing Society of Japan. 本研究では,比喩生成への文脈利用の第 1 歩として,被. 4.
(5) Vol.2017-NL-231 No.14 Vol.2017-SLP-116 No.14 2017/5/16. 情報処理学会研究報告 IPSJ SIG Technical Report. . 表2. 被喩辞「船」とその特徴語「響く」に対する提案手法の出力の 上位 10 件. そしてそれは,盆の中で選り分けられる小豆のように,ころこ ろした.波田は,櫓を入れた.船は,そこにどっしりしていた.. 順位. そして,波の小舟は忙しくころんだ.寂しい気持ちであった.. 1. 音. 1.423. 彼は全身の力をこめて,櫓を押した.船のともを回ろうとした. 2. 響き. 1.171. 時,伝馬はなかなかその頭を,どちらへも振り向けようとしな. 3. 低音. 1.170. かった.. 4. 高音. 1.149. 5. 雑音. 1.110. 6. 渦. 1.091. 7. 浜辺. 1.091. 8. 地響き. 1.080. 9. 音階. 1.079. 耳. 1.076. (葉山嘉樹『海に生くる人々』). . . 図 3. 被喩辞の周辺に出現する内容語集合 (m = 5, n = 3). . . 10. 喩辞. 適切度. サンパンの船頭は,ストーヴの前へ腰をおろして,皆黙々とし ていた.おもての,デッキでは,ビームがデッキへ打っ突かる 音や,ウインチの回る音などで,船全体が響きわたった.ボー. 採集した 7,000 件の比喩表現を収録する辞典である.例え. イ長は,自分では大して自由にならないからだを持ち扱って退. ば,「人間」の項目に用例 (7) が挙げてあり,「針」の項目. 屈し切っていた.. に用例 (8) が挙げてある. (葉山嘉樹『海に生くる人々』). 図 4. 被喩辞「船」とその特徴語「響く」に関する文脈. (7) 熾んな自然の中で,人間が蛾のようにもろく亡んで 行く.(梅崎 春生『桜島』). 喩辞の周辺に出現する内容語集合の重心ベクトルを文脈ベ. (8) ごく実際的な鋭い頭が針のように光ってとがってい た.(有島 武朗『或る女』). クトルとして利用する.文という単位は無視し,被喩辞の 直前 m 個と直後 n 個の合計 m + n 個の内容語を取得する.. 良い比喩表現を自動生成するために,このような辞典を参. 安定した文脈ベクトルを構築するために,意味ベクトルを. 考にすることは重要である.しかしながら,収録されてい. 持たない語はスキップしつつ,確実に意味ベクトルを持つ. る用例の範囲は,1 文であるため,この辞典を利用して原. 語を m + n 個取得する.入力された被喩辞や特徴語と一致. 著における周辺文脈を得ることはできない.. する場合も,例外として,その語をスキップする. 文脈ベクトルのための内容語集合取得の例を図 3 に示 す.この図では,二重下線の被喩辞「船」に対して取得さ. 人間が作成した比喩表現を分析するにあたり,本研究で は,文脈を補いながら,この中の少数の用例をデータ化 した.. れた語に下線を引いている.この例では,内容語集合とし て以下の語が得られた.. データ化にあたり,次の 4 つの基準を満たす用例を辞典 から選択した.. 盆,選り分ける,小豆,櫓,入れる,波,小舟,忙. a. 青空文庫*6 に原著テキストがある. しい. b. 旧仮名遣いでない. 本システムでは,テキストの形態素解析器に MeCab*5. version 0.996 と IPA 辞書 version 2.7.0 を利用する.. c. 被喩辞と喩辞が共に名詞 1 語である d. 特徴語が原著テキストの周辺文脈から明示的に取得で きる. 3.6 喩辞候補のランキング. 基準 a. は,テキストを入力する手間を省くためである.喩. 提案手法では,3.3 節,3.4 節,3.5 節で説明した 3 つの. 辞により強調される,被喩辞が持つ特徴は,明示的に文章. スコアの線形和による適切度スコアにより,喩辞候補をラ. に書いてあることもあるが,明示されず,読み手が推測し. ンキングする.これらの要素に対する重みを w1 , w2 , w3 と. なければならないこともある.基準 d. は,読み手による特. 書く.. 徴推測の揺れをなくして比喩生成,および,その後のシス. 図 4 における二重下線の被喩辞「船」とその特徴語「響. テム評価ができるようにするために設定した.. く」を入力した時の,提案手法による喩辞候補のランキン. ランダムに辞典のページを開き,その中から上記 4 つの. グ結果を表 2 に示す.ここで,システムのパラメーター等. 基準を満たす用例を人手で探した.そのような用例は 21. は,5 章で説明するものを利用している.. 件見つかった.. 4. 比喩表現データ 比喩表現辞典 [6] は,200 人の作家の 400 編の作品から *5. http://taku910.github.io/mecab/. ⓒ 2017 Information Processing Society of Japan. 後で人手評価を実施することを考えると, 「周辺文脈」の 範囲をどのように定めるかは,難しい問題である.例えば, 「周辺文脈」として原著全体を選択する場合,人手評価の実 *6. http://www.aozora.gr.jp. 5.
(6) Vol.2017-NL-231 No.14 Vol.2017-SLP-116 No.14 2017/5/16. 情報処理学会研究報告 IPSJ SIG Technical Report. 施が困難になる.一方, 「周辺文脈」として,被喩辞を含む. 提案手法には,表 4 に示す 7 つのパラメーター (2.2 節,. 1 文のみを選択する場合,提案手法が有効に働かない恐れ. 3.5 節,3.6 節参照) がある.比較評価に先立ち,これらの. がある.本研究では,(評価時に人間に見せるための)「周. 値を適切に設定する必要がある.. 辺文脈」として,被喩辞の周辺の最低 200 字のテキストを. 評価実験に用いない 3 件のデータを利用して,これらの. 選択した.このテキストを抽出する手順を以下に示す.. パラメーターを決定した.各パラメーターの探索範囲であ. ( i ) 被喩辞を含む文を抽出する. る選択肢を表 4 の右側に示す.太字は,最終的に決定した. ( ii ) 抽出したテキストの総文字数が 200 字を超えている場. 値 (j=10,k=5,m=3,n=3,w1 =1,w2 =1,w3 =0.4) で. 合,処理を終了する.超えていない場合,以下の処理. ある.喩辞候補のランキングに使用する 3 つのスコアのう. を続ける. ち,「被喩辞と特徴語の合成ベクトルとの類似度」と「具. ( iii )抽出したテキストの直前の文を抽出する. 象度」は,比喩らしい比喩表現を生成するための本質的な. ( iv )抽出したテキストの総文字数が 200 字を超えている場. ものである.一方,「文脈ベクトルとの類似度」は,文脈. 合,処理を終了する.超えていない場合,以下の処理. との関連度を高めるための補助的なものである.重み w3. を続ける. を w1 や w2 より大きくした場合,文脈との関連度は高い. ( v ) 抽出したテキストの直後の文を抽出する. が,比喩らしさを感じない表現が生成されてしまう恐れが. ( vi )上の ( ii ) に戻る. ある.それゆえ,本実験では,w1 と w2 の値は 1 に固定し,. 用例 21 件のうち,3 件はパラメーターの決定 (5.2 節参. 0 < w3 < 1 の範囲で重みの適切な値を探索することとし. 照) に用い,残りの 18 件を評価実験 (5.4 節参照) に利用し. た.ランキング結果には影響しないため,本実験では重み. た.パラメーター決定に用いた被喩辞は次のとおりである.. の正規化は行っていない*8 .. • 被喩辞「人」,特徴語「機転」. パラメーターの適切な組み合わせを決定するにあたり,. • 被喩辞「山」,特徴語「塞ぐ」. 以下の手順を用いた.. • 被喩辞「瞳」,特徴語「鋭い」. ( i ) 任意*9 に 1 つの組み合わせ (j=10,k=10,m=10,n=3,. 評価実験に利用した被喩辞を表 3 の「入力」に示す.ここ. w1 =1,w2 =1,w3 =0.6) を選ぶ. で,「入力」は,「特徴語 被喩辞」という形式で記述して. ( ii ) 3 件の被喩辞に対して,それぞれシステムの出力を得る. いる.原著で使用されていたオリジナルの喩辞をこの表の. ( iii )各出力の上位 30 語 (計 90 語) に対して,文脈への適合. 「オリジナル」に示す.一番左の列の「番号」は,比喩表現. 性を考慮しながら,比喩表現としての良さを 1 か 0 で. 辞典 [6] における用例番号 ID である.. 3.5 節で説明した類似度を計算するとき,および,評価実. 人手で判断する. ( iv )人手で 1 と評価された喩辞候補のリストを正解リス. 験において作業者に被喩辞の文脈を提示するときには,原 著の喩辞を含む部分を削除したものを用いる.例えば,用. トと呼ぶ. ( v ) この正解リストを用いて,評価関数を以下のように定. 例 (7) では,「蛾のように」の部分を削除する.. める 出力の上位 30 語のうち,正解リストに含まれるも. 5. 評価実験. のに 1 を自動付与する.1 が付与された喩辞候補の. 前章で説明した比喩表現データを利用して,提案手法の 性能を評価した.. 順位の逆数の和を求める. ( vi )パラメーターのすべての組み合わせに対して,3 件の 被喩辞に関する評価関数の値を計算する. 5.1 意味空間と喩辞候補リスト. ( vii )評価関数の値が最も高かったパラメーターの組み合わ. 本実験では,2.1 節で説明した方法により,毎日新聞. せを,最適な組み合わせとして決定する. 2006-2011 年分*7 を用いて,意味空間を構築した. 本研究の初期喩辞候補リストである名詞全体に対して,. 5.3 比較対象. 3.2 節で述べたフィルタリングのうち,品詞細分類,意味. 提案手法の出力を評価するにあたり,本実験では,以下. ベクトルによる 2 種類のフィルタリングを実施すると,喩. の 4 つの喩辞を比較する.. 辞候補は 26,222 語となる.さらに,入力された被喩辞ご. オリジナル 原著で使用されていたオリジナルの喩辞. とにカテゴリーによるフィルタリングを行うことで喩辞候. 先行研究 岡本 [5] の手法による喩辞. 補リストを定める.. 提案手法 A. 5.2 パラメーターの決定. *8. *7. *9. http://www.nichigai.co.jp/sales/mainichi/ mainichi-data.html. ⓒ 2017 Information Processing Society of Japan. 提案手法においてランキングに文脈情報を利. 従って,表 2 に示されるように,今回は,最終的な適切度の値は, 1 を超えることもある. 実用上は,日頃の観察結果から,良い喩辞候補が上位に来そうな ものを選ぶ.. 6.
(7) Vol.2017-NL-231 No.14 Vol.2017-SLP-116 No.14 2017/5/16. 情報処理学会研究報告 IPSJ SIG Technical Report. 表 3. 18 件の被喩辞を対象とした各出力とそれらの評定結果 (数値は左から,文章への適切度,斬新さ,発想促進性の評定値を表す). 番号. 入力. オリジナル. 77 しゃんと 上衣 竹 骨 の. 4.7. 3.0. 先行研究. 3.0. 危うい漂. 提案手法 A. 提案手法 B. 1.7. 4.0. 3.0 新緑. 2.0. 3.3. 3.7 空. 1.3. 3.3. 3.0. 2.7. 4.3. 3.3 地響き. 2.7. 2.3. 3.3 地響き. 2.7. 2.3. 3.3. 白. 張った 凧紙. 651 響く 船. 太鼓. 2.7. 3.0. 3.3. 物騒がし いトナカ イ. 653 どっしり 船. 真っ黒. 4.3. 2.3. 4.3. 多い分銅. 3.7. 3.0. 3.0 いかり. 3.7. 3.3. 2.7 本腰. 1.3. 4.7. 1.7. 4.7. 4.0. 4.3. 小汚い良. 1.7. 4.3. 4.0 冷気. 2.7. 1.3. 2.3 クーラー. 1.7. 1.3. 2.3. 2.0. 4.0. 3.7 バケツ. 1.3. 3.7. 2.3 池. 2.7. 1.7. 2.7. い岩. 948 冷たい 空気. 硝子. 心. 969 青い 水. 新茶. 4.0. 3.7. 4.0. 青いエー テル. 975 奇麗 水 1404 立つ 山. 虹. 3.7. 2.3. 4.3. うまい昔. 1.3. 4.3. 1.7 コップ. 1.3. 3.0. 3.0 コップ. 1.3. 3.0. 3.0. 楔子. 3.0. 1.5. 3.5. 高いバリ. 3.5. 3.5. 2.0 教壇. 1.5. 4.0. 2.5 丸太. 1.5. 4.0. 2.5. 1.3. 1.3. 1.3 巨木. 3.3. 2.3. 3.0 山の神. 3.7. 3.7. 4.3. 1.0. 4.5. 2.0 汁. 2.5. 3.0. 3.0 汁. 2.5. 3.0. 3.0. 1.0. 4.7. 3.3 河童. 3.3. 2.0. 3.3 狂気. 2.0. 4.0. 3.7. 2.3. 4.0. 4.0 老婆. 4.0. 2.0. 3.7 昆虫. 2.7. 2.0. 2.7. 1.3. 3.0. 3.3 日差し. 1.7. 2.0. 2.0 力. 1.0. 2.7. 1.7. 2.0. 4.0. 3.3 坊さん. 1.3. 2.0. 2.3 空気. 2.3. 1.3. 2.7. 1.3. 3.0. 4.0 原油. 2.3. 4.0. 3.7 好景気. 1.0. 2.0. 2.0. 1.5. 4.7. 2.0 エース. 2.0. 1.3. 1.7 エース. 2.0. 1.3. 1.7. 3.0. 2.0. 3.0 ゴール. 1.0. 2.7. 3.7 腕. 1.0. 4.3. 1.7. 2.0. 1.7. 1.0 雪解け. 1.0. 2.3. 3.0 焦り. 2.0. 2.0. 1.3. 1.0. 3.3. 3.3 水. 4.3. 2.0. 3.3 蛇口. 1.3. 4.0. 2.3. 1.9. 3.5. 2.9. 2.4. 2.6. 2.9. 1.9. 2.8. 2.5. ケード. 1420 そびえる 山. 巨人. 3.3. 3.0. 3.7. 小さい山 脈. 1704 垂れる 葉桜. 笠. 4.5. 1.5. 3.0. 有難いス ローガン. 2140 うごめく 人間 桶 の 底. 5.0. 1.3. 3.7. のウジ. ひどい干 渉. 2142 もろい 人間. 蛾. 3.3. 1.7. 3.0. 2147 強い 人. 大砲. 3.3. 2.3. 2.0. 弱弱しい 斑点 うまいア ルト. 2155 掴む 人. 猿. 4.0. 2.0. 3.0. 有難いユ ーザー. 3596 潤う 瞳. 二対の. 3.7. 3.7. 4.3. 3.0. 1.7. 4.0. 魂. 3597 光る 瞳. 硝子玉. だだっ広 い扁平ー 華々しい 天日. 3928 鋭い 頭. 針. 4.0. 2.3. 4.0. 鋭い物知 り. 4295 早い 思い出. 矢. 3.7. 1.7. 1.7. 慌ただし い事. 4585 流れる 愛. 五月の. 3.3. 3.7. 3.3. 微風 マクロ平均. 気安い記 念. 3.8. 2.5. ⓒ 2017 Information Processing Society of Japan. 3.5. 7.
(8) Vol.2017-NL-231 No.14 Vol.2017-SLP-116 No.14 2017/5/16. 情報処理学会研究報告 IPSJ SIG Technical Report 表 4 パラメーターの一覧と値の選択肢 パラメーター 値の選択肢. j. 10, 50, 100. k. 3, 5, 10. m. 3, 5, 10. て理解できるか? 特徴反映度 喩辞が強調する特徴は,指定された特徴語と 類似しているか? この評価では,作業者に次のような形式で,被喩辞,特 徴語,喩辞を提示した.. n. 3, 5, 10. w1. 1. 比喩表現: (喩辞)のような(被喩辞). w2. 1. 特徴: (特徴語). w3. 0.2, 0.4, 0.6, 0.8, 1. 例を以下に示す. 比喩表現: 水滴のような空気. 用しない手法による喩辞. 特徴: 冷たい. (具体的には,5.2 節の最適なパラメーターの組み合わ. 作業者への負荷を小さくするため,この段階では,作業者. せにおいて,単純に w3 = 0 とする手法). に文脈を提示していない.. 提案手法 B 提案手法による喩辞. 計 11 名の大学生,大学院生,研究員に評定作業を依頼 した.1 人あたり 2 ∼ 6 件の被喩辞に関して評定しても. 5.4 実験設定 評価実験は次の 2 段階で行った.. らった.. 18 件の被喩辞に対して,システムごとに, 「理解可能性」. ( i ) 最良喩辞の選択. と「特徴反映度」の評定平均値の和が最も高かった喩辞候. ( ii ) 文脈を見て,喩辞の評価. 補を最良喩辞として選択し,次段階の評価に使用する.. 自然言語処理における他の生成タスクと同様に,比喩生成. 5.4.2 文脈を見て,喩辞の評価. は難しいタスクである.特に,解析や分類と異なり,あら. 入力の被喩辞に対して,5.3 節で述べた 4 つの喩辞を次. かじめ正解を一意*10 に決めておくことは極めて困難であ. の評価項目によって作業者に 5 段階で評定してもらった.. る.それゆえ,評価において,システムの出力を人手で逐. 3 つのシステムに関しては,前節で得られた最良喩辞のみ. 一確認することが求められる.比喩生成は難しいタスクで. が評定の対象である.. あり,出力リストの 1 位に最良の喩辞を出力することは,. 文章への適切度 出力された喩辞は,文章に対して適切な. 現在の技術では非常に難しい.従って,上位いくつか (例. ものであるか?. えば,10 位まで) の喩辞候補を評価することが妥当である. 斬新さ 斬新な比喩表現であるか?. と思われる*11 .しかしながら,本研究では,比喩としての. 発想促進性 この比喩表現が使用されることにより,物語. 適否のみではなく,文章や場面への適合度も評価してもら. の発想が広がるか?. うため,評価すべきデータが多い場合,作業者への負荷が. この評価では,作業者に次のような形式で,被喩辞と喩. とても大きくなる.例えば,上位 10 位までを考慮する場. 辞を提示するとともに,被喩辞を含むテキストを与えた.. 合,1 つの被喩辞に対して,5.3 節で述べた 3 つのシステム. 比喩表現: (喩辞)のような(被喩辞). の延べ出力は 30 件である.「作業者ごとの判断バイアス」. 被喩辞を含むテキストの例を図 1 に示す.この図に示され. の影響を小さくするためには,この 30 件を 1 セットとし. るように,オリジナルの喩辞があった場所は示すが,その. て 1 人の作業者に評価してもらうことが望ましい.しかし. 内容は伏せた.「作業者ごとの判断バイアス」の影響を小. ながら,文章や場面への適合度を考慮しながら,30 件の比. さくするため,1 つの被喩辞に対する 4 つの喩辞を 1 セッ. 喩表現を評価するのは,非常に負荷が高い.そこで,本実. トとして 1 人の作業者に評価してもらった.作業者にはこ. 験では,「30 件を 1 セット」を「4 件を 1 セット」に減ら. れらの喩辞がどのようにして生成されたかは一切伝えてい. すために,評価実験を 2 段階で行うこととした.. ない*12 .. 5.4.1 最良喩辞の選択 入力の被喩辞に対して,各システムで上位 10 位まで喩. 計 49 名の大学生と研究員に評定作業を依頼した.1 つの 被喩辞あたり 2 ∼ 3 名の作業者に評定してもらった.. 辞候補を出力し,それらを次の評価項目によって作業者に. 5 段階で評定してもらった.. 5.5 実験結果. 理解可能性 被喩辞に対して出力された喩辞は,比喩とし. 各システムの上位 10 位までの喩辞候補の評価結果を表. 機械翻訳や自動要約のタスクと同様に,事前に人手で正解を (複 数) 用意できるが,正解と完全に一致するもののみが正しいわけ ではない.機械翻訳や自動要約のタスクと同様,正解と異なって いても,正しいと評価すべきものがある.本実験では,オリジナ ルの喩辞を利用できるが,良評価の出力はこれに限られない. 比喩生成の主な応用として文章作成支援を考える場合,出力を 1 つに絞る必要はない.. 5 に示す.数値は,各被喩辞に関して作業者が付けた評定. *10. *11. ⓒ 2017 Information Processing Society of Japan. 値の平均に対して,さらに被喩辞全体でマクロ平均をとっ たものである.数字が大きいほど良い評価であることを表 *12. それゆえ,4 つのうち 1 つがオリジナルの喩辞であることも知ら されていない.. 8.
(9) Vol.2017-NL-231 No.14 Vol.2017-SLP-116 No.14 2017/5/16. 情報処理学会研究報告 IPSJ SIG Technical Report 表 5 上位 10 位までの喩辞候補の評価結果 先行研究 提案手法 A 提案手法 B 理解可能性. 3.3. 3.3. 3.2. 特徴反映度. 3.2. 3.4. 3.6. 表 6. 被喩辞「空気」と特徴語「冷たい」に対する喩辞候補 先行研究 提案手法 A 提案手法 B. ストは,図 1 である.先行研究では「弱々しい斑点」,提 案手法 A では「老婆」が出力されたのに対し,提案手法 B では,オリジナルの「蛾」に近い「虫」が出力された.文 脈ベクトルを構成するにあたり,被喩辞の周辺に存在した 「自然」という語が有効に働いたものと思われる. 提案手法 B が文脈に適合した喩辞を生成できた事例は,. 1. 煙たい旅心. 冷気. 冷気. 比喩生成の観点において被喩辞との関連度が高い語が被喩. 2. 煙たい才覚. 水滴. 湿気. 辞の周辺に存在していた場合であった.従って,比喩生成. 3. 煙たい旅心. 温度. 水滴. に有効な文脈ベクトルを構築するためには,関連度が高い. 4. 冷たい国学. 湿気. 夕立. 語をうまく抽出する必要がある.このような語が,被喩辞. 5. ほろ苦い集配. 風. 温度. 6. 小汚い良心. 水分. クーラー. 7. 後ろめたい国学. 日差し. 風. 8. 愚かしい根回し. 夕立. 風呂. 切に自動分類することが重要であるように思える.これを. 9. 似つかわしい罪滅ぼし. 日光. 眠り. 実現するために必要となる技術として以下が挙げられる.. 冷たい国学. 霧. 水分. • 格フレーム辞書*13 などを利用して関連度の高さを判. 10. の周辺に必ず存在するとは限らないため,徐々に探索範囲 を広げつつ,手がかりになりそうな語であるかどうかを適. 定する す.例として,被喩辞「空気」と特徴語「冷たい」に対す. • 基本的な談話解析を行うシステムを簡易的に実装し, 文章の流れを把握する. る各システムの出力を表 6 に示す.. 3 つのシステムにおいて理解可能性の評定値に有意な差 はない.一方,特徴反映度は,提案手法が先行研究より高 い結果となった.. これらを用いた手法の開発は,今後の課題である. 今回,評価実験において作業者に提示した比喩表現のパ ターンは,次の 1 種類のみであった. 比喩表現: (喩辞)のような(被喩辞). この結果について考察する.理解可能性の評定値はいず れも 3 を少し超える程度であり,まだまだ改善する必要が. このような比喩表現のパターンを複数用意すると,生成さ. あると思われる.3.4 節で述べたように,提案手法では,喩. れた喩辞の容認可能性が上がる可能性が高い.例えば,別. 辞候補の抽象度を測るために,心像性を元にした具象度を. の比喩表現パターンとして次のようなものが考えられる.. 用いた.今後の発展として,次の 2 つの手法が考えられる.. 比喩表現: (喩辞)な(被喩辞). • なんらかのコーパスを用いて語の出現頻度を数え,そ. 比喩表現: (被喩辞)は(喩辞). の頻度を心像性の代わりに用いる.これは,出現頻度. 本実験では,被喩辞と喩辞はともに名詞 1 語に限定した.. が高くよく使われている語は分かりやすい概念である. 今後,扱う範囲を拡大するに伴い,比喩表現パターンの多. ことが期待されるからである.. 様性や体系についても分析・検討していきたい.. • 修飾語を付けた名詞も喩辞候補として扱う.これは, たとえ抽象的な語であってもそこに修飾語を付けると 具象性が高まることが期待されるからである.. 6. おわりに 本研究では,被喩辞を含むテキストを文脈情報として利. 被喩辞を含む文脈を見た上での,各システムの喩辞候補. 用することにより,文脈や場面に適合した喩辞を生成する. の評価結果を表 3 に示す.この表には,各システムの最良. 手法を提案した.提案システムを評価した結果,比喩生成. 喩辞と 3 つの平均評定値を示す.数値は左から順に,文章. の観点において被喩辞との関連度が高い語が被喩辞の周辺. への適切度,斬新さ,発想促進性の評定値である.数字が. に存在していた場合に,文脈に適合した喩辞をうまく生成. 大きいほど良い評価であることを表す.. できることがわかった.. 表 3 の最下段に評定値のマクロ平均を示す.オリジナル. 今後の課題は大きく 3 つある.1 つめは,有効な文脈ベ. の喩辞を除いて,文章への適切度が一番高いのは,文脈情. クトルを構築するために,徐々に探索範囲を広げつつ,手. 報を利用していない提案手法 A であった.斬新さが一番高. がかりになりそうな語を自動的に見つける手法を考案する. いのは,遺伝的アルゴリズムにより候補の探索を行う先行. ことである.2 つめは,喩辞候補のランキングにおいて利. 研究であった.発想促進性は,先行研究と提案手法 A で同. 用する適切度スコアの改良である.現在は,3 つのスコア. 程度であった.提案手法 B は,マクロ平均に関して,すべ. の線形和を採用しているが,任意の 2 つを掛け合わせた項. ての評価項目において先行研究に劣っている結果となった.. も加えるなど,より良いものを検討する必要がある.3 つ. 文脈情報が有効に働いた結果,オリジナルの喩辞に近い. めは,名詞 1 語に限らず,扱う範囲を拡大することである.. 喩辞を提案手法 B のみが出力した代表例として,表 3 の 「番号」が 2142 の事例が挙げられる.この事例の文脈テキ ⓒ 2017 Information Processing Society of Japan. *13. http://www.gsk.or.jp/catalog/gsk2008-b/. 9.
(10) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2017-NL-231 No.14 Vol.2017-SLP-116 No.14 2017/5/16. 複合名詞や固有名詞など,名詞の中で範囲を拡大するとと もに,動詞や形容動詞など,名詞以外の品詞にも挑戦した いと考えている. 参考文献 [1]. [2]. [3]. [4]. [5]. [6] [7]. Kintsch, W.: Metaphor comprehension: A computational theory, Psychonomic Bulletin & Review, Vol. 7, pp. 257– 266 (2000). Quesada, J., Landauer, T., McNamara, D., Dennis, S. and Kintsch, W.: Creating your own LSA space, pp. 71–85, Lawrence Erlbaum associates (2007). 北田純弥,萩原将文:電子辞書を用いた比喩による文書作 成支援システム,情報処理学会論文誌,Vol. 42, No. 5, pp. 1232–1241 (2001). 佐久間尚子,伊集院睦雄,伏見貴夫,辰巳 格,田中正之, 天野成昭,近藤公久:NTT データベースシリーズ日本語 の語彙特性 第 3 期 第 8 巻,三省堂 (1999). 岡本正俊:意味空間モデルと遺伝的アルゴリズムを用いた 比喩表現の自動生成システム,平成 21 年度卒業研究論文, 電気通信大学システム工学科 (2010). 中村 明:比喩表現辞典,角川書店 (1977). 山口 翼:日本語大シソーラス―類語検索大辞典―,大修 館書店 (2003).. ⓒ 2017 Information Processing Society of Japan. 10.
(11)
図
関連したドキュメント
Keywords: set partition lattice, vector space over a finite field, q-Stirling number.. Introduction
To overcome the drawbacks associated with current MSVM in credit rating prediction, a novel model based on support vector domain combined with kernel-based fuzzy clustering is
In [6] we outlined a theory, where certain elements in the Spencer cohomology determine all the complete filtered Lie algebras having a certain graded algebra provided that
These authors make the following objection to the classical Cahn-Hilliard theory: it does not seem to arise from an exact macroscopic description of microscopic models of
These authors make the following objection to the classical Cahn-Hilliard theory: it does not seem to arise from an exact macroscopic description of microscopic models of
We use operator-valued Fourier multipliers to obtain character- izations for well-posedness of a large class of degenerate integro-differential equations of second order in time
The space of polynomials in two real variables with values in a 2-dimensional irreducible module of a dihedral group is studied as a standard module for Dunkl operators..
指針に基づく 防災計画表 を作成し事業 所内に掲示し ている , 12.3%.