The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
2F4-OS-01a-7
キ
対応
コンサ
表現 選択
い
Towards Selecting Appropriate Concise Expressions for Given Text
鈴
木 雅
実
*1鍋島 弘治朗
*2石先 広海
*1服
部 元
*1滝嶋 康弘
*1Masami SUZUKI Kojiro NABESHIMA Hiromi ISHIZAKI Gen HATTORI Yasuhiro TAKISHIMA
*1
KDDI
研究
*2
関西大学
KDDI R&D Laboratories, Inc. Kansai University
This manuscript describes our current approach to text condensation: from input news article into certain concise expressions like as popular proverbs. Recent trials showed that there will need some drastic improvements on estimating really important associative words, shared between input text and concise expression candidates.
1.
じめに
筆者 コンサ コ ュ ョン 付け 共感 タ 提案,そ 特質 近未来的 支援 い 研究開
行 い [鈴木 2012] 回 2013年度 表 年間 代
表的 ュ 記事群 漢 一文 凝縮 試行[鈴木
2013b] 続い ,新聞記事等 キ 入力 ,そ 対
応 コンサ 表現 こ わ 等 選択 手法考案 実験経過 び 後 課題等 い 報告
2.
背景 目的
2.1
これ
経緯
2012年度 本大会 い 初 提唱 コンサ コ ュ ョン ,対象 簡潔 言い表 う 言語表現
持 メ 喚起力 媒 共感 得 こ あ わ
, キ 内容 人間 際 ,そ 示唆内容 直観 コンサ 表現 例 渡 船 提示 ,そ 通
理解 進 う 考え
人間 場合 キ 理解 直観的 連想 う コンサ 表現 ,元 キ 自動推定 こ チャ ン ン あ ,コンサ 表現 想定 各種 言やこ わ 一定数用意 ,そ 中 該当 順位付 選択 う 仕組 考案 試行 こ 当面 課題
2.2
目標
3.
試
たアプローチ 実験経過
筆者 考察[鈴木 2013a] ,任意 キ ,そ 中 含 要語 連想関連性 強い語 コンサ タ
特徴 け ここ コンサ タ , キ 意味特徴 表 語 ,階層的 意味体系 例え 国立 国語研究 類語彙表 い ,抽象的 位 過 ,
具体的 位 過 い中間層 語 予 録
語彙 あ タ 種別 ,感情 50個 び
250 個 初期設定 キ 中 要語 中 各語
一定規模 参照用コ パ 内 共起 頻度 相対共起頻 度 積算 こ ,コンサ タ 出可能 あ
そこ , 様 タ 付 キ 士 共通 特徴
持 仮定 う 手順 適用 試 ,
入力 キ ュ 記事等 対 ,該当 コンサ 表 現 側 ,こ わ 表現 う 短い語 組合 比喩的 用い 場合 多い 例: 猿 木 落 ,直接 共起 適 タ 語 出 い可能性 高い そこ コ
パ 中 こ わ 表現 引用 う 形 現 キ 等 参考 ,現段階 人手 コンサ タ 付 い
3.1
処理
流れ
全体 処理過程 概略 図1 通 あ .以 そ 流
追 順 明
1)入力 キ 形態素解析
要語 候補 キ 自立語列 抽出 そこ ,初期目標 ,人間 幾 コンサ 表現 連
想可能 入力 キ ュ 記事: 記 例 参照 対 ,100種程度 こ わ 表現 中 適 思わ う 候 補 複数 順位 け 場合 , 位10位以内 該当
入 割合 6割程度 こ い い 直近 試 行 そ 半数程度 留 ,改善 余地 大 あ ,
そ 現状 チ 課題 い 以 述
2) 要語 選定
tf idf 基準 要語 絞 込
こ 際 , キ 構造情報 パ 利用 ,
ュ 等 段落 最初 文 付け こ 考慮
3)連想語 コンサ タ 出
要語 タ 語 外部コ パ 10万件 い 共起 度合い 相対共起頻度 相互情報 基準 求 , そ 各タ 語 い 積算 語数 正規化 値 順位 付け こ ,最大5個程度 コンサ タ
入力例 ン ェ ョ ,乳 亡
米女優 ン ェ ョ (37) 母方 叔母 ビ ン 2013年5暻26日、米カ ォ 州 病
院 乳 61歳 亡 . ョ 14日
乳 高 遺伝子異変 見 、両乳 除
再建手術 け こ 公表. ン 04年 乳 診断 後 , ョ 様 遺伝子異変 見 い いう
4) コンサ 表現 対 コンサ タ 付
現在 人手 付 述参照 事前 DB 録可能
5)入力 キ びコンサ 表現間 タ 突合
各3~5個 コンサ タ 組合 類似度 算出 ,入 力 キ 対 類似度順 ソ ンキン 出力 類似度計算 い 様々 案 想定 ,後述
う コ パ 用い タ 語 士 間 距離 算出,対 語間 距離 和 最 値 求 い
対応 コンサ 表現 例 転 先 杖
連絡先:鈴木 雅実 KDDI 研究 , suzu @ dd s. p
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
注 図中 連想語=
コンサ タ
図1 キ 対応 コンサ 表現 選択 概略
3.2
実験結果
ュ 記事 50件 対象 ,入力 キ 要語抽 出 経 ,コ パ 用い コンサ タ 推定 行 一方,こ わ 表現 い 人手 コンサ タ 付
こ ,入力 キ 側 コンサ タ 連想語 類似度 高い順 コンサ 表現 ンキン 出力 ,そ 結 果 検討 2.2節 示 例 い 処理 途中経過
通 あ ,コンサ タ 士 類似度 い
,タ 語 共起 語 布 ,タ 全体 階層的 タ ン 結果 目視 ,概念的 近い 思わ タ 語 局 的 近傍 位置 こ 確認 こ , そ 基 タ 組合 間 類似度 計算
入力 キ : ン ェ ョ ,乳 亡
要語抽出例:女優 叔母 病院 乳 遺伝子
異変 乳 除 手術 診断
コンサ タ 連想語 推定例: C0 検査 予防 病気 コンサ 表現候補 コンサ タ 付 例
転 先 杖 C1 後悔 怪我 予防
渡 船 C2 対策 運 感謝
玉 瑕 C3 価値 失格 評価 ッチン 順位 C0 C1/C2/C3/ 間 類似度計算 C0 < C1 < C2 < C3 C0 最 近い候補 C1
こ 処理 サン ュ 記事50件 い 100種 こ わ 表現 中 ,コンサ タ 連想語 ッ ッチン
選択 各 キ 正解コンサ 表現 え
1~複数個 コンサ 表現 こ わ ,10 位以内 ン
,約27% あ
4.
課題 今後
展望
4.1
問題点
3 章 述 試行 結果 満足
様々 観点 改善 段階 あ こ 明 そ
こ 解決 課題 い 検討 考察 最 要 考え い 問題 ,入力 キ 対 適 質 高い コンサ
タ 連想語 組合 推定 方法 探求 あ 関 要因 う 捉え こ
1 要語 抽出方法
コンサ タ 推定 元 キ 中 要語 ,頻度
情報以外 等 扱 い 一方,大 キ
類 手法 LDA 用い 入力 キ 群 類 場 合,各 タ 帰属 影響 度合 強い 弱い語 在
そ 影響度 考慮 連想語 コンサ タ 推定 行う方 , キ 特徴 反映 考え
2) コンサ タ 録語 捨選択
現在用い い コンサ タ 一覧中 語 ,3章 述
考え方 初期設定 あ こ ,入力 キ
コンサ タ 出結果 見 ,ノ 的
除け , う 布 在 い
A群: キ 内容全体 意味理解 直結 う 連想語
3章 例 予防
B群: キ 一部 類推関 持 過 い連想語 タ 語そ 意味的 曖昧 例 明 多義的
例 自然 含
そこ ,極力 A群 占 割合 高 う 捨選択 経
コンサ タ ッ 用い , キ 中 要語
持 固暼 類寄 度 考慮 コンサ タ 推定精度
向 図 あ
4.2
今後
展望
現在 , キ 意味的 特徴 キ 中 語 布 基
連想語 組合 還元 い ,そ チ
限界以前 問題点 明 こ 対 当然
, キ 構造的 側面, わ 展開や
ッ 等 認知言語学的 観点 析 可 あ コン サ 表現 い ,例え こ わ そ 本意 理解
要件 注意深 記述 ,入力 キ 側 類
似性 突 合わ 試 必要 あ 実践中 ,
キ 中 全 言及 い前提知識 動員 能動的 理解 行う人間 思考活動 接近 視 入 , キ
コンサ 表現 凝縮 いう 探求 奥深 あ 再確認 い
参考文献
[鈴木 2012] 鈴木 雅実,服部 元, 智弘: コンサ コ ュ
ョン そ 支援 向け ,人工知能学会第26回全 国大会 ,1N-2-OS-1b-4,2012
[鈴木 2013a] 鈴木 雅実,石先 広海,服部 元, 智弘,鍋島
弘治朗: キ コンサ タ 付 そ 主観評価, 第42回こ 工学研究会,pp.9-15, 2013
[鈴木2013b] 鈴木 雅実,石先 広海,服部 元, 智弘,滝
嶋 康弘: キ 一語 凝縮 試 ,人工知能学会第 27回全国大会 ,2I1-2,2013