NTTLS サーバ
サンプルデータの量を 10 倍に増やす
未使用の実対応記録、報道文などを利用
機能訓練の進め方の検討と状況付与作成
各自に本システムを活用して何を行わせるか
訓練後のシステムの評価方法の検討
37
システム開発補足 資料
システムの開発状況
•
場所名の曖昧性解消・地図上へのマッピング
文字列の類似性に基づく場所選択
収集したWebデータ(Yahoo!ロコ、iタウンページ)の場所名を検索して候補を絞る
その中から尤もらしい場所を返す
Google Map APIを利用した地図上へのマッピング
•
固有表現抽出
地名、組織名、施設名などをテキストから抽出する処理
データから傾向を学習し、自動的に固有表現情報を付与可能な機械学習(条件付確率場)を 採用
関根の拡張固有表現階層 (ENE) [Sekine+ 02]のクラスのうち、防災情報に関連するクラスを 利用
ENEでカバーされない範囲は辞書ベースの認識器で対応
•
テンプレート選択・テンプレート要素埋め
機械学習を採用。サンプルデータさえ用意すれば、テンプレートの変更に柔軟に対応するこ とが可能
•
防災情報
DB化システムの性能評価をおこなう環境を構築
正解率の計算プログラム、正解と出力の比較・分析用プログラムの開発
•
災害データからのパターンマイニング
Webデータから災害関連の記事を抽出
災害に関する表現(n-gram)を抽出+クラスタリング(cosine)で類似表現をマージ 39
場所認識
• 概要
Yahoo! ロコから収集した住所情報から、文中に出現す
る場所表現が指している場所を取得する
Google Map API を用いて地図上へマッピング
• 対象
文中に出現する場所名(施設名 , 組織名 , etc. )
• アプローチ
SimString を利用して、場所名から場所候補を高速に
検索(場所名の cosine-similarity )
候補の中で尤もらしい場所を選択 (re-ranking)
文字の unigram, bigram ベースの cosine-similarity が最 も高いエントリを選択
40
固有表現認識
• 機械学習を用いた認識器で認識できている表現
施設名:〜中学校(例 : 津谷中学校)、〜センター(例 : 春圃 会小泉デイサービスセンター)、〜屋(例 : 大沢牛乳屋)、〜
会館(例 : 風越会館)、〜病院( e.g. 本吉病院)、〜寺、〜薬 局、〜スタンド(例 : 千葉スタンド)
地域名:馬籠、西川内、林の沢
• 辞書で対応しているもの
物資名:おにぎり、オムツ、懐中電灯、トイレットペーパー等
略称:本公 = 本吉公民館、支所 = 本吉支所、 R346 =国道 346 号
施設名(特に特徴的な部分文字列を含まないもの)
e.g. はまなすの丘、中華たかはし、オイカワデニム
• 未対応
大谷町裏、本吉病院付近、山本一郎宅
41
テンプレート埋め性能
42
# Precision Recall F1
T9_
本部
_応援要請(自衛隊編)
8 55.56 (5/9) 9.26 (5/54) 15.87 T8_本部
_交通規制対応
24 62.12 (41/66) 35.96 (41/114) 45.56 T65_福祉救護部
_遺体の安置・埋火葬
31 75.51 (37/49) 38.54 (37/96) 51.03 T50_とりまとめ様式・避難者(統括)
100 80.08 (193/241) 60.12 (193/321) 68.68 T38_業テ・仮設トイレ(避難所)
10 59.38 (19/32) 33.93 (19/56) 43.18 T37_業テ・物資(避難所)
32 69.62 (55/37) 45.08 (55/122) 54.73 T36_業テ・避難所施設復旧(避難所)
9 49.02 (25/51) 40.98 (25/61) 44.64 T35_業テ・避難所開設・閉鎖(避難
所)
7 60.98 (25/41) 36.76 (25/68) 45.87T28_
本部
_物資調達
35 55.56 (50/90) 38.76 (50/129) 45.66T16_
本部
_消火活動
12 73.17 (30/41) 55.56 (30/54) 63.16T13_
本部
_即報(ライフライン被害)
30 66.67 (48/72) 33.80 (48/142) 44.86 T12_本部
_即報(建物その他被害)
44 82.22 (74/90) 39.57 (74/187) 53.43 T11_本部
_即報(人的被害)
15 90.00 (27/30) 43.55 (27/62) 58.70全体
70.59 (629/891) 42.91 (629/1466) 53.37情報抽出問題全体
68.67 (285/415) 34.59 (285/824) 46.00多クラス分類問題全体
72.27 (344/476) 53.58 (344/642) 61.54認識誤り
• 複数テンプレートを生成する必要がある事例
現在のシステムでは未対応
• 省略表記の認識
テキスト : 本公、正解 : 本吉公民館
• 数量表現の認識ミス(行方不明者、全壊・半壊等)
主に学習データ不足
• ライフライン使用可否(電気・ガス・水道)
使用可否を意味する様々な表現への対応ができていない
電気復旧してから再開します ⇒ 電気使用不可
ライフライン全て使えない ⇒ 電気・ガス・水道 全て使用不可
• 同一クラスの情報が入る要素間の区別ができていない
要請物資名 vs. 提供物資名、物資要請先 vs. 物資提供先
• 複数文節、複数文の抽出が必要な場合(災害の概況等)
43
ドキュメント内
RISTEX 乾 PRJ 中間報告
(ページ 37-44)