• 検索結果がありません。

倍に増やす

ドキュメント内 RISTEX 乾 PRJ 中間報告 (ページ 37-44)

NTTLS サーバ

サンプルデータの量を 10 倍に増やす

 未使用の実対応記録、報道文などを利用

 機能訓練の進め方の検討と状況付与作成

 各自に本システムを活用して何を行わせるか

 訓練後のシステムの評価方法の検討

37

システム開発補足 資料

システムの開発状況

場所名の曖昧性解消・地図上へのマッピング

文字列の類似性に基づく場所選択

収集したWebデータ(Yahoo!ロコ、iタウンページ)の場所名を検索して候補を絞る

その中から尤もらしい場所を返す

Google Map APIを利用した地図上へのマッピング

固有表現抽出

地名、組織名、施設名などをテキストから抽出する処理

データから傾向を学習し、自動的に固有表現情報を付与可能な機械学習(条件付確率場)を 採用

関根の拡張固有表現階層 (ENE) [Sekine+ 02]のクラスのうち、防災情報に関連するクラスを 利用

ENEでカバーされない範囲は辞書ベースの認識器で対応

テンプレート選択・テンプレート要素埋め

機械学習を採用。サンプルデータさえ用意すれば、テンプレートの変更に柔軟に対応するこ とが可能

防災情報

DB

化システムの性能評価をおこなう環境を構築

正解率の計算プログラム、正解と出力の比較・分析用プログラムの開発

災害データからのパターンマイニング

Webデータから災害関連の記事を抽出

災害に関する表現(n-gram)を抽出+クラスタリング(cosine)で類似表現をマージ 39

場所認識

• 概要

 Yahoo! ロコから収集した住所情報から、文中に出現す

る場所表現が指している場所を取得する

 Google Map API を用いて地図上へマッピング

• 対象

 文中に出現する場所名(施設名 , 組織名 , etc. )

• アプローチ

 SimString を利用して、場所名から場所候補を高速に

検索(場所名の cosine-similarity )

 候補の中で尤もらしい場所を選択 (re-ranking)

 文字の unigram, bigram ベースの cosine-similarity が最 も高いエントリを選択

40

固有表現認識

• 機械学習を用いた認識器で認識できている表現

 施設名:〜中学校(例 : 津谷中学校)、〜センター(例 : 春圃 会小泉デイサービスセンター)、〜屋(例 : 大沢牛乳屋)、〜

会館(例 : 風越会館)、〜病院( e.g. 本吉病院)、〜寺、〜薬 局、〜スタンド(例 : 千葉スタンド)

 地域名:馬籠、西川内、林の沢

• 辞書で対応しているもの

 物資名:おにぎり、オムツ、懐中電灯、トイレットペーパー等

 略称:本公 = 本吉公民館、支所 = 本吉支所、 R346 =国道 346 号

 施設名(特に特徴的な部分文字列を含まないもの)

 e.g. はまなすの丘、中華たかはし、オイカワデニム

• 未対応

 大谷町裏、本吉病院付近、山本一郎宅

41

テンプレート埋め性能

42

# Precision Recall F1

T9_

本部

_

応援要請(自衛隊編)

8 55.56 (5/9) 9.26 (5/54) 15.87 T8_

本部

_

交通規制対応

24 62.12 (41/66) 35.96 (41/114) 45.56 T65_

福祉救護部

_

遺体の安置・埋火葬

31 75.51 (37/49) 38.54 (37/96) 51.03 T50_

とりまとめ様式・避難者(統括)

100 80.08 (193/241) 60.12 (193/321) 68.68 T38_

業テ・仮設トイレ(避難所)

10 59.38 (19/32) 33.93 (19/56) 43.18 T37_

業テ・物資(避難所)

32 69.62 (55/37) 45.08 (55/122) 54.73 T36_

業テ・避難所施設復旧(避難所)

9 49.02 (25/51) 40.98 (25/61) 44.64 T35_

業テ・避難所開設・閉鎖(避難

所)

7 60.98 (25/41) 36.76 (25/68) 45.87

T28_

本部

_

物資調達

35 55.56 (50/90) 38.76 (50/129) 45.66

T16_

本部

_

消火活動

12 73.17 (30/41) 55.56 (30/54) 63.16

T13_

本部

_

即報(ライフライン被害)

30 66.67 (48/72) 33.80 (48/142) 44.86 T12_

本部

_

即報(建物その他被害)

44 82.22 (74/90) 39.57 (74/187) 53.43 T11_

本部

_

即報(人的被害)

15 90.00 (27/30) 43.55 (27/62) 58.70

全体

70.59 (629/891) 42.91 (629/1466) 53.37

情報抽出問題全体

68.67 (285/415) 34.59 (285/824) 46.00

多クラス分類問題全体

72.27 (344/476) 53.58 (344/642) 61.54

認識誤り

• 複数テンプレートを生成する必要がある事例

 現在のシステムでは未対応

• 省略表記の認識

 テキスト : 本公、正解 : 本吉公民館

• 数量表現の認識ミス(行方不明者、全壊・半壊等)

 主に学習データ不足

• ライフライン使用可否(電気・ガス・水道)

 使用可否を意味する様々な表現への対応ができていない

 電気復旧してから再開します ⇒ 電気使用不可

 ライフライン全て使えない ⇒ 電気・ガス・水道 全て使用不可

• 同一クラスの情報が入る要素間の区別ができていない

 要請物資名 vs. 提供物資名、物資要請先 vs. 物資提供先

• 複数文節、複数文の抽出が必要な場合(災害の概況等)

43

ドキュメント内 RISTEX 乾 PRJ 中間報告 (ページ 37-44)

関連したドキュメント