インターネット情報監視システムの試作
インターネット情報監視システムの試作
インターネット情報監視システムの試作
インターネット情報監視システムの試作
永井
永井
永井
永井
明人
明人
明人
明人
増塩
増塩
増塩
増塩
智宏
智宏
智宏
智宏
高山
高山
高山
高山
泰博
泰博
泰博
泰博
鈴木
鈴木
鈴木
鈴木
克志
克志
克志
克志
三菱電機株式会社 情報技術総合研究所
三菱電機株式会社 情報技術総合研究所
三菱電機株式会社 情報技術総合研究所
三菱電機株式会社 情報技術総合研究所
1.
1.
1.
1.
はじめに
はじめに
はじめに
はじめに
インターネットでは一般からの情報発信が盛んに なり、企業や製品に関する消費者の生の声(風評)が広 く公開されるようになった。そこで、これらの大量の 風評からクレームを抽出して、迅速なクレーム対応を 実現する要求が企業において急速に高まっている。こ うした要求を背景として、Web 上に広がる企業や製品 のクレーム情報を抽出して監視するインターネット 情報監視システムを試作した。本稿では、この試作シ ステムの概要を述べる。2.
2.
2.
2.
インターネット情報監視の課題
インターネット情報監視の課題
インターネット情報監視の課題
インターネット情報監視の課題
大量の Web 文書を対象とした情報監視の業務では、 以下が課題となる。 (1) 一般の全文検索エンジンでは、検索結果として取 得できる URL 数に上限があり、大量に収集でき ない。また、索引付けに時間がかかるため、最新 情報の検索が困難である。 (2) 大量文書から、クレーム文書を人手で判断して抽 出するのが困難である。また、既存の全文検索エ ンジンや風評配信サービスでは、クレーム文書を 検索するためのキーワードの設定が困難である。 (3) 急速に広がりつつあるクレームを迅速に把握す ることが困難である。 そこで、本システムでは、上記課題に対して以下 の解決手段を実現した。 (1) 検索結果として取得できる URL 数の上限を超え て収集するために、時分割収集を行なう。さらに、 最新情報である掲示板などの特定 URL 監視を行 なう。 (2) 単語共起に基づくクレーム抽出技術[1][2][3]によ り精密なパタン照合を行なって、クレーム文書を 自動抽出する。 (3) クレーム文書のマクロな時系列分析を行なうト レンド分析により、危機の予兆を迅速に検知し、 クレーム対応を支援する。“Prototyping an internet watching system”
NAGAI Akito, MASUSHIO Tomohiro, TAKAYAMA Yasuhiro, SUZUKI Katsushi
Information Technology R&D Center Mitsubishi Electric Corporation
3.
3.
3.
3.
システム構成
システム構成
システム構成
システム構成
本システムは図 1に示すように、Web 文書収集部、 情報抽出(クレーム抽出)部、トレンド分析部の三つの 処理から構成される。 処理の流れとしては、オペレータが調査対象に関 する初期設定として、例えば自社の企業名や、調査対 象を表わす簡単なキーワード(製品のカテゴリ名)な どをプロファイルデータとして設定する。システムは、 プロファイルデータに基づき、定期的にインターネッ トから文書を収集し、収集した文書に対してクレーム 抽出を行なう。さらに、クレームを判定された文書集 合に対し、トレンド分析を行ない、クレーム出現傾向 を視覚化表示する。 言語構造解析 言語構造解析言語構造解析 言語構造解析 による精密な による精密なによる精密な による精密な パタン照合 パタン照合 パタン照合 パタン照合 危機の予兆(クレー 危機の予兆(クレー危機の予兆(クレー 危機の予兆(クレー ム急増)を検出して ム急増)を検出して ム急増)を検出して ム急増)を検出して 迅速に通知 迅速に通知迅速に通知 迅速に通知 広範囲で最新 広範囲で最新広範囲で最新 広範囲で最新 の の の のWeb文書を文書を文書を文書を くまなく収集 くまなく収集 くまなく収集 くまなく収集 インター インターインター インター ネット ネット ネット ネット 掲示板 掲示板 掲示板 掲示板 クローラ クローラクローラ クローラ 全文検索 全文検索全文検索 全文検索*((((TOCC/TOCC/TOCC/TOCC/InktomiInktomiInktomi))))Inktomi Web Web Web Web文書収集文書収集文書収集文書収集 情報抽出情報抽出情報抽出情報抽出 クレーム クレーム クレーム クレーム 抽出 抽出抽出 抽出* クレーム クレーム クレーム クレーム 抽出規則 抽出規則抽出規則 抽出規則 トレンド分析 トレンド分析トレンド分析 トレンド分析 トレンド トレンドトレンド トレンド 分析 分析 分析 分析 単語共起パタン 単語共起パタン 単語共起パタン 単語共起パタン 重み重み重み重み 納得(名サ) 納得(名サ) 納得(名サ) 納得(名サ) / / / でき(活用) / でき(活用)でき(活用)でき(活用) / / / / ない(助動詞)ない(助動詞)ない(助動詞)ない(助動詞) 1.0 1.0 1.0 1.0 対応(名サ) 対応(名サ) 対応(名サ) 対応(名サ) / / / 腹(名詞) / 腹(名詞)腹(名詞)腹(名詞) / / / / 立(タ五)立(タ五)立(タ五)立(タ五) 良識(名詞) 良識(名詞) 良識(名詞) 良識(名詞) / / / 疑(ワ五) / 疑(ワ五)疑(ワ五)疑(ワ五) 10000ルール規模 10000ルール規模 10000ルール規模 10000ルール規模 ・ ・・
・800080008000万日本語8000万日本語万日本語Web万日本語WebWebWebページページページページ 文単位に文単位に文単位に文単位に 規則適用規則適用規則適用規則適用
マクロな マクロな マクロな マクロな 時系列分析 時系列分析 時系列分析 時系列分析 定期的な更新監視 定期的な更新監視定期的な更新監視 定期的な更新監視 ・時分割収集 ・時分割収集 ・時分割収集 ・時分割収集 抽出 抽出 抽出 抽出 結果 結果 結果 結果 プロファイル プロファイル プロファイル プロファイル ・企業名 ・企業名 ・企業名 ・企業名 ・検索キーワード ・検索キーワード ・検索キーワード ・検索キーワード うちの会社のク うちの会社のク うちの会社のク うちの会社のク レームが流れて レームが流れて レームが流れて レームが流れて ないだろうか? ないだろうか? ないだろうか? ないだろうか? 図 1:インターネット情報監視システムの構成
4.
4.
4.
4.
Web
Web
Web 文書収集部
Web
文書収集部
文書収集部
文書収集部
文書の収集処理は、図 2に示すように全文検索部、 ダウンロード部、および掲示板クローラ部からなる。 全文検索では、プロファイルデータ中の企業名と 検索キーワードを入力として、調査対象に関する Web文書の URL リストを取得する。この際、時分割 収集のために、全文検索エンジン TOCC[4]の機能を 用いて検索し、取得した URL リストをダウンロード 部へ渡す。
3−19
2E-5
情報処理学会第65回全国大会
ダウンロード部では、URL リストの各 URL からテ キスト情報を取得し、また、掲示板クローラ部では、 特定 URL にある掲示板に対してクローリングを行な い、各発言ごとにテキスト情報を取得する。 上記のテキスト情報はディスク上に格納し、また、 収集日時、Web 文書の更新日時、掲示板発言の発言 日時といった書誌情報は、URL・文書管理 DB へ記録 して管理する。 全文検索 全文検索全文検索 全文検索 ダウンロード ダウンロードダウンロード ダウンロード インター インター インター インター ネット ネットネット ネット ・企業名 ・企業名 ・企業名 ・企業名 ・検索キーワード ・検索キーワード ・検索キーワード ・検索キーワード 特定 特定 特定 特定URL URL・管理管理管理管理DB・・・文書文書文書文書 クレーム クレーム クレーム クレーム 抽出 抽出 抽出 抽出 掲示板クローラ 掲示板クローラ 掲示板クローラ 掲示板クローラ 自動更新管理 自動更新管理自動更新管理 自動更新管理 図 2:Web 文書収集部