• 検索結果がありません。

インターネット情報監視システムの試作

N/A
N/A
Protected

Academic year: 2021

シェア "インターネット情報監視システムの試作"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

インターネット情報監視システムの試作

インターネット情報監視システムの試作

インターネット情報監視システムの試作

インターネット情報監視システムの試作

永井

永井

永井

永井

明人

明人

明人

明人

増塩

増塩

増塩

増塩

智宏

智宏

智宏

智宏

高山

高山

高山

高山

泰博

泰博

泰博

泰博

鈴木

鈴木

鈴木

鈴木

克志

克志

克志

克志

三菱電機株式会社 情報技術総合研究所

三菱電機株式会社 情報技術総合研究所

三菱電機株式会社 情報技術総合研究所

三菱電機株式会社 情報技術総合研究所

1.

1.

1.

1.

はじめに

はじめに

はじめに

はじめに

インターネットでは一般からの情報発信が盛んに なり、企業や製品に関する消費者の生の声(風評)が広 く公開されるようになった。そこで、これらの大量の 風評からクレームを抽出して、迅速なクレーム対応を 実現する要求が企業において急速に高まっている。こ うした要求を背景として、Web 上に広がる企業や製品 のクレーム情報を抽出して監視するインターネット 情報監視システムを試作した。本稿では、この試作シ ステムの概要を述べる。

2.

2.

2.

2.

インターネット情報監視の課題

インターネット情報監視の課題

インターネット情報監視の課題

インターネット情報監視の課題

大量の Web 文書を対象とした情報監視の業務では、 以下が課題となる。 (1) 一般の全文検索エンジンでは、検索結果として取 得できる URL 数に上限があり、大量に収集でき ない。また、索引付けに時間がかかるため、最新 情報の検索が困難である。 (2) 大量文書から、クレーム文書を人手で判断して抽 出するのが困難である。また、既存の全文検索エ ンジンや風評配信サービスでは、クレーム文書を 検索するためのキーワードの設定が困難である。 (3) 急速に広がりつつあるクレームを迅速に把握す ることが困難である。 そこで、本システムでは、上記課題に対して以下 の解決手段を実現した。 (1) 検索結果として取得できる URL 数の上限を超え て収集するために、時分割収集を行なう。さらに、 最新情報である掲示板などの特定 URL 監視を行 なう。 (2) 単語共起に基づくクレーム抽出技術[1][2][3]によ り精密なパタン照合を行なって、クレーム文書を 自動抽出する。 (3) クレーム文書のマクロな時系列分析を行なうト レンド分析により、危機の予兆を迅速に検知し、 クレーム対応を支援する。

“Prototyping an internet watching system”

NAGAI Akito, MASUSHIO Tomohiro, TAKAYAMA Yasuhiro, SUZUKI Katsushi

Information Technology R&D Center Mitsubishi Electric Corporation

3.

3.

3.

3.

システム構成

システム構成

システム構成

システム構成

本システムは図 1に示すように、Web 文書収集部、 情報抽出(クレーム抽出)部、トレンド分析部の三つの 処理から構成される。 処理の流れとしては、オペレータが調査対象に関 する初期設定として、例えば自社の企業名や、調査対 象を表わす簡単なキーワード(製品のカテゴリ名)な どをプロファイルデータとして設定する。システムは、 プロファイルデータに基づき、定期的にインターネッ トから文書を収集し、収集した文書に対してクレーム 抽出を行なう。さらに、クレームを判定された文書集 合に対し、トレンド分析を行ない、クレーム出現傾向 を視覚化表示する。 言語構造解析 言語構造解析言語構造解析 言語構造解析 による精密な による精密なによる精密な による精密な パタン照合 パタン照合 パタン照合 パタン照合 危機の予兆(クレー 危機の予兆(クレー危機の予兆(クレー 危機の予兆(クレー ム急増)を検出して ム急増)を検出して ム急増)を検出して ム急増)を検出して 迅速に通知 迅速に通知迅速に通知 迅速に通知 広範囲で最新 広範囲で最新広範囲で最新 広範囲で最新 の の の のWeb文書を文書を文書を文書を くまなく収集 くまなく収集 くまなく収集 くまなく収集 インター インターインター インター ネット ネット ネット ネット 掲示板 掲示板 掲示板 掲示板 クローラ クローラクローラ クローラ 全文検索 全文検索全文検索 全文検索*

((((TOCC/TOCC/TOCC/TOCC/InktomiInktomiInktomi))))Inktomi Web Web Web Web文書収集文書収集文書収集文書収集 情報抽出情報抽出情報抽出情報抽出 クレーム クレーム クレーム クレーム 抽出 抽出抽出 抽出* クレーム クレーム クレーム クレーム 抽出規則 抽出規則抽出規則 抽出規則 トレンド分析 トレンド分析トレンド分析 トレンド分析 トレンド トレンドトレンド トレンド 分析 分析 分析 分析 単語共起パタン 単語共起パタン 単語共起パタン 単語共起パタン 重み重み重み重み 納得(名サ) 納得(名サ) 納得(名サ) 納得(名サ) / / / でき(活用) / でき(活用)でき(活用)でき(活用) / / / / ない(助動詞)ない(助動詞)ない(助動詞)ない(助動詞) 1.0 1.0 1.0 1.0 対応(名サ) 対応(名サ) 対応(名サ) 対応(名サ) / / / 腹(名詞) / 腹(名詞)腹(名詞)腹(名詞) / / / / 立(タ五)立(タ五)立(タ五)立(タ五) 良識(名詞) 良識(名詞) 良識(名詞) 良識(名詞) / / / 疑(ワ五) / 疑(ワ五)疑(ワ五)疑(ワ五) 10000ルール規模 10000ルール規模 10000ルール規模 10000ルール規模 ・ ・・

・800080008000万日本語8000万日本語万日本語Web万日本語WebWebWebページページページページ 文単位に文単位に文単位に文単位に 規則適用規則適用規則適用規則適用

マクロな マクロな マクロな マクロな 時系列分析 時系列分析 時系列分析 時系列分析 定期的な更新監視 定期的な更新監視定期的な更新監視 定期的な更新監視 ・時分割収集 ・時分割収集 ・時分割収集 ・時分割収集 抽出 抽出 抽出 抽出 結果 結果 結果 結果 プロファイル プロファイル プロファイル プロファイル ・企業名 ・企業名 ・企業名 ・企業名 ・検索キーワード ・検索キーワード ・検索キーワード ・検索キーワード うちの会社のク うちの会社のク うちの会社のク うちの会社のク レームが流れて レームが流れて レームが流れて レームが流れて ないだろうか? ないだろうか? ないだろうか? ないだろうか? 図 1:インターネット情報監視システムの構成

4.

4.

4.

4.

Web

Web

Web 文書収集部

Web

文書収集部

文書収集部

文書収集部

文書の収集処理は、図 2に示すように全文検索部、 ダウンロード部、および掲示板クローラ部からなる。 全文検索では、プロファイルデータ中の企業名と 検索キーワードを入力として、調査対象に関する Web文書の URL リストを取得する。この際、時分割 収集のために、全文検索エンジン TOCC[4]の機能を 用いて検索し、取得した URL リストをダウンロード 部へ渡す。

3−19

2E-5

情報処理学会第65回全国大会

(2)

ダウンロード部では、URL リストの各 URL からテ キスト情報を取得し、また、掲示板クローラ部では、 特定 URL にある掲示板に対してクローリングを行な い、各発言ごとにテキスト情報を取得する。 上記のテキスト情報はディスク上に格納し、また、 収集日時、Web 文書の更新日時、掲示板発言の発言 日時といった書誌情報は、URL・文書管理 DB へ記録 して管理する。 全文検索 全文検索全文検索 全文検索 ダウンロード ダウンロードダウンロード ダウンロード インター インター インター インター ネット ネットネット ネット ・企業名 ・企業名 ・企業名 ・企業名 ・検索キーワード ・検索キーワード ・検索キーワード ・検索キーワード 特定 特定 特定 特定URL URL・管理管理管理管理DB・・・文書文書文書文書 クレーム クレーム クレーム クレーム 抽出 抽出 抽出 抽出 掲示板クローラ 掲示板クローラ 掲示板クローラ 掲示板クローラ 自動更新管理 自動更新管理自動更新管理 自動更新管理 図 2:Web 文書収集部

5.

5.

5.

5.

クレーム抽出部

クレーム抽出部

クレーム抽出部

クレーム抽出部

収集した Web 文書に対して、文献[1][2][3]の方式 に基づくクレーム抽出を行なう。本方式は、意図(ク レーム)を表現する一般的な特徴表現を、複数の単語 の共起パタンとして規則化し、意図抽出を行なうアプ ローチであり、図 1に示すような単語共起パタンを 1 万ルール規模で適用している。 クレーム抽出処理では、入力された文書を文単位 の解析単位に分割し、形態素解析の後、クレーム抽出 規則を参照して、解析単位中の形態素列と単語共起パ タンとの照合を行なう。単語共起パタンが解析単位の 形態素列に存在すれば、文書に対するクレーム度スコ アにクレーム抽出規則の重みを加算・正規化し、ク レーム度スコアが閾値を越えた場合に、文書をクレー ム文書と判定して、抽出表現と共に出力する(図 3)。 どう も納 得で きな い ので、I社に電話をし まし た 。 で も 担 当 の 課長が不在。代わり のH課長が出たので すが、その対応に腹 が立ちました。 「どうも納得できない納得できない納得できないので、納得できない I社に電話をしました。」 「代わりのH課長が出たの ですが、その対応対応対応対応に 腹腹腹が腹 立 立 立 立ちました。」 クレーム抽出 入力文書 入力文書名: XXX.txt クレーム度スコア: 2.0 抽出表現: 図 3:クレーム抽出結果の例 さらに、抽出表現の近傍に存在する企業名を抽出 し、URL・文書管理 DB へクレーム抽出結果とともに 格納する。

6.

6.

6.

6.

トレンド分析部

トレンド分析部

トレンド分析部

トレンド分析部

トレンド分析部は、抽出したクレームの出現傾向 を時系列でマクロに把握するために、URL・文書管 理 DB に格納されたクレームのスコアの推移をグラ フとして表示する。この機能により、Web 上にクレー ムが急増し始めたことを検知し、迅速なクレーム対応 を支援する。図 4は、製品 X に関するクレーム急増 の実際の分析例である。製品 X が発売されて不具合 が発覚し、クレームが急増していることが分かる。ト レンド分析の機能により、本事件の新聞報道日以前に 危機の予兆を把握することができるようになる。 クレームスコアの合計値 0 10 20 30 40 50 60 70 200 2/ 1 / 1 200 2/ 1 /8 20 02 / 1/ 15 20 02 / 1/2 2 2002 / 1/29 2002 /2 /5 20 02 /2/ 1 2 20 02 /2/ 1 9 20 02/ 2/ 26 20 02/ 3/ 5 200 2/ 3/ 12 200 2/ 3/ 19 200 2/ 3/2 6 20 02/4 /2 20 02/4 /9 2002 /4 / 1 6 2002 /4 /23 20 02 /4/ 30 20 02 /5/ 7 20 02/ 5/ 1 4 20 02/ 5/ 2 1 20 02/ 5/ 28 200 2/ 6/4 200 2/ 6/ 11 20 02 / 6/ 18 20 02/6 /2 5 2002 /7 /2 2002 /7 /9 20 02 /7/ 1 6 20 02 /7/ 23 20 02/ 7/ 30 クレーム発言(「千と千尋」含む) スコア合計 DVD発売日 新聞報道日 製品発売日 ← 期間 → クレームスコアの合計値 1週間後 図 4:クレーム急増検知の例

7.

7.

7.

7.

おわりに

おわりに

おわりに

おわりに

クレーム抽出技術を適用した応用システムとして、 インターネット上の風評情報を監視するシステムを 試作した。今後は、試作システムの実験評価を実施し、 応用システムとしての業務効果を、定量データとして 明確化していく予定である。また、業務支援のために 有効な機能も検討していく。 [[[[参考文献参考文献参考文献]]]]参考文献 [1] 永井, 他 “CRM における顧客メール分析手法の 検討,” 情報処理学会 第 62 回(平成 12 年後期)全 国大会 3-81, 2000. [2] 永井, 他 “文内の単語共起照合に基づくクレー ム抽出方式の性能評価,” 情報処理学会 第 64 回 (平成 13 年後期)全国大会 pp. 3-17, 2002.3. [3] 永井, 他 “単語共起照合に基づくクレーム抽出 方式の改良,” FIT2002 情報科学技術フォーラム E-16, pp. 113-114, 2002.9. [4] http://www.tocc.co.jp/search/

3−20

参照

関連したドキュメント

[r]

In this paper, the method is applied into quantized feedback control systems and the performance of quantizers with subtractive dither is analyzed.. One of the analyzed quantizer

(出典)5G AMERICAS WHITE PAPER「TRANSITION TOWARD OPEN & INTEROPERABLE NETWORKS NOV 2020」、各種報道情報 14..

デジタル版カタログ web 版 STIHL カタログ 希望小売価格一覧 最新情報は、上記

これまで十数年来の档案研究を通じて、筆者は、文学者胡適、郭沫若等の未収 録(全集、文集、選集、年譜に未収録)書簡 1500

出典 : Indian Ports Association & DG Shipping, Report on development of coastal shipping 2003.. International Container Transshipment Terminal (ICTT), Vallardpadam

東京都船舶調査(H19 推計):東京都環境局委託 平成 19 年度船舶排ガス対策効果の解析調査報告書 いであ(株) (平成 20 年3月).. OPRF 調査(H12

という熟語が取り上げられています。 26 ページ