テキストデータの特徴抽出を用いた情報サービスの
監視に関する研究(3.2 第3回情報シナジー研究会,
3. 研究活動)
著者
一藤 裕, 今野 将, 曽根 秀昭
雑誌名
年報
巻
4
ページ
125-128
発行年
2005-05
URL
http://hdl.handle.net/10097/48517
テキストデータの特徴抽出を用いた情報サービス
の監視に関する研究
-藤裕* 今野将I曽根秀昭I
概要電子掲示板は,だれでも気軽に利用できるコミュニティサイトである.そこでは,面識の無い人と 対人関係を構築することなく,発言という方法で議論や情報交換等のコミュニケーションをとることができ る.その一方で,それらのコミュニケーションを阻害する荒らし行為と呼ばれる問題発言も発生する.これ らの発言に対し,管理者は早期発見・対処をすることが望ましい.しかし,これらの問題発言は,発言の内 容や文脈,前後関係を考慮する必要があるため,発見することが非常に困難である.本論文では,そのよう な荒らし行為に対し,各発言が閲覧者に与える心理的影響を数値化し,その変動から問題発言の発見を支 援する,新たな掲示板監視手法を提案する.1 まえがき
近年.電子掲示板が普及し,だれでも匿名で文字 を利用して,情報や意見の交換が幅広く行えるよう になった.しかし,この匿名性のために問題行為が 発生することがある. 一つは,過失で起こる場合である.掲示板では, 意見の対立が生まれることも珍しくない.意見の対 立では,どちらも感情的な言葉を使って自分の意見 を主張することが多い.意見の対立による活発な意 見交換は,建設的な意見が生まれることもあるため 規制すべきではない[1, 2, 31という研究もあるが, 行き過ぎてしまうと,他の閲覧者にとって不快なも のとなる. もう一つは故意に行う場合である.これは,匿名 を悪用したもので代表的なものとして,釣り(相手 を怒らせるような書き込みを行い,相手の反応を 楽しむ行為),煽り(相手を挑発する行為)やコピー &ペーストを利用した閲覧の邪魔をする行為等があ る.これらは議論の妨げにし'かならず,対処すべき 問題行為である. 以上より,掲示板管理者はこれらの不快な発言や 問題行為(以下"荒らし行為"と呼ぶ)が発生した場 令,即座に対応せねばならない.現在,多くの掲示 板では他の閲覧者による指摘や管理者の監視で対 処しているところが多い.しかし,掲示板管理者が すべての発言を読み判断し発見しなければならない■東北大学情報科学研究札Graduate School of lnfbrmation
Sciences, TOHOKU Univ.
十東北大学情報シナジーセンター, Informa.tion Syncrgy Cen-ter, TOHOKU Univ.
ため,管理負担が非常に大きい.そのため,負担を 減らすために,問題発言によく出現する単語をNG ワードとして登録しておき,それが出現するたびに 人間が内容を確認する方法がある.しかし,否定的 な意見を述べた発言にも反応してしまうなど,誤報 が多い.したがって,問題発言の発見を効率よく支 援する監視支援手法が必要である. そこで本論文では,問題発言に含まれる相手を不 快にする単語だけでなく,相手に好感を与える単語 と発言の連鎖に着目し,新たな指標"荒み度'、を提 案する.その指標の変動から,これらの問題行為の 発見を支援する手法を提案する. 2 荒み度の算出 2.1 対象となる荒らし行為 荒らし行為には,流し読み程度で容易に発見でき るものとそうでないものが存在する.そこで本論文 では,対象とする荒らし行為を発見が困難であると 思われる以下の3つとした. ◎多人数(2人自作自演を含む)による屠り合い ◎閲覧者を不快にさせる書き込みの連続 ◎不快な書き込みを誘発させるような挑発的な書 き込み これらの荒らし行為をテキストデータから特定の 単語の抽出を利用し検出する新たな監視支援手法を 捷案する.
2.2 新評価指標化荒み度M 掲示板の新たな評価指億として"荒み度(Ruina【 tion FigurelRF〕)"を提案する・これは閲覧者に心 理的変化を与える単語と発言の連鎖数から算出し, 掲示板がどれだけ荒れているかを示す指標である. 次節で,その算出方法を詳しく説明する. 2.3 荒み鹿の算出方法 荒み塵RFを算出するために,今回7個の式と2個 の集合を定義する. Positive Word匝L'日ま,閲覧者に 単体で好感を与える単語(ありがとう,ガンバレ等) の集合を表し, pwの各要素に与えた重みをPositive
word Weight匝mD](ZnL'W > O)とする・その逆に,
閲覧者に単体で不快を与える単語(死ね,黙れ等)の 集合はNegative Word [nlJ']で表し, nwの各要素に
与えた重みをNegative Word Weight 〔nlL)W] (n・7L)W <
o)とする.各発言中に出現したpw・nwに一致した
数をConcord Number回で表し,それぞれm,押,
mnwで表す.単語から算出できる各発言の得点を
Opinion Score [Os]で表す・ Osはpw ・ nu, ・ -を 使って,以下のように表す. Os -PWIL)* mpw +nww* mnw (1) ここで筆者らは,単語の出現回数だけで掲示板の 流れや傾向を表現し荒らし行為を発見することを試 みた.しかし,これだけでは特定の単語が出現した 発言すべてが反応するため,効率よく荒らし行為を 発見することは難しいことが判明した.そこで,早 語以外に閲覧者に影響を与えるものとして,松村ら の発言の連鎖を用いて他者に最も影響を与えた起点 となる発言を探す研究【4日5】に着目した・これより, 発言の連銭は掲示板の流れや傾向を表現するに足る と考えた.したがって,発言の連銭数(Resと定義 する)を用いて, Weber-FKhner's law(ウェーバー・ フェヒナ-の法則)‡から,発言の連鎖が閲覧者に与 える影響をComment Chain Score 【ccs]とし,次の ように定義する. Os ∼ 0のとき ccs - log,.Re.s Os<Oのとき ccs--logYlRes (2) ここで, ccsの底nは任意であり, nを変化させるこ とにより荒み度の変動を強調することが可能となる. ‡人間にある刺激を与えた場合.その絶対値に比例した感覚 を生ずるのではなくて,与えた刺激の対数に比例する感覚を生 ずる 式1 ・ 2から算出する各発言の得点をStatement score 【ss‖二定義すると, t番目の発言のSsは以下 となる. Sst - Ost + ccst (3) S.Sが正であればその発言は好感を与えているとみ なす.逆に, Ssが負であれば,その発言は不快感 を与えているとみなす. 荒み度"Ruination FLmre【RF]'.は掲示板全体の 指標であるので,各発言の得点釦を順に加算した ものとなる.よって,最後に書き込まれた発言がt 個目時,荒み度1Utは,次のようになる. i 1Ut - ∑ssi (4) 1 前節で述べた荒らし行為は可能な限り早期発見・ 対処が望ましい.そこで本提案手法では,以上のよ うな7個の式と2個の集合を用いて各発言の得点を リアルタイムで算出し,それがどのように蓄積・変 動しているかを逐次計算し評価することにより荒ら し行為の発見を行う.次章にて荒み度RFの評価方 法について詳しく述べる.
3 荒み度の評価方法
荒み度RFは発言の得点を蓄積したものであり, そこから荒らし行為を発見するためには,その変動 を見る必要がある.そこで著者らは,荒み度から得 られた情報を損なうことなく効率的に表現すること を考え,株価の変動を表現するために使われるロー ソク足チャート[6日7】を用いて荒み度の変動を表現 し,株価の変化率を調べるために使われるRSI【6日7】 を用いて荒み度の変化率を表現することを提案する. 荒み度の変動をローソク足チャートで表現するた めに,株価の指定期間の始値・高値・安値・終値を 荒み度に対応させる必要がある.そのため,掲示板 の各発言の荒み度を,区切りを指定・分割し,各集 合ごとに最初の値・極大値・極小値・最後の値を始 値・高値・安値・終値に見立てて,ローソク足チャー トを出力する.また, RSIを出力するために,ロー ソク足の終値同士の差を利用し線グラフとして出力 する. 本論文では,このローソク足チャートの変化の傾 向と程度から荒れていると思われる範囲を掲示板管 理者の目視により抽出し,さらにRSIと比較するこ とにより, 2.1節で述べた荒らし行為の発見を行う. 図1のAの部分は,他と比べローソク足チャート○ローソク足 十TtSl 図1:評価グラフの見方 の下落が激しく, RSⅠよりその勢いが強くなってい ることが分かるので,その範囲は荒れているとみな す.逆に,図1のBの部分は,ローソク足チャート は下落しているが, RSIよりその勢いが弱くなって いることが分かるので,その範囲は荒れていないと みなす.このようにローソク足とRSIを比較するこ とによって,荒れている範囲を抽出する. 4 美顔 4.1対象掲示板と評価方法 荒み度を用いた監視支援の有効性を示すための実 験対象として,インターネット上の巨大掲示板"2 ちゃんねる"【8】から19個のテーマの異なった掲示 板をサンプルとして選択した.これらの掲示板の荒 れている範囲の抽出は,主観が入らないようにする ために,インターネット層3年以上の20代の男性 6人に,サンプル掲示板を読み,荒れていると判断 した範囲を抽出する評価を実施した. 荒み度を算出するためにpwの数を121個, nw の数を308個登録し,全ての対象掲示板に対して同 じものを使用した.また,発言の連盛削こ関しては, 明示的に表現されている発言のみを数えている.そ こから得られた提案手法による結果とアンケート結 果の比較を行った. 今回は一例として, " 【米大統領選】固唾のむ日 本政府,ケリー氏勝利なら政策練り直しも"という 題名の掲示板にccjの底を7に設定した提案手法の 結果を以下に示す.ローソク足チャートに適応させ るため,発言を10ずつに区切りグラフ出力した. 4.2 比較検証 本提案手法による出力グラフは図2となった. 3 章で述べた比較方法を用いることにより,このグラ フから荒れている範囲は四角で囲った部分と判定さ れる. 本提案手法とアンケート結果との比較は表1とな り,提案手法とアンケートの結果はほぼ一致した. 誤報(提案手法の判定結果だけ荒れていると判断し た場合)として出力された800から840に関しては, 荒らし行為とは捉えられないが, nwが多く含まれ る発言が多かったためであった. 表1:アンケート結果と提案手法の比較 また,その他の掲示板に対する結果は表2となっ た.表中のQはアンケート結果によって荒れてい ると判断された箇所の数を示しており, Eは提案手 法によって荒れていると判断された箇所の数を示し ている.また,誤報回数はアンケート結果では荒れ ていないと判断された箇所であるが,提案手法では 荒れていると判断された回数である. 表2の荒れていない掲示板3つに対しては提案手 法において誤報が発生することはなかった.また, 荒れている範囲を持つ掲示板に対して,提案手法に よる発見率は81%であった. 今回登録したnwが含まれる発言は全体の約5分
表2:提案手法の警報とアンケート結果の比較 種類 B R 少数(Q/E) 佩ケ_ 相談.雑談関連1 011 相談.雑談関連2 0/0 相談.雑談関連3 2 0/0 相談.雑談関連4 1/1 相談.雑談関連5 1/3 相談.雑談関連6 " ・0/0 相談.雑談関連7 0/1 相談.雑談関連8 0/0 相談.雑談関連9 0/0 時事関連1 2 0/0 時事関連2 釘 R 0/0 時事関連3 " 0/1 時事関連4 0/0 入試関連1 1/1 入試関連2 " 0/0 入試関連3 1/2 飛 パソコン関連1 1/1 パソコン関連2 1/1 パソコン関連3 迭 R 1/1 の1であり,その発言を一つずつ確認するのは非効 率である.よって,相手に不快感を与える単語の集 合nwだけでなく.好感を与える単語の集合pwと 発言の連鎖を考慮した提案手法は効率的に荒らし行 為の発見を行うことができた. 5 まとめ 本論文では,荒らし行為に対する掲示板管理者の 監視負担を軽減するために,新たな評価指標として "荒み度''を提案し,それを導入した新監視支援手法 を提案した.その結果, 19個の掲示板に対して実験 を行い,半数以上の人間が荒れていると判断した範 囲の発見率は表2より81%であった.これにより, 管理者が全ての発言をチェックするという負担を軽 減することのできる効率の良い監視支援手法を実現 した. 但し,本稿ではpwwとnwwを土1に設定してる ため,単語の強弱,係り受けによる影響,文脈理解 を考慮していない.また,本捷薬事法では管理者の 目視による判断を採用しているため,明確な判断基 準がまだできていない.したがって,これらを考慮 することにより,より感度がよく信頼性の高い監視 支援が実現できると思われる.これは今後の研究課 題である.
参考文献
[1]柴内康文了官い争う- 「フレーミング論争の検 証」 '',現代のエスプリ,川浦康至(宿), γol.370, 至文堂, 1998. 【2]大洋幸生,松村真宏,中村洋, "フレーミングは議 論を阻害するか-2ちゃんねるは何故面白い?'、, 第11回ITRC研究会. 2OO2. [31松村真宏,三浦麻子,柴内康丸大浮華生,石 塚満, "2ちゃんねるが盛り上がるダイナミズム'.,情報処理学会誌vol.45, no.3,
pp.1O53-1061, 2004. [4]松村真宏,大博幸生.石塚満了テキストによるコ ミュニケーションにおける影響の普及モデル," 人工知能学会論文誌. vol.17, no.3, pp.259-267, 2002. [5]松村真私大博幸生,石塚満, `儲響の普及モデ ルに基づくオンラインコミュニティ参加者のプ ロファイリング",人口知能学会論文誌, vo118, non.4, pp.165-172, 2003・ [6】伊藤智洋. `儲かる!株の教科書テクニカル指 標の読み方・使い方",日本実業出版社、 2004. 【7】阿部達郎,柳谷雅之野村光紀,蔓部書土野村 光紀, "株はチャートでわかるトテクニカル分 析がチャートギャラリーでわかる!できる!パ ンローリング相場読本シリーズ'',パンローリ ング. 2000. [8】 2ちゃんねる, http://www・2ch・net/