The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 1 -
掲示板
け
編集行
分析
The Analysis of Editing Activities in Summary Blogs for BBSs
武田
英明
*1*2
沼
*3
The program committee of the XXth annual conference of JSAI Second Author’s Name
*1
国立情報学研究所
*2
総合研究大学院大学
*3
株式会社
ン
National Institute of Informatics Graduate University for Advanced Studies The Third Impact, Inc.
Social media has the indispensable role in our society. Editing social media is the important to make social media to distribute easily. In this paper, we collect and analyze the summary blogs (“matome blogs”) in order to explicate editing ability of social media. We found that most of blogs are within 100 responses whereas the original BBSs vary so much in length. It suggests the editing policy to keep the length reasonable. Overlap of the selected responses among different blogs are significantly high. It also suggests that the editing policy is not so different among them.
1.
めに
現 在 掲 示 板 い ソ ャ 社 会
大 役 割 占 う ソ ャ 誰
情報発信 既 様々
新 い可能性 提供 い 一方 ソ ャ 基
本的 ュ ョン 小規模 ュ 情報共有
利 用 い あ そ 代
手段 わけ い
そ 違い 1 編集行 あ 方 あ
情 報 一定 方 針 収 集 統合 け 手 便 利 う
情 報 編 集 い ソ ャ 多 数 情 報 提 供
元 あ 情報 収集 統合 重要 あ そ 情報
いう行 編集行 ソ ャ 重要
役割 占 う
本研究 ソ ャ 編集行 う
あ 調 目的 具体的
収 集 情 報 比較
う 編集行 行わ い 分析
2.
データ収集
2.1
まとめ
グ
収集
現在多数 在 そ 中 比較的人気
高い 得 以 方法 収集
2013/1/31 Livedoor ュ 総合→
ンキン 位100 対象 各100 エン 得
実 際 総 エン 数 実 際 得
9597 エン あ 記100 う
1 エン 扱 い 明
記 あ 85 あ 全体 9597 エン
う 分析 対象 1 エン 対 1 対応
い 記事 6314 エン あ
中 重複 情報 表 示 収 集範 意
外 重複度 高く く 77% そ 在
い あ 以 中 6 回以 重複 関
エン 対象
2.2
元ス
ッドと
対応
調査
次 エ ン 元
対応 求
対象 89 dat 得
う 40 あ 40 い
60 計 320 エン ペ
あ
2.3
ス抽出
得 エ ン 対 抽 出 行 う 掲 示 板
け 個 別 発言 指 編集行 基本単位
付 け 大 く 異 単 純
ン 抽出 い 要素 使い方
HTML 文法 対 正 く い 多い 元
一部 抽出 並び え 行う
編集作業 あ 単純 dat 照合 行え
い 掲示板 画像 URL 展開 埋 込 注釈
エ ン 差 込 あ
回 選択 文 修飾 中心 抽出 優先
閉 補足 記事内 div 分割 いく
ュ 組 込 概 元 DOM構
造 沿 解析 行
320 エン う 修飾 完全 得 53エン あ い HTML
重複 数 割合 重複 数 割合
1 3315 77.2% 11 1 0.0% 2 550 12.8% 12 3 0.1% 3 190 4.4% 13 4 0.1%
4 101 2.4% 14 1 0.0%
5 48 1.1% 15 0 0.0% 6 36 0.8% 16 0 0.0%
7 21 0.5% 17 0 0.0%
8 13 0.3% 18 0 0.0%
9 5 0.1% 19 0 0.0%
10 4 0.1% 20 1 0.0%
連絡先:武田英明 国立情報学研究所 東京都千代田区一
橋 ta a@n a p
2J3-3
The 28th Annual Conference of the Japanese Society for Artificial Intelligence, 2014
- 2 -
手書 ン 誤 い 事情 文 修飾部
分 出 加え エン 内 記述
元 URL 誤 あ dat 対応 解
析 含
3.
ス抽出
分析
以 う 収集 元 う 編
集 い 分析 いく
3.1
抽出
割合に関
分析
39 い エン 中 いく 選択
い 傾向 見
エン 全 数 基準 そ エ
ン 選ば 表示 い 分量 割合 抽出率
計測 全エン 平均抽出率 36. 9% あ
20%以 抽出 い エン 多く 80%以
含 い エン 少 い傾向 あ 分布
ば い い 267 エン け 抽 出 率 標 準 偏 差
25.93 あ
同 一 参 照 エン 母 集 団 抽 出
率 標準偏差 平均値 求 40 中 抽出率
標準偏差 小 0.40 標準偏差 大
22.88 あ い ば 全エ
ン 母集団 小 く い
次 同一 含 エン 母集団 抽
出率 標準偏差 平均値 求 対象 267 エン
中 複数 記事 持 47 あ
抽出率 標準偏差 小値 2.33 大値 38.28 あ
集計 ば 大 く い
概 全体エン 内 見 ば 小 い傾向 あ
以 エ ン 抽 出 割合
編 集 方 針 特 徴 あ 程 度 現 自 体 影 響
大 い 考え
抽出率 抽出 関 係 分布 示 全
体 比例傾向 あ わ 一方 以
多 い わ わ 元 長 結果
一定 長 う 編集 い う え
3.2
抽出さ
た
スと
イ数と
関係
抽出 重複度 そ け 数
関 係 示 x 軸 そ 対 数 示
そ 数 エン 群 中 け採用
い 割合 示 い 左軸 参考 そ 個々
数 該当 数 右軸 示 対象
数 少 い ば 多い 全般的 多く
け い 多く エン 採用 く 傾向 う
え
3.3
ス
重複度
分布
分析
次 重複度 1 中 う 分布
調 39 そ 作 い エ
ン 抽出率 け 元 い
平均 順 並 け 多重 抽出
示 あ 例えば 80-100% そ
利用 い エン 80-100% 利用
示 い エン 使わ 総数 5分割
分布 棒 い 参考 エ
ン 数 右軸 折 線 示 い
重 複 度 合 い 全 体 的 高 い 例えば 19番 目
6エン あ 平均抽出率 約 40% あ そ
使わ い 20%以 け エン
使わ い い そ 他 複数エン 使わ
い
平均抽出率 高け ば重複 度合い 増え 当然 あ
一方エン 数 あ 影響 い い わ
エ ン 増 え い 抽 出 度 合 い あ 変 化
い い 間 編 集 ふ あ い
示唆 い 思わ
4.
まとめ
ソ ャ 編集行 知
収集 重複度 分析 回
共 通 性 い 考 察 後 差 異 い 分 析
行う予定 あ
図1 ス数 抽出率の関係