スライド共有サービスにおける資料作成者を対象とした専門知識抽出手法の検討

(1)

スライド共有サービスにおける資料作成者を対象とした

専門知識抽出手法の検討

A Method for Representing Knowledge of Presentation Slide Creators

on a Slide Sharing Service

築地勇人鷹野孝典

Hayato Tsukiji, Kosuke Takano

神奈川工科大学情報学部情報工学科

Department of Information and Computer Sciences, Faculty of Information Technology,

Kanagawa Institute of Technology

Abstract: In this study, we present a method for extracting and representing knowledge of presentation

slide creators based on the slide contents that are published on a slide sharing service. The proposed method regards the number of views, downloads, and likes from other users as the approval rate for a presentation slide, and extract knowledge of the slide creator in terms of the usefulness and knowledge amount of the slide contents. In the experiment, we evaluate the feasibility of the proposed method by analyzing the presentation slides created by users on SlideShare, which is one of the most popular slide sharing service.

1. はじめに

Web やクラウド技術の急速な発展に伴ない，膨大な量の情報コンテンツが，HTML ファイルだけでなく，動画，文書，プレゼンテーションスライド，ソフトウェアといった様々な形態で提供されるようになっている．このような膨大な情報コンテンツから，ユーザが目的の情報コンテンツを獲得するために検索システムが利用されている．ここで，このような情報コンテンツを見つけるタイプの検索を，コンテンツ検索と呼ぶ．一方，社会活動の中で生じるある特定の関係の中で大きな影響を及ぼす，あるいはその関係の中心に居る人物のことをキーパーソンと呼ぶことがある．例えば，高度な専門知識を持った専門家や，特定の技術やスキルを有する人も，その分野におけるキーパーソンと捉えることができる．本研究では，情報検索において，このようなある特定分野における特徴的な人物を検索することを，キーパーソン検索と呼ぶ．コンテンツ検索に対し，キーパーソン検索ではその人物がどのような情報コンテンツを発信してきたのかを辿ることができる．このため，最初の検索で知りたいと思っていた情報コンテンツに加えて，関連性のあるものを効率よく獲得できる可能性がある．キーパーソン検索では，あらかじめ検索対象となる人物の特徴を抽出しておく必要があり，対象とする人物がどのような専門知識を有しているか，あるいは，どのような技術やスキルを持っているかに着目して人物の特徴を抽出する研究が数多くなされている．例えば，文献[3]では対象ユーザのツイート内容から専門用語などを抽出し，対象ユーザの専門性について機械学習を用いて判別している．本研究では，スライド共有サービスで公開されているスライド資料の内容に基づいた資料作成者の専門知識抽出手法について検討する．提案方式では，他ユーザからの閲覧数を支持度と捉えることにより，専門知識量に有用性を加味して専門知識を抽出する点に特徴がある．例えば，商品レビューサイトである価格.com [12]では，商品レビューについて，他者からの評価が高い場合，その商品ジャンルにおける「優良」レビュワーとして評価される．しかし，あらかじめ決められた商品ジャンルについてのレビュワー評価を行うため，ジャンルフリーの状態から，ジャンルを推定した上でのレビュワー評価は行なっていない．本研究では，スライド資料を中に出現している単語群に基づいて専門性を評価するので，その特徴単語の性質に応じて，専門分野を判定することができる．本研究では，スライド共有サービスである人工知能学会研究会資料 SIG-KBS-B505-01

(2)

SlideShare [13]上のユーザ，および作成されたスライド資料を分析対象とした評価実験により提案方式の実現可能性を検証する．

2. 関連研究

情報検索分野において，コンテンツ検索[7][8]やキーパーソン検索[3][4]に関する研究が盛んに行われている．文献[7]では，タグ組み合わせに基づく web コンテンツ検索方式を提案しており，コンテンツの提供者，および閲覧者が付与した複数タグの組み合わせでコンテンツ検索を実現している．また，文献 [8]では，映像コンテンツを対象としたコンテンツ検索・推薦を効果的に行うことを目的として，利用者が視聴中に付与したメタデータ，選択した映像，描いたスケッチに基づいた類似検索・推薦システムを構築している．また，キーパーソンの発見に関する研究として，文書検索と固有表現抽出を組み合わせることにより，適応例として与えられたトピックに関するWeb 上のキーパーソンを発見する手法[4]や，Twitter におけるツイート内容の専門用語や実世界の出来事と共起情報，抽象的な単語の使用頻度を機械学習で学習させることにより，対象人物が専門家であるかを判別する手法が提案されている．人物検索においては，キーワード検索が主流であるが，キーワード検索だけでは目的の人物にたどり着けない，または，検索された人物の識別や理解がしにくいことがあり，人物を特徴付けるラベル付けが必要であると考えられる[5]．このため，コンテンツ分析等に基づいた人物の特徴抽出手法についても多くの提案がなされており，Twitter のリスト機能を用いたユーザの特徴抽出[1]，レビュー内容に基づくユーザ評価の根拠分析[2]，日本十進分類法（Nippon Decimal Classification, NDC）を用いた人物ディレクトリの開発[5]，Web 上の同姓同名人物判別のための職業関連情報の抽出[6]に関する手法等が提案されている．さらに，スライドからの情報抽出について，内容のみでなく，デザインや構造に着目した手法が提案されている．文献[9]では，プレゼンテーションスライドのデザイン的構成評価による個別のスライドの修正支援に関する手法を提案している．また，文献 [10]では，スライド情報を機能的なまとまりに組織化することにより，計算機が構造情報を扱えるようにすることを目的としたプレゼンテーションスライド情報の構造化手法を提案している．文献[11]では，スライド情報検索の効率性を高めるために，スライドページから関連する情報を適切に抽出する要求関連情報抽出の開発を行っている．本研究では，キーパーソン検索を目的とした人物からの特徴抽出に焦点を当てており，提案手法は，生成されたスライド資料から抽出される専門知識量のみではなく，他ユーザからの評価に基づいた有用性を考慮して，対象人物の専門知識の抽出および提示を行う点に特徴がある．

3. 提案方式

図 1：提案方式の概要図 提案方式の概要図を図1 に示す．本方式では，スライド共有サービス上に公開されたスライド資料を対象として，スライド資料に出現する単語群の分析，およびスライド資料に対する閲覧数やお気に入り数といった他ユーザからの評価情報に基づいて，スライド作成者の専門知識に関する特徴単語，および専門分野の抽出・提示を行う．また，本方式により抽出した専門知識に関する特徴単語や専門分野は，人物データベース上に格納しておくことで，ユーザの探したいコンテンツ情報を持つ人物の発見を目的としたキーパーソン検索へ適用できると考えられる．

(3)

図 2：専門知識を示す特徴単語群の抽出手順 提案方式では，ユーザuiの専門知識を示す特徴単語を，下記の手順で抽出する（図2）．ここで，k 個 の専門分野Fxについて，その専門分野の内容を表す専門単語集合 Txをあらかじめ定義しておく．また， T1, T2, T3,…, Tkの和集合をT={t1, t2, t3, …, t m}とする． Step-1: スライド共有サービスから，分析対象とするユーザuiを選択する． Step-2: Step-1 で選択したユーザ uiがこれまでに作成したn 個のスライド資料 s1, s2, s3, …, snを抽出する． Step-3: T の各単語について，Step-2 で抽出したスラ イド資料sx内の出現頻度fx,1, fx,2, fx,3, …, f x,mを算出する． Step-4: スライド資料 sxについて，他ユーザからの評価データに基づいた評価スコア scorexを，各評価データIiの合計を評価データ数p で割ることで算出す る． ∑ 例えば，表5 に示す 4 つの評価データを用いる場合，scorexは下記のように計算される． 4 表 1：評価データの項目例 項目変数名 I1 閲覧数 view I2 共有された回数 share I3 ダウンロード回数 download I4 お気に入り数 like Step-5: スライド資料 sxについて，T の各単語の重み 係数wx(tｋ)を下記のように計算する．ここで，重み係数は，スライド資料sxのスライド枚数sheetxで正規化されている．１ , Step-6: ユーザ uiの作成した全てのスライド資料 s1, s2, s3, …, sn について，tkの重みの合計値w (tk)を下記のように計算する．ここで，＝ 1⁄ , Step-7: w (tk)の値がしきい値θ1を超えたものを，ユーザuiの専門知識を示す重み付き特徴単語として抽出する．また，抽出した重み付き特徴単語から，ユーザ ui の専門分野について下記の手順で抽出する． Step-1: 抽出した重み付き特徴単語集合の各単語を専門単語集合T1, T2, T3,…, Tkに分類する． Step-2: 専門単語集合ごとに，特徴単語の重み合計値 w (ti)の総計 Vkを計算する． ∈ Step-3: Step-2 で計算した総計 Vkがしきい値θ2を超えた場合，Tk に該当する専門分野 KNkに関する知識をユーザuiが持っているとみなし，uiの専門分野として割り当てる．

(4)

以上のステップで抽出したユーザが持つ専門知識を示す重み付き特徴単語，および専門分野について，可視化して表示する例を図3 に示す．図 3：結果出力の例

4. 実験

スライド共有サービスである SlideShare [13]上のユーザ，および作成されたスライド資料を分析対象とした評価実験により提案方式の実現可能性を検証する．

4.1 実験環境

SlideShare [13]上のスライド作成者 4 名を特徴抽出の対象とした．対象とした人物のユーザID，および作成スライドの種類と数について表2～表 5 に示す．例えば，表2 では，ユーザ ID が hakoika-itwg である個人ユーザは，「バージョン管理」，「オブジェクト指向」，「データベース」などの分野に関するスライド資料を SlideShare 上で公開していることを示している．なお今回の実験では，作成スライドの種類として情報処理分野のもの作成している人物を分析対象として選んでいる．表 2：対象人物のデータ (1) ユーザID スライドの種類数 hakoika-itwg (個人) バージョン管理 2 オブジェクト指向 7 データベース 1 セキュリティ 1 ネットワーク 1 合計 12 表 3：対象人物のデータ (2) ユーザID スライドの種類数 Hayasitd (個人) データベース 3 ソフトウェア開発 1 オブジェクト指向 1 合計 5 表 4：対象人物のデータ (3) ユーザID スライドの種類数 matsuzawafumiaki (個人) クラウド 1 データベース 1 通信技術 1 プレゼンテーション 1 セキュリティ 1 合計 5 表 5：対象人物のデータ (4) ユーザID スライドの種類数 Ssuser70f2c8 (企業) ネットワーク 4 アプリケーション開発 5 仮想化 3 合計 12

4.2 実験方法

表2～表 5 の人物を対象として，3 章で示した提案方式に従って抽出した場合の重み付き特徴単語の抽出結果と，重み付けなしの場合の特徴単語の抽出結果を比較・考察する．特徴単語はそれぞれ場合において，スコアの高い上位10 件について比較する．重み付けなしの場合は，重み係数を1 として，特徴単語のスコアを算出している．なお，本実験で用いた評価データは，閲覧数，共有された回数，ダウンロード回数，お気に入り数の4 項目である．

4.3 実験結果と考察

特徴単語の抽出結果を表6～表 9 に示す．例えば，表9 では，ユーザ ID が Ssuser70f2c8 であるユーザを対象とした場合の結果を示している．表 10 において，重み付きなしの場合の結果では，「ネットワーク」や「config」などネットワーク関する特徴単語が上位に表れている．これに対して，提案方式のように重み付けをしてスコア算出した場合では，「API」や「Android」などアプリケーション開発についての特徴単語が上位に表れている．これは，ユーザ Ssuser70f2c8 が作成したスライド資料のうち，アプリケーション開発について書かれたスライド資 t1 t2 t3 … tn 特徴単語t1：8 特徴単語t2 ：7 特徴単語t3 ：6.5 特徴単語tn：5.8 ユーザID 特徴単語から抽出された専⾨分野・専⾨分野A (Score 20) ・専⾨分野B (Score 16) …

(5)

料に対する他ユーザからの評価が高かったためと考えられる．これらの結果は，提案手法では，作成されたスライド資料の内容，および他ユーザからの評価に基づいたスライド資料の有用性を考慮して，対象人物の専門知識を表す特徴単語群が抽出できることを示している．表 6：特徴単語の抽出結果 (ユーザ ID: hakoika-itwg) 重み付けなし提案方式（重み付けあり）特徴単語スコア特徴単語スコアテスト 92 クラス 214.60 オブジェクト指向 80 原則 209.95 管理 64 作業 156.09 クラス 59 依存 140.71 作業 59 タスク 140.66 ファイル 58 仕事 140.21 svn 57 細分 126.15 html 55 型 118.23 変更 55 Principle 117.34 実行 49 モジュール 116.84 表 7：特徴単語の抽出結果 (ユーザ ID: Hayasitd) 重み付けなし提案方式（重み付けあり）特徴単語スコア特徴単語スコアデータ 104 データ 385.29 データベース 92 データベース 298.44 言語 56 トランザクション 219.11 テスト 55 SQL 167.98 トランザクション 50 口座 126.37 SQL 46 状態 91.12 型 44 保存 78.93 場合 38 テーブル 76.42 処理 35 表 75.82 プログラム 34 場合 73.84 表 8：特徴単語の抽出結果 (ユーザ ID: matsuzawafumiaki) 重み付けなし提案方式（重み付けあり）特徴単語スコア特徴単語スコア利用 57 対策 103.15 プレゼンテーション 53 token 91.57 クラウド 48 設定 80.28 図 ₄₄ ファイル _68.68 スライド 36 無効 57.24 ストーリー 30 session 57.23 目的 30 セッション 57.23 データ 29 トークン 45.82 聞き手 28 PHP 45.79 無線 26 SESSION 45.79 表 9：特徴単語の抽出結果 (ユーザ ID: Ssuser70f2c8) 重み付けなし提案方式（重み付けあり）特徴単語スコア特徴単語スコアネットワーク 268 テスト 462.02 設定 262 OpenStack 321.20 構築 233 API 290.00 テスト 232 Android 280.99 config 213 WebRTC 261.52 VLAN 207 サーバ 209.77 スイッチ 195 アプリ 184.33 Android 179 コード 158.68 アプリ 152 ブラウザ 152.60 OpenStack 147 メソッド 152.50

5. むすび

本研究では，スライド共有サービスで公開されているスライド資料の内容に基づいた資料作成者の専門知識抽出手法について検討した．また，スライド共有サービスである SlideShare 上のユーザ，および作成されたスライド資料を分析対象とした評価実験により提案方式の実現可能性を検証した．今後の予定として，既存の人物からの特徴抽出手法との比較実験を行うことにより，提案方式の有効性をしていく予定である．さらに，提案方式の拡張として，抽出した専門知識に関する特徴単語や専門分野を人物データベースのインデックスとして適用することで，ユーザの探したいコンテンツ情報を持

(6)

つ人物の発見を目的としたキーパーソン検索を考案，および実現していくことを検討している．

参考文献

[１] 奥川巧, 倉門浩二, 大石哲也, 越村三幸, 藤田博, 長谷川隆三: Twitter のリスト機能を用いたユーザの特徴抽出, 情報処理学会第 73 回全国大会講演論文集 2011(1), pp. 687-688, (2011) [２] 松尾哉太, 新妻弘崇, 太田学: レビュー解析に基づくユーザ評価の根拠提示の一手法, 情報処理学会研究報告. [システムソフトウェアとオペレーティング・システム], pp.1-6, (2014) [３] 鎌田健史, 長谷川大, 佐久田博司: Twitter における専門家判別手法の性能評価, 情報処理学会第 75 回全国大会講演論文集2013(1), pp. 105-106 (2013) [４] 原田昌紀, 佐藤進也, 風間一洋: Web 上のキーパーソンの発見と関係の可視化, 情報処理学会研究報告情報学基礎, pp. 17-24, (2003) [５] 浦芳伸, 村上晴美: NDC を用いた人物ディレクトリの開発, 情報処理学会第 73 回全国大会講演論文集 2011(1), pp. 651-652, (2011) [６] 上田洋, 村上晴美, 辰巳昭治: web 上の同姓同名人物判別のための職業関連情報の抽出, 人工知能学会全国大会論文集, pp. 174-174, (2008) [７] 福盛秀雄, 村岡洋一: タグ組み合わせに基づく web コンテンツ検索, 情報科学技術フォーラム講演論文集, pp. 143-144, (2009) [８] 住吉英樹, 望月貴裕, 後藤淳, 藤井真人: 関連コンテンツ検索・推薦システム, 映像情報メディア学会年次大会講演予稿集, pp. 3-1-“1-3-1-2”, (2010) [９] 前田圭太, 花植康一, 渡辺豊英: プレゼンテーションスライドのデザイン的構成評価, pp. 861-863, (2012) [１０] 羽山徹彩, 難波英嗣, 國籐進: プレゼンテーションスライド情報の構造化, 情報処理学会研究報告デジタルドキュメント(DD), pp. 45-50, (2008) [１１] 羽山徹彩, 國籐進: プレゼンテーションスライド情報検索のためのスライドページからの要求関連情報抽出, 研究報告デジタルドキュメント(DD), pp. 1-7, (2010) [１２] 価格.com, http://kakaku.com, (2016.10.1 訪問)

[１３] Share and Discover Knowledge on LinkedIn

スライド共有サービスにおける資料作成者を対象とした専門知識抽出手法の検討