最近検索した

検索結果がありません。

タグ

検索結果がありません。

ドキュメント

検索結果がありません。

アップロード

ホーム学校トピック

ログイン

IIJ Technical WEEK Indexer Bullet によるビッグデータ解析

シェア "IIJ Technical WEEK Indexer Bullet によるビッグデータ解析"

N/A

N/A

Protected

学年: 2021

Info

ダウンロード

Protected

Academic year: 2021

シェア "IIJ Technical WEEK Indexer Bullet によるビッグデータ解析"

Copied!

39

0

0

39

0

0

読み込み中.... (全文を見る)

今ダウンロードする ( 39 ページ )

全文

(1)

Indexer Bullet によるビッグデータ解析

IIJ Techweek2013

2013/11/19

藤田昭人

(2)

(3)

はじめに

n

 

Indexer Bullet（iBullet）

u 

一般的なビッグデータ解析プラットフォームの実現を目指す

u 

インターネットからの情報リソースの取得

n  情報リソースの統一的な取得手段を提供 u 

各種解析アルゴリズムの利用

n  解析アルゴリズムの統一的な利用手段を提供 n  複数の解析アルゴリズムを組み合わせた解析環境 u 

各種クラウドインフラストラクチャの活用

n  複数のストレージシステムからなるヘテロジニアスな環境 n  分散処理基盤との連携

(4)

Indexer Bullet（１）

ウェブブラウザクラウドストレージ分散ファイルシステム RDBMS ローカルファイルウェブアプリファイル検索結果データファイルコンテンツキャッシュ拡張モジュール情報リソースインターネット

様々なストレージに対応するヘテロジニアスなシステム

(5)

Indexer Bullet（２）

ウェブブラウザキャッシュデータ３キャッシュデータ２解析アプリ GET/PUT/DELETE GET/PUT/DELETE 拡張モジュールキャッシュデータ１コンテンツキャッシュモジュールＡモジュールＢ http://www.xxx.co.jp/index.html HTML http://www.xxx.co.jp/index.html OUTLINK http://xxxx/outlink.kct

拡張モジュールによりユーザー定義関数（ＵＤＦ）を実現

(6)

Indexer Bullet（３）

n

 

実装の現状

u 

５月

初期プロトタイプ（

Wikipediaランキング向け）

u 

１０月

Wikipediaランキングシステムを iBullet ベースに移行

n

 

課題

u 

拡張モジュールの仕様

n  より一般性のあるプログラミングインターフェースへの移行 n  ノンブロッキング同期によるマルチスレッド化 l  CompaireAndSwap 命令を活用 l  マルチコアのメリットをより生かせる u 

キャッシュシステムに基づく設計の有意性

n  ビッグデータ解析作業の効率化に寄与する・・・はず

n

 

ビッグデータ解析のプロセスを把握しなければならない

(7)

分かりやすいと評判のビッグデータ解説

Big data is like teenage sex:

everyone talks about it,

nobody really knows how to do it,

everyone thinks everyone else is doing it,

so every one claims they are doing it…

ビッグデータは10代のセックスに似てる：

みんなが話題にし、

しかし本当は誰も方法を知らず、

みんながやってると思いこみ、

(8)

ビッグデータ解析のプロセス（１）

n

 

解析の結論を統計学的手法に頼るとすると・・・

u 

データの関係性（相関など）の特性把握やそれに基づく予測など・・・

u 

テキストデータはテキストマイニング的手法（頻度計数など）で数値化

n

 

ビッグデータ解析は・・・

u 

大規模データを対象にしたデータ解析作業

n  結論を得るまでに頻繁に試行錯誤が発生する u 

『モデリング』は対話的プロセス

n  既存のデータ解析ソフトウェアを利用する u 

『データの抽出・加工』は対象データとモデリングの接続性が重要

n  抽出・加工は解析目的に従属するが・・・ n  データ解析ソフトウェアに搭載可能なサイズまで絞り込む n  解析処理の時間を考慮すると更にサイズを絞り込まなければならない

n

 

ビッグデータ解析では『データの抽出・加工』工程は重要

(9)

ビッグデータ解析のプロセス（２）

データの

取得

データの

(10)

ビッグデータ解析のプロセス（３）

n

 

データの取得（と理解）

u 

データはネット経由で各所から入手できる

n  自社データ、ソーシャルメディア、政府系データ、その他のリソース u 

入手データの内容を理解する

n  収録されるデータ、フォーマットなど・・・

n

 

データの抽出・加工

u 

モデリングに必要なデータを抽出する

n  テキストデータの場合は頻度等を求めて数値化 u 

モデリングに適した形にデータを加工する

n  単位やタイムゾーンなどを合わせる、個別の値を集計する

n

 

モデリング

u 

データの可視化と解析アルゴリズムの適用

n  基本的に対話的なプロセス → データ解析アプリケーションの利用

(11)

ビッグデータ解析の手順（１）

BigData

BigData

CachedCopy WorkSpace データの取得

(12)

ビッグデータ解析の手順（２）

BigData

BigData

CachedCopy WorkSpace

Modeling

Tool

データの取得

(13)

ビッグデータ解析の手順（３）

WorkSpace

BigData

BigData

CachedCopy データの抽出・加工 Sampled Data Sampled Data Sampled Data データの取得

(14)

ビッグデータ解析の手順（４）

WorkSpace

Modeling

Tool

BigData

BigData

CachedCopy データの抽出・加工 Sampled Data Sampled Data Sampled Data モデリングデータの取得

(15)

iBullet の導入（１）

n

 

キャッシュシステムをベースにした解析データ管理

u 

ビッグデータ解析の作業過程で生成されたデータの一時保管

n  『データの抽出・加工』工程に要する時間を節約できる n  『データの抽出・加工』工程の多段化により時間的効率がアップ u 

ビッグデータ解析の作業過程を外部より参照できる

n  外部アプリケーションにはキャッシュドプロキシーとして動作 n  『データの抽出・加工』工程で生成された中間データも任意に参照可能

n

 

狙い

u 

ビッグデータ解析の手順（拡張モジュール）の保管

n  解析作業の対象データと解析手順、解析結果をまとめて n  他の利用者によるビッグデータ解析作業の再現が容易になる u 

iBullet の分散化

n  多段化された『データの抽出・加工』処理を任意のノードに配置 l 処理内容に応じたスペックのノードに割り振る

(16)

iBullet の導入（２）

Modeling

Tool

モデリング

HTTP

BigData

BigData

CachedCopy データの抽出・加工 Method B Method C Method A iBullet http://www.xxx.co.jp/yyy.zzz http://www.kkk.co.jp/aaa/ データの取得

(17)

iBullet の導入（３）

Modeling

Tool

BigData CachedCopy iBullet http://www.xxx.co.jp/yyy.zzz

a

http://www.kkk.co.jp/aaa/

a

b

http://www.kkk.co.jp/bbb/

a

c

http://www.kkk.co.jp/ccc/ BigData

A

Modeling

Tool

B

Modeling

Tool

C

(18)

iBullet の導入（４）

Modeling

Tool

BigDataA CachedCopy iBulletA http://www.xxx.co.jp/yyy.zzz BigDataA

A

iBulletC http://www.kkk.co.jp/aaa/ BigDataB CachedCopy iBulletB http://www.xxx.co.jp/yyy.zzz BigDataB

(19)

事例：連続ドラマに着目した

WikipediaPVC解析

n

 

目的：

iBullet が想定する解析プロセスを具体的に検証

u 

機能紹介のためのデモとしても活用できる

n

 

動機：

Wikipedia ランキングの挙動

u 

Wikipediaのドラマページが放映時に顕著な反応する

n  視聴率の高いドラマはランキング５０位内に頻繁に登場 n  Wikipedia のページビューと視聴率には何らかの相関がある？

n

 

方法：前述のビッグデータ解析プロセスに基づく

u 

対象データは

Wikipedia から入手できるもののみとする

n  ページビューデータ： Wikipedia の辞書ページの参照カウント n  ページデータ： Wikipedia の辞書ページ（Mediawikiフォーマット） u 

ページビュー情報からドラマ関連情報抽出して解析を行う

n  各ドラマ毎、放映された四半期のドラマのページビュー情報を抽出 n  抽出処理にはドラマページの情報を活用 u 

モデリングには

Excel と R を活用

(20)

Wikipedia Pageview Count（１）

n

 

“Page view statistics for Wikimedia projects”

u 

http://dumps.wikimedia.org/other/pagecounts-raw/

n  Wikimedia プロジェクトの各ページのページビュー数を集計 n  2013年１月より公開開始 n  2008年以降∼現在までのページビューデータを毎時追加

n

 

データフォーマット:

u 

テキストファイル：１行ごとにスペース区切りで下記の情報を記録

n  <Project> プロジェクト種別（言語＋プロジェクト） n  <PageTitle> ページタイトル（HTTPエンコード） n  <Pageview> ページビュー数 n  <PageSize> ページサイズ

n

 

欠損データなどの詳細は下記のページで紹介してます

u 

http://www.gryfon.iij-ii.co.jp/ranking.html

(21)

Wikipedia Pageview Count（２）

データサイズ（2007/12/09 18:00から2013/11/16 23:00まで）

6.07%

Project: ja Namespace: 0

(22)

Wikipedia Page Data

n

 

Wikimedia Downloads -- Database dump progress

u 

http://dumps.wikimedia.org/backup-index.html

u 

http://dumps.wikimedia.org/jawiki/

（日本語版）

n  Wikipedia のダンププロセスは常時稼動している n  各言語ごとに巡回し、概ね１ヶ月おきに新しいダンプができる u 

データフォーマット

n  基本的には XML フォーマット n  辞書本文は Mediawiki フォーマット（<TEXT>でタグ付け） n  様々な収録データの組み合わせでファイルを公開している l  我々が使っているのは jawiki-<date>-pages-articles.xml.bz2

n

 

jawiki-20131005

（

2013/10/05のスナップショット）

u 

全ページ：

1,752,890 ページ

u 

辞書ページ：

1,411,191 ページ（80.5%）

u 

リダイレクトを除く

: 883,537 ページ（50.4%）

(23)

Wikipedia 日本語版のドラマ関連ページ

n

 

Wikipedia 日本語版ドラマページは次の３つのパターン

u 

原作のページに「テレビドラマ」のセクションがある

n  最初はこのパターンが多い u 

テレビドラマ単独のページ

n  オリジナルドラマの場合 n  上記のパターンから独立した（「半沢直樹」はこのパターン） u 

シリーズ化されたドラマのページ

n  各シーズンごとにセクションがある n  「登場人物」等が別ページに独立している場合もある l  解析者にとって「相棒」は最悪のページ

n

 

今回の解析で着目した各ページの情報

u 

視聴率情報

n  関東圏の全体視聴率、各回の平均（瞬間）視聴率 u 

キャスト、スタッフのページへのリンク

原作ものの場合は原作者も・・・

(24)

Wikipedia 日本語版ドラマページの解析（１）

n

 

2008年以降2013年第３四半期までの317件を選択

u 

四半期の期間で全８回∼１１回のドラマをピックアップ

n  四半期枠からはみ出てしまう NHK のドラマは除外 n  特番扱いの民放スペシャルドラマも除外

n

 

ドラマの視聴率について

u 

ドラマ視聴率は制作者の通信簿

n  20% ：超優良（６件） l  「半沢直樹」「家政婦のミタ」「ごくせん」「CHANGE」「JIN」「相棒」 n  15 20%：優秀 l  ここに入ればスポンサーに対し強気に出れる l  １回延長 or 放映時間延長 n  10 15%：良 l  最初はここを目指す n  5 10%：可 l  スポンサーに怒られる l  途中で打ち切られる（１０回 or ８回） n  5%：不可 l ２００８年以降では「家族のうた」のみ

(25)

Wikipedia 日本語版ドラマページの解析（２）

10

20

30

40

50

60

2008年∼2013年のドラマ平均視聴率（関東）によるヒストグラム

頻度平均：11.7% 家政婦のミタ半沢直樹家族のうたボーイズ・オン・ザ・ラン主に泣いています

(26)

ドラマページ情報の抽出・加工（１）

Wikipedia Pageview Wikipedia Pageview Wikipedia Pageview Wikipedia Pageview Wikipedia Pageview Wikipedia Pageview Drama Pageview

約２時間

１つのドラマが放映された４半期のページビュー情報を抽出する

Wikipedia Pageview Wikipedia Pageview Wikipedia Pageview Wikipedia Pageview Wikipedia Pageview Wikipedia Pageview Drama Pageview

約１５２１６時間

全ドラマについて2008∼2013年のページビュー情報を抽出すると・・・

Drama Pageview Drama Pageview Drama Pageview

=2時間4四半期6年*317ドラマ

=

(27)

ドラマページ情報の抽出・加工（２）

Wikipedia Pageview Wikipedia _PageviewWikipedia

Pageview Wikipedia Pageview Wikipedia

Pageview Wikipedia _Pageview

Wikipedia Pageview Wikipedia _PageviewWikipedia

Pageview Wikipedia Pageview Wikipedia Pageview 日本語版辞書ページのみ Wikipedia Pageview Wikipedia _PageviewWikipedia

Pageview Wikipedia Pageview Wikipedia Pageview 全ドラマページのみ

最大9.25時間

最大1.5時間

ノード６台並列で段階的にデータ抽出を行う

最大10.83時間

(28)

Ｒを使ったデータ解析

n

 

ドラマページのページビューを解析

u 

ドラマ放送時にはページビューに顕著な変化が現れる

n  各回の放送中の１時間 n  放送終了後２４時間 n  放送終了後１６８時間（７日間）

n

 

Ｒの時系列解析を利用してページビュー変動を可視化

u 

関数

ts()：

時系列データへの変換する

n  パラメータとして変動周期（24 or 168）を設定 u 

関数

decompose(): 時系列データを要因ごとに分解する

n  トレンド（Trend）、季節要因（seasonal）、ノイズ（random） l  移動平均法による → 時系列解析としては古典的な手法 l  Ｒではデフォルトでビルドインされている u 

結果

n  変動周期 = 168 の場合にトレンドはドラマの評価が現れる

(29)

「半沢直樹」のページビュー

r a t e 2

4

6

8

10

12

14

0

.

0

1

.

0

2

.

0

3

.

0

(30)

「半沢直樹」の時系列解析（１週間周期変動）

0.0 1.5 3.0 obser ved 0.05 0.20 0.35 trend 0.0 0.2 0.4 seasonal − 0.5 1.0 2.5 2 4 6 8 10 12 14 random

Decomposition of additive time series

(31)

「家政婦のミタ」の時系列解析（１週間周期変動）

0.0 1.0 obser ved 0.00 0.10 0.20 trend − 0.05 0.10 seasonal 0.0 1.0 random

Decomposition of additive time series

平均視聴率： 25.2%

(32)

「結婚しない」の時系列解析（１週間周期変動）

0.00 0.15 obser ved 0.004 0.012 trend − 0.005 0.010 seasonal 0.00 0.15 2 4 6 8 10 12 random Time

Decomposition of additive time series

平均視聴率： 11.8%

(33)

「最高の離婚」の時系列解析（１週間周期変動）

0.0 0.3 0.6 obser ved 0.00 0.02 0.04 trend 0.00 0.06 seasonal − 0.1 0.2 0.5 2 4 6 8 10 12 random

Decomposition of additive time series

平均視聴率： 11.8%

(34)

「ぴんとこな」の時系列解析（１週間周期変動）

0.0 0.3 0.6 obser ved 0.01 0.03 trend − 0.01 0.02 seasonal 0.0 0.2 0.4 2 4 6 8 10 12 random Time

Decomposition of additive time series

平均視聴率： 7.3%

(35)

「家族のうた」の時系列解析（１週間周期変動）

0.00 0.15 obser ved 0.00 0.02 0.04 trend − 0.005 0.010 seasonal 0.00 0.15 2 4 6 8 10 12 14 random

Decomposition of additive time series

平均視聴率： 3.9%

(36)

「半沢直樹」のトレンドと視聴率

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 2009/6/16 0:00 2009/7/6 0:00 2009/7/26 0:00 2009/8/15 0:00 2009/9/4 0:00 2009/9/24 0:00 2009/10/14 0:00 日時ページビュー 0 5 10 15 20 25 30 35 40 45 トレンド視聴率

(37)

まとめ（１）

n

 

Indexer Bullet について

u 

キャッシュシステムをベースにした解析データ管理

n  ビッグデータ解析の作業過程で生成されたデータの一時保管 n  ビッグデータ解析の作業過程を外部より参照できる u 

得られる効果

n  『データの抽出・加工』の処理を多段化できる l  時間的コストのかかる処理の実行頻度を抑制する n  頻繁な反復を繰り返す『モデリング』作業の効率化に寄与する l  解析対象データの取り出しコストを最小化する u 

次の展開

n  ビッグデータ解析の手順（拡張モジュール）も一時保管 n  iBullet の分散化

(38)

まとめ（２）

n

 

Wikipedia ページビュー情報について

u 

完全にパブリックなソーシャルデータ

n  任意の解析について第３者の追試が可能 l  第３者による誤りの指摘や修正が可能 l  情報量は少ないが信頼性は期待できる u 

時系列解析により比較的容易に社会的トレンドを把握できる

n  ページカウントは社会的イベントに敏感に反応する l  今、何が起きているのか大づかみに把握するには便利 l  ソーシャルメディアからの情報との組み合わせで詳細化は可能 u 

辞書情報が『データの抽出・加工』に役立つ

n  調査対象ごとページが存在する l  各ページには調査対象と関連性のある情報が網羅されている

(39)

おまけ

n

 

Wikipedia ドラマページの解析について

u 

できれば現在クールのドラマの最終視聴率の予測がしたかった

u 

ドラマ視聴率と

Wikipedia ページビュー

n  Wikipedia ページビューはネット上でのドラマの関心度 l  ドラマの視聴量とはなんらかの相関はあるが・・・それだけではない l  人気の高いドラマは視聴率との相関性は高そう l  人気の低いドラマは・・・ u 

ドラマ視聴量の抽出はできないか？

n  時系列解析の要因分解の手法を応用して l  社会的イベントは指数関数を取る l  Wikipedia ページビューを対象にした要因分解手法は？

参照

今ダウンロードする ( PDF - 39 ページ - 1.01 MB )

関連したドキュメント

第 73 回コロイドおよび界面化学討論会 - 異分野融合学際領域として拡がるコロイド界面科学発表プログラム 2022 年 9 月 20 日火 22 日木ハイブリッド開催広島大学東広島キャンパスオンライン部会報告 9 月 21 日水 S 会場 13:30-13:50 部会長挨拶部

& NIKKOL GROUP Cosmos Technical Center Co., 4 Research Institute

Acta Universitatis Apulensis ISSN: 1582-5329 http://www.uab.ro/auajournal/ No. 64/2020 pp. 83-115 doi: 10.17114/j.aua.2020.64.07

Also, for the sake of comparison we give the probability density functions of the terminal wealth of portfolios managed by the pure bond strategy, whose fraction of wealth invested

N O R D I C GOLDWIN.CO.JP/FISCHER

S49119 Style Classic Flexor Grade 7.0 Fixation Manual Weight 215g Size range 35 - 52 TECHNOLOGY-HIGHLIGHTS. •

http://www.math.ucsd.edu/~williams OnExistenceandUniquenessofStationaryDistributionsforStochasticDelayDifferentialEquationswithPositivityConstraints

An important new aspect of the results in [ 12 ] is that they enable one to obtain uniqueness of stationary distributions for stochastic delay differential equations when the

UNIVERSIDADE FEDERAL DO MATO GROSSO INTRODUÇÃO À TEORIA DAS FILAS Flávio Gomes de Moraes Gecirlei Francisco da Silva Tacyanne Assis Rezende Cuiabá - MT Nov. 2011

Da mesma forma que o modelo de chegada, pode ser determinístico (constante) ou uma variável aleatória (quando o tempo de atendimento é variável e segue uma distribuição

II Colóquio de Matemática do Centro Oeste 07-11/11/2011 Introdu¸cão à Teoria da Probabilidade

Ex. Qual valor de n nos d´ a uma probabilidade de aproximadamente 50%?.. Ralph Costa Teixeira, Augusto C´ esar Morgado 23!. Ex. Quem tem a maior chance de ganhar algum

Acta Universitatis Apulensis ISSN: 1582-5329 http://www.uab.ro/auajournal/ No. 57/2019 pp. 41-62 doi: 10.17114/j.aua.2019.57.04

Also we define a soft S-contraction condition and study some fixed-point theorems on a complete soft S-metric space with necessary examples.. 2010 Mathematics Subject

CO RE

READY-MAN® Liquid Mn with Boron is a specifically formulated material designed to achieve compatibility with Glyphosate and other herbicides commonly tank mixed

学習資料をアップロードして、すべてのドキュメントをダウンロードしてください。

あなたのドキュメントは、123deta JP で共有され、学習を支援するために充実されます。

関連したドキュメント

Cu-Ni-Co-Si 合金の強度と組織に及ぼす Co の影響

Cu-Ni-Co-Si 合金の強度と組織に及ぼす Co の影響

8

0

0

Final Fantasy VII (Manual)(Scan)(JP)(PlayStation)(PSX)

Final Fantasy VII (Manual)(Scan)(JP)(PlayStation)(PSX)

36

0

0

Co-living (共生) with :

Co-living (共生) with :

14

0

0

経済研究所 / Institute of Developing

経済研究所 / Institute of Developing

5

0

0

Guardian's Sword (Manual)(Scan)(JP)(PC)(Windows)

Guardian's Sword (Manual)(Scan)(JP)(PC)(Windows)

32

0

0

I 本論文の構成と概要本論文の構成は以下の通りである．第

I 本論文の構成と概要本論文の構成は以下の通りである．第

7

0

0

Lubricating Oil ISO VG 220_(JP)_vers14.pdf

Lubricating Oil ISO VG 220_(JP)_vers14.pdf

11

0

0

中国人日本語学習者の日本語モダリティ習得研究− 「ダロウ」を中心に−

中国人日本語学習者の日本語モダリティ習得研究− 「ダロウ」を中心に−

168

0

0