• 検索結果がありません。

コンテンツ解析を含む大規模データ分析処理に対するトレーサビリティ

N/A
N/A
Protected

Academic year: 2021

シェア "コンテンツ解析を含む大規模データ分析処理に対するトレーサビリティ"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第 82 回全国大会. 4N-02. コンテンツ解析を含む大規模データ分析処理に対する トレーサビリティ 山田 真也 † †. 1. 天笠 俊之 †† ††. 筑波大学 情報学群 情報科学類. はじめに. 近年多様な目的に対応したデータ分析手法が開発さ れ,意思決定における活用が進みつつある.その中で, 分析結果に対するトレーサビリティの必要性が高まって いる.データ分析における出力データがどのようにして 導出されたかという情報は Lineage と呼ばれ,以前から データベースの分野において研究が行われてきた. 以前は分析処理の対象となるデータは多くの場合数値 データであったためそれらに対する分析処理は,リレー ショナル演算のような比較的単純な演算子を組み合わせ ることで表現することが可能であった.しかしながら, 科学技術の向上によって生活の様々な場面から多種多様 なデータを集積することが可能になった現在,データ分 析の対象となるデータは画像や文章のようなコンテンツ データにまで広がり,より高度な分析に対する Lineage が要求されるようになっている.そのため,リレーショ ナル演算においても UDF(利用者定義関数)を用いた 分析が一般化している. 本稿は,UDF を含むリレーショナル演算で記述でき るコンテンツ解析処理に対して,分析処理実行時のオー バヘッドが少ない導出手法を提案する.. 2. 北川 博之 ††. 筑波大学 計算科学研究センター. 計算を行えば以後 Lineage の計算の必要がないという 長所の反面,本来の分析処理にオーバヘッドが発生す るという短所がある.しかし,Lineage の参照頻度があ まり高くない場合,Lineage が必要になった時に後から Lineage を計算する方がより適切であると考えられる. Cui らの研究 [2] では,リレーショナル演算からなる 処理に対して,Derivation の計算方法を示した.この計 算方法では,Derivation の計算は本来の処理の後に実行 するため実行時のオーバヘッドがかからないという長所 がある.しかし Cui らの研究の枠組みには UDF が含ま れていない. 本研究では,Cui らが提案した Derivation の計算方 法を UDF によるコンテンツ解析を含む処理に対しても 対応できるようにするために枠組みの拡張を行う.. 3. UDF を含むリレーショナル演算. 本稿では Set semantics に基づくリレーショナル演算 を対象とする.コンテンツ解析処理は UDF としてモデ ル化し,UDF の処理を表現するために新たなオペレー タを定義する.そのオペレータをリレーショナル演算の オペレータと組み合わせ,コンテンツ解析処理をリレー ショナルモデルのビューとして表現する.. 先行研究. 本研究に特に関連する 2 つの先行研究について述べ る.Zheng らの研究 [1] では,コンテンツ解析を伴う分 析処理の Lineage とは単にどの入力データが分析結果 に貢献したかという情報(Derivation)だけでなく,抽 出・利用されたデータが入力データのどの部分であるか という情報(Location Specifier)もまた必要であるこ とに言及した.Zheng らは分析処理をリレーショナル 演算に UDF を加えることでモデル化し,Derivation と Location Specifier を組み合わせたものを Lineage とし て計算する仕組みを提案した.この手法では Lineage 計算は分析処理自体と同時に行うため,最初に Lineage Traceability for big data processing including contents analysis Masaya Yamada† Toshiyuki Amagasa†† and Hiroyuki Kitagawa†† † College of Information Science, University of Tsukuba †† Center for Computational Sciences, University of Tsukuba. ビューを構成するオペレータ ビュー V はリレーショナル演算の 6 つのオペレー タ(Projection, Selection, Join, Aggregation, Union, Difference)と,コンテンツ解析を UDF を用いてモデル 化するオペレータ Function(ϕ)で構成する.Function オペレータは,元のタプルに UDF の処理結果(Value) と処理結果が元データのどの部分から導出されたかと いう情報(Locator)の 2 つの属性を追加するオペレー タであるとする.Function オペレータの定義を以下に 示す. 定義 (Function オペレータ). タプル t ∈ V の属性 E を入力としてコンテンツ解析を行う UDF udf (t.E) の 処理結果の Value を udf (t.E).V alue と表記し,その Locator を udf (t.E).Locator と表記すると,Function オペレータは以下の処理を行う.. 1-371. udf : Domain(E) → 2V alue×Locator. Copyright 2020 Information Processing Society of Japan. All Rights Reserved..

(2) 情報処理学会第 82 回全国大会. ϕudf (E) (V ) = {⟨t, v, l⟩ | t ∈ V, v udf (t.E).V alue, l ∈ udf (t.E).Locator}. 4. ∈. Lineage. 本稿における Lineage とは,1) どの入力タプルが出 力データに貢献しているかという情報(Derivation)と, 2) Derivation として計算されたタプルに含まれるコン テンツデータのどの部分が解析処理で使われたかとい う情報(Locator)の 2 つを組み合わせたものであると する.. 4.1 Derivation Derivation は処理の出力タプルがどの入力タプルに よって導出されたかという情報のことである.Derivation はタプルレベルで計算することができ,タプル t が 導出された処理の入力テーブルを t の Derivation とし て導出されたタプル集合に置き換えて処理を再実行する とタプル t が再生成されるという特徴がある.. 4.2 Locator Locator は,コンテンツ解析処理において入力として 与えたコンテンツデータのどの部分を用いて解析処理を 行ったかを示すデータであり,引数に与えるデータや解 析処理の内容によって異なるものである.Locator は, 解析処理をモデル化した Function オペレータによって のみ導出されるとする. 例えば,分析対象のデータが画像であるときには UDF が画像のどの領域を用いたかを示す bounding box が Locator になる.. 5. 表 1 UDF 適用直後のビュー. 分析フローの例. シ ナ リ オ (想 定 す る 分 析 処 理). コ ン テ ン ツ に 対 す る 分 析 処 理 と し て ,様 々 な 場 所 で 撮 ら れ た 画 像 の 中 か ら 地 域 A で 撮 ら れ た 画 像 に 注 目 し ,そ の 画 像 に映っている人物を特定する処理を行うことを想 定 す る. そ れ ぞ れ の 画 像 に は そ の 画 像 が ど の 地 域で撮られたものかを示すメタデータが記録され て お り ,そ れ ら は リ レ ー シ ョ ン R(ID, Img),S(ID, Region) を 用 い て R{⟨001, I1 ⟩, ⟨002, I2 ⟩, ⟨003, I3 ⟩}, S{⟨001, A⟩, ⟨002, B⟩, ⟨003, A⟩} のように表現されてい るとする. ID は画像に対して一意に割り振られた値で あり,R.Img の Ii (i = 1..3) には画像のバイナリデータ が保存されているとする. 上記に述べた分析処理は,R,S を用いて 1)R と S を ID に基づいて Join し,2)S.Region に基づき Selection を行い,3) 得られたビューの R.Img に対して画像から 顔認識を行う UDF を実行する Function オぺレータを 適用し,4) 属性 Name のみを Projection で選択するこ. Img. Region. Name. Locator. 001. I1. A. Alice. {x1 , y1 , w1 , h1 }. 003. I3. A. Bob. {x3 , y3 , w3 , h3 }. とで実現することができる.. Lineage 計算の例. シナリオで示した処理フローの結 果として T {⟨Alice⟩, ⟨Bob⟩} を得られたとする.そのと き T に含まれるタプル t = ⟨Bob⟩ の Lineage を計算す ることを考える.Lineage 計算は 2 つの段階を経て行わ れる. まずはじめにタプル t の Derivation の計算を行う. Derivation は 4.1 節で説明した通り,出力タプルがど の入力タプルによって導出されたかという情報であ るから,この例においてタプル t の Derivation R∗ ⊆ R, S ∗ ⊆ S は R∗ {⟨003, I3 ⟩}, S ∗ {⟨003, B⟩} である. 次 に ,Derivation と し て 計 算 さ れ た 各 タ プ ル に 対 し て 対 応 す る Locator を 付 加 す る .画 像 分 析 を モ デ ル 化 し た Function オ ペ レ ー タ は 画 像 が 含 ま れ る タ プ ル に 対 し て ,画 像 か ら 認 識 さ れ た 人 の 名 前 と そ れ が 画 像 の ど こ に 写 っ て い た か を 示 す bounding box を 付 加 す る 処 理 を 行 う .先 の シ ナ リ オ に お け る Function オ ペ レ ー タ の 実 行 直 後 の ビ ュ ー を 表 1 に 示 す .こ の と き Derivation と Locator を 組 ∗ み 合 わ せ て ,Lineage は Rlin (ID, Img, Locator) = ∗ {⟨003, I3 , {x3 , y3 , w3 , h3 }⟩}, Slin (ID, Region, Locator) = {⟨003, A, Ø⟩} のようになる.. 6. 画像分析ワークフローを例にとってどのように Lineage が計算されるかを以下に示す.. ID. まとめ. 本稿では,コンテンツ解析処理を行うワークフローに 対する Lineage 計算を可能にするため,Cui らが提案し た枠組み [2] を拡張する方針で Lineage 計算の枠組みを 提案した.今後は実験を通して Lineage 計算の計算コ ストの評価等を行う予定である.. 謝辞 本研究の一部は JSPS 科研費 JP19H04114 の助成を 受けたものである.. 参考文献 [1] Nan Zheng, Abdussalam Alawini, and Zachary G Ives. Fine-grained provenance for matching & etl. In 2019 IEEE 35th International Conference on Data Engineering (ICDE), pages 184–195. IEEE, 2019. [2] Yingwei Cui, Jennifer Widom, and Janet L Wiener. Tracing the lineage of view data in a warehousing environment. ACM Transactions on Database Systems (TODS), 25(2):179–227, 2000.. 1-372. Copyright 2020 Information Processing Society of Japan. All Rights Reserved..

(3)

参照

関連したドキュメント

そこで本研究では, 都市下水処理UASB 槽内に生息する嫌気 性原生動物 Metopus sp.体内の共生微生物叢を明らかにする ため, 16S rRNA 遺伝子に基づく遺伝子解析及び

本研究では,繰り返し衝撃荷重載荷時における実規模 RC

2 解析手法 2.1 解析手法の概要 本研究で用いる個別要素法は計算負担が大きく,山

そのため本研究では,数理的解析手法の一つである サポートベクタマシン 2) (Support Vector

研究開発活動の状況につきましては、新型コロナウイルス感染症に対する治療薬、ワクチンの研究開発を最優先で

This paper considers a possibility of decision whether the robot hand is having a correct work or not by using the analysis of the mechanical vibration of robot that is doing

このように,先行研究において日・中両母語話

名の下に、アプリオリとアポステリオリの対を分析性と綜合性の対に解消しようとする論理実証主義の