コンテンツ解析を含む大規模データ分析処理に対するトレーサビリティ
2
0
0
全文
(2) 情報処理学会第 82 回全国大会. ϕudf (E) (V ) = {⟨t, v, l⟩ | t ∈ V, v udf (t.E).V alue, l ∈ udf (t.E).Locator}. 4. ∈. Lineage. 本稿における Lineage とは,1) どの入力タプルが出 力データに貢献しているかという情報(Derivation)と, 2) Derivation として計算されたタプルに含まれるコン テンツデータのどの部分が解析処理で使われたかとい う情報(Locator)の 2 つを組み合わせたものであると する.. 4.1 Derivation Derivation は処理の出力タプルがどの入力タプルに よって導出されたかという情報のことである.Derivation はタプルレベルで計算することができ,タプル t が 導出された処理の入力テーブルを t の Derivation とし て導出されたタプル集合に置き換えて処理を再実行する とタプル t が再生成されるという特徴がある.. 4.2 Locator Locator は,コンテンツ解析処理において入力として 与えたコンテンツデータのどの部分を用いて解析処理を 行ったかを示すデータであり,引数に与えるデータや解 析処理の内容によって異なるものである.Locator は, 解析処理をモデル化した Function オペレータによって のみ導出されるとする. 例えば,分析対象のデータが画像であるときには UDF が画像のどの領域を用いたかを示す bounding box が Locator になる.. 5. 表 1 UDF 適用直後のビュー. 分析フローの例. シ ナ リ オ (想 定 す る 分 析 処 理). コ ン テ ン ツ に 対 す る 分 析 処 理 と し て ,様 々 な 場 所 で 撮 ら れ た 画 像 の 中 か ら 地 域 A で 撮 ら れ た 画 像 に 注 目 し ,そ の 画 像 に映っている人物を特定する処理を行うことを想 定 す る. そ れ ぞ れ の 画 像 に は そ の 画 像 が ど の 地 域で撮られたものかを示すメタデータが記録され て お り ,そ れ ら は リ レ ー シ ョ ン R(ID, Img),S(ID, Region) を 用 い て R{⟨001, I1 ⟩, ⟨002, I2 ⟩, ⟨003, I3 ⟩}, S{⟨001, A⟩, ⟨002, B⟩, ⟨003, A⟩} のように表現されてい るとする. ID は画像に対して一意に割り振られた値で あり,R.Img の Ii (i = 1..3) には画像のバイナリデータ が保存されているとする. 上記に述べた分析処理は,R,S を用いて 1)R と S を ID に基づいて Join し,2)S.Region に基づき Selection を行い,3) 得られたビューの R.Img に対して画像から 顔認識を行う UDF を実行する Function オぺレータを 適用し,4) 属性 Name のみを Projection で選択するこ. Img. Region. Name. Locator. 001. I1. A. Alice. {x1 , y1 , w1 , h1 }. 003. I3. A. Bob. {x3 , y3 , w3 , h3 }. とで実現することができる.. Lineage 計算の例. シナリオで示した処理フローの結 果として T {⟨Alice⟩, ⟨Bob⟩} を得られたとする.そのと き T に含まれるタプル t = ⟨Bob⟩ の Lineage を計算す ることを考える.Lineage 計算は 2 つの段階を経て行わ れる. まずはじめにタプル t の Derivation の計算を行う. Derivation は 4.1 節で説明した通り,出力タプルがど の入力タプルによって導出されたかという情報であ るから,この例においてタプル t の Derivation R∗ ⊆ R, S ∗ ⊆ S は R∗ {⟨003, I3 ⟩}, S ∗ {⟨003, B⟩} である. 次 に ,Derivation と し て 計 算 さ れ た 各 タ プ ル に 対 し て 対 応 す る Locator を 付 加 す る .画 像 分 析 を モ デ ル 化 し た Function オ ペ レ ー タ は 画 像 が 含 ま れ る タ プ ル に 対 し て ,画 像 か ら 認 識 さ れ た 人 の 名 前 と そ れ が 画 像 の ど こ に 写 っ て い た か を 示 す bounding box を 付 加 す る 処 理 を 行 う .先 の シ ナ リ オ に お け る Function オ ペ レ ー タ の 実 行 直 後 の ビ ュ ー を 表 1 に 示 す .こ の と き Derivation と Locator を 組 ∗ み 合 わ せ て ,Lineage は Rlin (ID, Img, Locator) = ∗ {⟨003, I3 , {x3 , y3 , w3 , h3 }⟩}, Slin (ID, Region, Locator) = {⟨003, A, Ø⟩} のようになる.. 6. 画像分析ワークフローを例にとってどのように Lineage が計算されるかを以下に示す.. ID. まとめ. 本稿では,コンテンツ解析処理を行うワークフローに 対する Lineage 計算を可能にするため,Cui らが提案し た枠組み [2] を拡張する方針で Lineage 計算の枠組みを 提案した.今後は実験を通して Lineage 計算の計算コ ストの評価等を行う予定である.. 謝辞 本研究の一部は JSPS 科研費 JP19H04114 の助成を 受けたものである.. 参考文献 [1] Nan Zheng, Abdussalam Alawini, and Zachary G Ives. Fine-grained provenance for matching & etl. In 2019 IEEE 35th International Conference on Data Engineering (ICDE), pages 184–195. IEEE, 2019. [2] Yingwei Cui, Jennifer Widom, and Janet L Wiener. Tracing the lineage of view data in a warehousing environment. ACM Transactions on Database Systems (TODS), 25(2):179–227, 2000.. 1-372. Copyright 2020 Information Processing Society of Japan. All Rights Reserved..
(3)
関連したドキュメント
そこで本研究では, 都市下水処理UASB 槽内に生息する嫌気 性原生動物 Metopus sp.体内の共生微生物叢を明らかにする ため, 16S rRNA 遺伝子に基づく遺伝子解析及び
本研究では,繰り返し衝撃荷重載荷時における実規模 RC
2 解析手法 2.1 解析手法の概要 本研究で用いる個別要素法は計算負担が大きく,山
そのため本研究では,数理的解析手法の一つである サポートベクタマシン 2) (Support Vector
研究開発活動の状況につきましては、新型コロナウイルス感染症に対する治療薬、ワクチンの研究開発を最優先で
This paper considers a possibility of decision whether the robot hand is having a correct work or not by using the analysis of the mechanical vibration of robot that is doing
このように,先行研究において日・中両母語話
名の下に、アプリオリとアポステリオリの対を分析性と綜合性の対に解消しようとする論理実証主義の