• 検索結果がありません。

IUGONET システムの進捗と今後 阿部修司 [1], 梅村宜生 [2], 小山幸伸 [3], 堀智昭 [2], 谷田貝亜紀代 [4], 新堀淳樹 [4], 田中良昌 [5], 上野悟 [6], 金田直樹 [6], 八木学 [7], 佐藤由佳 [5], IUGONET プロジェクトチーム (Spa

N/A
N/A
Protected

Academic year: 2021

シェア "IUGONET システムの進捗と今後 阿部修司 [1], 梅村宜生 [2], 小山幸伸 [3], 堀智昭 [2], 谷田貝亜紀代 [4], 新堀淳樹 [4], 田中良昌 [5], 上野悟 [6], 金田直樹 [6], 八木学 [7], 佐藤由佳 [5], IUGONET プロジェクトチーム (Spa"

Copied!
24
0
0

読み込み中.... (全文を見る)

全文

(1)

九州大学学術情報リポジトリ

Kyushu University Institutional Repository

IUGONETシステムの進捗と今後 阿部, 修司 九州大学国際宇宙天気科学・教育センター 梅村, 宜生 名古屋大学太陽地球環境研究所 小山, 幸伸 京都大学大学院理学研究科附属地磁気世界資料解析センター 堀, 智昭 名古屋大学太陽地球環境研究所 他 http://hdl.handle.net/2324/26098 出版情報:2013-02-28 バージョン:accepted 権利関係:

(2)

IUGONETシステムの進捗と今後

阿部修司[1], 梅村宜生[2], 小山幸伸[3], 堀智昭[2], 谷田貝亜紀代[4], 新堀淳樹[4], 田 中良昌[5], 上野悟[6], 金田直樹[6],

八木学[7], 佐藤由佳[5], IUGONETプロジェクトチーム

(Spatial Thanks to Dr. Hiroo Hayashi, a former director of IUGONET developer team) [1] 九州大・国際宇宙天気科学・教育センター、[2] 名古屋大・太陽地球環境研究所、

[3] 京都大・理・地磁気センター、[4] 京都大・生存圏研究所、 [5] 国立極地研究所、[6] 京都大・理・附属天文台、

(3)

IUGONET機関の所有する観測機器

MSTレーダー MF / 流星 レーダー ◆ MAGDAS/ 地磁気観測 FM-CW レーダー OMTI光学観測 ● WDC/地磁気観測所 昭和基地 SuperDARNレーダー2台 MFレーダー オーロラ観測 地磁気多点観測点網 信楽MU 観測所 トロムソ ISレーダー 流星レーダー MFレーダー ★ ★ ★ アイスランド オーロラ観測(2点) 地磁気観測(3点) 北海道HFレー ダー(探査範囲) 飯舘・女川観測所 赤道大気レーダー(EAR) スバールバル: ISレーダー、 流星レーダー、オーロラ観測 SuperDARNレーダー 太陽望遠鏡

(4)

多種多様なデータを利用する際の問題点

• 自分の専門のデータ(例えば地磁気指数)はうまく使 えるが、種類の違うデータ(例えば太陽撮像データ) を同時に使うための各情報を入手することが難しく、 総合解析になかなか結びつかない • 他の分野のデータに関する情報がなかなか得られ ないストレス • このような問題を解決する手段として、IUGONETは 観測データのメタデータを共有するシステムと統合 解析ツールを開発 • 本講演では、前者の観測データのメタデータ・データ ベース(IUGONET MDB)について紹介する

(5)

メタデータ・データベースの利用

• メタデータ・・・観測データそのものでは無く、 観測データに付帯した情報 e.g. 観測開始終了時刻、観測場所、 観測データの所在情報 → メタデータを介して 観測データへアクセス • メタデータ・データベース・・・メタデータを集めて 検索可能にしたもの 様々な研究機関にある観測データのメタデータを、 1クエリーで検索可能 (いつ、どこで、どの物理量が同時観測されたのか?) DB info

(6)

IUGONETが開発しているメタデータDB

• フリーソフトウェアDSpaceをベースに構築 – http://www.dspace.org/ – 学術機関リポジトリで広く使用されているため、情報の入手が容易 – 少々のカスタマイズ(JSP、Servlet)でIUGONETメタデータを利用可能 – 採用しているメタデータのベースはSPASE(http://www.spase-group.org/) – Dspaceでは直接XMLを扱えないため、フォーマット変換して格納(プログ ラムをIUGONETにて作成=g2d) • 2012年3月より運用中 – β版公開時(2011年5月)はサーバ1台のみ(iugonet1.stelab)の運用 – 2012年1月にメインサーバを移行(iugonet7.serc)。 – 旧メインサーバはサブとして使用し、現在、メインサブ2台の冗長体制 – 2013年1月にiugonet7.serc.にトラブルがあったが、上記体制によりサー ビスを継続することができた

(7)

現在のIUGONET MDB Look&Feel

登録メタデータテーブル

(8)

登録メタデータテーブル

http://www.iugonet.org/ en/mdblist.html 登録されているメタデー タ一覧を各機関毎に テーブル化したもの。 IUGONET MDBでの Resouce ID検索結果へ のリンクも張られている 現在は手動作成だが、 将来的には自動生成を おこなう

(9)

OpenSearch

OpenSearch:検索結果 を他のサイトから自由に 利用できるようにするた めの仕組み UDAS(IUGONETが提供 する解析ソフトウェア)と の連携や、検索結果を 他から利用する拡張に 利用できる OpenSearch仕様は http://www.iugonet.org/ opensearch.html http://search.iugonet.org/iugonet/open-search/request?query=nipr_1sec_fmag_syo_&ts= 2010-01-01&te=2010-01-05&Granule=granule OpenSearchの結果 (ブラウザでの結果表示)

(10)

MDBへのアクセス解析

Visitorsによるログ解析の一部を示す。アクセス数は順調に増加し

ている。また。日本時間帯のweekday, working time 時のアクセスが 主となっている。

(11)

連想検索への取り組み

・専門分野外のメタデータ検索をする場合、検索語句の選択が困難 ・専門に近い分野であっても、正しく検索語句を選べるとは限らない =メタデータに記載されている語句でなければヒットしない 等の解決に役立つ 「Substorm」 を検索してみよう IUGONET MDB メタデータヒットなし GETAssoc 国立情報学研究所で 開発された連想検索システム GETAssoc の導入を検討 検索語句そのものがヒットしなくても、 関連する用語を検索語句候補として 表示することができる。 Substorm CME, AE, Ionosphere… 関連用語は

(12)

連想検索への取り組み

連想検索については以下のワークショップにて講演予定です 第5回データ工学と情報マネジメントに関するフォーラム (第11回日本データベース学会年次大会) 2013年3月3日(日)~3月5日(火) 福島県郡山市磐梯熱海 ホテル華の湯 A10:マルチメディアと情報統合 (PhDセッション) 3月5日(火) 10:00~11:30 連想検索エンジンGETAssocの超高層物理学におけるメタデータ・データベースへの適用 どのような用語が連想されるのかは、連想検索システムに登録している辞書次第 Googleスプレッドシートで管理した語句テーブルを辞書ファイルに変換するしくみを 開発→辞書の共有、複数人による辞書作成 Google Spreadsheet 語句テーブルのダウンロード 辞書ファイルへの変換 Aurora辞書ファイル(.itb)

(13)

既存システムにおける問題点

• 現在のメタデータ登録総数は約800万件=中間報

告会から

約2倍

– パフォーマンスの問題=登録から検索できるようにな るまでに非常に時間がかかる。メタデータの置き換え、 削除処理を入れると所要時間が倍増する – 現行のメタデータ登録プログラム(g2d)の諸問題(e.g., 登録失敗時の明確な手戻り手段・多重登録の確認 手段がない、など) – 単一マシンでの運用限界=例えば、ベースになってい る検索エンジン(Apache Lucene)において、1000万件 を超えると検索パフォーマンスが急激に低下する恐 れがある

などの問題が見えてきた

(14)

MDB運用を助けるIUGONETツール

• md_checker:各機関の作成したメタデータが所定 の書式に従って記載されているかをチェックする ツール。エラーを発見した場合は各機関担当者へ メールが送信される。 • brokenlinkchecker:登録したメタデータに記載され ている外部へのURLリンクと、外部機関の実データ とが、正しく接続されているかを確認するツール。 いわゆる「デッドリンク」を検出し、ユーザーがデー タへ正しく到着できる手助けをする。 • g2d:各機関のメタデータを保存しているgitリポジト リからMDBへメタデータをインポートするツール。1 日に1回メタデータ更新が行われている。

(15)

IUGONET MDB パフォーマンステスト

左グラフは、メタデータ総数 に対する処理時間を示す PostgreSQL への登録時間 は、メタデータの蓄積件数 に関わらず、ほぼ一定 index-update の処理時間は、 メタデータの蓄積件数に対 して、比例的に増加 メタデータ総数が500万を超 えると、index-updateにかか る時間が1日を越す ※ replaceが発生する場合は更なる処理時間を 要する

(16)

IUGONET MDB パフォーマンステスト

左グラフは、メタデータ総登 録数に対する必要メモリ量 下限値の実績と予測を示す メモリが足りない場合、 index-updateにおいてHeap メモリの不足エラーが発生 する→PostgreSQLに登録は されるが、MDB上の検索で は出てこない 現在、IUGONET MDB上の dspaceに割り当てられてい るメモリは12GB

(17)

IUGONET MDB パフォーマンステスト

右グラフは、メタデータ総数 に対するgit処理時間を示す リモートリポジトリとの同期 にかかる時間はほとんど一 定 ローカルリポジトリへの登録 にかかる時間は総登録数 にほぼ比例 頻度は小さいが時折実行 時間が数倍長い時がある

(18)

現MDBの予想されうる今後

IUGONET MDB メタデータ 200万件登録 メタデータ 100万件登録 メタデータ 800万件登録 運用に大きな 支障!! メタデータを登録しても MDBに反映されるまでに 時間がかかる 検索クエリ 検索結果を返す 遅い。。。 メタデータ検索に時間が かかる

(19)

対応策1:メタデータ登録プログラム改修

• 既存IUGONETツールの改良

– md_checker • 前回からの登録差分のみチェックするように改良 – g2d • メタデータのReplaceにおけるロジック改良 • ベーススクリプト言語(ruby)の新バージョン対応 • バックアップスクリプトの実装

• 新g2d(git2dspace)の開発

– 上記だけでは解決できない問題に対応 – 現在の開発状況=80% • メインルーチン完成 • 単体テスト、 Dspaceとの結合テスト実施中 – 管理機能を追加し、来年度リリース予定

(20)

対応策2: MDBの分散化

IUGONET MDB FRONTEND IUGONET MDB IUGONET MDB IUGONET MDBs OpenSearch 検索 OpenSearch 検索 OpenSearch 検索 検索クエリ 各サーバの結果 をマージして返す 良いね! IUGONET MDBを分散して 負荷を下げる ユーザーは全サーバの 情報を検索可能

(21)

対応策2: MDBの分散化

• MDBを分散化することにより、現在のシステムを

大きく変更することなく、大幅なパフォーマンス

アップ

が可能

• 検索システムの分散化は

大規模システムでは

一般的

に行われている

– 例えば、Googleでは1クエリに対し数千台のマシンで 処理が行われている

• OpenSearchにより、メタデータのハーベスティン

グなしに

複数サーバの検索結果を表示可能

– 横断検索サーチエンジンの例:国立国会図書館サー チ(NDL Search) – 他プロジェクトとのメタデータ交換が容易に

(22)

IUGONET Project Schematics

(23)

IUGONETシステムを試してみたい方へ

Github(https://github .com/iugonet)にて、 build.xml(システム の構築方法を記述し たファイル)を準備し ている 誰でも手軽に IUGONETシステムを インストールすること が可能 使用された方は フィードバックを頂け ると助かります build.xml IUGONET SYSTEM 1. Java 2. ant 3. build.xml

(24)

まとめ

• 昨年度公開されたメタデータ・データベース、及び各

種ツールは順調に運用を続けている

• 連想検索システムの導入について検討し、

GETAssocを用いたIUGONET MDBへの応用が形に

なってきた

• 他方で、メタデータ数の劇的な増加により、登録時

のパフォーマンス、単一マシンによる今後の運用に

問題が見受けられるようになった

• 上記問題の解決のため、メタデータ登録ソフトウェア

の大幅な改良、MDBの分散化などを実施する

• 今後もより良いシステムの構築・提供を進めていく

参照

関連したドキュメント

定性分析のみ 1 検体あたり約 3~6 万円 定性及び定量分析 1 検体あたり約 4~10 万円

佐和田 金井 新穂 畑野 真野 小木 羽茂

古安田層 ・炉心孔の PS 検層結果に基づく平均値 西山層 ・炉心孔の PS 検層結果に基づく平均値 椎谷層 ・炉心孔の

2 号機の RCIC の直流電源喪失時の挙動に関する課題、 2 号機-1 及び 2 号機-2 について検討を実施した。 (添付資料 2-4 参照). その結果、

★西村圭織 出生率低下の要因分析とその対策 学生結婚 によるシュミレーション. ★田代沙季

*ショートステイ事業として、 「新宿区 0~12 歳・乳児院は 0~6、協力家庭が 0~12」4 名枠、 「中央区・墨田区 0~2 歳」各 1 名枠、 「千代田区・文京区 0~6 歳」各

田中 至道 1) 、谷山 洋三 2) 、隠 一哉 1) 、野々目 月泉 1) 、沼口 諭