• 検索結果がありません。

大澤 戸津 2 22 要旨 Darwin Core/Darwin Core Archive は 生物多様性情報を記述する国際的な標準データフォーマットである しかし これはもともと標本を記述することを目的に作成

N/A
N/A
Protected

Academic year: 2021

シェア "大澤 戸津 2 22 要旨 Darwin Core/Darwin Core Archive は 生物多様性情報を記述する国際的な標準データフォーマットである しかし これはもともと標本を記述することを目的に作成"

Copied!
32
0
0

読み込み中.... (全文を見る)

全文

(1)

表題:生物多様性情報の標準データフォーマット Darwin Core Archive と生態学デー 1

タに適合させる拡張形式 "Sample-based Data" 2

英語表題:Darwin Core Archive, the standard data format for biodiversity information and 3

its extension for ecological data "Sample-based Data" 4

簡略表題:生態学データ向け Darwin Core Archive 5

簡略表題英語:Darwin Core Archive for ecology data 6 7 著者:大澤 剛士1,3*, 戸津 久美子2,3 8 所属:1. 国立研究開発法人 農業・食品産業技術総合研究機構 農業環境変動研究 9 センター / 2. 国立研究開発法人 国立環境研究所 / 3. GBIF 日本ノード JBIF 10

Affiliations:1. Institute for Agro-Environmental Sciences, NARO / 2. National Institute 11

for Environmental Studies / 3. Japan Node of Global Biodiversity Information Facility 12 13 *連絡対応者 14 住所:〒305-8604 茨城県つくば市観音台 3-1-3 国立研究開発法人 農業・食品産 15 業技術総合研究機構 農業環境変動研究センター 16

Address: Institute for Agro-Environmental Sciences, NARO, 3-1-3, Kannondai, Tsukuba, 17

Ibaraki, Japan, 305-8604 18

Phone: 029-838-8148 / FAX: 029-838-8199 / e-mail: arosawa@gmail.com 19

原稿の区分:総説・解説 総ページ数 23, 図 4 枚, 表 4 枚 20

(2)

要 旨 22

23

Darwin Core/Darwin Core Archive は、生物多様性情報を記述する国際的な 24 標準データフォーマットである。しかし、これはもともと標本を記述することを目 25 的に作成されたため、記述するデータの単位が基本的に個体の在データのみの形式 26 となっており、在/不在データやトラップ調査によって得られる多種多数の個体デ 27 ータ等、生態学でしばしば用いられる形式に適合しにくいという欠点があった。こ 28

の状況に対し、2015 年、Darwin Core の改良を担う Biodiversity Information 29

Standards: BIS (Taxonomic Databases Working Group: TDWG ともよばれる)よ 30

り、Darwin Core を生態学データに適合させる新形式「Sample-based Data: SB Data」 31

が公表された。SB Data は、様々な生態学データを標準化し、共有および横断利用

32

を促進させる可能性があるデータ形式として、The Group on Earth Observations

33

:GEO-BON 等の国際生態系観測コミュニティにおいても期待されている。本稿は、

34

Darwin Core の基本的な情報ならびに、Darwin Core の新しい形式である SB Data 35 の解説を行うことで、日本における生物多様性データの共有、横断利用推進の一助 36 にすることを目的とする。 37 38 キーワード:生物多様性情報学、データペーパー、標準化、GBIF、JBIF 39 40 41

(3)

Abstract 42

43

Darwin Core/Darwin Core Archive is a standard data format for biodiversity information. 44

However, Darwin Core has supported presence-only datagenerally, it was difficult to 45

adapt several types of ecological data such as presence/absence data and monitoring data. 46

In 2015, Biodiversity Information Standards: BIS (Taxonomic Databases Working Group: 47

TDWG) which is responsible for maintaining Darwin Core released a new type of 48

information to be handled in Darwin Core called “Sample-based Data” for adapting 49

quantitative information particularly ecological monitoring and assessment data. 50

Sample-based Data has a high potential to facilitate data sharing and integration which is 51

one of the goals for several biodiversity related community such as The Group on Earth 52

Observations:GEO BON. In this article we describe detail information of both Darwin 53

Core and Sample-based Data for facilitating biodiversity data sharing and integration in 54

Japan. 55

56

Key words: biodiversity informatics, data standardization, data paper, GBIF,s JBIF 57

58 59

(4)

はじめに 60 61 生物多様性の保全や持続的な利用の実現が社会的な課題になるに伴い、生物 62 多様性に関するデータベース構築の重要性が急激に高まっている(大澤 2017)。 63

生物多様性情報に関する国際的取り組みである Global Biodiversity Information 64 Facility: GBIF は生物多様性条約: CBD、生物多様性及び生態系サービスに関する科 65 学-政策間プラットフォーム: IPBES 等との連携を明言しているし 66 (http://www.gbif.org/using-data/policy-relevance 2017 年 4 月 1 日確認)、2014 年に 67 公表された生物多様性概況GBO4 も、基盤データ整備を進める必要性について言 68

及している (Secretariat of the Convention on Biological Diversity 2014)。日本に 69

おいても近年、GBIF の国内活動拠点であるGBIF 日本ノード(JBIF)を中心に、

70 この問題を解消するために様々な取り組みやアイディアが活発に議論されるよう 71 になった(例えば大澤ほか 2016; 大澤 2017)。 72 生物多様性情報に限らず、散在するデータを一元化し、利用しやすい形にす 73 る一つの方法として、共通のデータフォーマットを利用することが挙げられる 74 (Baker et al. 2013; 大澤・神保 2013)。独立したシステムに散在したデータであ 75 っても、共通データフォーマットで記述されていれば、その統合は比較的容易であ 76 る。よって、標準データフォーマットを定め、それを普及することは、データの利 77 用性向上やデータベースの横断利用を実現させる上で極めて有効な手段である。生 78 物多様性情報を記述するデータフォーマットについては、Biodiversity 79

Information Standard: BIS (Taxonomic Databases Working Group: TDWG と 80

(5)

もよばれる)によって提案されている Darwin Core を一つの標準形式として挙げ 81

ることができる(三橋 2010; 大澤ほか 2011; 大澤・神保 2013; Backer et al. 82

2013; Wieczorek et al. 2012)。Darwin Core は GBIF をはじめ、海洋における生 83

物情報を集積する国際プロジェクトである Ocean Biogeographic Information 84

System: OBIS(De Porter et al. 2017; http://www.iobis.org/ 2017 年 4 月 1 日確認)、 85 日本の生物多様性センター(http://www.biodic.go.jp/ 2017 年 4 月 1 日確認)等、 86 国内外の様々なプロジェクトや機関で扱う生物多様性データベースにおいて採用 87 されるようになっており、既に国際的にも標準形式として受け入れられていると言 88 ってよい。 89 Darwin Core は、もともと標本情報の記述を目的に提案されたフォーマット 90 である。このため、個体を単位としたデータの記述には適合性が高い反面、決めら 91 れた手法で継続的に観測を行い、観測単位が必ずしも生物個体ではないモニタリン 92 グ調査においては、データの記述が困難である場合が多い。例えば、木本の胸高直 93 径等を計測する毎木調査、植物が地表面を覆っている割合を記録する植生調査、コ 94 ドラートを利用した底生動物の定量調査等、個体を単位にデータを記述することが 95 困難な場合や、個体数が膨大で桁等のオーダーしか記述できない場合が多々ある。 96 これらの調査データであっても、個体を単位とするデータに加工することは不可能 97 ではないが、そのためには少なくない労力が必要とされる。さらに、個体を単位に 98 したデータであっても、Darwin Core で扱えるのは「在」データのみであり、生態 99 学においてしばしば利用される在/不在データを記述することができないという 100 問題もあった。 101

(6)

生態学データは形式が非常に様々であるため、データフォーマットの標準化 102

が困難であることは古くから認識されてきた。この状況に対し、国際長期生態学研 103

究ネットワーク International Long Term Ecological Research: ILTER では、データ 104

フォーマットの厳密な標準化は行わず、そのデータ自体の説明、例えば収集方法、 105

目的等のメタデータを記述するフォーマットのみ標準化することを提案している 106

(Blankman and McGann 2003; Fegraus et al. 2005)。生態学におけるメタデー 107

タの標準形式である Ecological Metadata Language: EML(Blankman & 108

McGann 2003 ; Fegraus et al. 2005)は、その拡張性の高さから長期生態学研究ネ 109 ットワーク: LTER を中心に広く利用されるようになった。とはいうものの、拡張 110 性と自由度が高いがために、逆に記述方法が多様化してしまうという面もある。そ 111 の結果として、メタデータを見た利用者が同質のデータを判断できない場合も少な 112 からず存在し、データの統合等は必ずしも推進されず、あくまで必要なデータセッ 113 トを検索するためのツールとして使われているのが現状である(これに対して多言 114 語に対応した共通語彙を整備し、横断的な利用を実現しようとする取り組みもある 115 Vanderbilt et al. 2017)。 116 Darwin Core は個体を単位としたデータ形式として標準化されているが、そ 117

れ単体ではメタデータを記述することができない。そこで、Darwin Core と EML

118 を組み合わせ、生物多様性データとメタデータを一体化させた Darwin Core 119 Archive という形式が提案されている(GBIF 2010; 2011; 図 1)。この採用によ 120 って GBIF ネットワーク上では、メタデータ標準形式によって効率的にデータを発 121 見し、標準データフォーマットによって他のデータとの統合が比較的容易に実施で 122 きるようになり、生物多様性データの利用性は大きく向上した。しかし、これはあ 123

(7)

くまで個体を単位としたデータに限定され、モニタリングデータ等への利用性、適 124

合性の課題については解決できていない。 125

2015 年、Darwin Core の改良に取り組んでいる BIS/TDWG から、Darwin 126 Core をモニタリングデータ等に適用させるための新しい拡張形式「Sample-based 127 Data」(以降 SB Data と表記)が提案された 128 (http://www.gbif.org/newsroom/news/sample-based-data 2017 年 4 月 1 日確認)。 129 これはDarwin Core を拡張させる形式の一つとして提案されたもので、個体を単 130 位とした標準データフォーマットであるDarwin Core の性質は維持しつつ、個体 131 を単位としないモニタリングデータ等についても、サンプリング方法を明確にする 132 ことで記述できるように整備した新フォーマットである。本拡張により、Darwin 133 Core には様々な生態学データを広く共有し、利用性を向上させる新たな可能性が 134

付与された。SB Data が普及すれば、生態学者に加え、Group on Earth

135

Observations Biodiversity Observation Network: GEO-BON 等の国際生態系観 136

測ネットワークとGBIF の連携も大きく進むと期待されている

137

(http://www.gbif.org/newsroom/news/sample-based-data 2017 年 4 月 1 日確認)。 138

本稿は、Darwin Core Archive、特に新しい拡張形式である SB Data 形式について

139 解説を行い、様々な生態学データを標準形式に再整理するための一助とすることを 140 目的とする。なお、国際標準であるDarwin Core は原則として英語で記述するも 141 のであるが、本稿では基本的に日本語での解説を行う。データをGBIF ネットワー 142 ク上に公開する際には英語化する必要があるが、読者の方々が手持ちのデータを 143 Darwin Core で整理する場合には、もちろん日本語を利用することができる。日本 144 語で整理されたデータであっても、記述フォーマットに標準形式を利用していれば、 145

(8)

GBIF から取得できるデータとの一元化も比較的容易であるし、日本語を英語に変 146

換するだけで GBIF ネットワーク上での公開も可能になるため、利用性は著しく向

147

上する。具体例として紹介するDarwin Core Archive データは Osawa(2013)な

148 らびに大澤・和田(2016)においてデータペーパーとして公表済みで、GBIF ネッ 149 トワークから再利用、再配布可能なオープンデータ(大澤ほか 2014)としてダウ 150 ンロードできるので、適宜参照していただきたい 151 (http://www.gbif.org/dataset/9dbb55ce-0b38-4468-9172-40c8481edd2a ; 152 http://www.gbif.org/dataset/2488cd13-4f80-479c-ae54-257de312054e 2017 年 4 153 月1 日確認)。 154 155

Darwin Core と Darwin Core Archive 156 157 はじめに Darwin Core そのものについて少し詳しく解説したい。このデー 158 タフォーマットは、もともと分類学における標本情報記述のために整備された語彙、 159

記述可能な項目を厳密に定義したものである(GBIF 2010)。Darwin Core は、生物

160

多様性情報分野の標準形式策定を担うコミュニティである BIS/TDWG によって現

161

在も改良が進められており、最新バージョンはTDWG の Web ページで確認できる

162

(http://rs.tdwg.org/dwc/ 2017 年 4 月 1 日確認)。Darwin Core には基本項目に 163 加え、多種多様な拡張項目(例えば遺伝子データ用、微生物データ用等が存在して 164 いる)が用意されており、生物多様性に関わる様々なデータ形式を記述することが 165 可能になっている。JBIF では基本項目について、旧バージョンも含めた項目の簡 166

(9)

単な解説と(http://www.gbif.jp/v2/datause/data_format/index.html 2017 年 4 月 167 1 日確認)、Darwin Core を適用したファイルを対象としたフォーマット適合テス 168 トサービス(http://www.gbif.jp/gbif_checker/ 2017 年 4 月 1 日確認)を提供して 169 いるので、個別の項目等についてはこちらのページを参照されたい。 170

Darwin Core Archive は、Darwin Core に従って記述された生物多様性デー 171 タと、EML で記述されたメタデータ、およびデータ項目の定義ファイルを組み合 172 わせ、zip 形式で圧縮したものである(GBIF 2010; 図 1)。例として筆者がデー 173 タペーパーを公表した上で(Osawa 2013)、GBIF から公開している植物の観察 174 データを参照する 175 (http://www.gbif.org/dataset/9dbb55ce-0b38-4468-9172-40c8481edd2a 2017 年 176

4 月 1 日確認)。URL の先に、”External Data”というリンクがあり、ここから zip

177

形式のファイル、すなわち Darwin Core Archive ファイルをダウンロードできる

178

(2017 年時点のページ構成であるため、今後ページ構成が変わる可能性があるが、

179

ページからDarwin Core Archive ファイルは確実に取得できる)。これを一般的

180 な圧縮解凍ソフトウェアで解凍すると、2 つの XML ファイル(eml.xml と 181 meta.xml)と 1 つのテキストファイル(occurrence.txt)という計 3 つのファイル 182 が含まれていることがわかる(図 1)。eml.xml は EML で記述されたメタデータ 183 で、EML を扱う専用ソフト Morpho 184 (https://knb.ecoinformatics.org/#tools/morpho 2017 年 4 月 1 日確認; 小川・藤原 185 2007)はじめ、多くのアプリケーションでテキストファイルとして開くことができ、 186 編集可能である。meta.xml はデータ項目の定義ファイル(どの項目が何を意味す 187 るのかを定めたもの)、occurrence.txt がデータ本体、すなわち生物の在データと 188 図1

(10)

なっている。つまり、meta.xml には、データ本体のヘッダが Darwin Core で定め 189

られた項目のどれに該当するかが記述されている。これらをまとめて zip 形式で圧

190

縮した状態を Darwin Core Archive と呼んでいる(図 1)。GBIF では Darwin Core 191 Archive をしばしばデータとその概要説明を一元化した形式として「データセット」 192 と称する。「データセット」とすることで、例えばある研究プロジェクトで収集さ 193 れたデータを検索する、ある研究グループが収集したデータのみを取得するといっ 194 た利便性が担保される(GBIF 2010; 2011)。さらに zip で圧縮することは、特別 195 なソフトウェアを利用しなくてもファイルサイズを小さくできるという利点もあ 196

る(GBIF 2010)。なお、Darwin Core Archive には生物多様性データ本体以外に

197

も、様々な拡張形式データを含めることも可能である(GBIG 2010; 2011; 図 1)。

198

メタデータを記述する EML は、自身で記述する項目を設定できる極めて柔

199

軟な形式であるが、Darwin Core Archive においては記述が必須である項目、推奨

200 される項目が GBIF メタデータプロファイルとして設定されているため、データの 201 整備者は迷わずメタデータを記述できる 202 (https://github.com/gbif/ipt/wiki/resourceMetadata 2017 年 4 月 1 日確認)。 203

Darwin Core Archive で記述が必須、あるいは推奨されているメタデータ項目およ 204

び概説を表1 に示す。この必須項目は、生物データに関するデータペーパーにメタ

205

データとして記述する項目、すなわち同様のデータを取得する際に最低限必要な情 206

報と考えると理解しやすい。実際、筆者らはDarwin Core Archives の内容をベー

207

スにメタデータを作成したデータペーパーを複数発表している(Osawa 2013;

208

Osawa et al. 2017; Voraphab et al. 2015; Fukasawa et al, 2016)。なお、メタデ 209

ータ項目についてはJBIF の web ページ上で日本語の解説および記述を補助するた

(11)

めの Excel ファイルも公開しているので、適宜ご利用いただきたい 211 (http://www.gbif.jp/v2/regist/index.html 2017 年 4 月 1 日確認)。 212 213 Darwin Core がサポートする生物多様性データの型とスタースキーマ 214 215 Darwin Core は、2017 年現在で 3 つの生物多様性データ型に対応している。 216 1 つ目は標本等、個体を単位としたいわゆる在データを記述する型、2 つ目は生物 217 の地域チェックリスト、例えばある地理的範囲におけるフロラリストやファウナリ 218 ストを作成するための型、3 つ目が本稿で主題とする、様々な生態学データに適合 219 できる型であるSB Data である。この 3 形式のどれに対応しているかを決めるの 220

が、Darwin Core の Core: コア形式である。 221

Darwin Core はコアを中心に、スタースキーマ(Star Schema)と呼ばれる星 222

型の形状で構成される(Backer et al. 2013; GBIF 2010; 図 2)。標本データを例 223 にすると、中心にあるコアファイルに標本の種名、採集地、採集日時等のラベル情 224 報が記述され、拡張ファイルにゲノム情報、標本画像、文献情報等の周辺情報が記 225 述されることになる。中心にあるコアファイルの型が、対応しているデータ形式を 226 特徴付ける最も重要な要素である(図2)。コアファイルには対応するデータ型そ 227 れぞれに対応した3 つの型があり、在データ形式を使う場合はオカレンス・コア 228

(Occurrence Core)を、分類学データを扱う場合にはタクソン・コア(Taxon Core)

229

を、生態学データ等の SB Data を扱う場合にはイベント・コア(Event Core)を

230

それぞれ利用する。具体的に形式の違いを説明すると、オカレンス・コアを選択し 231

図2 表1

(12)

た場合、個体そのものを単位としたデータになる。つまり、種 A が 5 個体、種 B 232 が10 個体いた場合には 15 レコードのデータとなる。タクソン・コアは、種を単位 233 としたデータを扱う。先の例と同じデータにタクソン・コアを選択した場合には、 234 種は A と B の 2 種のみであるため、レコード数は 2 になる。イベント・コアにつ 235 いては次項から詳しく説明するが、基本的には調査手法等を記述し、サンプリング 236 単位のデータになると考えればよい。各コアにおける記入必須項目、推奨項目を表 237 2 にまとめた。これを見ればわかるように、どのコアであっても記述が必須となっ 238 ている項目数は決して多くない。とはいえ、Darwin Core には必須、推奨項目以外 239 にも多数の項目が用意されているので、データを整理、公開する際には利用性を高 240 めるため、必須、推奨以外の項目も可能な限り入力したほうがよいだろう。コア形 241 式それぞれのテンプレートファイルはエクセル形式でインターネット上からダウ 242 ンロードできるので、ぜひ参照されたい(オカレンス・コア 243 https://github.com/gbif/ipt/wiki/occurrenceData#templates; タクソン・コア 244 https://github.com/gbif/ipt/wiki/checklistData#templates; イベント・コア 245 https://github.com/gbif/ipt/wiki/samplingEventData#templates 全て 2017 年 4 246 月1 日確認)。 247 248

Sample-based Data: SB Data 249 250 ここからは、生態学データの記述に適合性が高いSB Data について詳しく 251 解説する。SB Data のコアであるイベント・コアの必須項目は、eventID、eventDate、 252 samplingProtocol の 3 つである(表 2)。ここで注目すべきは、必須項目に学名(種 253 表2

(13)

名)がないことである。SB Data は、その名前が示すとおり、単位が「サンプリン 254 グ」、例えばモニタリング調査の1 回やトラップ調査の 1 回になる。ここで重要に 255 なってくるのが、必須項目である samplingProtocol である。ここに何を記述する 256 かというと、サンプリングの手法である。例えばライトトラップ、ビーティング、 257 植生の被度調査等を記述する。samplingProtocol が一致していれば、世界のどこ 258 で実施された調査であっても、同じ手法で収集されたものとみなすことができるた 259 め、データの一元化が可能と判断できる。現状ではこの記述内容について共通語彙、 260 すなわちこの項目に書き込める内容が厳密に決まっているわけではないので、自由 261 記述に近い状態にある。そのため、データ利用者が判断しやすい情報をできるだけ 262 詳細に記述しておくほうがよいだろう。 263 264 イベント・コアの作成 265 266 SD Data はサンプリングが単位となるため、その単位についての詳細をイベ 267 ント・コアに記述する必要がある。このイベント・コアの設計がデータの利用性を 268 決める重要な要素になる。イベント・コアの具体事例として、筆者が既に大澤・和 269 田(2016)においてデータペーパーとして公表し、SB Data として GBIF ネット 270 ワーク上に公開しているツバメの在/不在データのイベント・コアについて詳細に 271 解説する。 272 このデータは、いわゆる市民参加型の調査で、近畿2 府 4 県の駅舎において 273 一般人がツバメの巣の在/不在、巣の数等を調査したもので(大澤・和田 2016)、 274 表3

(14)

データを利用した研究論文も公表されている(Osawa 2015)。このデータセット 275 におけるイベント・コアの一部を抜粋したものを表3 に示す。必須項目である 276 eventID は、調査単位となる駅名のユニーク ID、eventDate は、その駅舎を調査 277

した日、samplingProtocol は個人の非定量の観察調査(ad hoc observation)が記 278 述されている(表3)。推奨項目である sampleSizeValue には、駅舎の規模を示す 279 値を入れたいところだが、面積や階数、建造物の形状等が駅ごとで異なり、統一的 280 なものを決定できなかったので、代わりに samplingSizeUnit を利用し、駅舎 281

(Station building)と記入した(表 3)。samplingEffort には調査努力量を記入 282

するのだが、様々な調査参加者が自身で駅舎内を観察したもので、定量化が困難で 283

あったので、Observed in the station building と記入した(表 3)。locationID は 284

駅名ごとのユニーク ID を付与し、decimalLatitude & decimalLongitude & 285 geodeticDatum は 10 進法の緯度経度および、その座標系を意味する WGS84(一 286 般的なGPS で取得できる座標系)を記入した(表 3)。なお、本調査は各駅で 1 287 回とみなしているので、eventID と locationID が一致している。仮に同じ駅で複 288 数回の調査を行った場合には、同じlocationID に値が異なる eventID が付与され 289 ることになる。countryCode には日本を意味する JP を記入した(表 3)。必須で 290 も推奨でもない項目だが、調査を行ったのは鉄道の駅であり、調査地には駅名とい 291 う固有名詞を与えることが可能であるため、locality には駅名を記入した(表 3)。 292 これらにより、イベント・コアには、「日本において、場所を一意に特定できる駅 293 舎を単位に、非定量的な観察調査を実施した。実施日は記入日である」というサン 294 プリング情報が書き込まれたことになる。 295

(15)

サンプリング情報が完成したら、サンプリングごとの生物情報をエクステン 296 ション、つまりサンプリングを主とし、各サンプリングに付随した結果データとし 297 て記入することになる(図3)。本データセットでは、多数の巣が確認されたツバ 298 メ(Hirundo rustica)については在/不在を、少数のみ確認されたイワツバメ 299

(Delichon urbica)、コシアカツバメ(Hirundo daurica)については在データの

300 みを記述した。表 4 に表 3 で示したサンプリングに対応する生物データを抜粋して 301 示した。occurrenceID にはデータレコードを特定できるユニークな ID を記入した 302 (表 4)。eventID は、調査を行った駅の ID(イベント・コアで付与したもの)を 303 記入した。このeventID が外部キー、つまりイベント・コアの主キーを参照する項 304 目となり、サンプリングと生物情報を結びつけることが可能になる。高野下駅 305 (eventID=242)では、ツバメとコシアカツバメの両種の巣が発見されたので、 306 eventID=242 となっているエクステンションデータは 2 レコードとなり、ツバメ、 307 コシアカツバメそれぞれについて occurrenceStatus に在(present)と記入した(表 308 4)。六甲駅(eventID=812)ではどのツバメの巣も発見できなかったので、 309 eventID=812 となっているレコード数は 1 で、ツバメが不在(absent)と記入し 310 た(表4)。なお、本データは鳥そのものではなく、巣を計数単位としているため、 311

organismQuantityType に巣の数(nest number)を記述し、organismQuantity 312 には巣の数を記述した(表 4)。不在(absent)の場合にはこの値が 0 になる(表 313 4)。学名(scientificName)以降は、分類群情報を記述できる限り全て記述した。 314 分類群情報を埋めておくことで、例えば上位分類群でデータをまとめて取得したい 315 ユーザ等が、本データを含めて検索、発見することが可能になる。 さらに、学名 316 が確定しないような種を扱う場合においても、上位の分類群で紐付けを行う事が可 317

(16)

能となり、より正確な情報を提供することにつながる。この結果、2 つのサンプリ 318 ングにより、3 つの生物レコードが付属するデータが完成した。実際のデータは約 319 1,500 のサンプリングに約 1,600 の生物レコードが付属しており、これにメタデー 320

タを付与して Darwin Core Archive にすることで、データセットを完成させてい

321 る。SB Data の特徴をまとめると、サンプリングを単位としたコアそれぞれに生物 322 情報が付随し、生物情報には個体を単位とした在情報だけでなく、在/不在情報、 323 さらには量的な情報を記述することができる形式といえる(図 3)。 324 具体例として紹介したツバメデータの中身は在データ、在/不在データおよび 325 巣数データにあたるが、同様の形式を利用することで、様々な生態学データを 326 Darwin Core に記述することが可能である。例えば植生調査を記述する場合には調 327 査プロットを単位としたイベント・コアを設計し、種数等ではなく植被率を記述す 328 る場合にはエクステンションのorganismQuantityType に植被率(percent of 329

ground surface 等)を記述し、organismQuantity に比率を記入する等でデータを 330

Darwin Core に対応させることができる。 331

332

Darwin Core Archive の作成 333

334

Darwin Core Archive の作成には、GBIF からオープンソースで公開されて 335

いる専用ツールIntegrated Publication Toolkit (IPT)2 を利用するのが最も容 336

易である(Robertson et al. 2014)。エクセル等で項目を Darwin Core に揃えたデー 337

タを IPT2 にアップロードし、ツールの指示に従って必要事項を記述していくだけ

338

(17)

で、どのデータ型のDarwin Core Archive も作成することができる。IPT2 はイン 339 ターネット上でGBIF データを共有するためのサーバツールとして開発されたも 340 ので、世界中のGBIF ノードにおいて稼動しているものだが、オープンソースであ 341 ることから、個人がGBIF データを管理するために PC 等のローカル環境でも利用 342

することができる。また、JBIF でも IPT2 を利用して GBIF ネットワークにデー

343

タを供給しているため、自身のデータをGBIF ネットワーク上に公開したいと考え

344

た場合、自身でIPT2 を持っていれば JBIF の IPT2 へコピーすることは極めて容

345 易であるため、公開に向けた手続きが簡便という利点もある(実際にデータをGBIF 346 ネットワーク上に公開する手続き等については後述)。 347 IPT2 は専用の Web ページから無償でダウンロードできるとともに 348 (http://www.gbif.org/ipt 2017 年 4 月 1 日確認)、オープンリポジトリである 349 github 上で開発が進められているため、過去バージョンや開発中バージョンも入 350 手することができる(https://github.com/gbif/ipt 2017 年 4 月 1 日確認)。基本的 351 な機能については日本語化されているので(図4)、日本人も比較的利用しやすい。 352 IPT2 の詳細な利用方法は本稿では説明しないが、GBIF からはユーザーマニュア 353 ルが(https://github.com/gbif/ipt/wiki 2017 年 4 月 1 日確認)、JBIF からは 2015 354 年時点の和訳版が公開されている 355 (http://www.gbif.jp/v2/pdf/H27_108_IPT2ManualNotes_J.pdf 2017 年 4 月 1 日 356

確認)。さらにJBIF では、IPT2 の導入から Darwin Core Archive を作成するま

357 での手順をまとめた簡易マニュアルを作成しているので 358 (http://www.gbif.jp/v2/news/2017/06/ipt2.html 2017 年 6 月 27 日確認)、興味を 359 持った方はそれらを参照していただきたい。なお、上述したGBIF から配布されて 360 図4

(18)

いるエクセルテンプレートに必要情報を記入すれば、それをそのままIPT2 にアッ 361

プロードするだけで Darwin Core Archive に変換できるので、まずはテンプレー

362

トを利用することを薦める。 363

364

作成した Darwin Core Archive を GBIF ネットワークへ公開する 365

366

Darwin Core Archive で整備された生物多様性データは、GBIF ノードの確 367 認、許可を受けた上で GBIF ネットワーク上から全世界に向けて公開することがで 368 きる。日本ではJBIF において承認を受けた上で、GBIF ネットワーク上へ公開す 369 ることができる。ただし、2017 年時点では、標本を持たない観察データについて 370 は、労力等の面から全てのデータを確認することは困難であるため、データペーパ 371 ーとして受理されたもの、研究プロジェクト等において調査方法、調査者が確実な 372 状態で収集されたデータである等、一定の品質が確保されたデータについてのみ受 373 け入れている。例えば最近では、森林総合研究所によって実施された二次林のモニ 374

タリングデータがデータペーパーとして公表され(Ito 2017)、JBIF から GBIF

375

ネットワーク上へ公開された 376

(http://www.gbif.org/dataset/d5d92045-cbd8-453a-9b4e-25a7b74c51c5 2017 年 377

4 月 1 日確認)。もし GBIF 上で公開したいデータをお持ちの方は、JBIF の Web 378 サイト上(http://www.gbif.jp/v2/ 2017 年 4 月 1 日確認)から問い合わせていただ 379 ければ幸いである。 380 381

(19)

おわりに 382

383

本稿は、生物多様性情報の国際標準である Darwin Core /Darwin Core

384 Archive および、それを様々な生態学データに適合させる SB Data 形式について解 385 説してきた。SB Data 自体はまだ課題も多く、例えばバイオロギングのような同一 386 個体について継続的なデータが得られる場合には適用しにくい等、ありとあらゆる 387 生態学データに対応できるわけではない。しかし、筆者らを含むGBIF 関係者では 388 SNS(http://community.gbif.org/ 2017 年 4 月 1 日確認)等を通じて課題の共有や 389 対応について議論を行っているし、BIS/TDWG によって SB Data の改良も行われ 390 ている。その結果として、データペーパーやプロジェクト等において適用した事例 391

も徐々に増えている(De Pooter et al. 2017; Lepoint et al. 2016)。GBIFweb サイト 392 において公開されているデータセットも2017 年 6 月時点で 85 件と、順調に増加 393 している(https://demo.gbif.org/dataset/search?type=SAMPLING_EVENT 2017 394 年6 月 27 日確認)。日本では、生物多様性データの記述フォーマットとしての 395

Darwin Core は受け入れられつつあるが、SB Data についてはほとんど知られて 396 おらず、筆者が知る限り、適用事例も筆者らの事例のみに留まっている。しかし、 397 標準データフォーマットを適用することで、データの利用性は大きく向上するため、 398 興味を持った方はぜひ手持ちのデータに適用することを検討していただきたい。そ 399 して、日本生態学会の英文誌であるEcological Research 誌ではデータペーパーを 400 受け入れているので、Darwin Core を適用したデータをデータペーパーとして公表 401 し、さらには GBIF ネットワーク上へ公開することも視野に入れていただきたい。 402 データの利用性の高さはデータペーパーを公表する際の重要なアピールポイント 403

(20)

にもなりうるだろう。本稿を参考に、Darwin Core ならびに SB Data を自身のデ 404 ータに適用する方が増え、標準形式が国内に普及し、生物多様性データの共有化が 405 進むことを期待する。 406 407 謝 辞 408 409

本稿をまとめるにあたり、GBIF 本部、GBIF 日本ノード JBIF、GIF 台湾ノ

410

ード TaiBIF の協力を得た。本稿の作成には、国立研究開発法人日本医療研究開発

411

機構(AMED)によるナショナルバイオリソースプロジェクト、ならびに環境省に

412

よる Biodiversity Information Fund for Asia(BIFA)の支援を受けた。本稿の内 413 容はクリエイティブ・コモンズ・ライセンス 表示 - 継承 4.0 国際(CC BY-SA 4.0) 414 によってオープンデータとしてライセンスし、ライセンスに従う限り自由な利用を 415 保証することを宣言する。 416 417 引用文献 418 419

Baker E, Simon R, Vincent S (2013) Linking multiple biodiversity informatics 420

platforms with Darwin Core Archives. Biodiversity Data Journal, 2: e1039 421

Blankman D, McGann J (2003) Ecological Metadata Language: Practical Application for 422

ScientistsEML. LTER Network Office, Albuquerque 423

De Pooter D, Appeltans W, Provoost P, Vandepitte L, Hernandez F (2017) 424

(21)

Toward a new data standard for combined marine biological and environmental 425

datasets-expanding OBIS beyond species occurrences. Biodiversity Data Journal, 5: 426

e10989 427

Fegraus E, Andelman SJ, Jones MB, Schildhauer M(2005)Maximizing the 428

value of ecological data with structured Metadata: An introduction to Ecological 429

Metadata Language(EML)and principles for metadata creation. Bulletin of the 430

Ecological Society of America, 86: 158-168 431

Fukasawa K, Mishima Y, Yoshioka A, Kumada N, Totsu K, Osawaw T (2016) 432

Mammal assemblages recorded by camera traps inside and outside the evacuation 433

zone of the Fukushima Daiichi Nuclear Power Plant accident. Ecological Research, 434

31: 493-493 435

GBIF (2010) Darwin Core Archives ? How-to Guide, version 1, 436

Global Biodiversity Information Facility, Copenhagen 437

GBIF (2011) Darwin Core Archive Format, Reference Guide to the XML Descriptor File. 438

Global Biodiversity Information Facility, Copenhagen 439

Ito H (2017) Time series data of a broadleaved secondary forest in Japan as affected by 440

deer and mass mortality of oak trees. Biodiversity Data Journal, 5: e11732 441

Lepoint G, Heughebaert A, Michel LN (2016) Epiphytic bryozoans on Neptune 442

grass-a sample-based data set. ZooKeys, 606: 1 443 三橋 弘宗 (2010) 生物多様性情報の整備法. (鷲谷 いづみ・宮下 直・西廣 淳・ 444 角谷 拓 編) 保全生態学の技法, 103-128. 東京大学出版会, 東京 445 小川 安紀子, 藤原 章雄 (2007) USLTER のエコロジカル・インフォマティクス 446

(22)

技術の動向. 日本森林学会誌, 89: 360-364 447

Osawa T (2013) Monitoring records of plant species in the Hakone region of 448

Fuji-Hakone-Izu National Park, Japan, 2001-2010. Ecological Research, 28: 541 449

Osawa T (2015) Importance of farmland in urbanized areas as a landscape component for 450

barn swallows (Hirundo rustica) nesting on concrete buildings. Environmental 451 Management, 55: 1160-1167 452 大澤 剛士 (2017) 保全科学におけるデータギャップの現状と解消に向けた取り 453 組み. 保全生態学研究, 22: 41-55 454

Osawa T, Baba YG, Suguro T, Naya N, Yamauichi T (2017) Specimen records of spiders 455

(Arachnida: Araneae) by monthly census for 3 years in forest areas of Yakushima 456

Island, Japan. Biodiversity Data Journal, 5: e14789 457 大澤 剛士, 細矢 剛, 伊藤 元己, 神保 宇嗣, 山野 博哉 (2016) 日本における生物 458 多様性情報概況生物多様性情報概況 GBIO の和訳公開と国内動向―. 459 日本生態学会誌, 66: 215-220 460 大澤 剛士, 神保 宇嗣 (2013) ビッグデータ時代の環境科学―生物多様性分 461 野におけるデータベース統合、横断利用の現状と課題. 統計数理, 61: 462 217-231 463 大澤 剛士, 神保 宇嗣, 岩崎 亘典 (2014) 「オープンデータ」という考え方と、 464 生物多様性分野への適用に向けた課題. 日本生態学会誌, 64: 153-162 465 大澤 剛士, 栗原 隆, 中谷 至伸, 吉松 慎一 (2011) 生物多様性情報の整備と活用 466

(23)

方法―Web 技術を用いた昆虫標本情報閲覧システムの開発を例に―. 保全生 467 態学研究, 16: 231-241 468 大澤 剛士, 和田 岳 (2016) 市民参加による広域を対象とした生物調査の可能性- 469 近畿 2 府 4 県における駅のツバメ営巣調査結果およびデータ公開-. Bird 470 Research, 30: R1-R8 471

Robertson T, Doring M, Guralnick R, Bloom D, Wieczorek J, Braak K, 472

Desmet P (2014) The GBIF integrated publishing toolkit: Facilitating the efficient 473

publishing of biodiversity data on the internet. PLoS One, 9: e102623 474

Secretariat of the Convention on Biological Diversity (2014) Global Biodiversity Outlook 475

4. Convention on Biological Diversity, Montreal 476

Vanderbilt K, Porter JH, Lu SS, Bertrand N, Blankman D, Guo X, He H, 477

Henshawg D, Jeong K, Kim E, Lin CC, O'Brienj M, Osawa T, Tuama E, Su W, 478

Yang H (in press) A prototype system for multilingual data discovery of 479

International Long-Term Ecological Research (ILTER) Network data. Ecological 480

Informatics, 40: 93-101 481

Voraphab I, Hanboonsong Y, Kobori Y, Ikeda H, Osawa T (2015) 482

Insect species recorded in sugarcane fields of Khon Kaen Province, Thailand, over 483

three seasons in 2012. Ecological Research, 30: 415-415 484

Wieczorek J, Bloom D, Guralnick R, Blum S, Doring M (2012) Darwin Core: An evolving 485

community-developed biodiversity data standard. PLoS One, 7: e29715 486

(24)

title データのタイトル。研究プロジェクトやデータペーパーのタイトルを使う場合が多い。 description データの概要。いわゆるAbstractと考えればよい。 publishing organisation データを公開している組織。たとえば標本コレクションの場合は収蔵博物館になる。 日本からGBIFネットワーク上にデータを公開した場合、公開用サーバを保有しデータ公開の管理を行う 国立科学博物館または国立遺伝学研究所になる。 必須項目 type データの形式。本稿で説明する3形式のいずれかに該当する。

(Required) license データ利用に関する利用規約。原則としてCC-BY等のオープンデータライセンスが推奨される。

contact(s) データの責任者。データペーパーの場合はCorresponding Author

creator(s) データ管理者。情報担当者がいる場合はその人になる。 metadata provider(s) メタデータの作成者。多くの場合は上2項目のいずれかと同じになる。 推奨項目 sampling methodology データの収集方法。標本等の場合はなくても問題ないが、モニタリングデータ等の場合は (Recommended) 必須と考えたほうがよい。 citation 既にデータペーパーが出版されている場合など、データ供給者が希望する引用形式が ある場合は記述する。 出典:https://github.com/gbif/ipt/wiki/resourceMetadata

(25)

(Required) basisOfRecord データの種類。乾燥標本、化石標本、観察情報等を記述する。

scientificName 対象の学名。同定しきれない場合は、科や属名でもよい。

eventDate データを取得した日時。

オカレンス・コア

推奨項目 taxonRank データの分類階級情報。属、亜種、種など。

(Recommended) kingdom - and other higher taxonomy if possible 分類学的な界の情報。動物界、植物界等および、その他上位の分類群情報。 decimalLatitude & decimalLongitude & geodeticDatum 採集地点の緯度経度および座標系。

countryCode 採集国のコード。ISO 3166-1の使用が推奨されている。

individualCount / organismQuantity & organismQuantityType 標本等の個体数。トラップ調査等の捕獲情報と、同時に捕獲された個体数を記入できる。

必須項目 taxonID 種ID。重複がないユニークなもので、記述する種ごとでユニークなものになる。

(Required) scientificName 対象の学名。同定しきれない場合は、科や属名でもよい。

taxonRank データの分類階級情報。属、亜種、種など。

タクソン・コア

推奨項目 kingdom - and other higher taxonomy if possible 分類学的な界の情報。動物界、植物界等および、その他上位の分類群情報。

(Recommended) parentNameUsageID その種が未発表の場合、上位の生物分類のID。

acceptedNameUsageID その種が未発表の場合、受け入れられている生物分類のID

必須項目 eventID イベントの重複のないユニークなID。

(Required) eventDate イベントを実施した日時。

samplingProtocol イベントの実施方法。例えばライトトラップ、定性的な見つけ取り、方形区内の調査等。

イベント・コア

推奨項目 sampleSizeValue & sampleSizeUnit 調査の単位。例えば植被率を扱う場合は、パーセント、プロットのサイズを記入する。

(Recommended) parentEventID - in situations where the event is part of an event series 親イベントのID。例えば決められたモニタリングプログラムの一環等で実施されている場合、 そのイベントのIDを記入することで、同じプログラムのデータが検索・収集できるようになる。 samplingEffort - to provide evidence of rigour of sampling event 調査労力。

locationID 採集地点ID。その地点について、重複のないIDを付与できる場合は記述する。

decimalLatitude & decimalLongitude & geodeticDatum - to provide a specific point location採集地点の緯度経度および座標系。

footprintWKT & footprintSRS 採集地の地点情報では表現できない情報。例えば1haの永久調査区等が

設定されている場合、方形区であること、四隅の座標値を記述する。 countryCode 採集国のコード。ISO 3166-1の使用が推奨されている。 occurrenceStatus 在/不在データを扱い場合、在/不在の値を記述する。 参照URL https://github.com/gbif/ipt/wiki/checklistData https://github.com/gbif/ipt/wiki/occurrenceData https://github.com/gbif/ipt/wiki/samplingEventData

(26)

242 2012/6/2 ad hoc observation Station building Observed in the station buildling JP Koyashita 242 34.271635 135.566359 WGS84 812 2012/6/23 ad hoc observation Station building Observed in the station buildling JP Rokko 812 34.719891 135.234371 WGS84

(27)
(28)

2

図1. Darwin Core Archive の概念図。生物多様性情報とメタデータを同梱して

3 zip で圧縮したファイルとなる。 4 5 図2. Darwin Core のスタースキーマの概念図。中心にあるコア・ファイルによっ 6 て、どのようなデータ型を扱っているのかが決定される。 7 8 図3. SB Data の構造を概念的に示したもの。コア・ファイルにはサンプリング情 9 報を設定し、エクステンションに生物データを記述する。在/不在、カウントデー 10 タ、計量データ等、計測の単位を自身で設定できるため、柔軟にデータが記述で 11 きる。 12 13 図4. IPT2 の初期画面。デフォルトでは英語になっているが、右上にある言語設 14 定ボタンから日本語を選択し、日本語表示に変えることができる。 15 16

(29)

meta.xml

(データ項目の定義)

eml.xml

( メタデータ )

occurrence.txt

( データ本体 )

何が記述されているかの説明

Darwin Core Archive

(zip 圧縮ファイル )

拡張項目

(30)

コアファイル

・オカレンス・コア ・タクソン・コア ・イベント・コア

拡張ファイル 1

拡張ファイル 3

拡張ファイル 5

拡張ファイル 4

拡張ファイル 2

(31)

イベント・コア

・eventID 1 ・eventID 2 ・eventID 3 生物データ 生物データ 生物データ ・在データ ・不在データ ・量的データ

(32)

言語選択ボタンで

日本語が選択できる

デフォルトは英語

参照

関連したドキュメント

これはつまり十進法ではなく、一進法を用いて自然数を表記するということである。とは いえ数が大きくなると見にくくなるので、.. 0, 1,

ASTM E2500-07 ISPE は、2005 年初頭、FDA から奨励され、設備や施設が意図された使用に適しているこ

(自分で感じられ得る[もの])という用例は注目に値する(脚注 24 ).接頭辞の sam は「正しい」と

Google マップ上で誰もがその情報を閲覧することが可能となる。Google マイマップは、Google マップの情報を基に作成されるため、Google

基準の電力は,原則として次のいずれかを基準として決定するも

 筆記試験は与えられた課題に対して、時間 内に回答 しなければなりません。時間内に答 え を出すことは働 くことと 同様です。 だから分からな い問題は後回しでもいいので

基準の電力は,原則として次のいずれかを基準として各時間帯別

愛知目標の後継となる、2030 年を目標年次とした国際目標は現在検討中で、 「ポスト 2020 生物