0
データ形式・構造、データカタログ
に関する技術について
2012年12月26日
データWG主査代理 小池博
資料7 第1回データWG資料1
目次
1. オープンデータの技術概要
(1)機械判読とは
(2)関連技術の位置づけ
2. 関連技術の概要
(1)機械判読可能なデータ形式
(2)データの融合を可能にするためのデータ構造
(3)データカタログ
2
1.オープンデータの技術概要 (1)機械判読とは
○「機械判読」とは、「コンピュータ・プログラム(以降、単にコンピュータと呼ぶ)がデー
タを読み取る」ということであるが、オープンデータの⽂脈においては、
コンピュータが⾃動的にデータを再利⽤(加⼯、編集等)できるということである。
○⼈⼿をどれだけ要せずに、コンピュータがデータを再利⽤できるかにより、「機械判読
の容易さ」には、いくつかの段階がある。
コンピュータが⾃動的にデータを再利⽤するためには、コンピュータが、当該データの論
理的な構造を識別(判読)でき、構造中の値(表の中に⼊っている
数値やテキスト、等)が処理できるようになっている必要がある。
3
1.オープンデータの技術概要 (1)機械判読とは
●機械判読可能なデータとは、 データ形式や構造の仕様が公開され、そのデータを判読処理するプログラムを、第3者が 作成できるデータである。 ●機械判読不可なデータとは、 データを利用したいプログラムが、そのデータの論理的な構造を識別(判読)できない データ。(データを人に対し表示するプログラムが存在しても、内容が取り出せない) センサ情報等の バイナリデータ センサログ形式を 処理できる プログラム テキスト データ テキスト構造 (XML,CSV) 処理プログラム 画像データ (画像中に表が 存在する) 画像表示 プログラム (表認識できず) データ形式や、 中身の構造が 不明確なデータ 表の値を 利用したい プログラム センサデータの 値を利用したい プログラム 表の値を 利用したい プログラム テキスト表現の 値を利用したい プログラム 画像データ (画像中に表が 存在する) ※ 機械判読不可なデータも、データビューア・プログラムを利用することで、人は判読可能。 画像表示 プログラム 表を理解し 人手で 利用データ 作成 人判読可能 (データによっては、人手を介すことで、 一定のプログラム処理できるデータを取り出すことが可能) 利用側で、 再利用可能なデータを 作成するコストが高い 編集エディタ プログラム 表データ4 利用者(人) 文書ビューアや 文書エディタ を利用して人が読む
1.オープンデータの技術概要 (2)関連技術の位置づけ
利用者 ①機械判読可能なデータ形式 ②データの融合を可能にする ためのデータ構造 ③データカタログ (機械がデータを横断検索でき、 機械がデータにアクセスできる) ロウデータ (手を加えてい ないデータ) 素材データ ・素材文書 ・素材画像 人が理解する ための 公開文書 ホームページ情報 (人向け) データカタログ (機械向け) 加⼯、 作成 その まま 公開 処理等 HP作成 再加⼯ 利用者(機械) プログラムが データを読み 二次利用する 機械が必要な データを探せる ⼈が理解できる ⽂書(データ)の形式 機械判読可能な 公開データ ⼈が必要な データを探せる カタログ 作成 文書分類、 キーワード検索等 見やすさ、理解しやすい 文書、データ表現 機械判読可能な データ仕様に 沿って作成してある5
段階 公開の状態 データ形式
例 参考)Linked Open Data 5star
1段階 オープンライセンスの元、データを公開 PDF、JPG OL – Open License
(計算機により参照できる(可読))
2段階 1段階に加え、コンピュータで処理可能なデー
タで公開 xls、doc RE – Readable (Human & Machine)
(コンピュータでデータが編集可能)
3段階 2段階に加え、オープンに利⽤できるフォーマッ
トでデータ公開 XML、CSV OF – Open Format(アプリケーションに依存しない形式)
4段階 Web標準(RDF等)のフォーマットでデータ
公開 RDF、XML URI – Universal Resource Identifier
(リソースのユニーク化、Webリンク)
5段階 4段階が外部連携可能な状態でデータを
公開 LoD、RDFスキーマ LD – Linked Data(データ間の融合情報が規定。検索可能)
2.関連技術の概要 (1)機械判読可能なデータ形式
出典:★ Open Dataのサイト(http://5stardata.info/)およびTim Berners-Lee⽒のLinked Dataに関する提⾔ページ
(http://www.w3.org/DesignIssues/LinkedData.html)を参考に作成。 人が理解 するための 公開文書 (編集不 可) 機械判読 可能な 公開データ 公開文書 (編集可) オープンデータの5つの段階
① 「オープンデータの5つの段階
(出典:★ )」と、データ形式
6
区分 主なデータ形式 特徴 (ライセンス関係は詳細確認が必要) 1段階(OL) 2段階(RE) 3段階(OF) (URI)4段階 5段階(LD)
⽂字 .TXT (ユニコード) オープンライセンス ○ 数値 .XLS(エクセル) オープンライセンス(デファクト),XML形式あり ○ △ .CSV オープンライセンス ○ 画像 .jp(e)g オープンライセンス(デジュール標準) ○ .gif オープンライセンス(デファクト) ○ 映像 .m4v オープンライセンス(Web標準) ○ .flv オープンライセンス(デファクト) ○ ⾳声 .mp3 オープンライセンス(Web標準) ○ .wav オープンライセンス(デファクト) ○ 地図 .gml オープンライセンス(デファクト) ○ .shp オープンライセンス(デファクト) ○ 複合 ⽂書 .XHTML.XML オープンライセンス(Web標準)オープンライセンス(Web標準) ○○ ○○ ○○ .DOC(ワード) オープンライセンス(デファクト)、XML形式あり ○ △ .ppt オープンライセンス(デファクト)、XML形式あり ○ △ .JTD(⼀太郎) 仕様は個別公開 ○ .PDF 現在は、仕様が公開 ○ .epub(電⼦書籍) オープンライセンス(Web標準) ○ .rdf オープンライセンス(Web標準) ○ ○ 圧縮 .zip オープンライセンス(デファクト): アーカイブや圧縮形式 - - - -
-2.関連技術の概要 (1)機械判読可能なデータ形式
「機械判読可能な公開データ」のデータ形式となる、3段階以降に該当しているデータ形式②「オープンデータの5つの段階」別の利用可能なデータ形式の状況 (1次集計結果)
7 ◎人判読可能データから、機械判読可能データを作成するイメージ(農林水産省の情報引用) 注釈:元のページには、HTML/PDF/CSVが掲載されているが、あえてHTMLをより機械判読にしようとしたとき、気を付けるべき事項としての 事例としている。 HTML 手作業で コピー& ペースト または HTML素材 の利用 ⇒EXCEL セーブ &編集 http://www.maff.go.jp/j/tokei/syohi/sikyou/index.html からリンクされている 市況情報〔外部リンク〕 利用。 ・「千 葉」のスペースの削除 ・1レコードとして欠損する値の設定 ・複数の表の分割 ・不必要な行削除 人が理解する ための 公開文書 (編集不可) 機械判読可能 な 公開データ 人が理解する ための 公開文書 (編集・加工可)
2.関連技術の概要 (1)機械判読可能なデータ形式
③機械判読可能なデータ形式にする際の留意点
農産物市況2012_10_26_盛岡_xml ・・・ <品目名>大根</品目名> <産地名>岩手</産地名> <数量 単位=‘t’>689.1</数量> ・・・ XML表現例 CSV 表現例8
2.関連技術の概要 (2)データの融合を可能にするためのデータ構造
①公開データのデータ構造(データ項目、コードの関係)
機械判読 可能な 公開データ の例 <組織><行政機関>02</行政機関> <部局>IT担当室</部局></組織> <予算><当年>200</当年> <前年>100</前年></予算> ◎◎予算情報 項目名 意味 属性 コード 組織 行政機関 集合項目 行政機関 府省庁名 コード 政府機関コード 部局 部局名 文字列 予算 予算の総額 数値(百万 円単位) 無し 当年 当年度予算 数値(百万 円単位) 無し 前年 前年度予算 数値(百万 円単位) 政府機関コード 値 意味 01 内閣府 02 内閣官房 ◎利⽤しやすいように、公開 データは、データ構造を規定し、 公開する必要がある。 (⼈が理解する表現と、 機械が理解する表現 のバリエーションが必要) ◎府省、⾃治体等で、独⾃で 決めた⽂書形式やデータ形式 が存在する場合、その仕様を公 開する必要がある。 ◎既に、業界で様々な標準化 されたデータ構造がある。 適宜利⽤できるものは利⽤する ことが望ましい。 公開データの データ構造 (形式)例 (人が読める形 式例) ★下記のデータ構造であることの定義A <組織><行政機関></行政機関> <部局></部局></組織> <予算><当年></当年> <前年></前年></予算> 公開データの データ構造 (形式)例 (機械が読める 形式XML例)9
2.関連技術の概要 (2)データの融合を可能にするためのデータ構造
②公開データのデータ形式の、データ構造、データ項目、コードの関係(イメージ)
◎◎予算情報.xml ★定義Aに従って作成したという情報 <組織><行政機関>02</行政機関> <部局>IT担当室</部局></組織> <予算> <当年>200</当年> <前年>100</前年></予算> ◎◎予算情報 項目名 意味 属性 コード 組織 行政機関 集合項目 行政機関 府省庁名 コード 政府機関コード 部局 部局名 文字列 予算 予算の総額 数値(百万 円単位) 無し 当年 当年度予算 数値(百万 円単位) 無し 前年 前年度予算 数値(百万 円単位) 政府機関コード 値 意味 01 内閣府 02 内閣官房 <データ項⽬> データの個々を表す項⽬のこと。 「項⽬名」、項⽬が表現する対象の「意味」、 項⽬の値の「属性」や「コード」等で規定 <データ構造> データが有する属性の集合を整理したもの <コード> 機械が処理しやすいように項⽬値の 取りうる表現を符号化したもの <機械判読可能なデータ形式のデータ> 例えば、XML形式だと、XML仕様に従い、 データ構造等の規定に従いデータの値が セットされた状態のもの。 機械判読可能な公開データ 公開データのデータ構造(形式) ★データ構造の定義A(機械判読可能な 形式)10
2.関連技術の概要 (2)データの融合を可能にするためのデータ構造
③公開データのデータ横断利用と融合型利用の考え方
◎公開データの利⽤では、以下のような利⽤が想定される。 ・利⽤例1: 異なる組織や年度別に公開されたデータをまとめて処理。(横断利⽤) ・利⽤例2: 異なるデータ構造の公開データ間を融合キーで融合しそれぞれのデータ項⽬ の値を組み合わせて利⽤(融合利⽤) 例、地図データの位置情報に農産物出荷量を融合 利⽤1(横断利⽤) <組織><行政機関>02</行政機関> <部局>IT担当室</部局></組織> <予算> <当年>200</当年> <前年>100</前年></予算> <組織><行政機関>10</行政機関> <部局>ABC</部局></組織> <予算> <当年>1500</当年> <前年>1100</前年></予算> <組織><行政機関>15</行政機関> <部局>XYZ</部局></組織> <予算> <当年>2000</当年> <前年>2050</前年></予算> 同じ構造のデータに対し、横断的なデータ処理を実施。 ★前年度より予算アップの行政機関と部局を出す。 ⇒ <行政機関>10</行政機関> <部局>ABC</部局></組織> ★農産物市況情報2012_10_26_盛岡.csv 市場(位置), 日付, 品目名, 産地名, 数量(t) <X1,Y2> 20121026,大根, 岩手, 689.1 利⽤2(融合利⽤) ★農産物市況情報2012_10_27_盛岡.csv 市場(位置), 日付, 品目名, 産地名, 数量(t) <X1,Y2> 20121027,大根, 岩手, 700.5 ・・・ 20121026,大根, 岩手, 689.1 20121027,大根, 岩手, 700.5 地図の<X1,Y2>地点11
2.関連技術の概要 (2)データの融合を可能にするためのデータ構造
④データの融合のために必要な事項
◎データ構造(項⽬)を共通化することで、データを融合することが可能 ◎異なるデータ構造であっても同じデータ項⽬があることが分かれば、データの融合は可能 ◎特にデータ項⽬の値としてのコードについては、融合処理の機械処理を効率化させるため に重要な要素である。 ◎海外のデータと融合させるためには、国際標準データ項⽬辞書(例 ISO 15022等) のデータ項⽬セットや、国際標準コード体系のデータ項⽬とコードを利⽤すると、データ の融合が、広範囲に実施可能。 ◎近年、データ項⽬の概念(リソース)のユニーク化として、RDFの技術が普及してきている。 次世代の技術として、利⽤検討すべきである。URI – Universal Resource Identifier 異なる管理組織間のデータも融合キー化が可能 LOD – Linked Open Data 異なるデータ項⽬間の関連情報が規定でき、⾼度な融合が可能
データ項⽬辞書 (ISO 15022 等) 業界別データ構造表現 流通業界のデータ項⽬ (GS1データ辞書:GDD) ⽇本の業界データ辞書と データ構造:業務、防災、教育 (⾃治体APPLIC 地域情報プラットフォーム) 気象庁防災情報XML (データ構造定義)
国際標準データ構造の例 国内標準データ構造の例
コード標準の例
・企業(統⼀)コード ・商品コード ・ISBN(国際標準と書番号 ・標準地域コード ・ものや場所ID (Ucode) ・組織コード(政府機関コード)12
2.関連技術の概要 (3)データカタログ
①(機械向け)データカタログとは?
その形式やアクセス方法は?
◎データカタログは、機械(コンピュータ・プログラム)が必要な公開データを探すための 情報であり、公開データを取得するための情報である。データカタログ⾃⾝、機械判読 可能な形式(XML等)で記述されている。 ◎以下のデータカタログの要件を定義し、運⽤する必要がある。 (a) 「データカタログ形式」として、データカタログを定義する構造(項⽬)を標準化する。 (b) 「データカタログ形式」で⽰された形式で、各公開データの「データカタログ(実態)」 を定義して公開する。データカタログの情報として、「公開データ構造」を指定する。 (c) 機械判読可能な形式で「データカタログ」を作成して公開する。 (d) 参照⽅法(API)を提供する。 利用者1(機械) アプリケーション B用データカタログ (機械向け) C用データカタログ (機械向け) A機械判読可能な 公開データ 1 A機械判読可能な 公開データ 2 B機械判読可能な 公開データ 1 B機械判読可能な 公開データ 2 C機械判読可能な 公開データ 1 利用者2(機械) アプリケーション Web-API(Web-アプリケーションインタフェース) ・カタログ検索 ・カタログ取得 ・データ取得 データカタログ 形式 公開データ A公開データ 構造(形式) B公開データ 構造(形式) C公開データ 構造(形式) 参照方法(API) A用データカタログ (機械向け)13
2.関連技術の概要 (3)データカタログ
②(機械向け)データカタログに記載する内容 (想定)
◎データカタログの内容は、利⽤する側の機械(プログラム)が、公開データとして「何が あるか」、「どのような内容や形式か」、「どこにあるのか」を知るための情報となる。 ◎データカタログの構成は、「データカタログ⾃体の書誌情報」、「公開データの形式情報」、 「データ特性情報」等、である。 ◎◎予算情報 項目名 意味 文字属性 コード 組織 行政機関 集合項目 行政機関 府省庁名 コード 政府機関コード 部局 部局名 文字列 予算 予算の総額 数値(百万 円単位) 無し 当年 当年度予算 数値(百万 円単位) 無し 前年 前年度予算 数値(百万 円単位) 政府機関コード 値 意味 01 内閣府 02 内閣官房 <データ構造><データ項⽬>情報 <コード>情報 データカタログ形式 (XMLで規定)(スタイルシートで表示形式作成) <公開データの書誌情報> ・ダブリンコア(Dublin Core)基本要素等 <公開データの構造> ・データ形式のURLの指定 ・独⾃のXMLやCSV形式等の指定 <データの取得⽅法> ・データの取得のURL形式(連続取得⽤) <融合キーとなる項⽬> ・他の情報と融合できるデータ項⽬ <データ特性> ・「鮮度」「粒度」「精度」「信頼度」等 <データ固有の特性> ・アンケートデータや観測データ特性等Dublin Core : http://dublincore.org/
公開データ構造(形式)
14
2.関連技術の概要 (3)データカタログ
◎データカタログを検索するための書誌情報として、例えば「ダブリンコア(Dublin Core)」がある。 15の基本要素(下表)と、より精度の⾼い情報を提供するための拡張語彙が公開されている。 ⽂書や書籍等で実績があり国⽴国会図書館で採⽤されている。③<公開データの書誌情報> データカタログを検索する上で必要となる情報
No 項目 (日本語表記) 主なもの 1 Title (タイトル) 通常はあるリソースが公式に知られる名前を指す。 2 Creator (制作者) リソースの内容に責任を持つもの。人や組織などがあげられ、その名前を記すことが常となっている。 3 Subject (テーマ) リソースの内容が持つトピック。まとめられた語彙の中から使うことが望ましい。 4 Description (詳細) リソース内容の説明。要約、目次など形式は定められていない。 5 Publisher (提供者) リソースを発行に責任を持つもの。Creatorに同じく人や組織などがあげられ、名前を記すことが常である。 6 Contributor (協力者) リソースの内容に協力するもの。人や組織などの名前を示す。 7 Date (日付) リソースに関する主要な出来事が起こった日付(更新日、作成日など)を記述する(ISO 8601書式推奨)。 8 Type (タイプ) リソースの内容が持つカテゴリ、ジャンルなど。まとめられた語彙から使うことを推奨。 9 Format (フォーマット) リソースが持つ物理的/デジタル化されている性質。メディアタイプなどがあげられ、リソースを処理するソフト ウェアやハードウェアを知るための手がかりとすることができる(MIME等のメディアフォーマットで指定)。 10 Identifier (識別子) 曖昧さのないものが必要とされる。URIやISBNなどが相当する。 11 Source (ソース) リソースが参照しているもの。公式な識別システムに従っている文字列や番号が望ましい。 12 Language (言語) リソースがどの言語で書かれているのかを、RFC 3066の言語コード書式で書くのが望ましい。 13 Relation (関連) 関連リソースを公式な識別システムに従っている文字列や番号で記述するのが望ましい。 14 Coverage (範囲) 地名や緯度経度などで表記されるものや、日付、管理している範囲など。地名や時代の名前が緯度経度や日付 より推奨される。 15 Rights (権利) 著作権や知的所有権などの権利に関する情報を記述する。この要素が記述されていない場合にリソースの権 利情報を推測しても、それは何も意味しないことに注意すること。 引用:http://ja.wikipedia.org/wiki/Dublin_Core ◎下線は、ルールWGとデータWGが連携し、データカタログ形式の形式仕様として、規定していく必要があるものである。15
2.関連技術の概要 (3)データカタログ
データ特性 特性の説明 データ特性の軸 データの 「鮮度」 データを集めたり処理する 間隔 (新しさ) 1年間隔 ⇒ 1ヵ月間隔 ⇒ 1日間隔 ⇒ 1時間間隔 ⇒ 1分間隔 ⇒ 1秒間隔 (特性: 処理数少、量大、バッチ、安価 ⇔ 処理数多、量少、リアルタイム、高価) データの 「粒度」 ロウデータか、集計や分類 をしたデータか 全てのロウデータ ⇒ 必要な個別ロウデータ ⇒ ロウログの集計値や傾向情報 (特性: 細かい、量大、用途多、意味不明 ⇔ 荒い、量少、用途限定、意味を持つ) データの 「精度」 データ自体の、表現の 曖昧性、抜けや異常値の有 無の有無 精度が低い (抜けあり、異常値あり、コードされていない、 時間や位置等が不正確) ⇒ 精度が高い (抜けがない、異常値がない、コード利用、 正確な時間や位置) データの 「信頼度」 データの信頼度、信頼した 機関が作成したデータか否 か(お墨付き) 信頼度が低い(インターネット上の曖昧性を含む参考情報、等) ⇒ 信頼度が高い (府省の正式な発表情報) ◎データ利⽤側では、データ特性( 「鮮度」「粒度」「精度」「信頼度」等)に応じて、利⽤⽅法 やデータ処理⽅法を変える。公開側は、公開データのデータ特性情報を、データカタログ で明⽰する必要がある。公開データのデータ特性に合わせて、データカタログのポリシー を作成することが必要。④<データ特性>
16
2.関連技術の概要 (3)データカタログ
◎機械(プログラム)が、検索・取得できるためのインタフェース(Web-API)の候補としては、 以下のようなものがある。 それぞれ特徴があるため、利⽤側ユースケースを考慮して 採⽤仕様を決定する必要がある。 No 主なインタフェース実 現仕様 (記述形式) 概要 1 SOAP (WSDL) W3C SOAP仕様に基づく、コンピュータ間のデータ交換。構造化された XMLデータの交換を、HTTP(S)上で交換 2 JSON(JSONスクリプト) JavaScript Object Notation 例えば、復旧・復興支援制度DBのAPIとして利用されている。オブジェクトの表記法をベースとした軽量なデータ記 述言語。
3 REST形式
(URL表現+XML) Representational State Transfer 簡易な XML+HTTP インターフェイスを採用したデータ交換等に利用されている。
なお、機械が公開データを取得する際、リソースを指し⽰す識別⼦として、URI(Uniform Resource Identifier)が利⽤されることが多い。