河村郁江（名古屋工業大学）

・Ontologies and Datasets II

8. 河村郁江（名古屋工業大学）

Modeling and Using an Actor Ontology of Second World War

Military Units and Personnel 第二次世界大戦軍事ユニットと

人員の関係者オントロジーのモデリングと使用

Petri Leskinen1, Mikko Koho1, Erkki Heino1,2, Minna Tamper1,2, Esko Ikkala1, Jouni Tuominen1,2, Eetu Ma ̈kela ̈1,2, and Eero

Hyvo ̈nen1,2

1 Semantic Computing Research Group (SeCo), Aalto University, Finland and

2 HELDIG ‒ Helsinki Centre for Digital Humanities, University of

Helsinki, Finland

WarSampo Systemというフィンランドの第二次世界大戦のセマンティックウェブシステムを作成

WarSampoシステム：

フィンランドの第二次世界大戦の歴史的な軍人に関する大規模なデータセットに基づき作成

（例：死傷者データ、写真、イベント、戦争日記、歴史的地図など）をより大きなソースのプール（例えば、National Archives、Defense Forces、および半自動的に抽出された書籍のスキャンデータなど）

構成： WarSampoは２つの構成で出来ている

1.Linked Open Data Service(Linked Data Finland : http://ldf.ﬁ ) 2.Applications based on the service( http://sotasampo.ﬁ/en ) + WarSampo project 20 9,000,000 triples

https://vimeo.com/212249404

+CIDOC-CRM based actor-event model:

CIDOC-CRMをベースにした役割とイベントのモデル

問題点と解決策

課題：オントロジーをどのように表現するか

•  軍人の階級と部隊、そして軍隊の名前と構造は戦争で急速に変化す

•  る。未知の兵士のデータ、関係者に関するデータはしばしば不完全。

•  名前付きエンティティに基づくデータリンクは、変更する必要があるため困難。

解決策：

セマンティックポータル「WarSampo7」の、自動再構成のアイデア

•  個々の兵士とユニットの伝記戦争の歴史の曖昧さを回避。

•  時空間文脈における名前の組み合わせと、さまざまなソースを作成し、

それらを調和のとれた形式で公開。

+ Actor Ontology Model

関係者のオントロジーは、CIDOC CRM12モデルに基づいている

（http://cidoc-crm.org/）

4 Warsampo Actor Data

現在100 000人分

データ元：将軍と司令官のリスト、名誉勲章の受領者のリスト、

the Casualties database kronos.narc.ﬁ/menehtyneet/

Finnish National Biography http://www.kansallisbiograﬁa.ﬁ/english/ ,

photographers men- tioned in Finnish Wartime Photograph Archive http://sa-kuva.ﬁ/neo?tem=webneoeng, Wikidata https://www.wikidata.org/,

Wikipedia. National BiographographyデータベースとWikidataの580名のフィンランド人または外国人民間人の抽出物

が含まれる。

問題点と解決策

結論：作品の貢献が要約され、いくつかの方向性が示され、

さらなる研究が提案されている。

今後の課題:

- Linked Dataツールのコラボレーション - 訂正提案を外部に許可

- 第二次世界大戦のデータをユーザーから集める

- Warsampo Cemetery Perspectiveの出版イベント - ユーザーテストのその後

- WarSampoの外の拡張

- 2018年に戦争囚人の視点

One year of the OpenCitations Corpus

Releasing RDF-based scholarly citation data into the Public Domain

OpenCitations Corpusの1年間 RDFベースの学術論文引用データを

パブリックドメインに公開する

Silvio Peroni, David Shotton, and Fabio Vitali

DASPLab, DISI, University of Bologna, Bologna, Italy

Oxford e-Research Centre, University of Oxford, Oxford, UK

概要

OpenCitations Corpus（OCC）を作成

学術論文の参考文献リストは、個人の研究努力や信用の帰属と統合を可能にする学術コミュニケーションであるが、RDFのような適切な機械可読フォーマットで自由に利用できない。

この問題に対処するため、Open Accessの文献データを

OpenCitations Corpus（OCC）に取り込み、すべての人に公開されている学術論文データのRDFデータセットを作成した。

本稿では、OCCの成果の最初の1年後にその成果と利用について議論す

る。

1.OpenCitations Corpusの内容

主なサービス

-   OpenCitations Corpus（OCC）は、RDFベースの学術引用データの公開リポジトリ（PubMed Central Open Accessに含まれる記事を解析して得られたサブセット）、誰でも自由に利用、構築可能。

リソースの内容

- OCC内のデータ

- データを記述するオントロジー

- OCCを構築するために開発されたソフトウェア

OCCは3つの基本的なI4OC（https://i4oc.org/#goals）によって促進 - アクセス可能

- 相互運用可能

- 再利用可能

2.関連研究

- Semantic Lancet：学術出版のLOD

https://doi.org/10.1007/978-3-319-17966-7̲10

the current dataset contains SPAR-based( https://doi.org/10.

1007/978-3-319-04777-5̲5 ) - Semantic Lancet：

学術出版のLOD( https://doi.org/10.1007/978-3-319-17966-7̲10 ) - WikiCite：

Wikimediaにサービスを提供するためWikidataに書誌データベースを構築 (https://doi.org/10.1007/978-3-319-46547-0̲16)

-   The Springer Nature SciGraph：

Springer Natureが提供するRDFデータセット - OpenAIRE：

14,000,000以上の出版物のメタデータを公開 - Scholarly Data：

Semantic Web Dogをリファクタリングするプロジェクト

3.OpenCitations Corpus(OCC)の構築

OCOはオントロジーではなく、単に既存の補完的要素をグループ化するためのメカニズム

コーパスのURL（ https://w3id.org/oc/corpus/ ）引用/引用された書誌的リソース（会議

論文、本の章、雑誌の記事など）とその容器（学術的手続、

書籍、雑誌など）、それらが具体化された形式

（デジタル対プリント、最初と最後のページなど）、関連書誌の役割書誌資料に関連する代理人（著者、編集者、発行者など）、

引用文献目録の参照リストの各参考文献のテキスト内容

リソース、すべての識別子（例えば、DOI、PubMed ID、PubMed Central ID、ORCID、ISSNなど）

彼らの与えられた家族名のようなエージェントの。詳細な説明

モデル全体が[12]で与えられる。

4.コミュニティの取り込みと統計

•  10ヶ月で元の目標である、約50万の新しい引用を摂取することを達成。 4,500,000件以上の引用リソースへの約6,500,000件の引用リ

•  ンク 2016年9月24日にリリースした最初のダンプ。triplestore全体が 2,500回以上ダウンロードされている

•  SNSも活用

•  世界の学術コミュニティ内では、OCCによって提供された引用デー

タは、独立した多数の国際プロジェクトによって使用されている。

5.結論

月あたりの引用件数は1日当たり500,000件

•  継続出来ることになった今後の課題：

•  スクリプトの拡張や外部データセットへのリンクを追加するための

開発し、新しいユーザーインターフェイスを開発する

UNDO: the United Nations System Document Ontology

UNDO：国連システム文書オントロジー

Silvio Peroni, Monica Palmirani, and Fabio Vitali DASPLab, DISI, University of Bologna, Bologna, Italy

CIRSFID, University of Bologna, Bologna, Italy [email protected], [email protected],

[email protected]

概要

Akoma Ntosoは、OASIS委員会仕様のドラフト標準である。

最近の国連（UN）議会、規範、司法の電子的表現XML形式の文書は、

国連文書を作成するための主要電子フォーマットとして機械加工可能である。

Akoma Ntosoは概念と関係を文書で言及しているが、実世界のオブジェクトの記述を可能にするための正式なオントロジーを強制したり定義しない。

このギャップに対処するため、本稿では、国連に採用されたOWL 2 DL

オントロジである国連システム文書オントロジー（UNDO）を紹介する。

1.はじめに

Akoma Ntoso

(http://www.balisage.net/Proceedings/vol5/html/Barabucci01/

BalisageVol5-Barabucci01.html) - OASIS標準になりつつあるXML言語

- すべての国連文書とその団体の電子的表現を含む

- Akoma Ntosoは非公式ではあるが、記述することを可能にするすべてのエンティティのための存在論的構造があり、2つのクラスがある

•  document classes：ドキュメントのさまざまな表現に重点。知的創造として、

形態（版、翻訳など）、その物理的実施形態（例えば、PDF、XML、HTML、

紙など）。

•  non-document classes：コンテンツの内容を表すことに重点。（例えば、コンセプト、オブジェクト、イベント、場所、役割、審議のステップなど）。

- 文書クラスの非公式の定義は、国際標準化機構の書誌レコード

（FRBR）、図書館連盟（IFLA）標準[6]の機能要件に基づいているが、

Akoma Ntoso仕様では、非ドキュメントエンティティの記述に対処す

るための特定のモデルの採用の可能性については明示的に言及されてい

ない

2.方法およびマテリアル

Akoma Ntoso：

意味論を提供することを第一の目的とする、法律や立法文書のためのXMLボキャブラリー。

FRBRと他の8つのトップレベルクラス（TLC）に基づくOWL 2 DLオントロジー。

ALLOT（ https：//w3id.org/akn/ontology/allot ）：

ドキュメント内 ISWC2017サーベイ (ページ 103-122)

・Ontologies and Datasets II

8. 河村郁江（名古屋工業大学）

Modeling and Using an Actor Ontology of Second World War

Military Units and Personnel 第二次世界大戦軍事ユニットと

人員の関係者オントロジーの モデリングと使用

Petri Leskinen1, Mikko Koho1, Erkki Heino1,2, Minna Tamper1,2, Esko Ikkala1, Jouni Tuominen1,2, Eetu Ma ̈kela ̈1,2, and Eero

Hyvo ̈nen1,2

1 Semantic Computing Research Group (SeCo), Aalto University, Finland and

2 HELDIG ‒ Helsinki Centre for Digital Humanities, University of

Helsinki, Finland

WarSampo Systemというフィンランドの第二次 世界大戦のセマンティックウェブシステムを作成

WarSampoシステム：

フィンランドの第二次世界大戦の歴史的な軍人に関する大規模なデータ セットに基づき作成

（例：死傷者データ、写真、イベント、戦争日記、歴史的地図など）を より大きなソースのプール（例えば、National Archives、Defense Forces、および半自動的に抽出された書籍のスキャンデータなど）

構成： WarSampoは２つの構成で出来ている

1.Linked Open Data Service(Linked Data Finland : http://ldf.ﬁ ) 2.Applications based on the service( http://sotasampo.ﬁ/en ) + WarSampo project 20 9,000,000 triples

https://vimeo.com/212249404

+CIDOC-CRM based actor-event model:

CIDOC-CRMをベースにした役割とイベントのモデル

問題点と解決策

課題：オントロジーをどのように表現するか

• 軍人の階級と部隊、そして軍隊の名前と構造は戦争で急速に変化す

• る。 未知の兵士のデータ、関係者に関するデータはしばしば不完全。

• 名前付きエンティティに基づくデータリンクは、変更する必要があ るため困難。

解決策：

セマンティックポータル「WarSampo7」の、自動再構成のアイデア

• 個々の兵士とユニットの伝記戦争の歴史の曖昧さを回避。

• 時空間文脈における名前の組み合わせと、さまざまなソースを作成し、

それらを調和のとれた形式で公開。

+ Actor Ontology Model

関係者のオントロジーは、CIDOC CRM12モデルに基づいている

（http://cidoc-crm.org/）

4 Warsampo Actor Data

現在100 000人分

データ元：将軍と司令官のリスト、名誉勲章の受領者のリスト、

the Casualties database kronos.narc.ﬁ/menehtyneet/

Finnish National Biography http://www.kansallisbiograﬁa.ﬁ/english/ ,

photographers men- tioned in Finnish Wartime Photograph Archive http://sa-kuva.ﬁ/neo?tem=webneoeng, Wikidata https://www.wikidata.org/,

Wikipedia. National BiographographyデータベースとWikidataの580名のフィンランド人または外国人民間人の抽出物

が含まれる。

問題点と解決策

結論： 作品の貢献が要約され、いくつかの方向性が示され、

さらなる研究が提案されている。

今後の課題:

- Linked Dataツールのコラボレーション - 訂正提案を外部に許可

- 第二次世界大戦のデータをユーザーから集める

- Warsampo Cemetery Perspectiveの出版イベント - ユーザーテストのその後

- WarSampoの外の拡張

- 2018年に戦争囚人の視点

One year of the OpenCitations Corpus

Releasing RDF-based scholarly citation data into the Public Domain

OpenCitations Corpusの1年間 RDFベースの学術論文引用データを

パブリックドメインに公開する

Silvio Peroni, David Shotton, and Fabio Vitali

DASPLab, DISI, University of Bologna, Bologna, Italy

Oxford e-Research Centre, University of Oxford, Oxford, UK

概要

OpenCitations Corpus（OCC）を作成

学術論文の参考文献リストは、個人の研究努力や信用の帰属と統合を可 能にする学術コミュニケーションであるが、RDFのような適切な機械可 読フォーマットで自由に利用できない。

この問題に対処するため、Open Accessの文献データを

OpenCitations Corpus（OCC）に取り込み、すべての人に公開されて いる学術論文データのRDFデータセットを作成した。

本稿では、OCCの成果の最初の1年後にその成果と利用について議論す

る。

1.OpenCitations Corpusの内容

主なサービス

- OpenCitations Corpus（OCC）は、RDFベースの学術引用データ の公開リポジトリ（PubMed Central Open Accessに含まれる記事 を解析して得られたサブセット）、誰でも自由に利用、構築可能。

リソースの内容

- OCC内のデータ

- データを記述するオントロジー

- OCCを構築するために開発されたソフトウェア

OCCは3つの基本的なI4OC（https://i4oc.org/#goals）によって促進 - アクセス可能

- 相互運用可能

- 再利用可能

2.関連研究

- Semantic Lancet：学術出版のLOD

https://doi.org/10.1007/978-3-319-17966-7̲10

the current dataset contains SPAR-based( https://doi.org/10.

1007/978-3-319-04777-5̲5 ) - Semantic Lancet：

学術出版のLOD( https://doi.org/10.1007/978-3-319-17966-7̲10 ) - WikiCite：

人員の関係者オントロジーのモデリングと使用

WarSampo Systemというフィンランドの第二次世界大戦のセマンティックウェブシステムを作成

フィンランドの第二次世界大戦の歴史的な軍人に関する大規模なデータセットに基づき作成

（例：死傷者データ、写真、イベント、戦争日記、歴史的地図など）をより大きなソースのプール（例えば、National Archives、Defense Forces、および半自動的に抽出された書籍のスキャンデータなど）

•  軍人の階級と部隊、そして軍隊の名前と構造は戦争で急速に変化す

•  る。未知の兵士のデータ、関係者に関するデータはしばしば不完全。

•  名前付きエンティティに基づくデータリンクは、変更する必要があるため困難。

•  個々の兵士とユニットの伝記戦争の歴史の曖昧さを回避。

•  時空間文脈における名前の組み合わせと、さまざまなソースを作成し、

結論：作品の貢献が要約され、いくつかの方向性が示され、

学術論文の参考文献リストは、個人の研究努力や信用の帰属と統合を可能にする学術コミュニケーションであるが、RDFのような適切な機械可読フォーマットで自由に利用できない。

OpenCitations Corpus（OCC）に取り込み、すべての人に公開されている学術論文データのRDFデータセットを作成した。

-   OpenCitations Corpus（OCC）は、RDFベースの学術引用データの公開リポジトリ（PubMed Central Open Accessに含まれる記事を解析して得られたサブセット）、誰でも自由に利用、構築可能。

-   The Springer Nature SciGraph：

OCOはオントロジーではなく、単に既存の補完的要素をグループ化するためのメカニズム

コーパスのURL（ https://w3id.org/oc/corpus/ ）引用/引用された書誌的リソース（会議

（デジタル対プリント、最初と最後のページなど）、関連書誌の役割書誌資料に関連する代理人（著者、編集者、発行者など）、

•  10ヶ月で元の目標である、約50万の新しい引用を摂取することを達成。 4,500,000件以上の引用リソースへの約6,500,000件の引用リ

•  ンク 2016年9月24日にリリースした最初のダンプ。triplestore全体が 2,500回以上ダウンロードされている

•  SNSも活用

•  世界の学術コミュニティ内では、OCCによって提供された引用デー

•  継続出来ることになった今後の課題：

•  スクリプトの拡張や外部データセットへのリンクを追加するための

国連文書を作成するための主要電子フォーマットとして機械加工可能である。

Akoma Ntosoは概念と関係を文書で言及しているが、実世界のオブジェクトの記述を可能にするための正式なオントロジーを強制したり定義しない。

- Akoma Ntosoは非公式ではあるが、記述することを可能にするすべてのエンティティのための存在論的構造があり、2つのクラスがある

•  document classes：ドキュメントのさまざまな表現に重点。知的創造として、

•  non-document classes：コンテンツの内容を表すことに重点。（例えば、コンセプト、オブジェクト、イベント、場所、役割、審議のステップなど）。