XML が開く学
術出版の未来
2012. 9. 19
時実象一
愛知大学
[email protected]
学術情報 XML 推進協議会
•
学術情報の XML 製作・流通を推進する
ため結成
–2012/6/28 –学会、印刷会社、JST、学識者 –会長: 時実 象一•
XML 普及のための活動
–XML 普及のための広報・宣伝 –学会・印刷会社への情報提供・教育 –JATS の改良のための研究・助言2012/9/19 学術情報 XML 推進協議会講演
3
自己紹介
•
有機化学出身
•
東レ (株) 基礎研究所・環境技術研究所
•
(社) 化学情報協会で CAS データベース
の導入と展開
•
CAS (Columbus, Ohio)
•
科学技術振興機構 (JST) で J-STAGE
の開発
•
愛知大学図書館情報学専攻
目次
•
XML, NLM DTD と JATS
•
わが国の SGML/XML 出版
•
日本語処理のための NLM DTD の改良
•
JATS
•
XML のタグ付けと組版
•
XML を使った電子出版の可能性
2012/9/19 学術情報 XML 推進協議会講演
5
SGML, HTML
•
SGML (Standard Generalized Markup
Language)
–元は IBM’s Generalized Markup
–政府文書の作成などで普及
–学術雑誌の編集も
•
HTML (HyperText Markup Language)
–SGML の Web 版とみなされる
–DTD が不要
XML
•
eXtensible Markup Language
–現在電子文書の中心 –データ交換 –メタデータ記述 (RDF) –電子ジャーナル –電子書籍 (XHTML, EPUB) –Microsoft Office
2012/9/19 学術情報 XML 推進協議会講演
7
DTD
•
Document Type Definition
–SGML, XML において、文書構造 (文書型) を定義する –具体的には • 要素 (element) • 属性 (attribute) –などを定義する
NLM DTD
•
学術雑誌における XML の DTD として
開発 (2002)
–PubMed Central 改良計画 (NCBI)
–学術雑誌の電子的アーカイブ・プロジェクト
• ハーバード大学
• メロン財団
–メンバー
• NCBI、ハーバード大学、メロン財団、Mulberry Technologies (NCBI コンサルタント)、Inera, Inc. (ハーバード大学コンサルタント)
2012/9/19 学術情報 XML 推進協議会講演
9
JATS
•
Journal Article Tag Suite (JATS)
–NLM DTD 3.1 (draft) が NISO に移行 –JATS version 0.4 • トライアルが 2011/9/30 で終了 –version 1.0 は 2011/8/9 に ANSI 承認、公開
わが国での SGML/XML 出版
•
「情報知識学会誌」 (1990)
–凸版印刷と協力、SGML 編集•
学術情報センター (現国立情報学研究
所)
–SGML 実験誌 (1991)•
慶應義塾大学三田情報センター (図書
館)
–三田商学会の欧文誌と和文誌の SGML 試 作 (1991)2012/9/19 学術情報 XML 推進協議会講演
11
わが国での SGML/XML 出版
•
情報知識学会
–「SGML フォーラム」(後に「SGML/XML フォーラム」) で SGML/XML の普及わが国での SGML/XML 出版
•
日本化学会 Bulletin of the Chemical
Society of Japan (BSCJ)
–凸版印刷の協力 –1993. 1 より SGML 作成、LaTeX 印刷 –化学反応式の表現や元素記号の上付き、下 付きなどにも対応 –1998 より HTML 全文オンライン公開 –2001 FrameMaker/SGML に移行 –2003 SGML をやめ、TeX/3B2 に移行2012/9/19 学術情報 XML 推進協議会講演
13
わが国での SGML/XML 出版
•
日本化学会 Bulletin of the Chemical
Society of Japan (BSCJ)
–eXtyles (inera) を用いて Word → XML
–これを 3B2 で組版 –2009. 1 号より実施 –ePub 試験公開 (2010. 3 号)
わが国での SGML/XML 出版
•
「情報管理」誌
–1999. 4 より SGML 編集開始 –オンライン版試験公開 –JICST-DTD を開発 –入稿データ (一太郎) をツール (JICST タ ガー) を使ってタグ付けして SGML 化 –Interleaf5 <SGML> で自動組版 –2001. 4 まで2012/9/19 学術情報 XML 推進協議会講演
15
わが国での SGML/XML 出版
•
「医療情報学連合大会論文集」
–1996-1997 の大会 –著者に XML データ作成依頼 –ツールでチェック –FrameMaker+SGML –印刷用の Postscript データと CD-ROM 用 の HTML データ (CSS 利用) を作成わが国での SGML/XML 出版
•
J-STAGE
–J-STAGE 用の SGML DTD を開発 • JICST-DTD を基礎 –FrameMaker+SGML 工程 • 約 100 誌が書誌事項等作成 –XML も検討、XML DTD 開発 • 3 誌が全文 HTML 公開2012/9/19 学術情報 XML 推進協議会講演
17
わが国での SGML/XML 出版
•
XML 出版の機運
–J-STAGE 新バージョンでは JATS 0.4 を採 用 –PubMed Central 搭載希望学会の増加J-STAGE
•
J-STAGE
–科学技術振興機構 (JST) が運営する電子 ジャーナル・プラットフォーム –2,387,426 記事 / 1,658 雑誌•
新 J-STAGE は 2012 年 5 月に公開
–JATS 0.4•
すでに数誌が JATS XML を使って登載
2012/9/19 学術情報 XML 推進協議会講演
19
PubMed Central
•
米国国立衛生研究所 (NIH) の電子
ジャーナル・アーカイブ
–オープンアクセス –一定の基準を満たせばどこの雑誌も受け入 れ –PubMed (医学データベース) に索引される ので、世界中に流通促進日本語処理と NLM DTD の問題
•
著者名に言語属性 (@xml:lang) を指定でき
ない → @name-style で代用 (Atypon)
<contrib-group> <contrib contrib-type="author"> <name name-style="western"><surname>Nihon</surname> <given-names>Taro</given-names> </name> <name name-style="eastern"><surname>日本</surname> <given-names>太郎</given-names> </name> </contrib>2012/9/19 学術情報 XML 推進協議会講演
21
日本語処理と NLM DTD の問題
•
NLM DTD の問題点
–多くの要素が 繰り返しができないので、日
英 2 種類の記述ができない
• <kwd-group>, <publisher-name>, etc.
–複数記述のできる要素でも、それらが同一
の実体を別の書き方をしたということがわか らない
• <name>, <aff>
SPJ ワーキング・グループ
•
Scholarly Publishing Japan
•
構成
–印刷会社 (中西、小宮山、三美) –サービス会社 (アトラス、アルテック、日本プリ プレス) –個人 (林、時実) –JST (久保田*) –NII (大山*) * オブザーバ2012/9/19 学術情報 XML 推進協議会講演
23
SPJ ワーキング・グループ
•
目的
–NLM DTD の多言語サポートのため提言 –NLM DTD で定義が不足している部分の定 義・ガイドライン作成•
実績
–2010/4 に NLM-DTD WG に提言 –3.1 ドラフト作成に貢献SPJ ワーキング・グループ
回 日 主な成果 1 2010/3/1 多言語の XML を作成する上での問題点を議論 2 2010/4/5 著者名、本文、引用文献について多言語表記案を作成、提案 3 2010/5/13 多言語サンプルについて検討 4 2010/6/17 著者名、雑誌メタデータ、所属機関、xref の使い方、キーワード などの多言語表記案を作成、提案 5 2010/12/6 id 属性について検討、提案 6 2011/1/13 7 2011/2/14 著者と所属機関の対応が 1 対 1 でない場合の表記について検討、 提案2012/9/19 学術情報 XML 推進協議会講演
25
SPJ ワーキング・グループ
•
ボランティアの集まり
–学術情報 XML 推進協議会の母体•
SPJ の将来
–学術情報 XML 推進協議会の研究会に移 行を検討NLM DTD Version 3.1 Draft
•
2010/9
–多言語サポート –アクセシビリティ・サポート•
2010/3
–NISO JATS 0.4 となった2012/9/19 学術情報 XML 推進協議会講演
27
多言語サポート
•
日本の WG の意見を参考に
•
要点
–@xml:lang による言語指定がほとんどの要 素で可能 –ほとんどの構造の繰り返し記述可能 –同一のものが繰り返し記述されている場合 に、それがひとつのものの別言語での記述 であることを示すためのラッパー@xml:lang
•
ほとんどの要素に指定可能となった
•
言語コードとスクリプト (IANA)
–xml:lang=“en” 英語 –xml:lang=“ja-Jpan” 漢字まじり –xml:lang=“ja-Kana” カタカナ –xml:lang=“ja-Hira” ひらかな2012/9/19 学術情報 XML 推進協議会講演
29
繰り返し記述
•
ほとんどの構造が繰り返し可能
<kwd-group xml:lang="en"> <kwd>heated air</kwd> </kwd-group> <kwd-group xml:lang="ja"> <kwd>加温空気</kwd> </kwd-group>•
論文タイトルだけは繰り返しできない
–<trans-title> を使用ラッパー
•
著者名の多言語表記
•
<name-alternatives> ラッパー
2012/9/19 学術情報 XML 推進協議会講演
31
ラッパー
•
所属機関の多言語表記
•
<aff-alternatives> ラッパー
アクセシビリティ・サポート
•
XML テキストの機械読み上げを容易に
する
•
@alt を導入
–<abbrev> で好ましい読み方を指示する –DAISY などで使える <abbrev alt=“W.H.O.">WHO</abbrev>2012/9/19 学術情報 XML 推進協議会講演
33
表と数式
•
表
–<table> (XHTML) –OASIS/CALS は JATS では非標準•
数式
–<mml:math> (MathML 2.0)–<tex-math> (TeX, LaTeX)
JATS 1.0 に向けて
•
以下を提案
–グループ著者の多言語化のための <collab-alternatives> の導入 (○) –ふりがな記述を可能に (×) –非グレゴリー暦 (和暦、イスラム暦など) の 記述方法の導入 (○) –引用文献の多言語化のための <ref-alternatives> の導入 (×)2012/9/19 学術情報 XML 推進協議会講演
35
JATS ワーキング・グループ
• 共同議長
– Jeff Beck (NLM), B. Tommie Usdin (Mulberry Technologies)
• メンバー
– Thomas Dowling (OhioLink), Beth Friedman (DCL), Kathryn Henniss (HighWire), Laura Kelly (NLM), Deborah A. Lapeyre (Mulberry Technologies), Nikos Markantonatos (Atypon), John Meyer (Portico), Evan Owens (AIP), Wendy Queen (Johns Hopkins
University Press), Bruce Rosenblum (Inera), Nate Trail (Library of Congress), Alex Wade (Microsoft)
JATS ワーキング・グループに参加
•
SPJ は JATS ワーキング・グループにオ
ブザーバとして参加することに内定
2012/9/19 学術情報 XML 推進協議会講演
37
J-STAGE
•
新バージョン 2012/5 に公開
•
JATS 0.4 を正式サポート
2012/9/19 学術情報 XML 推進協議会講演
39
New J-STAGE
XML タグ付け
•
eXtyles
–米国 Inera 社の製品 –MS Word の論文を解析して、文章クリーニ ングとともに、自動タグ付けをおこなう –引用文献もタグ付け可能• CrossRef Simple Text Query
• Editorial Manager 投稿システム
2012/9/19 学術情報 XML 推進協議会講演
41
eXtyles
•
日本語論文は手作業で編集が必要な場
合がある
•
雑誌ごとにカスタマイズ必要
–日本語テキストの場合、困難または不要eXtyles
2012/9/19 学術情報 XML 推進協議会講演
43
CrossRef Simple Text Query
•
引用文献を自動解析して DOI を取得
TeX to XML
•
フリーソフト
–http://dlmf.nist.gov/LaTeXML/
2012/9/19 学術情報 XML 推進協議会講演
45
XML タグ付け
•
オフショア
–インド、フィリピンなど –海外出版社は多く利用 –半自動 • PDF からテキスト抽出 • Word から解析 • 手作業で補正XML 組版と校正
•
FrameMaker
•
XyVision (AIP, APS など) [#61]
•
3B2 (現在 Arbortext Advanced Print
Publisher)
•
InDesign/Typefi
•
XML ToolWorks (Media Entities)
•
XSL-FO
2012/9/19 学術情報 XML 推進協議会講演
47
FrameMaker
•
Text を FrameMaker に貼り付け
•
FrameMaker → SGML/XML
3B2 (APP)
•
XML を読み込んで組版
–XML を出力 –PDF を出力2012/9/19 学術情報 XML 推進協議会講演
49
InDisign/Typefi
•
Typefi
–InDesign のプラグイン –XML データからテンプレートに従って InDesign レイアウトを自動生成 –編集校正後 InDesign XML を出力可能 • NLM DTD にはスタイル・シートで変換 –日本コンピュータ化学会が採用InDesign/Typefi
• J. Comput. Chem. Jpn. 2011, 10(4), 141-146.2012/9/19 学術情報 XML 推進協議会講演
51
XML ToolWorks
•
InDesign のプラグイン
•
XML データからテンプレートに従って
InDesign レイアウトを自動生成
•
編集校正後 InDesign から直接 NLM
DTD XML を出力可能
•
Science Magazine が採用
XML ToolWorks
• http://www.atlas.jp/EJS/services_08.html2012/9/19 学術情報 XML 推進協議会講演
53
XSL-FO
•
AH Formatter (アンテナハウス)
•
XML → (XSLT) → XSL-FO
•
XSL-FO → (AH Formatter) → PDF
XSL-FO
• アンテナハウス.
2012/9/19 学術情報 XML 推進協議会講演
55
電子出版
•
XML → XHTML → HTML/EPUB
•
•
モバイル
–アプリ –HTML5 –EPUB•
MathJax
Article of the Future
•
Elsevier の試み
•
レイアウト
–最初はタブ表示
–最終版は 3 分割画面
2012/9/19 学術情報 XML 推進協議会講演
57
Article of the Future
2012/9/19 学術情報 XML 推進協議会講演
59
Project Prospect
•
英国王立化学会 (RSC) のプロジェクト
–セマンティック・タグ • 化合物 • 生医学用 –ChemSpider と結合2012/9/19 学術情報 XML 推進協議会講演
61
Project Prospect
2012/9/19 学術情報 XML 推進協議会講演
63
IOP Artilce Evolution
Annual Review
2012/9/19 学術情報 XML 推進協議会講演
65
MathJax
•
ブラウザ上で数式を表示するオープン・
ソース (APS, OSA, Springer などが利用)
EPUB
•
米国電子書籍では標準に
–XML から作成•
日本でも EPUB3 を機に普及のきざし
–XHTML を直接作成 –将来的には XML から•
XHTML と CSS を zip ファイルとしたも
の
2012/9/19 学術情報 XML 推進協議会講演