青空文庫
1997〜2012
ある、私設テキスト・アーカイブの試み
富田 倫生
2012年11月20日
1991 電子書籍元年
米ボイジャー、Expanded Bookを開発
テキストをしかるべきソフトで加工す
ると、画面上に本を再現できる。
失われた簡易製版、印刷ツール、ガ
リ版の世界が、デジタルで復活する。
・印刷所、出版社、取り次ぎ、書店網
という大きな機構を動かさずとも、自
分の出版物を出せる。
・作成、複製、保存、配布が、コン
ピューターとネットワークの力を借りて
容易に行える。
・検索といったコンピューターならでは
青空文庫は、紙の本の電子的保存
から発想したものではない
・検索といったコンピュ タ ならでは
のメリットも生かせる。フォントの切り
替えで表示の雰囲気を変えたり、横
組み、縦組みを即座に切り替えたり。
音声変換、将来的には自動翻訳と結
びつく可能性もある。
・音声や画像の組み込みも可能。
から発想したものではない。
「電子本を作る」、つまりコンピュー
ター上でどうテキストをやり取りする
かから考え始め、それを何に生か
すかという流れから、アイディアが
生まれていく。
1995 インターネット
インターネットの急速な普及
・従来はCD‐ROMやフロッピーディスクに
収めて物理的に移動するしかなかった
電子本の配布問題に、これでけりがつく
だろう。
すでに始まっていた、テキストの配布
・プロジェクト・グーテンベルク:1971年
スタートを標榜する、米国発のテキスト・
アーカイビング・プロジェクト。
・日本文学等テキストファイル:岡島昭浩
(福井大学、当時)さんが作成した、どこ
のサーバーに、どの作品のテキストが置
いてあるかをまとめたリスト。その背後
には、研究用に作成したファイルを公開
する、研究者の動きがあった。
1997 電子図書館
電子書籍+インターネットで、何ができるか。
・電子書店
・電子図書館
複製、移動のコストが低いというイン
ターネットの特長と親和性が高いの
タ ネットの特長と親和性が高いの
はどちらか。
・電子図書館:エキスパンドブック+
インターネット=青空文庫
・書くもの(著作権あり)、書かれたも
の(著作権切れ)の双方を収録。
電子図書館に至る二筋の道
・画像:パイロット電子図書館
→近代デジタルライブラリー 素早く
大量の書籍を電子化できる。
・テキスト:青空文庫 コンピューター
による様々な後処理を期待できる。
開設当初登録の、樋口一葉「たけ
くらべ」エキスパンドブック版。縦組
み、ルビ付き。ファイル内検索可能
で、組みを縦横に切り替えられた。
2002 テキストへの後退
メーカー固有フォーマットに依存す
ることへの懸念。
・ボイジャーは、次々に生まれてくる
OS環境に、どこまでフォーマットを
対応させられるのか。
対応なし 環境 は 青空文庫が
・対応なしの環境では、青空文庫が
作成したファイルは、開けない。
・ボイジャー自身、新しいフォーマッ
ト開発にも乗り出している。
もっとも幅広い環境で、もっとも長く
開けるファイルフォーマットはなに
か。
か。
・テキスト
・そこまで後退し、「テキスト中に組
版情報を書き込んだものを作る」と、
発想を切り替える以外、ない。
2004 可読性への再挑戦
手放した読みやすさを、いかにし
て取り戻すか。
・組版情報を記録するための青
空文庫注記を、コンピューター処
理可能なタグとして 再定義する
理可能なタグとして、再定義する。
・そのタグを元に、エキスパンド
ブック並みの組み体裁を再現す
る、青空文庫対応表示ソフトの
開発を働きかける。
azur
・ボイジャーと青空文庫が共同開
発した、縦組み対応のウェッブブ
ラウザー。
・青空文庫XHTML版に記載され
た、ルビ、圏点、傍線、字下げな
どのタグを元に、組版を再現する。
青空文庫は、組版情報を記載した
ソースのみを提供する。
表示は、対応ビュワーに任せる。
共生を目指して 1
収録ファイルを、どのように使えるか
の明確化。
・当初、「青空文庫の作品は、自由に
使ってください」とだけ、書いていた。
・それに対し、山形浩生さんから、批
判を浴びた。「テキストは公開されて
る、自由に使えるとはいいつつも、実
は受け取る側としてはなにができるや
らよくわからないのだ」
・それまで入力、校正に関わってきた
全員に働きかけて、「収録ファイルの
取り扱い規準」をまとめた。
・「有償であるか、無償であるかを問有償であるか、無償であるかを問
わず、複製し、再配布できる。ファイル
形式の変換も可能。著作権法が許す
範囲での、旧仮名を新仮名にあらた
めるといった変更も可能。これらのい
ずれを行うにあたっても、青空文庫側
に対価を支払ったり、了解を求めたり
する必要はない。」
共生を目指して 2
注記記号の使いかたを、詳細に解説。
・青空文庫で入力、校正する人のため
に、かねてから注記記号の使いかたを
説明してきた。
加えて 青空文庫対応表示ソフト開
・加えて、青空文庫対応表示ソフト開
発者への情報提供を意識して、注記
情報をもとに、どう表示を組み立て直
してほしいかにまで言及した、「注記一
覧」を用意した。
・対応表示ソフトが、PC、スマートフォン、
タブレット端末などに、広く多数書かれ
ると、青空文庫形式で自分の書いた作
品を電子化しておけば、いろいろな環
境で開いてもらえると受け止める人が
現れた。
・「注記一覧」には、簡易電子出版環境
としてこれを利用する際の注意事項や、
知恵についても記載している。
共生を目指して 3
注記したテキストを、XHTMLに変換す
るプログラムを公開。
・青空文庫自体が提供するファイルは、
現在、テキスト版とXHTML版の2種類。
XHTMLは、手作業で注記したテキスト
を、プログラムで変換して得ている。
・この変換プログラムは、パブリックド
メイン扱いで、「組版案内」に置いて公
開している。
・ここでは、自分が用意したテキストを、
XHTMLに変換することも出来る。
電子書籍の標準規格として期待され
・電子書籍の標準規格として期待され
るEPUBの中身には、XHTMLのサブ
セットが用いられる。青空文庫ファイ
ルを、EPUBに変換するツールが各種、
開発されているが、それらには青空文
庫が公開している変換プログラムがな
んらか、貢献している可能性がある。
共生を目指して 4
公開中、作業中の全作品の書誌
情報を、CSV形式で公開。(毎日更
新。)
・どの本をもとに、入力したのか。
その底本は、どこからテキストを得
ているか。初出。仮名、漢字の新
ているか。初出。仮名、漢字の新
旧。著作権の有無。テキスト版、
XHTML版のURL、図書カードのURL
等の書誌情報を、 CSV形式で公
開している。毎日更新しており、当
日公開された作品も、公開中CSV
に記載されている。
・青空文庫対応表示ソフトには、著
者名、作品名のリストを組み込ん
者名、作品名のリストを組み込ん
だものが多い。そのデータは、連
日更新される、書誌情報CSVから
取得されている。
・どの作品がどれだけ校正を待っ
ているかといった情報も、作業中
CSVから得られる。
青空文庫と図書館
• 読む行為の電子化は、不可避に進む。利用者から求められる表現の記録が、デジタ
ルでも存在する、あるいはデジタル化によって、より容易にアクセスできる形で提供さ
れているといった変化は、限られた範囲ではあるが、すでに生じている。
• こうした読みの変革期に 図書館にはなにが求められるか
• こうした読みの変革期に、図書館にはなにが求められるか。
• 画像ベースについては、国会図書館が作成のエンジンとなり、公共図書館、大学図書
館にも参照の窓口を設ける枠組みが、本年の著作権法改正によって固まった。
• 国会図書館発のもの、加えてそれ以外から生み出される画像電子書籍、あるいはテ
キスト・ベースの電子書籍を、所蔵図書の検索機構に組み入れられれば、利用者に
とっては有用だろう。前提として、提供者側による、APIの公開が求められるが。
• 電子書籍の利用には、今後もためらいを覚える人が多いだろう。近代デジタルライブ
ラリーや、青空文庫等のテキスト・アーカイブの利用をリファレンスの要素として組み込
んだり、体験機会を提供することには意味がある。解説を欠く青空文庫作品に関して
は、「お薦め」の紹介も、強く求められている。
• 国会図書館は、全文テキスト化実験を行うなど、テキスト化への意欲を持っている。基
盤の脆弱な青空文庫などに代わる、強力なテキスト化エンジンが図書館勢力の中か
ら生まれれば、素晴らしい。
発表で触れたページヘのリンクを、以下に貼っておきます。
http://attic.neophilia.co.jp/lff_2012/