作業手順

第３章国立国会図書館における蔵書評価：チェックリスト法を用いた試験的な試み

5. 作業手順

以上の作業手順を具体的にフローチャートにして示す。なお、以下のフローチャートでは、

ISBNコードの妥当性の検証（ISBNコードで検出できなかった資料がNDL中に存在するかどうか、および、ISBNコードを持たないレコードが本当にNDLデータ中に存在しないのかについての調査。本文第３章参照）も含まれている。

(1) LC 蔵書目録に関する作業手順（フローチャート）

開始

擬似乱数で 100 件抽出

YES No

重複レコードの削除コントロールコードが

重複している

YES

該当レコードの削除

何％一致した No

YES

不一致リストを作成

※1

※３

YES

分類記号は規定通り

規定外レコードの削除

擬似乱数で 100 件抽出

※4

言語コードが日・

中・韓

ISBN コードが N DL データと一致

何％一致した

※5 タイトルが

NDL データと一致

タイトルが NDL データと一致

※2

LC から抽出し、MARC 形式でダウンロード

テキストを Access のテーブルの形に読み込む

一致リストを作成

※4 この時点のデータが母集団となる。

↓

母集団内の構成を知るためにクラスターを作成する。

↓

ISBNコードがNDLとLCとで一致したものの中で言語別、分野別のクラスターを作成する。この時点で不正なISBNは除去する。

※1 抽出条件は、「資料種は図書」、「LC 分類法の Z を基準とする事」、「年代は 1996～2000 年」。

※3 分類は、LCはタグ050または051の$aが、Zで始まっているものとする。

※5 タイトルとNDL書名データとの一致のルールは「疑わしきは罰せず」でマッチング作業者の判

※2 LCのデータをMARC21形式からテキスト形式へ変換した。

変換には、加工ソフトを使う。候補のソフトは２つ

MARCRTP1.4.9 （Windows) MarcEdit5.0(beta) 2006-01-18

(2) 中国国家図書館蔵書目録に関する作業手順（フローチャート）

開始

擬似乱数で 100 件抽出

YES No

重複レコードの削除コントロールコードが

重複している

YES

該当レコードの削除

何％一致した No

YES

不一致リストを作成

※1

※2

テキストを Access のテーブルの形に読み込む中国国家図書館から抽出し、テキスト形式でダウンロード

YES

分類記号は規定通り

規定外レコードの削除

擬似乱数で 100 件抽出

※3

言語コードが日・

中・韓

ISBN コードが N DL データと一致

何％一致した

※4 タイトルが

NDL データと一致

タイトルが NDL データと一致一致リストを作成

※3 この時点のデータが母集団となる。

↓

母集団内の構成を知るためにクラスターを作成する。

↓

ISBNコードが NDLと中国国家図書館とで一致したものの中で言語別、分野別のクラスターを作成する。この時点で不正なISBNは除去する。

※1 抽出条件は、「資料種は図書」、「LC 分類法の Z を基準とし、

G203、G23、G25、Z8 のいずれかから始まっているもの」、「年代は 1996

～2000 年」。

※2 分類は、中国はタグ096（その他の分類記号）の$a の値が

G203、G23、G25、Z8 のいずれ

かから始まっているものとする。

※4 タイトルとNDL書名データとの一致のルールは「疑わしきは罰せず」でマッチング作業者の判

(3) NII 提供のデータに関する作業手順（フローチャート）

No YES

該当レコードの削除

YES

※1

テキストを Access のテーブルの形に読み込む

YES

規定外レコードの削除

出版開始年が 1996～2000

ISBN コードが N DL データと一致 1ISBN＝1行分類記号は規定通り No

NII 図書館書誌データと書誌 ID でマッチングする

ISBN の存在率をメモする

終了

開始 ※1 作業開始時点では

「BOOKCLS.pai」というテキストファイル。

※2 この時点のデータが母集団となる。この時点で不正な ISBNは除去する。

※2

付録２：蔵書評価における文字コード問題について

1. はじめに

第３章において述べたように、本研究では、蔵書評価における書誌同定のための照合キーとしてISBNを用いた。複数の図書館間において、大量の所蔵資料の重複率を調査しようとする際、ISBNを照合キーとすることは、最も効率的かつ簡便なアプローチであると言える。その一方で、ISBNのみを用いることによってもたらされる調査バイアスが存在することも認識しておかなければならない。

既に確認したように、まず、図書館間の資料の重複率を過少に評価してしまう要因として、

(a) ISBNコードが付与されていない図書が存在する場合

(b) ISBNコードが誤入力されている場合

等が想定される。逆に、重複率を過剰に評価してしまう要因としては、

(d) 資料の内容は同一であるにも拘らず、装丁や出版国等が異なるものが存在するといったような理由により、複数のISBNコードが付与されている場合

等が想定される¹。但し、(d)については、版が異なる場合は言うまでもなく、版が同一である場合であったとしても刷りが異なれば、内容自体が改変されるといった例も見られることから、

メタデータとしての書誌情報のみによって、その同一性を確定することは困難であると言える。

さて、以上のような要因を排除して、より精密な評価結果を得るためには、ISBNのみに依拠することなく、書名、著者名といった他の書誌項目を同一性の判断基準として含めることが望ましい。しかしながら、ISBNを照合キーとした際にはほとんど問題とはならないが、文字列照合を行う際には、比較・対照されるべき図書館の目録データベースが採用している文字コード（符号化方式）や文字セット（文字集合）の相違から派生する種々の技術的問題に対処しなければならないこととなる。

本研究において、ISBNのみを照合キーとしたのは、そうしたバイアスを除去するためのコストと、積極的にバイアスを除去しなかった場合に含まれることが予想される誤差とのトレードオフを評価して、後者が比較的矮小であると判断したためであるが、今後、他の書誌項目を照合キーとして用いようとする際に惹起される種々の問題を認識しておくことは有効であると考えられる。なぜならば、そうした問題を適切に処理できなかった場合、ISBNのみを照合キーとした場合よりも、精度の劣る評価結果をもたらす可能性が高いからである。

そこでここでは、国立国会図書館洋図書データにおける文字コードや文字セットに関する状況について概観した後に、他の大規模データベースの書誌事項との文字列照合を行うことを想定した場合の問題を確認する。

1このほか、国立国会図書館では、シリーズ物の書誌の場合、後続刊行の巻号が出た際に、最初に作成した書誌に追記をするが、ISBNについては追記を行わない慣習があったことから、ISBNコードが存在するにも拘らず、書誌データは入力されていないといったケースも存在するとのことである。

2. 国立国会図書館洋図書蔵書データにおける文字コードの

ドキュメント内こちら (ページ 74-80)

第３章 国立国会図書館における蔵書評価：チェックリスト法を用いた試験的な試み

5. 作業手順

(1) LC 蔵書目録に関する作業手順（フローチャート）

(2) 中国国家図書館蔵書目録に関する作業手順（フローチャート）

(3) NII 提供のデータに関する作業手順（フローチャート）

付録２：蔵書評価における文字コード問題について

1. はじめに

2. 国立国会図書館洋図書蔵書データにおける文字コードの

第３章国立国会図書館における蔵書評価：チェックリスト法を用いた試験的な試み