第 3 章 可変長サンプル範囲の指定 49
3.2 可変長サンプル例
3.3.3 作品集等の場合の「理想範囲」
同一著者が書いた単行本であれば,その「冊本体」全体を一作品と見なし「理想範囲」
とする原則を 3.1 節で述べたが,個人全集のような作品集の場合には,その原則を適用せ ずに,一作品を一つの「理想範囲」であると考える。
図 3-17 一作品が一つの「理想範囲」(初出表示あり)
64 第3章 可変長サンプル範囲の指定 一作品を一つの「理想範囲」と考える理由は,作品集におさめられた作品は,別時期に,
別媒体にて公表された作品の再録であることが多く,一冊の単行本におさめられていると しても,それらの作品は寄せ集められたものと考えられるためである。よって,まずは書 籍のタイトル等に「集」とある場合は,作品単位で「理想範囲」を認定する。また,タイ トル等に「集」がない場合でも,各作品が再録であることが初出表示等により明確であれ ば,一作品を一つの「理想範囲」としている。典型は,個人全集であるが,短篇小説集や,
エッセー集等の場合も一作品を一つの理想範囲と認めることが多くある。例えば,図 3-17 のような例である。
なお,そのような作品集については,たとえ,複数の作品を束ねる部立て,章立てがあ る場合でも,一作品で一つの「理想範囲」であると考える。ただし,サンプル抽出基準点 が章立ての文字列の一つである場合は,原則に立ち戻り,その「冊本体」を「理想範囲」
とする。
3.4 「完結構造」の捉え方
可変長サンプルの範囲指定における問題として,「完結構造」の把握,すなわち,章節構 造の把握そのものの難しさがある。
例えば,図 3-18 は,最終章である 4 章の直後にある「結論」という部分に,サンプル抽 出基準点が当たった場合である。この「結論」を含む「冊本体」の全体を取ろうとすると,
1 万字制限を超えてしまう。物理的な位置は 4 章の中であるが,書籍全体の結論であるため,
4 章の下位に含めることもしがたい。この例は,レイアウト上,結論部分だけが取得可能な 最大の論理的なまとまりであると判断し,可変長範囲は「結論」部分のみとした。このよ うに,章節構造の把握には,内容にも踏み込んだ判断がしばしば必要になる。
図 3-18 物理的に 4 章の下位に位置づけられている「結論」
3.4 「完結構造」の捉え方 65 加えて,章節構造の把握のためには,見出しや区切り記号の認定が必要であるが,そこ にも問題が多く存在する。見出しや区切記号りについては,多様な形式への対応が必要に なる。見出しには,「一」「二」などの順番を持つもの,イラストで表されるものなど様々 あり,区切り記号にも,記号,イラスト,線,など様々ある。見出しや区切り記号がない場 合は,空行を区切りとして認定する必要が生じるが,一行空行,二行空行などで使い分け のある場合は留意せねばならず,また,引用前後の空行は,区切りとみないよう留意せね ばならない,といったことがある。
以下,図 3-19 はイラストで区切る例,図 3-20 は空行で区切る例である。なお,見出し については第5章で述べる。
図 3-19 イラストによる区切り 図 3-20 空行による区切り
空行による区切り イラストによる区切り
66
第4章 対象外要素の排除指定
柏野和佳子・稲益佐知子・田中弥生・秋元祐哉 ここでは,第Ⅰ部第 4 章で述べた[排除基準 3]~[排除基準 5]の適用によって排除指 定をする対象のうち,次の2点について説明する。
①言語表現を主体としない,あるいは,文字列が図式化されている「フィギュア」
[排除基準 3] [排除基準 4]
②現代日本語を主体としないブロック形式部分 [排除基準 5]
4.1 「フィギュア」
第Ⅰ部で述べた通り,「フィギュア」は「フィギュア本体」とそれに付帯する「キャプシ ョン」とに分かれる(以降,「フィギュア本体」のみを「フィギュア」と呼び,「キャプシ ョン」は「キャプション」で呼び分ける)。「キャプション」はサンプリング対象であるた め,ここでは言及せず,次の第5章で説明する。
「フィギュア」は,[排除基準 3] [排除基準 4]によって,排除されるものである。そ のおおよその類型は,次の通りである(類型別の詳細は 4.1.1 節以降に後述する)。
○類型 1
・写真
写し込み
○類型 2
・イラスト
漫画
○類型 3
・図解
グラフ
○類型 4
・分岐型フローチャート
表1
類型 1 の写真や,類型 2 のイラストにおいて,そこに一切文字がない場合は,収録可能 な文字列が存在しないため,当然,排除対象である。その判断に迷うことは,まず,ない。
よって,そのようなものはここではこれ以上言及しない。また,類型 1~4 を通し,「フィ ギュア」とともにある文字列が「フィギュア」の一部であるのか,そうではなく,[選択基 準 4]でサンプリング対象とする「キャプション」であるのか,という判断もまた,しばし
1 第Ⅱ部では,サンプリング対象外とするものだけを「表」と呼ぶ。すなわち,第Ⅰ部図 3-5 で示した行 列見出しを備えたようなものだけを「表」と呼び,第Ⅰ部図 3-6 のようなものは「表」とは呼ばない。
4.1 「フィギュア」 67 ば問題になるが,この問題についてもこれ以上は言及しない。
ここでは,「フィギュア」に該当する場合,しない場合の判断に伴う問題について取り上 げる。類型 1~3 においては,文字列を含む「フィギュア」が,「フィギュア」が主体であ るものであるかを判断する必要がある。「フィギュア」が主体である場合の類型化が一つの 課題であり,当該部分がそれら類型に該当するものであるかの判断が問題になる。類型 4 においては,「文字列が図式化されているか」の判断が問題になる。
以下,類型別に,事例を挙げて上記問題について説明する。