• 検索結果がありません。

排除基準,選択基準,運用基準の整理

ドキュメント内 発行年 2009‑03‑24 (ページ 40-45)

第 3 章 書き言葉の階層的な構造とサンプル範囲の認定基準 19

4.4 排除基準,選択基準,運用基準の整理

ばれるようなもの)。このような場合,引き出し線によって結ばれた解説部分の中に,章節見 出しや本文が記述されていることが多い。

このような場合,章節構造を取り出すために[運用基準3]を適用し,フィギュア本体の中 にある文字列を,サンプルの範囲に含めることにする。すなわち,当該の文字列を[排除基準 3]の適用対象から外し,[選択基準1]および[選択基準2]の適用対象とするわけである。

これと同様のことが,[排除基準4]によってサンプルの範囲から排除される要素(分岐型 のフローチャートなど)についても言える。すなわち,そのような要素の中にある文字列が

「章節構造」を構成していると判断される場合は,[排除基準4]を適用せず,[運用基準3] を適用する。すなわち,[選択基準1]および[選択基準2]の適用対象として,それらの文 字列をサンプルの範囲に含めることにする。

4.3.5 フィギュア本体に含まれる「注」「キャプション」

さらに,フィギュア本体の中にある文字列を「注」や「キャプション」と見なすことができる 場合がある。例えば,「吹き出し」に該当する形式のものが当該の紙面において「注」や「キャ プション」として機能している場合である。

本来,「吹き出し」は[排除基準3]によって排除される要素であるが,その紙面の中で「注」

や「キャプション」として機能していると判断された場合,[運用基準4]を適用し,当該の 文字列を「注」や「キャプション」として認定することにする。

同様に,分岐型のフローチャートなどの中にある文字列が「注」や「キャプション」として 機能していると判断できる場合は,[排除基準4]を適用せず,[運用基準4]を適用して,

それらの文字列をサンプルの範囲に含めることにする。

ただし,[運用基準4]を過度に適用すると,フィギュア本体に含まれる文字列をすべてサ ンプル範囲に残すことができるようになってしまい,本来の排除基準の意図が損なわれること になる。そこで,[運用基準4]は極力[運用基準1]と併用することにより,過度に適用さ れることのないようにする。

4.4. 排除基準,選択基準,運用基準の整理 35

表4.1: 排除基準によってサンプル範囲から排除される要素 排除される要素

[排除基準1] 表紙,標題紙,目次,広告など

[排除基準2] 柱,ノンブルなど

[排除基準3] 写真,イラスト,図解など

[排除基準4] 分岐型フローチャート,行列見出しを備える表など

[排除基準5] 外国語,古典語,数式など

表4.2: 選択基準によってサンプル範囲内の要素として選択される要素 選択される要素

[選択基準1] 本文

[選択基準2] 章節見出し

[選択基準3]

[選択基準4] キャプション

表 4.3: 運用基準が適用される組み合わせ

[選択基準1] [選択基準2] [選択基準3] [選択基準4

本文 章節見出し 注 キャプション

[排除基準2] [運用基準2]

柱,ノンブルなど

[排除基準3] [運用基準2写真,イラスト, [運用基準3] [運用基準3

図解など [運用基準4] [運用基準4]

[排除基準4] [運用基準2]

分岐型フローチャート, [運用基準3] [運用基準3

行列見出しを備えた表など [運用基準4] [運用基準4]

[排除基準5] [運用基準2]

外国語,古典語,数式など

※ 運用基準が適用される場合,排除基準が適用されず,その要素はサンプル範囲から排除されない。

第Ⅱ部

収録テキストの抽出

39

第1章 収録するテキストの抽出基準とその手順

柏野和佳子・稲益佐知子・田中弥生・秋元祐哉 第Ⅰ部を受け,この第Ⅱ部では,書籍の場合を例にして,実際の紙面からどのように収 録テキストを抽出しているかを,サンプル作成の作業段階を追って,具体例とともに詳述 する。また,抽出過程の段階ごとに生じる作業上の問題を明らかにする。

1.1 サンプル作成の作業段階

第Ⅰ部に示した基準にのっとって,サンプル作成の作業は,おおよそ次のように,段階的に収録 テキストを絞り込んでいく手順で行う。詳細は第2章以下に順次述べる。

作業段階 1: サンプル抽出基準点を取得するページの指定 作業段階 2: サンプル範囲の指定

作業段階 3: 収録対象外要素の排除指定

作業段階 4: 収録対象要素の確定と入力順の指定

ドキュメント内 発行年 2009‑03‑24 (ページ 40-45)