タグ一覧 ( 固定長 ) - タグ仕様 35

第 3 章タグ仕様 35

3.4 タグ一覧 ( 固定長 )

タグ一覧 ( ^固定長 )

sample ^要素

概要

•

サンプリングによって１サンプルとされた文書要素を表す。

•

^{固定長サンプルの}

sample

要素は，サンプル抽出基準点から，

1000

文字以上を含む。

形式

■ 要素

article

■ 属性

• sampleID (

必須

)

–

サンプルに関する情報を外部データベースから参照するための

ID

^*12

• type (

必須

)

：サンプルの種別

– fixedLength ...

固定長

(

この値以外を取ることはない

)

• version (

必須

)

：サンプルの版

■

DTD

<!ELEMENT sample (article)*>

<!ATTLIST sample sampleID CDATA #REQUIRED>

<!ATTLIST sample type (fixedLength) #REQUIRED>

<!ATTLIST sample version CDATA #REQUIRED>

説明

サンプリングによって１サンプルと規定された文書要素を表す。固定長サンプルに含まれる文字数は，サンプル抽出基準点（

sample

要素を参照）から

1000

文字以上であることが保証される。なお，固定長の

sample

要素は，可変長の

sample

要素と異なり，二つ以上の

article

要素を含む場合もある。

sample

要素は，

sampleID

属性と

type

属性を持つ。

• sampleID

属性

:

サンプルに関する情報

(

書誌情報など

)

を外部のデータベースから参照するための

ID

である。

sampleID

属性値の表記規則は，

Sample ID

の仕様^*13を参照のこと。

• type

属性

:

サンプルの種別（可変長，固定長）を表す。固定長の場合は，

fixedLength

となる。

*12http://www2.kokken.go.jp/densi/public/wiki/から[ver.2.0]→[データベース]を参照のこと。

*13 Web site上の仕様( http://www2.kokken.go.jp/densi/public/wiki/)を参照されたい。

3.4

タグ一覧

(

固定長

, sample) 163

■

sample

要素に収録されるテキストの範囲

sample

要素に収録されるテキストの範囲については，以下の通り規定する。

•

サンプル抽出基準点を含む最上位の

sentence

要素（

sentence

要素がなければ，直上のブロック要素）

の先頭を，テキストの先頭とする。

•

サンプル抽出終了点を含む最上位の

sentence

要素（

sentence

要素がなければ，直上のブロック要素）

の末尾を，テキストの末尾とする。

■ 文字数カウントの対象外となる文字と要素

サンプル抽出終了点を決定するために，サンプル抽出基準点より

1000

文字をカウントする際には，以下の文字および要素を数えない。

•

^文字

:

句読点，空白文字，その他一般記号類^*14

•

^要素

: noteMarker, inlineNodeBody, delete

形式化例

：

</article>

</sample>

*14本仕様のWeb siteにカウント対象外文字のリスト(UTF-16LEテキストファイル)を掲載してあるので，参照されたい。

sampling ^要素

概要

•

サンプリングポイントに関する情報を示す。

形式

■ 要素

•

^{空要素である。}

■ 属性

• type

：サンプリングポイントの種別

– start ...

サンプル抽出基準点

– end ...

サンプル抽出終了点

■

DTD

<!ELEMENT sampling EMPTY>

<!ATTLIST sampling type (start|end) #REQUIRED>

説明

sampling

要素は，サンプリングに関する情報として，サンプリングポイントを示すための要素である。固

定長サンプルにおいては，次の２種類のサンプリングポイントがある。

•

^{サンプル抽出基準点：}

sample

要素となる文字列を抽出するための基準となる文字の位置を表す。

•

サンプル抽出終了点：サンプル抽出基準点から

1000

文字目の文字を表す。

¶ ³

µ ´

【例１】『通商白書』昭和

54

年版

3.4

タグ一覧

(

固定長

, sampling) 165

【例１】で赤く塗りつぶされている一文字「機」が，サンプル抽出基準点である。この文字の直前に，

sampling

要素タグ

(

空要素

)

を入力することで，基準点の位置を示す。

type

属性は，

start

である。

¶ ³

µ ´

【例２】『文部科学白書平成

13

年度』

一方，【例２】の囲みを付した「教」の字が，サンプル抽出終了点である。サンプル抽出終了点は，当該文字の直後に

sampling

要素タグ

(

空要素

)

を入力する。

type

属性は，

end

である。

形式化例

■ 【例１】『通商白書昭和

54

年版』

石油危<sampling type="start" />機を境として

■ 【例２】『文部科学白書平成

13

年度』

これからの教育にあっては，子ども一人一人に応じた教<sampling type="end"/>育を実現し，

山口昌也

(

言語資源研究系助教，コーパス開発センター

(

兼

))

高田智和

(

理論・構造研究系准教授，コーパス開発センター

(

兼

))

北村雅則

(

名古屋学院大学商学部講師

)

間淵洋子

(

コーパス開発センタープロジェクト特別研究員

)

大島一

(

コーパス開発センタープロジェクト奨励研究員

)

小林正行

(

群馬大学教育学部講師

)

西部みちる

(

コーパス開発センタープロジェクト奨励研究員

)

特定領域研究「日本語コーパス」平成

22

年度研究成果報告書

『現代日本語書き言葉均衡コーパス』における電子化フォーマット ver.2.2

2011

年

2

月

25

日

執筆者山口昌也高田智和北村雅則間淵洋子大島一小林正行西部みちる発行者文部科学省科学研究費特定領域研究「日本語コーパス」データ班

連絡先〒

190-8561

東京都立川市緑町

10-2

文書管理番号

JC-D-10-04

° c 2011 Data Handling Group, Priority-Area Research “Japanese Corpus”

ドキュメント内 corpus.indd (ページ 168-174)

タグ一覧 ( 固定長 )

第 3 章 タグ仕様 35

3.4 タグ一覧 ( 固定長 )