• 検索結果がありません。

タグ一覧 ( 固定長 )

ドキュメント内 corpus.indd (ページ 168-174)

第 3 章 タグ仕様 35

3.4 タグ一覧 ( 固定長 )

タグ一覧 ( 固定長 )

sample 要素

概要

サンプリングによって1サンプルとされた文書要素を表す。

固定長サンプルの

sample

要素は,サンプル抽出基準点から,

1000

文字以上を含む。

形式

■ 要素

article

■ 属性

sampleID (

必須

)

サンプルに関する情報を外部データベースから参照するための

ID

*12

type (

必須

)

:サンプルの種別

fixedLength ...

固定長

(

この値以外を取ることはない

)

version (

必須

)

:サンプルの版

DTD

<!ELEMENT sample (article)*>

<!ATTLIST sample sampleID CDATA #REQUIRED>

<!ATTLIST sample type (fixedLength) #REQUIRED>

<!ATTLIST sample version CDATA #REQUIRED>

説明

サンプリングによって1サンプルと規定された文書要素を表す。固定長サンプルに含まれる文字数は,サン プル抽出基準点(

sample

要素を参照)から

1000

文字以上であることが保証される。なお,固定長の

sample

要素は,可変長の

sample

要素と異なり,二つ以上の

article

要素を含む場合もある。

sample

要素は,

sampleID

属性と

type

属性を持つ。

sampleID

属性

:

サンプルに関する情報

(

書誌情報など

)

を外部のデータベースから参照するための

ID

である。

sampleID

属性値の表記規則は,

Sample ID

の仕様*13を参照のこと 。

type

属性

:

サンプルの種別(可変長,固定長)を表す。固定長の場合は,

fixedLength

となる。

*12http://www2.kokken.go.jp/densi/public/wiki/から[ver.2.0][データベース]を参照のこと。

*13 Web site上の仕様( http://www2.kokken.go.jp/densi/public/wiki/)を参照されたい。

3.4

タグ一覧

(

固定長

, sample) 163

sample

要素に収録されるテキストの範囲

sample

要素に収録されるテキストの範囲については,以下の通り規定する。

サンプル抽出基準点を含む最上位の

sentence

要素(

sentence

要素がなければ,直上のブロック要素)

の先頭を,テキストの先頭とする。

サンプル抽出終了点を含む最上位の

sentence

要素(

sentence

要素がなければ,直上のブロック要素)

の末尾を,テキストの末尾とする。

■ 文字数カウントの対象外となる文字と要素

サンプル抽出終了点を決定するために,サンプル抽出基準点より

1000

文字をカウントする際には,以下の 文字および要素を数えない。

文字

:

句読点,空白文字,その他一般記号類*14

要素

: noteMarker, inlineNodeBody, delete

形式化例

<sample sampleID="OW1X_00001" version="20070208" type="fixedLength">

<article articleID="OW1X_00001_F001">

</article>

</sample>

*14本仕様のWeb siteにカウント対象外文字のリスト(UTF-16LEテキストファイル)を掲載してあるので,参照されたい。

sampling 要素

概要

サンプリングポイントに関する情報を示す。

形式

■ 要素

空要素である。

■ 属性

type

: サンプリングポイントの種別

start ...

サンプル抽出基準点

end ...

サンプル抽出終了点

DTD

<!ELEMENT sampling EMPTY>

<!ATTLIST sampling type (start|end) #REQUIRED>

説明

sampling

要素は,サンプリングに関する情報として,サンプリングポイントを示すための要素である。固

定長サンプルにおいては,次の2種類のサンプリングポイントがある。

サンプル抽出基準点:

sample

要素となる文字列を抽出するための基準となる文字の位置を表す。

サンプル抽出終了点: サンプル抽出基準点から

1000

文字目の文字を表す。

¶ ³

µ ´

【例1】『通商白書』昭和

54

年版

3.4

タグ一覧

(

固定長

, sampling) 165

【例1】で赤く塗りつぶされている一文字「機」が,サンプル抽出基準点である。この文字の直前に,

sampling

要素タグ

(

空要素

)

を入力することで,基準点の位置を示す。

type

属性は,

start

である。

¶ ³

µ ´

【例2】『文部科学白書 平成

13

年度』

一方,【例2】の囲みを付した「教」の字が,サンプル抽出終了点である。サンプル抽出終了点は,当該文字 の直後に

sampling

要素タグ

(

空要素

)

を入力する。

type

属性は,

end

である。

形式化例

■ 【例1】『通商白書 昭和

54

年版』

石油危<sampling type="start" />機を境として

■ 【例2】『文部科学白書 平成

13

年度』

これからの教育にあっては,子ども一人一人に応じた教<sampling type="end"/>育を実現し,

山口昌也

(

言語資源研究系助教,コーパス開発センター

(

))

高田智和

(

理論・構造研究系准教授,コーパス開発センター

(

))

北村雅則

(

名古屋学院大学商学部講師

)

間淵洋子

(

コーパス開発センター プロジェクト特別研究員

)

大島 一

(

コーパス開発センター プロジェクト奨励研究員

)

小林正行

(

群馬大学教育学部講師

)

西部みちる

(

コーパス開発センター プロジェクト奨励研究員

)

特定領域研究「日本語コーパス」平成

22

年度研究成果報告書

『現代日本語書き言葉均衡コーパス』における電子化フォーマット ver.2.2

2011

2

25

執筆者 山口昌也 高田智和 北村雅則 間淵洋子 大島 一 小林正行 西部みちる 発行者 文部科学省 科学研究費 特定領域研究「日本語コーパス」データ班

連絡先 〒

190-8561

東京都立川市緑町

10-2

文書管理番号

JC-D-10-04

° c 2011 Data Handling Group, Priority-Area Research “Japanese Corpus”

ドキュメント内 corpus.indd (ページ 168-174)

関連したドキュメント