• 検索結果がありません。

山口昌也

5.1 はじめに

本章では,文章構造タグ(XML)の仕様と文字入力仕様について説明する。なお,本章 の内容の詳細については,山口ほか(2011),西部ほか(2011)を参照されたい。

5.2 文章構造タグセットの種類とサブコーパスとの関係

BCCWJには複数のサブコーパスから構成される。文章構造タグのセットは,それぞれの

サブコーパスの特性に合わせて,表5-1ように規定される。個々のタグセットは,XMLの 文書型として定義される。なお,タグの付与方法は西部ほか(2011) を参照のこと。紙媒体 のデータについては,人手で付与しているが,電子媒体のデータについては,部分的に自 動付与を行うなど,個々に方法が異なる。

タグセットは,次の3種類に大別される。表中で「可変長(一部修正)」とあるのは,可 変長タグセットに少数の部分的な変更を加えたタグセットであることを意味する。この後 の節では,まず「可変長」「固定長」「Yahoo!知恵袋」タグセットについて解説し,そのあ とサブコーパスごとに個別の修正部分を説明する。

可変長TS: 可変長サンプル(一つのサンプルが一つの「記事」に相当する可変長 サンプル)を記述するためのタグセット

固定長TS: 固定長サンプル(一つのサンプルに1000文字を包含するサンプル)を 記述するためのタグセット

Yahoo!知恵袋TS: 「Yahoo!知恵袋」を記述するためのタグセット

表5-1: サブコーパスとタグセットとの関係

サブコーパス タグセット 原資料の媒体 出版サブコーパス 可変長TS,固定長TS 紙媒体

図書館サブコーパス 可変長TS,固定長TS 紙媒体

白書 可変長TS 紙媒体

教科書 可変長TS(一部修正) 紙媒体

広報誌 可変長TS 電子媒体

ベストセラー 可変長TS 紙媒体

Yahoo!知恵袋 Yahoo!知恵袋用TS 電子媒体 Yahoo!ブログ 可変長TS(一部修正) 電子媒体

韻文 可変長TS(一部修正) 紙媒体

法律 可変長TS 電子媒体

国会議事録 可変長TS 電子媒体

5-2 5.3 可変長タグセット

可変長タグセットは,可変長サンプル(一つのサンプルが一つの「記事」に相当するサ ンプル)を記述するためのタグセットである。タグの種類は,46 種類である。タグの一覧 を表5-2に示す。また,紙媒体の原資料とタグづけ結果の例を図5-1に示す。

本タグセットによって付与される情報は,次の三つに大別される。

 サンプルに関するタグ:サンプルに関するタグには,sample と sampling がある。

sample 要素は,一つのサンプルを表す。sampling タグは,サンプル抽出基準点など

サンプリングに関する情報を表す。

 文字・表記に関するタグ:この種のタグの役割は,(1)検索や計算機処理の利便性を 高める,(2)原資料に忠実に電子化テキストを記述することである。前者のタグの例 として,correction タグ(誤植の修正した文字を表す)がある。

生活基<correction type="erratum" originalText="盟">盤</correction>に 伸びを示し<correction type="omission">て</correction>いる

整備を<correction type="excess" originalText="を" />図るべく

後者の例として,ruby,missingCharacter タグの例を次に示す。ruby タグはルビ 付き文字を表す。

<ruby rubyText="ご">語</ruby><ruby rubyText="い">彙</ruby>

<missingCharacter attribute="HanIdeograph" unicode="U+5AEB"

daikanwa="M06673" description="女偏に莫">〓</missingCharacter>

 文書構造に関するタグ:文書構造に関するタグは,論理的な役割が明確な文書要素に 対して付与される。表5-2に示したとおり,この種のタグは,(a) 階層構造,(b) 図表,

(c) 引用,(d)注記,(e)その他,に分けられる。

このうち,階層構造に関するタグについて,図5-1と対応づけて説明する。階層構造 に関するタグは,articleを最上位の階層として,cluster,paragraph,sentenceとい った言語的な階層構造を表現する。図5-1から,これらの要素に関係する部分を取り出 すと次のようになる。なお,字下げは,下位の階層であることを示す。例えば,図5-1 のarticle 要素直下の階層には,titleBlockとcluster要素があることがわかる。

article

titleBlock 第2節 内外均衡の背景 cluster

titleBlock 1.財政金融政策の効果 cluster

titleBlock (公共投資の拡大)

5-3

<?xml version="1.0" encoding="UTF-16" ?>

<?xml-stylesheet href="sc_check.xsl" type="text/xsl" ?>

<sample sampleID="OW1X_00000" version="20070208" type="variableLength">

<article articleID="OW1X_00000_V001" isWholeArticle="false">

<titleBlock><title><sentence type="quasi">第2節 内外均衡の背景

</sentence></title></titleBlock>

<paragraph>

<sentence> 53年度中にみられた内外均衡回復に向けての動きは,それぞれがバラバラに生じてき たわけではない。

</sentence><sentence>以下では,それらの動きの重要な背景として,...

</paragraph>

<cluster>

<titleBlock><title><sentence type="quasi">1.財政金融政策の効果

</sentence></title></titleBlock>

<paragraph>

<sentence> 石油危機後,インフレが激化する中で,財政金融政策は,厳しい総需要抑制に向けて運 営されたが,景気の停滞が顕著となるにつれて,50年以降53年中に至るまで,景気浮揚を最大の 目的として運営されてきた。</sentence> ...

</paragraph>

<cluster>

<titleBlock><title><sentence type="quasi">(公共投資の拡大)</sentence></title></titleBlock>

<paragraph>

<sentence> 石油危機後の公共投資の推移をみると,当初は,インフレ抑制のため財政支出が抑制さ れ,公共事業の伸びは低いものにとどまっていた。</sentence>

図5-1:原資料とその電子化テキストの例(『経済白書昭和54 年版』から引用)

5-4

表5-2:可変長タグセット

タグ名 内容

サンプル sample サンプリングによって1サンプルとされた文書要素

sampling サンプル抽出基準点などサンプリングに関する情報

階層構造

(文書構造)

article 同一著者による,同一テーマのひとまとまりの文書要素 blockEnd 意味のまとまりや形式のまとまりを区切るためのマーカー

cluster title 要素が包括する文書要素全体 titleBlock title 要素とそれに付随する要素全体

title 特定範囲の文書要素の内容を代表する記述 orphanedTitle 不特定範囲の文書要素を代表する記述

list 箇条書きなど,列挙された文書要素の集まり

paragraph 段落を表す文書要素 sentence 文に相当する文書要素 図表

(文書構造)

figureBlock 図表・写真・絵などの要素と,それに付随する文書要素をまとめた要素 figure 付随する文書要素のある図・表・写真・絵など

caption 図表についてのタイトルや説明 table

引用

(文書構造)

quotation 当該 article 要素とは異なる著作物からの引用や,発話・心内発話の引 用・

citation 当該 article 要素の本文において言及される,他文献からの引用要素 source 引用文献についての情報(文献名,著者名,著者情報など)

speech 発話の引用・書き起こし,心内発話の描写 speaker 話者を明示的に表した文字列やマーク

quote 当該 article 要素とは異なる著作物からの引用や,発話・心内発話の引 用・描写・書き起こし

注記

(文書構造)

noteBody 注記とその注記の範囲

noteBodyInline 傍注など行外に付随する形式で現れる注記

その他

(文書構造)

abstract article 要素,または cluster 要素の概要に相当する文書要素 authorsData 著作者表示・署名にあたる要素

contents 目次に相当する文書要素

profile 著者や登場人物のプロフィールに相当する文書要素

rejectedBlock サンプル範囲内において,削除対象となったブロック要素の存在 verse 詩,和歌,俳句,歌謡などの韻文

verseLine 韻文における行

文字・表記

ruby ルビ付き文字

correction 原文の誤植を訂正した文字

missingCharacter JIS X 0213:2004 で規定されている文字以外の文字(JIS 外字) enclosedCharact 連続や参照などのラベルとして機能している囲み付きの文字

cursive 変体仮名

image JIS X0213:2004 が規定する諸記号に含まれていない記号類や絵文字 superScript 数式や化学式などに用いる上付きの文字

subScript 数式や化学式などに用いる下付きの文字 fraction 帯分数の中の真分数部分

delete 抹消線などによって削除された本文要素 br 物理改行

info 補助的な付与情報

rejectedSpan サンプル範囲内において,削除対象となったインライン要素の存在 substitution 別の文字で代用入力されている JIS X 0213:2004 規定文字

5.4 固定長タグセット

固定長タグセットは,固定長サンプル(一つのサンプルに1000文字を包含するサンプル)

を記述するためのタグセットである。可変長のタグセットとほぼ同じ仕様だが,次の違い がある。

5-5

 固定長サンプルの収録範囲は,文字数で限定される。

 固定長のブロック要素は,当該要素の定義を満たす要素をすべて含むとは限らな い。例えば,固定長の article 要素には,titleBlock 要素以外の本文が含まれてい ない場合もある。

 article 要素の isWholeArticle 属性は,IMPLIED (任意)である。

 次の要素は認定されない。

 cluster 要素

5.5 Yahoo! 知恵袋

「Yahoo!知恵袋」サブコーパスのサンプルは,質問と回答の組という,一定の論理構造 で構成される。しかし,しかし,可変長,固定長タグセットでは,この構造を十分記述す ることができないため,独立した文書型として定義した。タグの種類は,9種類である。

タグの一覧を表5-3に示す。また,サンプル例を図5-2に示す。

5.6 その他のタグセット

表5-1に示したとおり,サブコーパスの中には可変長タグセットを一部修正して記述して いるものも含まれる。ここでは,可変長タグセットとの差異について説明する。

 Yahoo! Blog

 rejectedBlockタグのtype属性にASCIIArt を追加した。これは,サンプル作成 時に削除された,いわゆる「アスキーアート」を表す。

 韻文

 sample要素の子要素に複数のarticle 要素を持つ。これは,「韻文」サブコーパス のサンプルには,1サンプルに複数の作品が並列に含まれるためである。なお,

可変長タグセットでは,sample 要素の子要素として,article 要素を一つしか持 たない。

 教科書

 可変長タグセットに5種類のタグを追加するなど,「教科書」サブコーパス用に拡 張している。詳細は,田中ほか(2011)「II 教科書コーパスの文字入力・タグ使用」

を参照のこと。

関連したドキュメント