• 検索結果がありません。

BCCWJ2008 を用いた分析例

ドキュメント内 corpus.indd (ページ 53-57)

Applications of Text Encoding Format

3.2.1 BCCWJ2008 を用いた分析例

BCCWJ2008に格納される書籍(生産実態,流通実態各サブコーパスおよび非母集団サブ

コーパスに含まれるベストセラー)可変長サンプルのうち,ある著者によってあるテーマを もとに記された文章(以下「記事」と呼ぶ)の全体を格納し得た1425サンプルを対象とし て,以下を調査した。

A 特殊な構造要素の割合と文章類型のかかわり B 文章の階層性,文の長さと文章類型のかかわり

A. 構造要素の割合 まず,「特殊な構造要素が,テキスト中にどの程度含まれるかは,文章 類型によって異なりが見られる」という仮説を用意する。この仮説が妥当であれば,文章内 において一定の役割を持つ要素の有無や割合によって,どのような目的で書かれた文章かを 推定できる可能性がある。

仮説を検討するにあたって,BCCWJデータに付与されている構造化XMLタグを利用し,

サンプル内の文字列要素を以下の「構造要素」に分類してそれぞれのサンプルにおける各構 造要素の比率を調査した。

見出し要素類 記事見出しや下位構造要素(章や節など)の見出し,それに付随する要 素など。... titleBlock, title, orphanedTitle 要素

記事情報要素類 記事の主体となる本文ではなく,記事そのものについての情報に相当 するような要素。著者情報,目次,記事概要,注記など。... authorsData, contents, abstract, profile, noteBody 要素

図表関連要素類 記事の主体となる本文に対して,補足・参照の役割を担う図表や,そ れらに付随する図表タイトルやキャプションなど。... figure, caption要素

発話要素 いわゆる「地の文」に相当しない発話表現。... speech 要素 引用要素 いわゆる「地の文」に相当しない引用表現。... citation 要素

1目的という観点からの文章分類はさまざまあり,永野(1968),金岡(1968)などに整理されているが,主に

森岡(1979)4分類(報告する,納得させる,印象づける,行動させる)を元に,資料の分析を通じて,分類

の枠組についても検討していく予定である。

主本文要素 上記を除く文字列要素。いわゆる「地の文」にほぼ相当する。

これらの構造要素は,同じ文章中にありながら,役割が大きく異なるため,どのような目 的で文章を書くかによって必要性が異なり,これらが文章中に占める割合も異なることが想 定される。例えば,ある特定の構造要素の役割と,それを用いて記される文章類型との対応 関係について以下のような枠組みを仮定することができる。

要素 想定される役割 対応する文章類型

発話 ・発話を書き留める 記録,報告する文章

・談話の臨場感により読み手の興味を引く 印象づける文章 図表 ・視覚的に表現することで理解を助ける 納得,行動させる文章

・根拠となるデータ等を示すことで説得力を高める 納得させる文章 引用 ・引用したものについて説明をする 解説する文章

・引用することで根拠を示す 納得させる文章

それぞれの要素の有無や文章全体に占める割合によって,類似性を認められる文書群が,

特定の文章類型として認識できるものであれば,これらの要素は,文章類型を特徴付けるも のとして文書分類に有用な指標であると言える。

この項では,その試みとして,発話要素と文章類型のかかわりについて観察を行なう。

構造要素の文章全体に占める割合については,文字を単位として求めた。図3に計測結果 を示す。横軸はNDCの第1区分,縦軸は発話含有率(%)である。

0 1 2 3 4 5 6 7 8 9

020406080

NDC

speech(%)

図3: NDC別発話含有率

0 1 2

3040506070

cluster(depth)

sentence(length)

図4: NDC210の階層,文長分布 図3から,殆どのカテゴリで,発話率は低い方に集中している(発話含有率の中央値は0

%,平均は8.87%)が,「NDC 9.文学」で発話率が他のカテゴリより高く現れることが分か る。調査対象としたNDC 9番台のサンプルは,小説がその37%程度を占めるため,会話文 の多用などから,他のカテゴリのサンプルに比して発話率が高くなる傾向にあるのは,容易 に想像できる。一方,80%以上の部分にいくらかのまとまりが見られるが,こちらは,ある 特定のNDCに特に偏って現れておらず,主題に基づかない文書の類似性を示唆している。

ここに認められる「発話主体で構成される」という性質をもつ文書群は,「発話を記録す る」という目的により生成されるものと考えられ,議事録,スピーチ書き起こし,対談・イ ンタビュー,戯曲・シナリオといった文章類型とのかかわりが想定できる。これらは,通常 の書き言葉とは位相を大きく異にするものであり,他の文書と区別されるべきものである が,NDCやタイトルからは,そのような情報を得にくい(1参照)

表 1: 発話率の高いサンプルの例

NDC 書籍タイトル

304論文集.評論集.講演集 時の潮騒

491基礎医学 養老孟司アタマとココロの正体 323憲法 21世紀と日本国憲法

495婦人科学.産科学 はじまった着床前診断

938英米文学 作品集 マーク・トウェインコレクション 210日本史 国のつくり方

388伝説.民話[昔話] 声の神話 494外科学 がん治療最前線

実際に発話率70%以上の78サンプルを確認したところ,対談・インタビューが63,ス ピーチ・名言集が4,議事録が2,その他(小説,落語,エッセイ,ルポ)が9サンプルと いう結果であった。電子化フォーマットを用いて得られる発話率の高さは,それだけで特定 の文章類型を特徴付ける有用な指標となりうると言える。

B. cluster深度とsentence 次に,文章の階層性と文章類型とのかかわりについて観 察する。その際,文長とのかかわりを同時に見ていく。

先程と同様,文章を特徴づける指標,その役割や性質,それを用いて記される文章類型と の対応関係について以下に枠組みを示す。

指標 想定される役割 対応する文章類型

階層性 高 トピックを分析的に掘り下げ詳細に述べる, 説得,報告,動作を促す文章 多くの事柄を集めて幅広く説明する

低 連続性を重視して述べる, 物語,記録,意見表明する文章 一つの事柄をじっくりと述べる

文長 長 事柄を詳細に解説し理解を促す 専門性の高い文章 短 事柄を簡潔に分かりやすく表現する 一般的,実用的な文章

二つの指標により分類される文書が,想定する文章類型に当てはまるものであれば,これ らの指標は,文章類型を特徴付けるものとして文書分類に有用な指標であると言える。

この項では,その試みとして,階層性・文長と文章類型との関係を観察する。階層性,文 長を示す指標として,電子化フォーマットから抽出可能な情報,「最下層のclusterの深さ」

「sentenceの文字数(調査Aで用いた構造要素のうち,「主本文要素」のsentenceを対象と して調査した1文字あたりの文字数平均)」を用いる。

主題の影響を排除するため,特定のNDCに絞って実態を確認してみよう。例として「NDC 210歴史」を取り上げ,分布を図4に示す。横軸は階層の深さ(「2」は階層2以上のもの), 縦軸は文の長さ(文字数。平均,中央値は共に約50文字)である。また,表2に,階層・文 長と文章類型との対応例を示す。

表2: 階層・文長と文章類型の対応例

書籍タイトル 階層 文長 文章類型 1 日本近現代史を問う 2 68.44 論文 2 民衆史入門 1 65.38 論文 3 倭国を掘る 1 52.51 論文 4 20世紀高度成長日本 1 39.93 歴史読み物 5 近代日本と国際社会 0 64.20 論文前書き 6 「文芸春秋」にみる昭和史 0 50.95 エッセイ 7 エッセイで楽しむ日本の歴史 0 32.53 エッセイ

実際のサンプルとの対応例として,表2に挙げた文書1, 7の本文冒頭を引用する。

文書1の本文冒頭(山田敬男(2002)『日本近現代史を問う』学習の友社,p.66)

¶ ³

 日露戦争後から一九二〇年代末までの時期は、大日本帝国憲法の体制下においては最も民 主的な運動が広範に展開され、政党政治の慣習が成立するともに、普通選挙が実現するなど の進歩がみられた時期で、昭和期のファシズムに比して、大正デモクラシーともいわれてい ます。しかし、その一方で、この時期が、軍拡と対外膨張・権益拡大の時期であったことも 確かです。

µ ´

文書7の本文冒頭(文芸春秋編(1997)『エッセイで楽しむ日本の歴史』文芸春秋,p.503)

¶ ³

 国定忠治が俠客か、それともギャングだったのかは、考察しても仕方がないだろう。国定 忠治を一言で評するならば、暴れん坊の異端児としたほうがいい。

 それに国定忠治が歴史上の人物になり得たのは、関所破りという罪名で磔刑に処せられ たからである。もし忠治が磔になっていなければ、後年ヒーローに祭り上げられることはな かっただろう。

µ ´

階層化が深い階層2以上のサンプルは,文長が長く,いずれも論文タイプである。調査対

象のNDC210のサンプルでは,階層が深く文長が短いものは見られなかった。

階層化された階層1のサンプルは,文長に幅があるが,ほとんどが論文タイプである。文 長の短いものに,発話主体のサンプル(対談)や,歴史読み物,論文の前付けなどが見ら れた。

階層化されていない階層0のサンプルも,同様に文長に幅があるが,こちらは歴史読み物

(小説的)やエッセイが多い。文長の長いものに,引用主体の論文,解説,評論などが見ら れた。

以上のように,階層性・文長と文章類型についても,緩やかな関連性が見られ,他の指標 と組み合わせることで,特定の文章類型を特徴付ける指標となりうることが期待できる。

4 おわりに

本稿では,BCCWJの電子化フォーマットの概要を示すとともに,その応用例として,(1) テキスト検索への応用例,(2)文書分類への応用例を示した。

参考文献

[1] 山口昌也,高田智和,北村雅則他(2008) 『現代日本語書き言葉均衡コーパス』におけ る電子化フォーマット ver.2.0』(特定領域研究「日本語コーパス」平成19 年度研究成果 報告書)国立国語研究所.

[2] 柏野和佳子,丸山岳彦,秋元祐哉他(2008) 『『現代日本語書き言葉均衡コーパス』にお ける書籍サンプルの多様性』(特定領域研究「日本語コーパス」平成19年度研究成果報告 書)国立国語研究所.

[3] 佐野大樹(2008)「大規模バランスとコーパスにおけるテクスト分類―システミック理論

の観点から―」『特定領域研究「日本語コーパス」平成20年度全体会議予稿集』,pp.83-90.

[4] 永野賢(1968)「文章の分類論」『作文講座4文章の理論』明治書院,pp.94-141.

[5] 金岡孝(1968)「現代における文章研究の展望と将来の課題」『作文講座4文章の理論』明

治書院, pp.244-269.

[6] 森岡健二(1979)「コピー研究 すぐれた表現の条件(1)」宣伝会議, 6:7pp.52-54.

ドキュメント内 corpus.indd (ページ 53-57)

Outline

関連したドキュメント