計
3721 16066977
20 [第1部 設翻
署醗酷秘し(の羅敵『入晦の跨駅乙賦陽コーバ穐のlll訂
圏 記事タグ
8.1 属性の種類
各雑誌に含まれる記事を,「雑誌」要素につぐ二番昌の階層の 単位とし,記事一っ一つを「記事」要素として設定した。原誌に おいて,記事の切れ霞か記事内部の節や項の切れ霞かが不明瞭な 場合もあるが,原則として,著者が変わることが明示されている 位:置を,記事の切れ農と認定した。ただし,無i醤名記事が続く場 合など,欄の切れ国を記事の切れ蟹に認定した場合もある。
記事タグには,記事の「題名」のほか,「著者」「欄名」fジャ ンル」「文体」といった,言語研究にとって基本的な情報を,属 性として設けた。各属性の内容は次の通りである。著者以下の属 性については,次項以下で詳しく述べる。
題
拝
上
ジャンル
文
名.記事の題名。本文に表示される題名を基本とする が,連載記事などで号によって表記が変わるもの など,必要に応じて表町を統一した場合がある。
者:著藷の氏名。ペンネーム等を用いて,複数の名前 で記事を書いている著者や,一般的に知られた名 蘭と異なる名前で記事を書いている著者は,現在 最も知られている一般的な名前に統一した場合が ある。無呼名記事の場合,「*」を記入した。
名:記事のいくつかをひとまとめにして絹鵜を構成 している場合,その欄の名称を記入した。欄のな い記事の場合,f**」を記入した。
:日本十進分類法(NDC)により,翻事をジャン ルに分類し,分類番号を記入した。扉など分類で きない記事の場合,「***」を記入した。
体:文末辞を指標として,口語・文語の甥を記入した。
奥付など,名詞の列挙の形をとる中事でに1語・文 語の別のないものは,「項囲」という属性値を記 題した。
記事タグ(開始タグ)は,次のような形で記述した。
〈記事題名漏 戦勝後の教育91著者篇 千頭清臣 欄名二1膠論説響「文 体ゴ文語 ジャンル= NDC371 〉
[第1部 設計] 21
22 1第王部 設計]
8.2 「著者」属性
「著者」については,著者名だけでなく,その著者の生年や所 属・分野といった属性情報を整理しておき,その情報がコーパス を利用する際に取得できる形にしておけば,書語の研究において 有蕪である。そうした著者情報は,別に一覧(著者データベース)
を作成し,コーパスを使って変換や検索を行う際に,その一覧か ら情報を取得し,変換結果や検索結果として表示できるようにし た。著者データベースの利用方法,著者を一一一一一覧する方法について は,本書の「構造化テキストに対応した全文検索システム『ひま わりm(山口昌也)の「6.1.5著者データベース機能」(75頁)
を参照してほしい。
著者データベースに含まれる著者の総数は約1000人で,ここ には,短歌・俳句等,ごく短文で,独立の記事には扱わなかった 著者は含んでいない。著者データベースから,変換・検索時に引
き出せるように整えた情報は,次のものである。
氏 名:各記事の著者名。複数名を使い分けたり,表記にゆ れがあったりする場合など,同一人物でありながら 氏名が二通り以上考えられる場合は,一つにまとめ た。また,現代もっとも通用している疑名やその表 記にまとめた場合もある。
所 属:「太陽s原本に,勤務先や居住地などの記載がある 場合はそれを生かし,『著作権台帳』(臼本著作権協 議会〉,『現代日本人名録物故者編190玉〜2000s (日外アソシエーーツ),哨本人名大辞典』(講談社)
などに情報のあるものはそれを生かした。所属情報 が不明のもの,次の「分野」に書き入れた情報だけ で十分と思われるものは,空欄にした。所属が多数 にわたる著者の場合は,原期として二つまで(最大 で三つまで)記した。
分 野:『太陽A原本に,職業や専門分野に関する記載があ る場合はそれを生かし,『著作権台帳2や,『現代睡 本人名録物故者編1901〜200鋤『日本入名大回心3 などに情報のあるものは,それを生かした。分野{青 報が不明のもの,上の「所属」に書き入れた情報だ けで十分と思われるものは空欄にした。職業や専門 分野が多数にわたる著者の場合は,原則として二つ まで(最大で三つまで)記した。
冒茄麟苛乙しくの維脈『天陽葦の君駅乙『天陽コーパスliのli掘
生 年:著者の生年。『著作権台帳3や,『現代臼本人名録物 故者編1901〜2000』『日本人名大辞典』などを参 照して記した。生年が不明の場合は窒欄とした。
没 年:著者の没年。『著作権台帳』や,『現代日本人名録物 故者編1901〜2000』『日本人名大辞典』などを参 照して記した。没年が不明の場合は空欄とした。
著者データベースの具体的な言三寸は,次のような形になってい
る。
〈氏名〉千頭清臣く/氏名〉
〈所属〉貴族院議員〈/所属〉
〈分野〉官僚 政治家く/分野〉
〈生年>1856〈/生年〉
<没年>1916〈/没年〉
この著者データベースを参照すれぼ,『太陽コーパスsに含まれ る著者の特徴を概観できる。まず,盤年は,1806年から1908年 の約100年の範匪1をカバーしている。その分布を整理すると,表 7のようになる。1851年半ら1890年までの40年間に生まれた人 が,約8割を露める。19世紀生まれの人々の喬葉の実態を知る ことができ,特に19世紀後半生まれの人々の書葉の実態をもっ ともよく反映しているコーパスであると考えることができる。こ の生年学報を有効に活用することで,著者の生年から見た言葉の 新古や変化,世代による讐葉の違いなどの記述が可能になると考 えられる。
表7 『太陽コーパス2における著者の生年
生年範囲 人数