(2)同の零点は,現代と同様,
(2)漢宰の繰り返しに,それぞ
〔第1部 設謙] 41
の標準的な用法で用いられている例(「アM「人々」など)につ いては,検索者が検索文字列を鮨定する際に,振定もれが起こる 可能性は低いので「値]属性は設定しない。しかし,下に示した ような場合は,現代の標準的な用法とは異なっており,電子テキ ストの側で対応をしておくことが望まれる。(3)二字点につい ても,代用した「々」の通常の用法から外れる二字以上の連続で 用いられる場合は,同様の対応が必要である。また,(4)くの 字点も,何字分繰り返されるかは場合によりさまざまであるので,
同様の対応が望まれる。f値」属性を記述した具体例は,次の通 りである。
おほく踊字値=闘ほほほU> 5》5〈/踊字〉
神社く踊字値讐 神社㌧々々〈/踊字〉
一一日く踊字種類・11二字点 酵値: 一日 〉々々〈/踊字〉
ナカ〈踊字種類♂くの字点 値= ナガ〉〜〜〈/踊字〉
圏 その他のタグ
併漕蠣劉鯉認母竃私に蝋を繕聾職騨報礪鰹瀕麟臨幌吻躍 大認已に下る逡雌ど菟働 忍事砥璽慮を即 騨るミを際す
図王4
でんをくれいしゃグ﹁スタフへ湘クーヅ雲噂氣命珊滋瓢のγ
霞15
一象︑
図16
欝禽も︒
図17 42 [第1部 設欝]
関門麟秘し(の穣承鉱晦の汚駅t賦陽コーバ穐の醸蕃
16.1 割書タグ
これまで述べてきたタグ以外のタグについて,最後にまとめて 説明する。まず,本文に注釈などを付す場合で,行中に一行を二 行に割って記す,「割書」と呼ばれる表記法がある(図12)。こ の場合,「割書」のタグで囲み,割書内の改行位置にく割書改行/〉
の空要素タグを入れた。
伊達蜂須賀諸氏と私に婚を結び,</s><s>〈割書〉此事は前號 力 藤溝正のく割書改行/〉事蹟中に記述し置けりく/割書〉〈/S>
(1895年12号「写照三成(承前)」小倉秀貫PO73A20)
なお,角書き,スペース節約等のための二行三等は,割書に認定
しない。
16.2 敬意欠字タグ
天皇などに敬意を表する意図で,天皇関連の語の直前を,一字 または二字分空漁にする表記法が行われる場合がある(図13>。
「欠字」と言われることのある書法だが,印刷不鮮明等による欠 字の場合と区別して,「敬意欠字」と呼ぶことにし,〈敬意欠字〉
〈/敬意欠字〉のように,L」をタグで囲む方式で記入した。
下ると錐ども,〈敬意欠字〉_〈/敬意欠字〉至尊尚ほ(王895年 9号 「台湾論」 島疑i三良匿POO2BO7)
16.3 合字タグ
ある種の語を表す文字連続で,二つ以上の文字を一字にあわせ た「合字」と呼ばれる表記法が行われる場合があり(図14),次 のようにタグ付けした。
圃るく合字〉ことく/合字〉を要す(1895年9号職後財政案藩 河島醇POO6B23)
合字表記されることのある語には,「こと」「まいらせ候」「ヨ リ」fトモ]などがある。
16.4 小書タグ
園15の「フ」のような,カタカナ表記で小書きされるものの うち,JISにないものにこのタグを付している。
グスタ〈小書〉フ〈/小書〉へ,クーツ電氣會社の(1901年7号 「工業世界」金子篤寿P169AO2)
小書タグが付けられることのある片仮名は,次のものである。
キコネハフヘホムルワヰエヲ
[第1部 設言十] 43
16.5 上付タグ,下付タグ
数式や化学式など,上付(図16)または下付(図17)の表記 法をとる場合があるが,次のようにタグ付けした。
x<上付>2〈/上付〉一a<上付>2〈/上付〉 (1901年7号F実 業教育に於ける数学」数藤斧三郎P199BO8)
CaC1<下付>2〈/下付〉 (}895年8号F石灰岩は如何に して生ぜしや」佐藤伝rap145A}7)
脆.6 非入力対象タグ
記裏内にある図表や漢文・欧文の長文にわたる引用などはコー パスの対象外としているが,本文から当該部分が酎除されること で,本文の読み取りに支障をきたす場合もある。図表や漢文・欧 文自体はコーパスとして不要であっても,その位置に隈表等のあ ったことは記されている方が都合がよい。非入力対象タグを空要 素タグとして立て,「種類」属性には,図表・漢文・欧文等の種 類を,俵見出し1属性には,原文で付けられている図表等の名 称を,それぞれ記入した。
<非入力態象種類= 《図表》 表見出し♂濁逸聞(千八百八 十二年調査)奪γ〉 (1895年1号「経済的闘争」井上辰九郎 PO35A24)
圏おわり1.
本論文ではまず,雑誌?太陽3が現代藷の確立期を代表する資 料として価値が高いことを確認した上で,その本文の様態を観察
して,資料の価値をコーパスとしてどのようにして生かすべきか を考察した。それをふまえてどのようにe太陽コーパス』を設計 し仕様を策定したかについて,全体的な記述を行った。こうして 作成されたコーパスを使ってどのような研究成果が生まれるかに
よって『太陽コーパスsの価値は評価されるべきものである。本 書における個々の論文が扱う個別的具体的な問題についての研究 成果は,その判断材料になるであろうし,これらの論文を機縁と してさまざまな観点から『太陽コーパスsが活用されることで,
コーパスについての議論が盛んになることを期待したい。
44 [第1部 設計]
石目融秘し《の羅蔽丁丁の汚駅乙匪天陽コーバ穐の龍訂
活用されるうちに『太陽コーパス』の設計や仕様自体に改善す べき点は多々見つかるであろうし,このコーパスでは研究できな い限界も明らかになるであろう。雑誌『太陽以外の資料をもと に構造化テキストタグ付きコーーパスを作成する場合には,本論文 で述べた設計や仕様では不十分なところも多いと思われる。ア太 陽コーパスxを踏み台として,コーパスの設計や作成が広い範囲 で盛んになることも望みたい。また,われわれf太陽コーパス』
の作成に携わった者も,このコーパスの保守・普及と活用を図り ながら,次の段階のコーパスを作成するための歩みを進めていき
たい。
注
(1)本論文に述べる内容の一部は,田中・小木曽(2000),田 中(2004a)などで述べたことがあるが,『太陽コーパス2の 設訂に関わる基本的ことがらであるので,本論文に取り込んだ。
(2)湯浅(2000)は,明治期の資料が膨大で多様であるため,
かえって難解の日本語の全体像を掘握することが困難になって いることを指摘している。
(3>明治期の言語資料を分類して示した飛田(1973)では,新 聞・雑誌を「総合資料」と呼んで,他の種類の資料の「性格を 総合した資糖という位置づけを与えている。
(4)『太陽の書誌,社会的・歴史的位置については,鈴木正節 (1979),鈴木貞美編(2001)に詳細な研究があり,言語資料 としての『太陽sの位置づけを考える上でも参考になる。『太 陽2の復刻版と総目次は,日本近代文学館編(1999>にある が,療誌を所蔵する大学図書館や公共図書館も多い。『太陽コ ーパスs作成においては,国立国語研:究所蔵の原誌を底本とし
た。
(5)『太陽における窺語文の増加のありようについては,「太 陽コーパスs作成の過程で行った二つの予備的な研究でも扱っ た。小椋・ij、木彫・早藤(2002)は,『太陽コーーパス』全体 を概観し,照中(2004b)は創刊年(1895年)『太陽にお ける詳細な状況を報告した。これらにおいても『太陽sが口語 文の普及に屯する調査研究に有効であることが示されている。
(6>Ei本語学の領域で駄陽3を資料とした先行研究には,見
坊 (1957),土屋 (1966) (1967) (20G4), 一跡澤 (2001)
(2003)などがあるが,ここで述べるような『太陽』の言語
1第1部 設言日 45
46 [第1部設計]
資料としての特徴を十分に生かした研究は未開拓である。
(7)本書の「研究の目的と本書の構成」(田中牧郎,bi K)でも 記した,国立国語残心所の「日本大語誌」構想において,現代 を3期に分け,その第2期の始点を1901年とした。『太陽コー パスsの対象年を決める起点を1901年としたのは直接的には ここに始まる。
(8)?太陽コーパス』に着手した当初は『太陽』での完結性に配 慮し,『太陽終刊年の1928年(2号で終予U)の2冊も頬象に 加えていたが(照中・小本曽2000参照),年次間隔も冊数も 他とバランスを欠くため,最終的には対象外とした。
(9)著作権処理ができなかった場合には,①著者の没年が未詳 であったり著作権者の連絡先が不明であったりして,著作権処
理のための宿報収集ができなかったもの,②コーパス収録につ いて著作権者に許諾を依頼したが許諾が得られなかったもの,
の工通りがある。未処理に終わった著者は,①の場合が大部分 を占め,依頼できた場合の多くの著作権者からは許諾が得られ た(依頼104人,許諾97人,不許諾7人,許諾率93.3%〉。① の未詳者についての調査方法については課題を残した。著作権
処理の方策は継続して検討し,次の公刊の機会にはコーパスに 含められる記事を増やしていけるようにしたい。
(10)電子テキストの構造化記述に用いられるマークアップ言語 の歴史についてまとめた近藤(2003)は,今後の日本語コー パスのマークアップ方式はXMLが主流になるだろうと見通し
ている。XMLが登場する以前に,文献資料の特徴に応じた構 造化とタグ付けの方法について,安永(1998)が蟹文学の見 地から詳細に研究している。この概究は,矯本語学の見地から 研究資料を構造化テキストにする方法を考える際にも参考にな るところが多い。
(11)NDCの詳細は,日本図書館協会分類委員会編(1995)を
参照。
(12)連載記事で文語と口語の混在の度合いが,号によって変化 するものが若予あるが,その場合は連載全体で基調をなす文体 を属性値に記入した。
(13)『今昔文字鏡』は,『大漢和辞典gの全文字5万字強を含ん だ10万字にのぼる文字を収めた文字集合であり,漢字を多く
扱う資料の電子的流通や印刷等にある程度普及している
(http://www.moj i 1〈yo.org/) .