• 検索結果がありません。

    (2)同の零点は,現代と同様,

   (2)漢宰の繰り返しに,それぞ

〔第1部 設謙] 41

の標準的な用法で用いられている例(「アM「人々」など)につ いては,検索者が検索文字列を鮨定する際に,振定もれが起こる 可能性は低いので「値]属性は設定しない。しかし,下に示した ような場合は,現代の標準的な用法とは異なっており,電子テキ ストの側で対応をしておくことが望まれる。(3)二字点につい ても,代用した「々」の通常の用法から外れる二字以上の連続で 用いられる場合は,同様の対応が必要である。また,(4)くの 字点も,何字分繰り返されるかは場合によりさまざまであるので,

同様の対応が望まれる。f値」属性を記述した具体例は,次の通 りである。

  おほく踊字値=闘ほほほU> 5》5〈/踊字〉

  神社く踊字値讐 神社㌧々々〈/踊字〉

  一一日く踊字種類・11二字点 酵値: 一日 〉々々〈/踊字〉

  ナカ〈踊字種類♂くの字点 値= ナガ〉〜〜〈/踊字〉

圏 その他のタグ

併漕蠣劉鯉認母竃私に蝋を繕聾職騨報礪鰹瀕麟臨幌吻躍 大認已に下る逡雌ど菟働 忍事砥璽慮を即 騨るミを際す

図王4

        でんをくれいしゃグ﹁スタフへ湘クーヅ雲噂氣命珊滋瓢のγ

霞15

一象︑

図16

欝禽も︒

図17 42 [第1部 設欝]

関門麟秘し(の穣承鉱晦の汚駅t賦陽コーバ穐の醸蕃

16.1 割書タグ

 これまで述べてきたタグ以外のタグについて,最後にまとめて 説明する。まず,本文に注釈などを付す場合で,行中に一行を二 行に割って記す,「割書」と呼ばれる表記法がある(図12)。こ の場合,「割書」のタグで囲み,割書内の改行位置にく割書改行/〉

の空要素タグを入れた。

  伊達蜂須賀諸氏と私に婚を結び,</s><s>〈割書〉此事は前號   力 藤溝正のく割書改行/〉事蹟中に記述し置けりく/割書〉〈/S>

  (1895年12号「写照三成(承前)」小倉秀貫PO73A20)

なお,角書き,スペース節約等のための二行三等は,割書に認定

しない。

16.2 敬意欠字タグ

 天皇などに敬意を表する意図で,天皇関連の語の直前を,一字 または二字分空漁にする表記法が行われる場合がある(図13>。

「欠字」と言われることのある書法だが,印刷不鮮明等による欠 字の場合と区別して,「敬意欠字」と呼ぶことにし,〈敬意欠字〉

〈/敬意欠字〉のように,L」をタグで囲む方式で記入した。

  下ると錐ども,〈敬意欠字〉_〈/敬意欠字〉至尊尚ほ(王895年   9号 「台湾論」 島疑i三良匿POO2BO7)

16.3 合字タグ

 ある種の語を表す文字連続で,二つ以上の文字を一字にあわせ た「合字」と呼ばれる表記法が行われる場合があり(図14),次 のようにタグ付けした。

  圃るく合字〉ことく/合字〉を要す(1895年9号職後財政案藩   河島醇POO6B23)

 合字表記されることのある語には,「こと」「まいらせ候」「ヨ リ」fトモ]などがある。

16.4 小書タグ

 園15の「フ」のような,カタカナ表記で小書きされるものの うち,JISにないものにこのタグを付している。

  グスタ〈小書〉フ〈/小書〉へ,クーツ電氣會社の(1901年7号   「工業世界」金子篤寿P169AO2)

 小書タグが付けられることのある片仮名は,次のものである。

  キコネハフヘホムルワヰエヲ

[第1部  設言十]  43

16.5 上付タグ,下付タグ

 数式や化学式など,上付(図16)または下付(図17)の表記 法をとる場合があるが,次のようにタグ付けした。

  x<上付>2〈/上付〉一a<上付>2〈/上付〉 (1901年7号F実   業教育に於ける数学」数藤斧三郎P199BO8)

  CaC1<下付>2〈/下付〉 (}895年8号F石灰岩は如何に   して生ぜしや」佐藤伝rap145A}7)

脆.6 非入力対象タグ

 記裏内にある図表や漢文・欧文の長文にわたる引用などはコー パスの対象外としているが,本文から当該部分が酎除されること で,本文の読み取りに支障をきたす場合もある。図表や漢文・欧 文自体はコーパスとして不要であっても,その位置に隈表等のあ ったことは記されている方が都合がよい。非入力対象タグを空要 素タグとして立て,「種類」属性には,図表・漢文・欧文等の種 類を,俵見出し1属性には,原文で付けられている図表等の名 称を,それぞれ記入した。

  <非入力態象種類= 《図表》 表見出し♂濁逸聞(千八百八   十二年調査)奪γ〉 (1895年1号「経済的闘争」井上辰九郎   PO35A24)

圏おわり1.

 本論文ではまず,雑誌?太陽3が現代藷の確立期を代表する資 料として価値が高いことを確認した上で,その本文の様態を観察

して,資料の価値をコーパスとしてどのようにして生かすべきか を考察した。それをふまえてどのようにe太陽コーパス』を設計 し仕様を策定したかについて,全体的な記述を行った。こうして 作成されたコーパスを使ってどのような研究成果が生まれるかに

よって『太陽コーパスsの価値は評価されるべきものである。本 書における個々の論文が扱う個別的具体的な問題についての研究 成果は,その判断材料になるであろうし,これらの論文を機縁と してさまざまな観点から『太陽コーパスsが活用されることで,

コーパスについての議論が盛んになることを期待したい。

44 [第1部 設計]

石目融秘し《の羅蔽丁丁の汚駅乙匪天陽コーバ穐の龍訂

 活用されるうちに『太陽コーパス』の設計や仕様自体に改善す べき点は多々見つかるであろうし,このコーパスでは研究できな い限界も明らかになるであろう。雑誌『太陽以外の資料をもと に構造化テキストタグ付きコーーパスを作成する場合には,本論文 で述べた設計や仕様では不十分なところも多いと思われる。ア太 陽コーパスxを踏み台として,コーパスの設計や作成が広い範囲 で盛んになることも望みたい。また,われわれf太陽コーパス』

の作成に携わった者も,このコーパスの保守・普及と活用を図り ながら,次の段階のコーパスを作成するための歩みを進めていき

たい。

(1)本論文に述べる内容の一部は,田中・小木曽(2000),田  中(2004a)などで述べたことがあるが,『太陽コーパス2の  設訂に関わる基本的ことがらであるので,本論文に取り込んだ。

(2)湯浅(2000)は,明治期の資料が膨大で多様であるため,

 かえって難解の日本語の全体像を掘握することが困難になって  いることを指摘している。

(3>明治期の言語資料を分類して示した飛田(1973)では,新  聞・雑誌を「総合資料」と呼んで,他の種類の資料の「性格を  総合した資糖という位置づけを与えている。

(4)『太陽の書誌,社会的・歴史的位置については,鈴木正節  (1979),鈴木貞美編(2001)に詳細な研究があり,言語資料  としての『太陽sの位置づけを考える上でも参考になる。『太  陽2の復刻版と総目次は,日本近代文学館編(1999>にある  が,療誌を所蔵する大学図書館や公共図書館も多い。『太陽コ  ーパスs作成においては,国立国語研:究所蔵の原誌を底本とし

 た。

(5)『太陽における窺語文の増加のありようについては,「太  陽コーパスs作成の過程で行った二つの予備的な研究でも扱っ  た。小椋・ij、木彫・早藤(2002)は,『太陽コーーパス』全体  を概観し,照中(2004b)は創刊年(1895年)『太陽にお  ける詳細な状況を報告した。これらにおいても『太陽sが口語  文の普及に屯する調査研究に有効であることが示されている。

(6>Ei本語学の領域で駄陽3を資料とした先行研究には,見

 坊 (1957),土屋 (1966) (1967) (20G4), 一跡澤 (2001)

 (2003)などがあるが,ここで述べるような『太陽』の言語

1第1部 設言日 45

46 [第1部設計]

 資料としての特徴を十分に生かした研究は未開拓である。

(7)本書の「研究の目的と本書の構成」(田中牧郎,bi K)でも  記した,国立国語残心所の「日本大語誌」構想において,現代  を3期に分け,その第2期の始点を1901年とした。『太陽コー  パスsの対象年を決める起点を1901年としたのは直接的には  ここに始まる。

(8)?太陽コーパス』に着手した当初は『太陽』での完結性に配 慮し,『太陽終刊年の1928年(2号で終予U)の2冊も頬象に 加えていたが(照中・小本曽2000参照),年次間隔も冊数も  他とバランスを欠くため,最終的には対象外とした。

(9)著作権処理ができなかった場合には,①著者の没年が未詳  であったり著作権者の連絡先が不明であったりして,著作権処

理のための宿報収集ができなかったもの,②コーパス収録につ  いて著作権者に許諾を依頼したが許諾が得られなかったもの,

の工通りがある。未処理に終わった著者は,①の場合が大部分  を占め,依頼できた場合の多くの著作権者からは許諾が得られ  た(依頼104人,許諾97人,不許諾7人,許諾率93.3%〉。①  の未詳者についての調査方法については課題を残した。著作権

処理の方策は継続して検討し,次の公刊の機会にはコーパスに 含められる記事を増やしていけるようにしたい。

(10)電子テキストの構造化記述に用いられるマークアップ言語  の歴史についてまとめた近藤(2003)は,今後の日本語コー  パスのマークアップ方式はXMLが主流になるだろうと見通し

ている。XMLが登場する以前に,文献資料の特徴に応じた構 造化とタグ付けの方法について,安永(1998)が蟹文学の見 地から詳細に研究している。この概究は,矯本語学の見地から 研究資料を構造化テキストにする方法を考える際にも参考にな  るところが多い。

(11)NDCの詳細は,日本図書館協会分類委員会編(1995)を

参照。

(12)連載記事で文語と口語の混在の度合いが,号によって変化  するものが若予あるが,その場合は連載全体で基調をなす文体  を属性値に記入した。

(13)『今昔文字鏡』は,『大漢和辞典gの全文字5万字強を含ん だ10万字にのぼる文字を収めた文字集合であり,漢字を多く

扱う資料の電子的流通や印刷等にある程度普及している

 (http://www.moj i  1〈yo.org/) .

関連したドキュメント