• 検索結果がありません。

古典文献の計量分析の課題と「じんもんこん」の課題

N/A
N/A
Protected

Academic year: 2021

シェア "古典文献の計量分析の課題と「じんもんこん」の課題"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2017-CH-115 No.15 2017/8/4. 古典文献の計量分析の課題と「じんもんこん」の課題 村上征勝†1 概要: 「人文科学とコンピュータ研究会(じんもんこん)」が設立されて 30 年になる.この間にコンピュータを用い た日本古典資料の計量分析が幾つか試みられてきた.この小論では, これらの研究を通じて浮かび上がってきた古典 資料の計量分析に固有の課題に加え, 文理融合型研究をより推進するために「じんもんこん」として取り組むべき課 題について触れる. キーワード:古典文献, 計量分析, データの品質保証. Issues of Quantitative analysis of Japanese classical literature and SIG Computers and the Humanities MASAKATSU MURAKAMI†1 Abstract: Thirty years have passed since IPSJ SIG Computers and the Humanities was established. During this time, some quantitative analyses of Japanese classical literature were attempted. In this paper, we introduce the difficulty in quantitative analysis of Japanese classical literature and moreover mention on future tasks of SIG Computers and the Humanities. Keywords: classical literature, quantitative analysis, quality assurance of data. 1. はじめに. 出現率を用いて,「宇治十帖」別人作家説を検討している. しかし当時はコンピュータが自由に使えない状況にあり,. 伝統的な文系と理系の学問の壁に風穴を開けることを. そのため,現代語訳の本から,分析に用いるページをサンプ. 目指した「文理融合型」研究の重要性,必要性が認識される. リングで抽出し,抽出したページ内の情報に基づいた研究. ようになったのは 1980 年代に入ってからと思われる.その. であった.そこで,『源氏物語』全文をデジタル化し,それ. 意味で,文化研究におけるコンピュータ援用という新しい. に形態素解析を施したデータを用い,各巻の品詞の使用率,. 研究領域の開拓を目的とした「じんもんこん」の設立(1989. 単語の使用率などから,「宇治十帖」別人作家説や 54 巻の. 年)は時宜を得たものであった.さらにその後のデジタル化. 執筆順序等の検討が試みられた(村上・今西,1999).さらに. 技術の急速な進歩・発展が追い風になり「じんもんこん」. 土山(2014)は,『源氏物語』とほぼ同時期に成立したと考え. への期待は高まっていった.. られる作者不詳の『うつほ物語』も分析対象に加え,『源氏. 文章の計量分析という研究領域においても,文学作品の. 物語』の文章の特徴について分析している.. デジタル化や文章の形態素解析ソフト・統計解析ソフトの. 近世文学に関しては,上阪(2016)が,井原西鶴と弟子の北条. 開発が進み,日本語の文献に対する計量的研究も近年多く. 団水の作品のデータベースを用い,西鶴作品に提起されてい. みられるようになった.しかし,現代日本語の文献に比べる. る著者に関わる疑問を検討している.この他,文学作品では. と,古典文献の計量分析の研究はまだまだ少ない.そこで,. ないが,矢野(1999)の『君台観左右帳記』の数量分析や,村. まず,古典文献の計量分析の現状を紹介し,何が課題となっ. 上・伊藤(1991)の日蓮遺文の真贋判定の研究がある.. ているかを考える.さらにこの議論の延長上にある,「じん. 2.2 古典の計量分析の課題. もんこん」として取り組むべきいくつかの課題についても. しかし,古典の計量分析は,現代文の計量分析に比較し,残. 触れる.. 念ながら研究例はまだ少ない.それは,古典文の場合には,. 2. 日本古典の計量分析の現状と課題. 単語認定が現代文より難しいという問題があるからである.. 2.1 古典の計量分析の現状 古典の計量分析の嚆矢と考えられる,安本(1957)の『源氏 物語』の「宇治十帖」の作者に関する研究が発表されてか ら 60 年になる.安本は,『源氏物語』54 巻の各巻の名詞, 用言,助詞,助動詞,色彩語,和歌,直喩,比喩など 10 種の項目の. †1 勉誠文化情報研究所 Bensei Research Institute for Cultural Information. ⓒ2017 Information Processing Society of Japan. たとえば,紫式部の原文に近いと考えられる『源氏物語大 成』の文章においても,「山里」の表記として 4 種類が確認 できる(数値は『源氏物語大成』での出現回数). 「やまさと」(5) 「やま里」. (1). 「山さと」. (46). 「山里」. (13). このように,写本で伝承されてきた古典の場合には,同一の. 1.

(2) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2017-CH-115 No.15 2017/8/4. 単語でも書写者の違いで表記に揺れが生じることがあるの. 析で注意しなければならないのは,データの精度である.分. で,表記は異なるが同じ意味の単語を同一の単語として認. 析結果の信頼性・妥当性はデータの精度に大きく依存する.. 識できるように情報を付加しておく必要がある.また逆に. 多変量解析を用いた場合,データの精度が分析結果にどの. 同一表記でも意味の異なる単語を区別する情報も必要であ. 程度影響するかは,自分の作成したデータであれば把握で. る.たとえば,仮名表記の「こと」は,「事」,「琴」,「言」,. きる.したがって分析結果の信頼性・妥当性の程度も判断. 「古都」というような意味の異なる単語が考えられるので,. できる.しかし,複数の作成者の精度の異なるデータを用い. そのどれに該当するのかを示す情報が必要となる.. た場合は,分析結果の解釈は難しい.たとえば,『源氏物語』. さらに『古事記』,『日本書紀』のような古典の文章のデ. と『うつほ物語』の文体の比較分析を行う場合に,それぞれ. ジタル化においては,現在使用されていない漢字をどのよ. の作品の文章の形態素解析方法が異なっていると,単語認. うに扱うべきかという問題も生じる.. 定,品詞認定などに違いが出る場合があり,それが結論にど. さらに,日本語そのものが時代と共に変化しているため,. の程度影響するのか不明な場合も多い(現代文の場合でも,. たとえば,『源氏物語』の形態素分析のための辞書が,西鶴. ソフトが異なると形態素解析の結果は異なる場合がある).. 浮世草子の形態素解析には有効でないというような問題も. したがって,データの質の保障がある程度なされていない. 生じる.. と,データベースの共有はその意義を失いかねない.. このような問題があるため,古典文献の研究において,デ. 「じんもんこん」で扱うデータは多種多様であるため簡. ジタルデータを作成し,形態素分析から計量分析までを個. 単ではないが,データベースの共有とその有効活用を考え. 人で行うには,時間,労力,経費の点で負担が大きい.したが. た場合に,データの品質(精度)保証をどのようにすればよい. って,古典の計量分析を推進するには,どの時代の古文にも. かを,そろそろ考えるべきではないだろうか.. 対応可能な形態素解析ソフトの開発というような,古典特 有の問題を自動的に処理できるソフトの開発が望まれる.. 3. 「じんもんこん」の課題. 4. おわりに 理系と文系では研究風土がかなり異なる.たとえば,文章 研究の場合,一言一句の持つ意味を大切にして厳密で緻密. これまでの計 114 回の「じんもんこん」の研究会の演題. に内容研究を進める文系の研究方法と,単語の意味は考え. を見ると,近年発表数がかなり減少した領域がある.たとえ. ずに,単に記号列として文章を計量的,総合的な観点から把. ば,考古学,歴史学に関する領域の発表は,1~10 回までは全. 握しようとする理系の研究方法とでは,文章研究に対する. 体の 25%程度を占めていたのが,105~114 回では 2%程度. 姿勢がかなり異なる.. に減少している.発表が 0 になるのでは,というのは杞憂で あろうか.. そのような異なる風土の理系と文系の研究の架け橋と して期待されたのがコンピュータである.今日,コンピュー. 「じんもんこん」は,人文学という広い領域での,コンピ. タは研究の道具として手軽に用いられるようになってきて. ュータを活用した多種多様な研究の発表の場を提供する研. いるが,コンピュータ無しでは得られないというような新. 究会である.コンピュータの有効活用が遅れている領域を. たな知見を獲得することが,「じんもんこんの」の発展につ. も含め,文理融合型の新たな研究方法をどのように人文学. ながることになる.. の各領域に浸透させるかという,中・長期の方策について検 討する必要がある. 3.1 新たな研究方法の探索 コンピュータを研究に利用するメリットは,多種多量の デジタルデータの記憶・保存が容易,高速計算が可能,デー タや分析結果の可視化が容易というような点にある.した がって,これらの能力をより活用する研究方法を考えるこ とが「じんもんこん」の発展につながると思われる.特に 統計分析ソフトが広く普及している現状を考えると,多変 量解析,シミュレーションに基づく研究,動的変化を表示す るグラフなどを用いた可視化の研究など,コンピュータ無 しにはできない新たな研究方法が,人文学の領域の問題解 決にもっと提案されても良いのではないだろうか. 3.2 データの品質保証 「じんもんこん」の様々な領域でデータベースの共有化. 参考文献 1) 安本美典:宇治十帖の作者-文章心理学による作者推定-,文 学・語学 4 月号(1957) 2) 上田英代・村上征勝・今西祐一郎・樺島忠夫・上田裕一:源氏 物語語彙用例総索引-自立語編-全 5 巻,勉誠社(1994) 3) 上田英代・村上征勝・今西祐一郎・樺島忠夫・上田裕一:源氏 物語語彙用例総索引-付属語編-全 5 巻,勉誠社(1996) 4) 村上征勝・今西祐一郎:源氏物語の助動詞の計量分析,情報処理 学会論文誌,vol.40, no.3, pp774-782(1999) 5) 土山玄:計量文献学による『源氏物語』の成立に関する研究, 同志社大学博士論文(2015) 6) 上阪彩香:西鶴浮世草子の文章に関する数量的研究―遺稿集を 中心とした著者の検討―,同志社大学博士論文(2016) 7) 矢野環:君台観左右帳記の総合研究,勉誠出版(1999) 8) 村上征勝・伊藤瑞叡:日蓮遺文の数理研究,東洋の思想と宗教第 8 号(1991) 9) 村上征勝:真贋の科学-計量文献学入門-,朝倉書店(1994) 10)村上征勝:文化を計る文化計量学序説-,朝倉書店(2002). が進みつつあるが,複数のデータベースを用いての数量分. ⓒ2017 Information Processing Society of Japan. 2.

(3)

参照

関連したドキュメント

自ら将来の課題を探究し,その課題に対して 幅広い視野から柔軟かつ総合的に判断を下す 能力 (課題探究能力)

「男性家庭科教員の現状と課題」の,「女性イ

「課題を解決し,目標達成のために自分たちで考

CE1 Series/ものさしくん

こうしゅう、 しんせん、 ふぉーしゃん、 とんがん、 けいしゅう、 ちゅうざん、

ドリル教材 教材数:6 問題数:90 ひきざんのけいさん・けいさんれんしゅう ひきざんをつかうもんだいなどの問題を収録..

「1 建設分野の課題と BIM/CIM」では、建設分野を取り巻く課題や BIM/CIM を行う理由等 の社会的背景や社会的要求を学習する。「2

目標を、子どもと教師のオリエンテーションでいくつかの文節に分け」、学習課題としている。例