古典文献の計量分析の課題と「じんもんこん」の課題
2
0
0
全文
(2) 情報処理学会研究報告 IPSJ SIG Technical Report. Vol.2017-CH-115 No.15 2017/8/4. 単語でも書写者の違いで表記に揺れが生じることがあるの. 析で注意しなければならないのは,データの精度である.分. で,表記は異なるが同じ意味の単語を同一の単語として認. 析結果の信頼性・妥当性はデータの精度に大きく依存する.. 識できるように情報を付加しておく必要がある.また逆に. 多変量解析を用いた場合,データの精度が分析結果にどの. 同一表記でも意味の異なる単語を区別する情報も必要であ. 程度影響するかは,自分の作成したデータであれば把握で. る.たとえば,仮名表記の「こと」は,「事」,「琴」,「言」,. きる.したがって分析結果の信頼性・妥当性の程度も判断. 「古都」というような意味の異なる単語が考えられるので,. できる.しかし,複数の作成者の精度の異なるデータを用い. そのどれに該当するのかを示す情報が必要となる.. た場合は,分析結果の解釈は難しい.たとえば,『源氏物語』. さらに『古事記』,『日本書紀』のような古典の文章のデ. と『うつほ物語』の文体の比較分析を行う場合に,それぞれ. ジタル化においては,現在使用されていない漢字をどのよ. の作品の文章の形態素解析方法が異なっていると,単語認. うに扱うべきかという問題も生じる.. 定,品詞認定などに違いが出る場合があり,それが結論にど. さらに,日本語そのものが時代と共に変化しているため,. の程度影響するのか不明な場合も多い(現代文の場合でも,. たとえば,『源氏物語』の形態素分析のための辞書が,西鶴. ソフトが異なると形態素解析の結果は異なる場合がある).. 浮世草子の形態素解析には有効でないというような問題も. したがって,データの質の保障がある程度なされていない. 生じる.. と,データベースの共有はその意義を失いかねない.. このような問題があるため,古典文献の研究において,デ. 「じんもんこん」で扱うデータは多種多様であるため簡. ジタルデータを作成し,形態素分析から計量分析までを個. 単ではないが,データベースの共有とその有効活用を考え. 人で行うには,時間,労力,経費の点で負担が大きい.したが. た場合に,データの品質(精度)保証をどのようにすればよい. って,古典の計量分析を推進するには,どの時代の古文にも. かを,そろそろ考えるべきではないだろうか.. 対応可能な形態素解析ソフトの開発というような,古典特 有の問題を自動的に処理できるソフトの開発が望まれる.. 3. 「じんもんこん」の課題. 4. おわりに 理系と文系では研究風土がかなり異なる.たとえば,文章 研究の場合,一言一句の持つ意味を大切にして厳密で緻密. これまでの計 114 回の「じんもんこん」の研究会の演題. に内容研究を進める文系の研究方法と,単語の意味は考え. を見ると,近年発表数がかなり減少した領域がある.たとえ. ずに,単に記号列として文章を計量的,総合的な観点から把. ば,考古学,歴史学に関する領域の発表は,1~10 回までは全. 握しようとする理系の研究方法とでは,文章研究に対する. 体の 25%程度を占めていたのが,105~114 回では 2%程度. 姿勢がかなり異なる.. に減少している.発表が 0 になるのでは,というのは杞憂で あろうか.. そのような異なる風土の理系と文系の研究の架け橋と して期待されたのがコンピュータである.今日,コンピュー. 「じんもんこん」は,人文学という広い領域での,コンピ. タは研究の道具として手軽に用いられるようになってきて. ュータを活用した多種多様な研究の発表の場を提供する研. いるが,コンピュータ無しでは得られないというような新. 究会である.コンピュータの有効活用が遅れている領域を. たな知見を獲得することが,「じんもんこんの」の発展につ. も含め,文理融合型の新たな研究方法をどのように人文学. ながることになる.. の各領域に浸透させるかという,中・長期の方策について検 討する必要がある. 3.1 新たな研究方法の探索 コンピュータを研究に利用するメリットは,多種多量の デジタルデータの記憶・保存が容易,高速計算が可能,デー タや分析結果の可視化が容易というような点にある.した がって,これらの能力をより活用する研究方法を考えるこ とが「じんもんこん」の発展につながると思われる.特に 統計分析ソフトが広く普及している現状を考えると,多変 量解析,シミュレーションに基づく研究,動的変化を表示す るグラフなどを用いた可視化の研究など,コンピュータ無 しにはできない新たな研究方法が,人文学の領域の問題解 決にもっと提案されても良いのではないだろうか. 3.2 データの品質保証 「じんもんこん」の様々な領域でデータベースの共有化. 参考文献 1) 安本美典:宇治十帖の作者-文章心理学による作者推定-,文 学・語学 4 月号(1957) 2) 上田英代・村上征勝・今西祐一郎・樺島忠夫・上田裕一:源氏 物語語彙用例総索引-自立語編-全 5 巻,勉誠社(1994) 3) 上田英代・村上征勝・今西祐一郎・樺島忠夫・上田裕一:源氏 物語語彙用例総索引-付属語編-全 5 巻,勉誠社(1996) 4) 村上征勝・今西祐一郎:源氏物語の助動詞の計量分析,情報処理 学会論文誌,vol.40, no.3, pp774-782(1999) 5) 土山玄:計量文献学による『源氏物語』の成立に関する研究, 同志社大学博士論文(2015) 6) 上阪彩香:西鶴浮世草子の文章に関する数量的研究―遺稿集を 中心とした著者の検討―,同志社大学博士論文(2016) 7) 矢野環:君台観左右帳記の総合研究,勉誠出版(1999) 8) 村上征勝・伊藤瑞叡:日蓮遺文の数理研究,東洋の思想と宗教第 8 号(1991) 9) 村上征勝:真贋の科学-計量文献学入門-,朝倉書店(1994) 10)村上征勝:文化を計る文化計量学序説-,朝倉書店(2002). が進みつつあるが,複数のデータベースを用いての数量分. ⓒ2017 Information Processing Society of Japan. 2.
(3)
関連したドキュメント
自ら将来の課題を探究し,その課題に対して 幅広い視野から柔軟かつ総合的に判断を下す 能力 (課題探究能力)
「男性家庭科教員の現状と課題」の,「女性イ
「課題を解決し,目標達成のために自分たちで考
CE1 Series/ものさしくん
こうしゅう、 しんせん、 ふぉーしゃん、 とんがん、 けいしゅう、 ちゅうざん、
ドリル教材 教材数:6 問題数:90 ひきざんのけいさん・けいさんれんしゅう ひきざんをつかうもんだいなどの問題を収録..
「1 建設分野の課題と BIM/CIM」では、建設分野を取り巻く課題や BIM/CIM を行う理由等 の社会的背景や社会的要求を学習する。「2
目標を、子どもと教師のオリエンテーションでいくつかの文節に分け」、学習課題としている。例