• 検索結果がありません。

BCCWJの品詞情報の解析精度について : 特に接続詞に注目して

N/A
N/A
Protected

Academic year: 2021

シェア "BCCWJの品詞情報の解析精度について : 特に接続詞に注目して"

Copied!
18
0
0

読み込み中.... (全文を見る)

全文

(1)Title. BCCWJの品詞情報の解析精度について : 特に接続詞に注目して. Author(s). 馬場, 俊臣. Citation. 北海道教育大学紀要. 人文科学・社会科学編, 66(1): 13-29. Issue Date. 2015-08. URL. http://s-ir.sap.hokkyodai.ac.jp/dspace/handle/123456789/7835. Rights. Hokkaido University of Education.

(2) 北海道教育大学紀要(人文科学・社会科学編)第66巻 第1号 Journal of Hokkaido University of Education(Humanities and Social Sciences)Vol. 66, No.1. 平 成 27 年 8 月 August, 2015. BCCWJの品詞情報の解析精度について ― 特に接続詞に注目して ―. 馬 場 俊 臣 北海道教育大学札幌校日本語学研究室. On the Precision of the POS Information: Focusing on the Conjunctions in the BCCWJ. BABA Toshiomi Department of Japanese Linguistics, Sapporo Campus, Hokkaido University of Education. 概 要 接続詞研究においてBCCWJの品詞情報を利用する際の留意点を示すために,BCCWJで「接 続詞」の品詞情報が付与された語(長単位)の解析精度(適合率)の調査を行い,(1)「接続詞」 の使用頻度上位20語の適合率は63.0%~100.0%の範囲にあり特に「で」「唯」「又」の適合率が 低いこと,(2)レジスター別の適合率は「又」は「特定目的・ブログ」42.4%が,「で」は「特 定目的・国会会議録」44.4%, 「特定目的・知恵袋」46.0%が特に低いこと,(3)誤判定の起こ り易い環境として,直前・直後1文字の組み合わせや文頭部分の複合辞や連語の誤解析などが 関わる可能性があること,(4)適合率に基づいて検索結果を補正することにより調査結果の信 頼性を増すことができることなどを明らかにした。BCCWJの「接続詞」の品詞情報を利用す る際には,解析精度が特に低い語及びレジスターがあることに十分留意する必要がある。. 1.はじめに 『現代日本語書き言葉均衡コーパス』(BCCWJ)を利用した接続詞研究の問題点と可能性に関する基礎的 1 研究の一環として,本稿では,BCCWJの接続詞に関する品詞情報の信頼性を見るために品詞情報「接続詞」. の解析精度に関する調査を行い,その結果に基づいて,品詞情報を利用する際の留意点を示す。 BCCWJの解析精度は,「長単位・短単位とも,データ全体に対して人手修正を行ったコアデータは99%以. 1 品詞情報として「接続詞」が付与されていることを,以下「品詞情報「接続詞」 」又は単に括弧を付けて「接続詞」と略記 する。他の品詞についても同様である。. 13.

(3) 馬 場 俊 臣. 上,データの一部に対して人手修正を行ったコアデータ以外のデータは98%以上」(小椋,冨士池(2011)) とされるが,品詞によって解析精度は若干異なると予想される。また,同じく接続詞であっても語により解 析精度が異なると予想される。 BCCWJを利用した重要な研究の一つに,品詞比率に基づいた文章・文体研究がある2。こうした巨視的な 研究では, 品詞の違いによる解析精度の若干の異なりは,分析結果に殆ど影響を与えず何ら問題は生じない。 しかし,例えば特定の品詞に限定して,その品詞に属するいくつかの語(ないし語群)の使用頻度や使用比 率を問題にする場合は対象とする語の解析精度の違いが分析結果に影響を及ぼす可能性がある。特に接続詞 は,属する語の種類(異なり語)が少なく,一つ一つの語の解析精度の違いが場合によっては分析結果に大 きな影響を及ぼす恐れがある。 BCCWJを利用する際の基本としては,利用マニュアル3や小木曽(2014)に示されているように「解析誤 り」 「形態素解析の弱点」があることを前提として,研究目的・研究対象に応じて人手による点検が必要に なる。こうした点検を行うことによって,語による解析精度の違いの問題を避けることができる。 しかし,検索結果をそのまま利用する場合などでは特に,一つ一つの語の解析精度の違いがどの程度有り うるのかという知見を予め知っておくことが重要である。 本稿では,このような問題意識に基づいて,BCCWJの「接続詞」の品詞情報の信頼性を見るために,「接 続詞」の用例の解析精度に関する調査を行う。調査内容は次の通りである。 ⑴ 「接続詞」の使用頻度上位20語(長単位)についてサンプル調査(非コアデータ各100件)を行い, 語ごとの適合率4を明らかにする。(4章) ⑵ 「接続詞」の使用頻度第1位であり適合率が低い「又」について,サンプル数を増やした詳細調査(「接 続詞」 「副詞」各1,000件)を行い, 「接続詞」及び「副詞」の適合率を明らかにし,さらに,レジスター 別での違いも明らかにする。誤判定の起こり易い環境(前後の文脈)についても検討する。(5章) ⑶ 適合率が最も低い「で」について,サンプル数を増やした詳細調査(「接続詞」「格助詞」「助動詞」 各1,000件)を行い, 「接続詞」及び「格助詞」「助動詞」の適合率を明らかにし,さらに,レジスター 別での違いも明らかにする。誤判定の起こり易い環境(前後の文脈)についても検討する。(6章) 上記の調査結果を報告するに先立って,2章でBCCWJの品詞情報を利用した接続詞研究の概観を行い, 3章でBCCWJ全体の品詞情報の解析精度について簡潔に示す。また,語ごとの解析精度(適合率)の違い に留意することの重要性を見るために,4~6章の調査結果に基づいて,7章で適合率に基づいて検索結果 の件数を補正することにより使用頻度の順位が変わることなどを示す。8章で本稿全体のまとめを行う。 なお,本研究は,BCCWJを利用した今後の接続詞研究に対して重要な基礎的知見を提供するとともに, 品詞情報付与に関する解析器の改良のための参考資料を提供するものでもある。. 2 品詞比率とジャンル(レジスター)等の文体・文章構造の違いとの関連を分析した研究として, 冨士池他 (2011) , 鯨井 (2011) などの研究がある。なお,左記の二つの研究では,誤解析に対する人手修正を施したコアデータ(長単位)を使用している。 3 国立国語研究所コーパス開発センター(2011),国立国語研究所コーパス開発センター(2013) 。 4 本稿では解析精度として「適合率」を用いた。「適合率」は「正しく品詞情報を付与された長単位数/当該品詞情報を付与 された長単位数×100[%]」で求めた。本稿の調査では「再現率」は調査しておらず,従って「F値」も求めていない。詳 しくは脚注9参照。. 14.

(4) BCCWJの品詞情報の解析精度について. 2.BCCWJの品詞情報を利用した接続詞研究 BCCWJは,2011年に一般公開された「国立国語研究所が中心となって開発した日本語に関する初めての 大規模均衡コーパス」であり,「出版サブコーパス」(書籍,雑誌,新聞),「図書館サブコーパス」(書籍), 「特定目的サブコーパス」(白書,教科書,ベストセラー,Yahoo! ブログ,国会会議録など)からなる約1 億語(短単位) ・約8千万語(長単位)のコーパスである5。 接続詞に関わる研究においても,BCCWJを利用した研究が増えている。本章では,BCCWJ6を利用した 研究を例としていくつか紹介し,接続詞に関わる研究においてもBCCWJの利用が進んでいることを示す。 斎藤(2009)は,副詞,連体詞,接続詞の表記を調査し仮名表記,漢字表記の傾向とその要因を分析した ものであり,BCCWJ2008年度版の「書籍」「白書」の形態素解析済みのコアデータを用い品詞情報を利用し ている。 砂川他(2009)は,複合的な接続表現「それなのに」「そのくせ」「それでいて」の「使用域,文法,意味 の使い分け」をジャンル別の出現頻度や用法・意味別の使用割合などに基づいて分析したもので,BCCWJ 2008年度版の全データ(「書籍」は一部のみ)を用いている。文字列検索を行ったものと思われる。 多田(2010)は,複合接続詞の用例調査と用法の検討に基づき「複合接続詞の全体像」について考察した ものである。BCCWJ2008年度版の「書籍」データの「文頭ngramの語連接」から約200語の「複合接続詞」 を人手で抽出するとともに,全データを対象に文字列検索によって接続詞の二重使用の用例を調査している。 大内(2012)は,接続表現(接続詞,接続助詞)の二重使用に関して,「接続助詞+接続詞」の連接類型 の組み合わせの傾向を考察したものである。「接続助詞+接続詞」の組み合わせをBCCWJの品詞情報を利用 して検索したものと思われる。 馬場(2013a)(2013b)(2014)は,接続詞の二重使用の特徴,承接順序の原則及び文体差を分析したも ので,BCCWJの書籍データ及び全データを用い,品詞情報(長単位)を利用して「中納言」で検索して得 られた用例を人手で点検した上で利用している。 藤井(2013)は,コーパスを用いて「条件構文基盤の談話標識化の諸相」を分析する際の指標や類型を提 示したものである。接続詞に相当する「拘束文法機能語の非拘束化型」「指示詞照応型」の一部について BCCWJの用例数を挙げ,「長単位・語彙素「接続詞」」としてBCCWJに登録のない「とすると」などの形式 についても広く使用されることを示している。 宮内(2013)は,接続詞「なので」の「書き言葉において用いられる場合の文体に関わる実態」を分析し たもので,BCCWJ全データを用い「中納言」で検索している。品詞情報(長単位)を利用している。 鯨井(2013)は,「同一語のくり返しが集中する文脈における文章構造上の特徴」(接続詞等の使用など) を分析したもので,BCCWJ(DVD版)特定目的サブコーパスの「教科書」を用い,品詞情報(長単位)を 利用している。また,鯨井(2014)は,接続表現の前後文脈での「用語の類似度」を計り「内容展開と文脈 間の用語の類似度との対応関係」を分析したもので,BCCWJ(DVD版)出版サブコーパスの「書籍」を用い, 品詞情報(長単位)を利用している。 このように,接続詞に関わる研究においてもBCCWJの利用が進んでいる。ただし,BCCWJを利用した研 究の中には,検索ツールや検索方法の詳細,また,検索結果に対する人手による点検の有無の詳細が示され ていないものがある。コーパスを用いた研究の特徴の一つに追試可能性が挙げられる。それを保証するため. 5 国立国語研究所コーパス開発センター(2011),国立国語研究所コーパス開発センター(2013) 。 6 一般公開に先立つモニター公開データ(BCCWJ2008年度版)を含む。. 15.

(5) 馬 場 俊 臣. には,検索及び用例確定の方法を明示することが重要である。. 3.BCCWJ全体の品詞情報の解析精度について 調査結果を示すに先立って,公表されているBCCWJ全体の品詞情報の解析精度を示す。 本稿の調査は,BCCWJにおいて,「接続詞」の品詞情報が付与された長単位7の語彙素を対象とする。検 索ツールとして,品詞情報を用いた検索ができる「中納言」を利用する。 BCCWJの形態論情報の付与では, 「短単位解析には解析エンジンMeCabと形態素解析用辞書UniDicを, 長単位解析には短単位解析結果から長単位を自動構成する解析器」(小椋,冨士池(2011))を用いており8, また(短単位全体の)「1億語のうち約100万語(コアデータ)については,自動解析後に人手修正を行い, 解析精度99%以上の高精度なデータとし,形態素解析システムの学習用データとして用いた」(同前)との ことである。 接続詞に関しては,UniDicにおける接続詞(短単位)は30語であり(UniDic-mecab version 1.3.12の接続 詞辞書(Conjunction.csv)による),さらに,長単位では32の「連語」(従って,そうして,其れとも,で は等)が接続詞として扱われている(同前)。 BCCWJの形態論情報の解析精度は,コアデータは99%以上,コアデータ以外のデータは98%以上(同前) とのことである。レジスター別では,「白書,書籍(文学),書籍(文学以外),新聞,Web(Y! 知恵袋)」 9 は,それぞれ0.995693,0.9866095,0.989596,0.989116,0.984112 の各レジスターの「品詞」の解析精度(F値). となっており,98%以上を実現している(同前)。BCCWJの利用マニュアルに記載されている解析精度はF 値のみであり, 適合率及び再現率は示されていない。小木曽他(2010)では, 「新聞」 (毎日新聞2007年度版)・ 「文学作品」 (新潮文庫の100冊)・「ブログ」(Yahoo! ブログ)を用いてUniDic-mecabと他の解析器との精 度比較を行い「UniDic-mecab 1.3.12」での適合率,再現率,F値を示している。新聞,文学作品,ブログ の順にそれぞれ「品詞」の適合率は0.9879,0.9772,0.9756であり98%前後以上である。. 4.高頻度接続詞の適合率 4. 1 調査の目的と方法 本章では,品詞情報「接続詞」の語のうち,使用頻度上位20語(長単位)(以下, 「高頻度接続詞」と呼ぶ) について,サンプル調査(非コアデータ各100件)を行い,語ごとの適合率を明らかにする。 まず,高頻度接続詞を取り出すために, 「中納言」長単位検索で「品詞 大分類 接続詞」を指定し,全. 7 多くの接続詞研究において接続詞として扱われる語の単位は「長単位」にほぼ相当する。 8 本稿での指摘はMeCab+UniDicにより付与された品詞情報の問題点でもある。 9 適合率(精度),再現率,F値は分類の評価指標として用いられる。適合率は付与された品詞がどのくらい正しいかを表す 指標である。再現率は実際にある品詞であるものをどれくらいカバーして付与できているかを表す指標である。F値は適合 率と再現率の調和平均である。接続詞を例にすると,次の式で求められる。 (適合率)=(品詞情報「接続詞」を付与されて正しく接続詞であった件数)/(品詞情報「接続詞」を付与された件数) ×100[%] (再現率)=(品詞情報「接続詞」を付与されて正しく接続詞であった件数)/(調査対象全体で実際に接続詞である件 数)×100[%] (F値)=2×(適合率)×(再現率)/((適合率)+(再現率) ). 16.

(6) BCCWJの品詞情報の解析精度について. レジスター対象に検索10を行った11。検索総件数は668,836件である。語彙素を単位として集計し,頻度合計 上位20位までの語を選定した(表1参照)12。 次に,各語からサンプルを抽出した。コアデータについては自動解析後に人手による修正を行っているた め,サンプル調査の対象は非コアデータのみとする。「中納言」長単位検索で「語彙素」「品詞 大分類 接 続詞」を指定し検索13を行い,検索結果画面上に表示された500件のうち最初の100件を調査対象とした。検 索結果の画面表示については, 「検索ヒット数が500件を超える場合,検索結果からランダムで選ばれた500 件が表示されます。」(中納言オンライン「マニュアル」更新日:2014-04-02版)とのことであり,無作為抽 出とみなした14。 得られた各語の用例100件の品詞を,前後の文脈を読み取りながら人手により確認した。副詞など接続詞 以外の品詞との判別が特に問題となるものについては,次のような置き換え可能性を目安にして判断した。 また,コアデータでの品詞判定も参考にした。判定に迷う場合は接続詞とした。 「並びに,その上に,又は」に置き換えられるかどうか。「再び,同様に,一方,一体全体・まっ 「又」15: たく」に置き換えられる場合は副詞。 「更に」 : 「その上に,それに加えて」に置き換えられるかどうか。「ますます,もっと,少しも(~ない)」 に置き換えられる場合は副詞。 「其れから」: 「そして」に置き換えられるかどうか。「その時から」に置き換えられる場合は「代名詞 +格助詞」,両方可能な場合は接続詞扱い。 「唯」 : 「ただし」に置き換えられるかどうか。「単に」に置き換えられる場合は副詞。 「猶」 :言い添える内容が続くかどうか。「相変わらず,やはり,一層,ちょうど(のごとし)」に置き 換えられる場合は副詞。 「で」 : 「それで」に置き換えられるかどうか。 「其れでも」: 「でも」に置き換えられるかどうか。「でも」に置き換えられず「それで」に置き換えら れる場合は「それ」は代名詞。 10 検索条件式は,「キー : 品詞 LIKE "接続詞% " WITH OPTIONS unit="2" AND tglWords="10" AND limitToSelfSentence ="0" AND endOfLine="CRLF" AND tglKugiri="" AND encoding="UTF-8" AND tglFixVariable="2"」である。なお,「中 納言」では10万件以上の一括ダウンロードができないため,いくつかのレジスターごとに分割してダウンロードを行った。 11 本稿での「中納言」(「現代日本語書き言葉均衡コーパス 中納言 1.1.0」 https://chunagon.ninjal.ac.jp/)の検索結果は, 高頻度接続詞及び「又」の詳細調査に関しては2013年11月~2014年2月,「で」の詳細調査に関しては2014年12月~2015年 1月の期間で得られた結果である。 12  「『現代日本語書き言葉均衡コーパス』長単位語彙表 ver1.0」 (DVDデータに基づく語彙表) (http://www.ninjal.ac.jp/ corpus_center/bccwj/freq-list.html)(2014年7月閲覧)では, 「だから」 「だが」 「所が」の頻度合計はそれぞれ21,010, 17,871,11,394であり,本調査と比べいずれも非コアデータの頻度が2件,1件,6件低くなっている。理由は不明である。 13 検索条件式(例として「又」を挙げる)は次の通りである。 キー:(語彙素 = "又" AND 品詞 LIKE "接続詞%")IN(registerName="出版・新聞" AND core="false")OR(registerName=" 出 版・ 雑 誌" AND core="false")OR(registerName="出 版・ 書 籍" AND core="false")OR(registerName="図 書 館・ 書 籍" AND core="false")OR(registerName="特定目的・白書" AND core="false")OR(registerName="特定目的・ベストセラー " AND core="false")OR(registerName="特定目的・知恵袋" AND core="false")OR(registerName="特定目的・ブログ" AND core="false")OR(registerName="特定目的・法律" AND core="false")OR(registerName="特定目的・国会会議録" AND core="false")OR(registerName="特 定 目 的・ 広 報 誌" AND core="false")OR(registerName="特 定 目 的・ 教 科 書" AND core="false")OR(registerName="特定目的・韻文" AND core="false")WITH OPTIONS unit="2" AND tglWords="200" AND limitToSelfSentence="0" AND endOfLine="CRLF" AND tglKugiri="" AND encoding="UTF-8" AND tglFixVariable="2" 14 ただし,「厳密に言うと完全なランダムではなく,検索で見つかった順に並ぶ。 」 (山崎(2013) )とのことである。 15 「又」の接続詞と副詞の判別の詳細については,脚注19参照。. 17.

(7) 馬 場 俊 臣. 4. 2 高頻度接続詞の適合率の調査結果(語彙素別) 調査結果は,表1の通りである。 調査対象20語全体の適合率は93.8%であり,非コアデータ全体のF値98%以上よりは低いが,高い適合率 になっている。ただし,語ごとに見ると,適合率90%未満の語が「又」82.0%, 「更に」89.0%, 「其れから」 87.0%, 「唯」76.0%, 「猶」89.0%, 「で」63.0%の6語ある。「又,更に,唯,猶」は副詞の誤判定16が目立つ。 この4語には副詞の同形の語彙素がある。「其れから」は代名詞「其れ」との誤解析が目立つ。「で」の適合 率は特に低く格助詞及び助動詞の誤判定が目立つ。 このように,語ごとに見た場合,適合率が特に低い語があり,注意が必要である。 表1 高頻度接続詞(非コアデータ,サンプル調査)の適合率(語彙素別)17 順位. 語彙素. コアデー 非コアデ 頻度合計 タ頻度 ータ頻度. 調査件数. 接続詞. 他品詞等. 適合率. 1. 又. 899. 85,543. 86,442. 100. 82. 18. 82.0%. 2. 然し. 561. 68,041. 68,602. 100. 100. 0. 100.0% 100.0%. 3. そして. 426. 62,269. 62,695. 100. 100. 0. 4. 及び. 660. 48,295. 48,955. 100. 99. 1. 99.0%. 5. でも*. 307. 36,397. 36,704. 100. 100. 0. 100.0% 100.0%. 6. 又は*. 151. 29,560. 29,711. 100. 100. 0. 7. 或いは. 106. 26,490. 26,596. 100. 98. 2. 98.0%. 8. だから*. 172. 20,840. 21,012. 100. 100. 0. 100.0%. 他品詞等内訳 副詞13,誤解析「又は」5. 動詞1. 副詞2. 9. 更に. 275. 18,614. 18,889. 100. 89. 11. 89.0%. 10. だが*. 177. 17,695. 17,872. 100. 100. 0. 100.0%. 11. 其れから*. 54. 16,570. 16,624. 100. 87. 13. 87.0%. 誤解析(代名詞+格助詞)13. 12. 唯. 159. 16,388. 16,547. 100. 76. 24. 76.0%. 副詞23,誤解析「只松」1. 13. 然も. 106. 14,570. 14,676. 100. 100. 0. 100.0%. 14. 猶. 89. 12,272. 12,361. 100. 89. 11. 89.0%. 副詞10,誤解析「尚穆王」1. 15. 但し. 80. 11,667. 11,747. 100. 99. 1. 99.0%. 誤解析「但一人」1. 16. 所が*. 105. 11,295. 11,400. 100. 100. 0. 100.0%. 17. で. 74. 10,866. 10,940. 100. 63. 37. 63.0%. 18. 即ち. 38. 10,717. 10,755. 100. 100. 0. 100.0%. 19. 従って*. 36. 9,900. 9,936. 100. 100. 0. 100.0%. 20. 其れでも*. 91. 9,807. 9,898. 100. 93. 7. 93.0%. 2,000. 1,875. 125. 93.8%. 計. 副詞11. 格助詞18,助動詞3,誤解析(助動詞) 9,誤解析(その他)5,(「て」の) 誤字2. 誤解析(代名詞+格助詞+係助詞)7. 4. 3 高頻度接続詞の適合率の調査結果(レジスター別) 同じ調査データを用いレジスター別の適合率を集計した。表2に,20語全体の数値と適合率の低い「又, 唯,で」の3語の数値を示した。 20語全体では,調査件数が少ない「特定目的・韻文」を除けば,「特定目的・知恵袋」84.9%及び「特定 目的・ブログ」86.6%の適合率がやや低くなってはいるが,全体的にレジスター間で大きな違いは見られな い。しかし, (調査件数が少ないレジスターを除くと)「又」では「特定目的・白書」77.3%,「特定目的・ ブログ」60.0%, 「唯」では「図書館・書籍」64.0%, 「で」では「出版・書籍」36.4%, 「特定目的・知恵袋」 45.0%が特に低くなっており,レジスターの違いによる適合率の大きな違いが見られる。. 16 本稿では,品詞分類の誤りを「誤判定」と呼び,それ以外の形態素境界の誤りや長単位の構成に関する誤りなどを「誤解 析」と呼び,便宜的に呼び分ける。 17 「*」を付けた語彙素は,長単位で「連語」の接続詞となる語彙素である。. 18.

(8) BCCWJの品詞情報の解析精度について. 表2 高頻度接続詞(非コアデータ,サンプル調査)の適合率(レジスター別) レジスター. 20語全体 調査件数. 出版・書籍. 589. 出版・雑誌 出版・新聞. 適合率. 又 調査件数. 唯 適合率. 調査件数. で 適合率. 調査件数. 95.4%. 32. 81.3%. 24. 76. 96.1%. 1. 100.0%. 13. 100.0%. 0. 図書館・書籍. 610. 94.4%. 19. 特定目的・白書. 106. 94.3%. 22. 特定目的・教科書. 11. 100.0%. 3. 100.0%. 0. 0. 特定目的・広報誌. 35. 97.1%. 3. 66.7%. 0. 0. 特定目的・ベストセラー. 適合率. 75.0%. 11. 36.4%. 3. 66.7%. 5. 100.0%. 1. 100.0%. 0. 89.5%. 25. 64.0%. 21. 77.3%. 0. 76.2%. 0. 60. 93.3%. 0. 3. 66.7%. 3. 66.7%. 特定目的・知恵袋. 146. 84.9%. 6. 100.0%. 24. 83.3%. 20. 45.0%. 特定目的・ブログ. 149. 86.6%. 10. 60.0%. 9. 88.9%. 38. 68.4%. 0.0%. 特定目的・韻文. 2. 50.0%. 0. 1. 特定目的・法律. 60. 96.7%. 0. 0. 特定目的・国会会議録 計. 0 0. 143. 96.5%. 4. 100.0%. 10. 90.0%. 2. 50.0%. 2,000. 93.8%. 100. 82.0%. 100. 76.0%. 100. 63.0%. 4. 4 詳細な調査の必要性 高頻度接続詞の適合率の調査によって,調査対象20語全体の適合率は高いが,語ごとでは適合率の低い語 があること,また,20語全体ではレジスターの違いによる適合率の違いはほぼ見られないが,適合率の低い 「又」 「唯」 「で」ではレジスターによる適合率の違いが見られることが明らかになった。 本章では高頻度接続詞について各100語を対象として調査を行ったが,サンプル数が少ないという問題点 がある。サンプル数を増やしてより詳細な調査を行う必要がある。本稿では,適合率の低い語のうち「接続 詞」使用頻度第1位の「又」及び適合率の最も低い「で」について詳細な調査を行う。. 5.「又」の詳細調査 5. 1 調査の目的と方法 「接続詞」使用頻度第1位の「又」に関してより厳密な適合率を明らかにするため,またレジスターによ る適合率の違いを詳細に分析するため, 「接続詞」及び「副詞」の品詞情報が付与された「又」について調 査(以下, 「詳細調査」と呼ぶ)を行った。 詳細調査の前に,念のために,形態素解析システムの学習用データとして用いた人手による修正済みのコ アデータについて適合率を確認する調査を行った。「中納言」長単位検索で品詞情報を「接続詞」及び「副詞」 と指定しコアデータ対象に検索18を行い,得られた用例の品詞を前後の文脈を読み取りながら人手により確 「接続詞」の「又」899件のうち889件が接続詞であり適合率98.9%であった。また, 「副 認した19。その結果,. 18 検索条件式は次の通りである。「副詞」の検索では「接続詞」の箇所を「副詞」に置き換えた。 キー (語彙素 : = "又" AND 品詞 LIKE "接続詞% ")IN(registerName="出版・新聞" AND core="true")OR(registerName= "出版・雑誌" AND core="true")OR(registerName="出版・書籍" AND core="true")OR(registerName="特定目的・白書" AND core="true")OR(registerName="特定目的・知恵袋" AND core="true")OR(registerName="特定目的・ブログ" AND core="true") WITH OPTIONS unit="2" AND tglWords="300" AND limitToSelfSentence="0" AND endOfLine="CRLF" AND tglKugiri="" AND encoding="UTF-8" AND tglFixVariable="2" 19  「並びに,その上に,又は」(接続詞),「再び,同様に( 「~もまた」等) ,一方( 「秋はまた収穫の季節でもある」等),一. 19.

(9) 馬 場 俊 臣. 詞」の「又」247件のうち241件が副詞であり適合率97.6%であった。コアデータに関しては98%前後以上の 高い適合率であることが確認された。 非コアデータを対象とした「又」の詳細調査の手順・方法を示す。まず,コアデータと同様に品詞情報を 「接続詞」の「又」の用例85,543件, 「副詞」の「又」の用例28,756 指定し非コアデータ対象に検索20を行い, 件を得た。これらの用例に対して,それぞれ層別無作為抽出(レジスター別の13層)を行い,「接続詞」「副 詞」各1,000件を調査対象の用例として,前後の文脈を読み取りながら人手により品詞を確認した。なお, 「接 続詞」及び「副詞」の用例の抽出率は,それぞれ1.17%,3.48%である。 5. 2 「又」詳細調査での適合率の結果及び誤判定の要因 「又」の詳細調査による品詞判定の結果を表3に示す。 表3 「又」詳細調査(非コアデータ)での適合率 品詞情報 「接続詞」 「副 詞」 計. 人手による品詞判定 接続詞. 副 詞. 858. 117. 誤解析. 計. 誤 字. 適合率. 25. 0. 1,000. 85.8%. 1,000. 82.8%. 160. 828. 11. 1. 1,018. 945. 36. 1. 「接続詞」の「又」1,000件のうち858件が接続詞であり適合率85.8%であった。接続詞以外は,副詞の誤 判定117件,誤解析25件( 「又は」23件, 「またぐ」「三ツ又沼」各1件)であった。「副詞」の「又」1,000件 のうち828件が副詞であり適合率82.8%であった。副詞以外は,接続詞の誤判定160件,誤解析11件(「又の名」 3件, 「俟つ」2件, 「尾亦,胡亦堂,興復,又七郎,又左,股」各1件),誤字1件(「復雑」(複雑))であっ た。 「接続詞」の「又」に関しては4章での100件サンプル調査での適合率82.0%に比べるとやや高くなって はいるが,それでも90%を下回っている。品詞情報を利用する際に十分留意する必要がある。 なお, 「接続詞」の「又」の正解858件と「副詞」の「又」のうち接続詞の用例160件とを合わせると1,018 件となる。少なくとも「又」は,仮に「接続詞」1,000件の数値をそのまま利用したとしても大きな違いが 生じないという見方もできるかもしれない21。 BCCWJの形態素解析は「機械学習に基づく形態素解析」(小木曽(2014))であるため,誤判定の起こる 要因を特定することは非常に困難である。ここでは,誤判定の起こり易い環境(前後の文脈)を参考までに 示しておく。表4は, 「又」の直前1文字と直後1文字の組み合わせ別に適合率を示した表(調査件数21件 体全体・まったく(「どうしてまたそんなことをしたのだ」 「またなんときれいな花だ」等) 」 (副詞)への置き換えを目安に 品詞判定を行った。また,コアデータでの品詞判定も参考にした。接続詞と副詞の両方に解釈可能な用例など判定が難しい 用例は,付与された品詞情報を正解として処理した。なお, 「又貸し」 「又聞き」等は全体で名詞とした。 「又の名」 「又の日」 も全体で名詞(小椋,小磯,冨士池,宮内,小西,原(2011)「資料 要注意語」参照)とした。また,「山また山」 「一人 また一人」のような同じ名詞を繋ぐ用法は辞書により扱いが異なる。コアデータでは「一羽また一羽と死んでいきました」 は接続詞としているが,詳細調査対象の非コアデータでは「足音が一歩,また一歩と大きくなった」 「人また人でぎっしり 埋まる」は「副詞」と判定されている。今回の調査ではコアデータに従い接続詞として扱う。 20 検索条件式は,全レジスターの非コアデータを指定した以外は,脚注18と同様である。 21 ただし,5. 3に示すようにレジスター別では大きな違いが生じる場合がある。特に「特定目的・ブログ」では, 「接続詞」 の「又」には副詞が5割以上含まれるのに対し「副詞」の「又」には接続詞が144件中3件あるのみであり, 「接続詞」の「又」 の使用頻度をそのまま用いるのは危険である。. 20.

(10) BCCWJの品詞情報の解析精度について. 以上のみ)である。「接続詞」「副詞」ともに,直前1文字が読点で直後1文字が「漢字」「仮名」である「、 +漢字」 「、+仮名」の場合に1,000件全体の適合率よりも低い適合率になっている。また,「接続詞」全体 の副詞の誤判定117件のうち読点の直後の用例は55件(47.0%)であり,「副詞」全体の接続詞の誤判定160 件のうち読点の直後の用例は114件(71.3%)であり,誤判定の多くは読点の直後である。このように,読 点の直後での誤判定の多さが,全体の適合率を下げる一つの要因となっている可能性がある22。 表4 「又」詳細調査(非コアデータ)での直前・直後各1文字別適合率(調査件数21件以上のみ) 「接続詞」の「又」 直前 + 直後各1文字 (全角空白)+ 漢字. 調査件数. 「副詞」の「又」 適合率. 直前 + 直後各1文字. 調査件数. 適合率. 29. 62.1%. 、+ 漢字. 174. 54.6%. 、+ 漢字. 102. 66.7%. 、+ 仮名. 66. 68.2%. 、+ 仮名. 54. 70.4%. 仮名 + 、. 仮名 + 、. 29. 75.9%. 仮名 + 仮名. 。+ 漢字. 59. 88.1%. 仮名 + 漢字. 、+ 、. 45. 91.1%. 。+ 仮名. 28. 92.9%. (全角空白)+ 、. 94. 98.9%. 227. 99.6%. (全角空白)+ ,. 52. 100.0%. ,+ ,. 23. 100.0%. 89. 100.0%. 1,000. 85.8%. 。+ 、. 。+ , 調査件数 計. 調査件数 計. 70. 92.9%. 145. 93.8%. 438. 93.8%. 1,000. 82.8%. 5. 3 「又」詳細調査での適合率の結果(レジスター別) 同じ調査データを用いて,レジスター別に適合率を集計した(表5参照)。 レジスター別(調査件数が10以下のレジスターは除く)に見ると,「接続詞」の「又」では,「特定目的・ ブログ」42.4%が特に適合率が低い。「副詞」の「又」では,「特定目的・国会会議録」65.1%が特に適合率 が低い23。 レジスター別の使用頻度に基づいた接続詞の分析を行う際には,適合率が低いレジスターがあることを十 分に考慮する必要がある。. 6.「で」の詳細調査 6. 1 調査の目的と方法 サンプル調査で適合率が最も低かった「で」に関してもより厳密な適合率を明らかにするため,またレジ スターによる適合率の違いを詳細に分析するため, 「接続詞」及びサンプル調査で誤判定の多かった「格助詞」 「助動詞」の「で」について詳細調査を行った。 念のため, コアデータについて適合率を確認する調査をまず行った。「中納言」長単位検索で品詞情報を「接. 22 コアデータの読点の直後の用例のみを取り出してみると, 「接続詞」全120件中4件が副詞であり(適合率96.7%) , 「副詞」 全14件中1件が誤解析(名詞「又の名」)であった(適合率92.9%) 。 23  「特定目的・ブログ」「特定目的・国会会議録」で適合率が特に低くなったのは,行動の叙述(時間的) ,並列的な事柄の 提示(非時間的)というそれぞれの内容的な特徴も関わっていると思われる。. 21.

(11) 馬 場 俊 臣. 表5 「又」詳細調査(非コアデータ)での適合率(レジスター別) レジスター. 「接続詞」 調査件数. 「副詞」. 適合率. 出版・書籍. 274. 出版・雑誌 出版・新聞. 調査件数. 適合率. 91.2%. 257. 77.8%. 27. 96.3%. 25. 92.0%. 5. 100.0%. 3. 66.7%. 図書館・書籍. 236. 83.9%. 356. 82.9%. 特定目的・白書. 161. 86.3%. 4. 25.0%. 特定目的・教科書. 17. 94.1%. 3. 33.3%. 特定目的・広報誌. 36. 97.2%. 3. 66.7%. 特定目的・ベストセラー. 22. 77.3%. 51. 86.3%. 特定目的・知恵袋. 86. 89.5%. 67. 92.5%. 特定目的・ブログ. 66. 42.4%. 144. 97.2%. 特定目的・韻文. 1. 0.0%. 4. 100.0%. 特定目的・法律. 0. 特定目的・国会会議録 計. 0. 69. 97.1%. 83. 65.1%. 1,000. 85.8%. 1,000. 82.8%. 続詞」 「格助詞」 「助動詞/連用形/一般」 (以下「助動詞」と略す)と指定しコアデータ対象に検索24を行い, 「接続詞」の「で」74件, 「格助詞」の「で」14,016件, 「助動詞」の「で」2,155件の用例を得た。「格助詞」 「助動詞」については件数が膨大であるため,「中納言」の検索結果画面上に表示された500件のうち最初の 100件のみを対象とした。得られた用例の品詞を前後の文脈を読み取りながら人手により確認した25。 調査の結果,「接続詞」の「で」74件のうち67件が接続詞であり適合率90.5%であり,コアデータにして はやや低くなっている。接続詞以外は格助詞4件,助動詞2件,誤解析(助動詞-複合辞)1件である。い ずれも「特定目的・知恵袋」又は「特定目的・ブログ」の用例であった。「格助詞」の「で」100件のうち97 件が格助詞であり適合率97.0%であった。格助詞以外は助動詞3件である。「助動詞」の「で」100件のうち 99件が助動詞であり適合率99.0%であった。助動詞以外は格助詞1件である。コアデータに関しては, 「接 続詞」の適合率が90.5%でやや低いが, 「格助詞」「助動詞」は98%前後以上の高い適合率であることが確認 された。 非コアデータを対象とした「で」の詳細調査の手順・方法を示す。「又」の詳細調査とほぼ同様である。 まず,コアデータ調査と同様の品詞情報を指定し非コアデータ対象に検索26を行った。「接続詞」の「で」 の用例10,866件,「格助詞」の「で」の用例1,201,872件,「助動詞」の「で」の用例235,239件を得た。これら の用例に対して,それぞれ層別無作為抽出(レジスター別の13層)を行い,「接続詞」「格助詞」「助動詞」 各1,000件を調査対象の用例として抽出して,前後の文脈を読み取りながら人手により品詞を確認した。なお,. 24 検索条件式は次の通りである(語彙素,品詞のみを示す) 。 「接続詞」は「 (語彙素 = "で" AND 品詞 LIKE "接続詞% ")」, 「格助詞」は「 (語彙素 = "で" AND 品詞 LIKE "助詞-格助詞% ") 」 , 「助動詞」は「 (語彙素 = "だ" AND 品詞 LIKE "助動詞% " AND 活用形 = "連用形-一般")」である。 25 「で」の品詞判別に関しては,小椋,小磯,宮内,原(2011) ( 「細則12 出現形「で」の品詞分類」 )で, 「 「で」という形 で切り出された短単位に品詞情報及び代表形を付与する際の基準を定める。 「で」の中には,接続詞や接続助詞「て」の連 濁形,助動詞「てる」の未然形・連用形の連濁形などもあるが, 形態上容易に判別できるものを除くと, 残るのは格助詞「で」 と助動詞「だ」の連用形「で」である。ここではその両者の仕分けに的を絞って記述する。 」とし, 「格助詞「で」と助動詞 「だ」の連用形「で」」の判別の細則を示している。接続詞との判別については特に示されていない。 26 検索条件式は,全レジスターの非コアデータを指定した以外は,脚注24と同様である。. 22.

(12) BCCWJの品詞情報の解析精度について. 「接続詞」 「格助詞」「助動詞」の用例の抽出率は,それぞれ9.20%,0.08%,0.43%である。 6. 2 「で」詳細調査での適合率の結果及び誤判定の要因 「で」の詳細調査による品詞判定の結果を表6に示す。 「接続詞」の「で」1,000件のうち620件が接続詞であり適合率62.0%であった。接続詞以外で特に多かっ たのは,格助詞の誤判定193件,助動詞の誤判定36件,誤解析(助動詞-複合辞)87件であった。「格助詞」 の「で」1,000件のうち870件が格助詞であり適合率87.0%であった。格助詞以外で特に多かったのは,助動 詞の誤判定95件,誤解析(助動詞-複合辞)24件であった。「助動詞」の「で」1,000件のうち708件が助動詞 であり適合率70.8%であった。助動詞以外で特に多かったのは,格助詞の誤判定224件,誤解析(助動詞-複 合辞)61件であった。 表6 「で」詳細調査(非コアデータ)での適合率 人手による判定. 品詞情報. 接続詞. 格助詞. 助動詞. 誤解析 (副助詞 動詞・接 誤解析 誤解析 -複合辞) 誤解析 続助詞・ (助動詞 (接続詞 (接続助 誤 字 (その他) 終助詞 -複合辞) -連語) 詞-複合 辞) (副 詞-連語). 計. 適合率. 「接続詞」. 620. 193. 36. 5. 87. 9. 0. 33. 17. 1,000. 62.0%. 「格助詞」. 0. 870. 95. 0. 24. 8. 3. 0. 0. 1,000. 87.0%. 「助動詞」. 0. 224. 708. 3. 61. 0. 1. 1. 2. 1,000. 70.8%. 「誤解析(助動詞-複合辞)」というのは,長単位で「複合辞」の「助動詞」として扱われる「である」「で ない」 「ではありません」 「ではない」などである27。「接続詞」及び「格助詞」の場合は,もともと短単位の「で」 の品詞判定の際の誤判定である。 「助動詞」の場合は,短単位の「で」の品詞判定は成功しているが「長単 位を自動構成する解析器」(小椋,冨士池(2011))において誤解析(長単位構成の失敗)が生じている。 「接続詞」の「で」に関しては4章での100件サンプル調査での適合率63.0%とほぼ同じで極めて低くなっ ており,品詞情報を利用する際に十分留意する必要がある。なお,品詞情報「格助詞」「助動詞」について も適合率が低いが,本研究は「接続詞」が主な対象であるため詳細は言及しない。 「接続詞」の「又」の場合同様に,誤判定の起こる要因を特定することは非常に困難である。「接続詞」 の「で」に関しても, 「又」同様に,誤判定の起こり易い環境(前後の文脈)を参考までに示しておく。表 7は, 「で」の直前1文字と直後1文字の組み合わせ別に適合率を示した表(調査件数21件以上のみ)である。. 27 小椋,冨士池(2011)(「付録2:複合辞(助動詞相当句) 」 ) 。なお, 「誤解析(助詞-複合辞) 」や「誤解析(接続詞-連語)」 なども,それぞれ長単位で「複合辞」の「助詞」として扱われる「だけでなく」 (同「付録1:複合辞(助詞相当句) 」),長 単位で「連語」の「接続詞」として扱われる「でも」など(同「付録3:連語」 )である。. 23.

(13) 馬 場 俊 臣. 表7 「で」詳細調査(非コアデータ)での直前・直後各1文字別適合率(調査件数21件以上のみ) 「接続詞」の「で」 直前 + 直後各1文字. 調査件数. 「格助詞」の「で」 適合率. 仮名 + 仮名. 43. 7.0%. 仮名 + 漢字. 78. 7.7%. 直前 + 直後各1 文字 . 調査件数. 漢字 + 、. (全角空白)+ 仮名. 38. 13.2%. 仮名 + 仮名. 。 + 仮名. 65. 16.9%. 仮名 + 、. 「助動詞」の「で」 適合率. 直前 + 直後各1 文字 . 調査件数. 適合率. 64. 62.5%. 漢字 + 、. 136. 66.9%. 141. 70.2%. 漢字 + 仮名. 158. 67.1%. 24. 75.0%. 仮名 + 仮名. 288. 71.5%. (全角空白)+ 漢字. 23. 21.7%. 漢字 + 仮名. 247. 91.5%. 仮名 + 、. 224. 72.8%. 仮名 + 、. 29. 62.1%. 仮名 + 漢字. 139. 92.1%. 仮名 + 漢字. 50. 76.0%. (全角空白)+ 、. 68. 89.7%. 漢字 + 漢字. 295. 95.3%. 漢字 + 漢字. 69. 78.3%. 「+、. 47. 95.7%. 1,000. 87.0%. 1,000. 70.8%. 304. 98.7%. 1,000. 62.0%. 。+、 調査件数 計. 調査件数 計. 調査件数 計. 「接続詞」の「で」は,直前1文字が「仮名」で直後1文字が「仮名」又は「漢字」である「仮名+仮名」 「仮名+漢字」の場合に適合率が極めて低い。「で」の直前が「仮名」であれば接続詞ではないと予想され るが, 「接続詞」と判定された用例がある程度あるということである28。仮名の直後での誤判定の多さが,全 体の適合率を下げる一つの要因となっている可能性がある。 また,直前1文字が「(全角空白)」や「。 」で直後1文字が「仮名」又は「漢字」である「(全角空白)+ 仮名」 「。+仮名」 「(全角空白)+漢字」の場合も適合率が低い。この場合は文頭であると予想されるが, 「で」 の直後に「、 」がない場合は接続詞ではない用例が多いということである。それに対して,直前1文字が「仮 名」 「 (全角空白)」「。」等で直後1文字が「、」である「仮名+、」「(全角空白)+、」「「+、」「。+、」の場合 は1,000件全体の適合率よりも高い適合率になっている。直後の読点の有無も適合率の高低に関わっている ようである。 さらに, 「接続詞」の「で」に関して,誤判定が目立ったケースとして次の2点を指摘することができる。 一点目は,数式や図などを削除している場合である。BCCWJでは, 「写真,イラスト,図解など」「外国語, 古典語,数式など」はサンプル範囲から排除されており,文字入力においては削除され,その箇所には削除 (PB24_00276), 「ベータ線に対 要素を示すタグが挿入されている29。「傾斜していない時のP座標はである。」 する衝突阻止能Scolは,で表される。」(PB55_00217)のような用例である。「接続詞」1,000件中このよ うな削除が26件(0.026%)あり,いずれも誤判定・誤解析である。 二点目は,文頭部分における「であるから,でないと」(助動詞-複合辞)や「でもって」の誤判定・誤解. 28 直前1文字が仮名の場合でも適合率が0%とならないのは,例えば「銀魂はなぜか家族全員でみてましたムラムラします で両親爆笑(´∀`)」(OY14_23917)(Yahoo! ブログ)のような用例があるからである。なお,コアデータの「接続詞」 の用例の中に直前1文字が「だ」 「万」の例が各1例ある(この2例以外の直前1文字は「 (全角スペース)!) , 。?「」・ ―」である)。「だ」の用例は「なんだかんだで毎日買い物をしているような?」 (OY14_11385)であり格助詞の誤判定であ る。前後の語の品詞(長単位)は「なん(代名詞)だ(助動詞)かん(代名詞)だ(助動詞) 」 「毎日(副詞) 」である。 「万」 の用例は「ラウンドは寄りより一個上で返済持ち越しで+九万八千最初はJFE空売りして+六万で、川崎三万三千株買っ たら耐えれず3ティックロス(`・д´・ ;) ・・・」(OY01_00902)であり正しく接続詞と解析されている。前後の語 の品詞(長単位)は「+(補助記号-一般)六万(名詞-数詞)で(接続詞)、(補助記号-読点)」である。原文はhttp:// blogs.yahoo.co.jp/asiouzi/54022731.htmlで確認でき(2015年3月閲覧),原文では「で」の直前が1行空きとなっており,さ らに「六万」は「60000」と表記されている。直前1文字が仮名,漢字の場合があるのは,この2例を含むコアデータ を形態素解析システムの学習用データとして用いたためであるという可能性もあるが,品詞レベルの情報のみを解析に利用 しているのであれば無関係となる。 29 稲益,丸山(2009),西部他(2011),丸山他(2011) 。. 24.

(14) BCCWJの品詞情報の解析精度について. 析の場合である。 「が彼はもっとも肝心な点の理解ができていなかった。であるから、内心では真実で有益 であると思っていることでも(後略)」 (PB41_00093), 「まったくだ。でもって、飲んでるとすぐに時間が経っ ちまう」 (LBq9_00089)のような用例である。「である」「でない」は長単位では複合辞として一語の助動詞 として扱われるが,文頭の「で」を「接続詞」と誤判定したため長単位構成に失敗した例が目立った。「で あるから, であれば」のような「である」が21件, 「でないと,でなかったら」のような「でない」が24件あっ た。文頭の「でもって」の「で」は格助詞であり,この誤判定も12件あった。 以上のように, 「接続詞」の「で」に関しては,直前1文字の仮名や直後1文字の「、」,数式や図の削除, 文頭の「であるから,でもって」等が,誤判定・誤解析の要因に関わっている可能性がある。 なお, 「格助詞」 「助動詞」の「で」については,「接続詞」の「で」の場合ほどには,直前・直後1文字 別の適合率に大きな違いは見られない。 6. 3 「で」詳細調査での適合率の結果(レジスター別) 同じ調査データを用いて,レジスター別に適合率を集計した(表8参照)。 表8 「で」詳細調査(非コアデータ)での適合率(レジスター別) レジスター. 「接続詞」 調査件数. 「格助詞」. 適合率. 調査件数. 「助動詞」. 適合率. 調査件数. 適合率. 出版・書籍. 141. 57.4%. 265. 84.9%. 230. 67.0%. 出版・雑誌. 31. 71.0%. 48. 91.7%. 35. 74.3%. 出版・新聞. 2. 50.0%. 14. 92.9%. 6. 16.7%. 図書館・書籍. 179. 65.4%. 279. 87.5%. 279. 64.5%. 特定目的・白書. 2. 0.0%. 29. 96.6%. 16. 87.5%. 特定目的・教科書. 0. 9. 100.0%. 5. 60.0%. 特定目的・広報誌. 5. 0.0%. 31. 93.5%. 15. 46.7%. 26. 80.8%. 33. 84.8%. 36. 66.7%. 特定目的・知恵袋. 174. 46.0%. 129. 83.7%. 100. 66.0%. 特定目的・ブログ. 413. 69.2%. 113. 89.4%. 117. 68.4%. 特定目的・ベストセラー. 特定目的・韻文. 0. 1. 100.0%. 1. 100.0%. 特定目的・法律. 0. 4. 100.0%. 2. 0.0%. 特定目的・国会会議録 計. 27. 44.4%. 45. 80.0%. 158. 96.2%. 1,000. 62.0%. 1,000. 87.0%. 1,000. 70.8%. 「接続詞」の「で」に関して,レジスター別(調査件数が10以下のレジスターは除く)に見ると,「特定 目的・国会会議録」44.4%,「特定目的・知恵袋」46.0%が特に適合率が低い。 「特定目的・国会会議録」全27件では,特に「誤解析(助動詞-複合辞)」9件及び「誤字」5件の誤解析・ 誤字の多さが目立つ。「誤解析(助動詞-複合辞)」9件はすべて前述の文頭の「であるから」「でなければ」 等であり, 「誤字」5件はすべて接続助詞「て」の誤字である。また,「特定目的・知恵袋」全174件では, 特に格助詞65件の誤判定が目立つ。「特定目的・知恵袋」全174件に関しては,調査件数5件以上で適合率が 0%であった直前・直後1文字の組み合わせは,「仮名+漢字」19件,「(全角空白)+漢字」8件,「仮名+ 仮名」5件, 「?+漢字」5件,「?+仮名」5件である。全角空白や「?」に関しては,例えば「普通に i Pod で 音楽を聴いていると、急に固まってそこから何も操作できないんです。」(OC02_04559),「にが り&パイナップルのエキス?で脱毛できると聞きました。」 (OC09_08042)のように全角空白や「?」が文頭・ 文末以外で使われている用例が目立った。. 25.

(15) 馬 場 俊 臣. なお, 「格助詞」「助動詞」の「で」については,レジスター別の顕著な違いは見られない。. 7.適合率に基づいた検索結果の補正の重要性 本章では,語ごとの解析精度(適合率)の違いに留意することの重要性を見るために,適合率に基づいて 検索結果の件数を補正することにより, 「接続詞」の使用頻度の順位が変わること,また「接続詞」の「で」 のレジスター別の使用頻度(1万語30当たり)の見方に違いが出てくることを示す。 表9は,4章で扱った「接続詞」使用頻度上位20語について,適合率に基づいて「非コアデータ頻度」に 補正を加えることにより,使用順位がどのように異なるかを示した表である。「非コアデータ頻度(補正後)」 は「非コアデータ頻度」に「適合率」を乗じた数値31であり,「頻度合計(補正後)」は「コアデータ頻度」 に「非コアデータ頻度(補正後)」を加えた数値である。「順位(補正後)」は,この「頻度合計(補正後)」 に基づいた順位である。表9の通り,9位以下で補正前と補正後で順位の異同がある。特に,「で」の「頻 度合計(補正後)」は6,920件であり,この件数は補正前の(表外の)24位「扠」 (8,083件),25位「若しくは」 (6,873件)の間に位置し,20位以下の語も含めると「で」の順位は大きく下がる。 表9 適合率に基づいて補正を加えた「接続詞」の使用頻度順位 順位 順位 (補正前)(補正後) 1. 1. 語 彙 素 又. 非コア データ頻度. 899. 85,543. 頻度合計 86,442. 適合率 82.0%. 非コア データ頻度 (補正後). 頻度合計 (補正後). 70,145. 71,044. 2. 2. 然し. 561. 68,041. 68,602. 100.0%. 68,041. 68,602. 3. 3. そして. 426. 62,269. 62,695. 100.0%. 62,269. 62,695. 4. 4. 及び. 660. 48,295. 48,955. 99.0%. 47,812. 48,472. 5. 5. でも. 307. 36,397. 36,704. 100.0%. 36,397. 36,704. 6. 6. 又は. 151. 29,560. 29,711. 100.0%. 29,560. 29,711. 7. 7. 或いは. 106. 26,490. 26,596. 98.0%. 25,960. 26,066. 8. 8. だから. 172. 20,840. 21,012. 100.0%. 20,840. 21,012. 9. 10. 更に. 275. 18,614. 18,889. 89.0%. 16,566. 16,841. 10. 9. だが. 177. 17,695. 17,872. 100.0%. 17,695. 17,872. 11. 12. 其れから. 54. 16,570. 16,624. 87.0%. 14,416. 14,470. 12. 13. 唯. 159. 16,388. 16,547. 76.0%. 12,455. 12,614. 13. 11. 然も. 106. 14,570. 14,676. 100.0%. 14,570. 14,676. 14. 16. 猶. 89. 12,272. 12,361. 89.0%. 10,922. 11,011. 15. 14. 但し. 80. 11,667. 11,747. 99.0%. 11,550. 11,630. 16. 15. 所が. 105. 11,295. 11,400. 100.0%. 11,295. 11,400. 17. 20. で. 74. 10,866. 10,940. 63.0%. 6,846. 6,920. 18. 17. 即ち. 38. 10,717. 10,755. 100.0%. 10,717. 10,755. 19. 18. 従って. 36. 9,900. 9,936. 100.0%. 9,900. 9,936. 20. 19. 其れでも 「接続詞」合計. 30 「語」は「長単位」を用いている。 31 小数第1位で四捨五入している。. 26. コアデータ 頻 度. 91. 9,807. 9,898. 93.0%. 9,121. 9,212. 5,646. 663,190. 668,836. 93.8%. 622,072. 627,718.

(16) BCCWJの品詞情報の解析精度について. 表10 適合率に基づいて補正を加えた「接続詞」の「で」のレジスター別使用頻度順位32 順位 順位 (補正前)(補正後) 1. 1. レジスター 特定目的・ブログ. 2. 2. 特定目的・知恵袋. 3. 3. 出版・雑誌. 4. 4. 特定目的・ベストセラー. コアデータ 非コア 頻度 データ頻度. 使用頻度 頻度合計 (1万語当た り)補正前. 35. 4,487. 4,522. 5.46. 適合率 69.2%. 使用頻度 頻度合計 (1万語当た (補正後) り)補正後 3,142. 3.79. 8. 1,890. 1,898. 2.20. 46.0%. 877. 1.02. 26. 338. 364. 1.05. 71.0%. 266. 0.76. 0. 281. 281. 0.88. 80.8%. 227. 0.71. 5. 5. 図書館・書籍. 0. 1,949. 1,949. 0.78. 65.4%. 1,274. 0.51. 6. 7. 特定目的・国会会議録. 0. 294. 294. 0.73. 44.4%. 131. 0.33. 7. 6. 出版・書籍. 3. 1,533. 1,536. 0.67. 57.4%. 884. 0.39. 8. -. 特定目的・韻文. 0. 5. 5. 0.25. 9. 9. 特定目的・広報誌. 0. 51. 51. 0.22. 0.0%. 0. 0.00. 50.0%. 10. 0.10. 0.0%. 0. 0.00. 62.5%. 6,865. 0.82. 10. 8. 出版・新聞. 2. 16. 18. 0.18. 11. -. 特定目的・教科書. 0. 5. 5. 0.07. 12. 9. 特定目的・白書. 0. 17. 17. 0.05. 13. -. 特定目的・法律. 0. 0. 0. 0.00. 「で」合計. 74. 10,866. 10,940. 1.31. 表10は, 「接続詞」の「で」について,レジスター別の使用頻度(1万語当たり)の順位を,補正前と補 正後について比較した表である。「頻度合計(補正後)」の算出方法は表9の場合と同様である。補正前と補 正後の順位は6位,7位の「特定目的・国会会議録」「出版・書籍」以下で若干の変動がある。さらにより 重要なことは,上位については順位の変動はないが,使用頻度(1万語当たり)の差が大きく縮まっている ことである。2位の「特定目的・知恵袋」は,3位「出版・雑誌」及び4位「特定目的・ベストセラー」と の差が縮まり,全体の使用頻度により近い値になっている。. 8.まとめ 接続詞研究においてBCCWJの品詞情報を利用する際の留意点を示すために,BCCWJで「接続詞」の品詞 情報が付与された語(長単位)の解析精度の調査(非コアデータ対象)を行い,以下の結果を得た。 ① 高頻度接続詞20語(各100件対象)全体の適合率は93.8%であり,非コアデータ全体(全品詞)に比 べると低いが,高い適合率になっている。しかし,語ごとに見ると,適合率は63.0%~100.0%の範囲に あり適合率の低い語がある。適合率90%未満の語は,「又」82.0%,「更に」89.0%,「其れから」 87.0%, 「唯」76.0%, 「猶」89.0%, 「で」63.0%の6語である。「又,更に,唯,猶」は副詞の誤判定が 多い。 ② 高頻度接続詞20語(各100件対象)全体では,レジスターの違いによる適合率の違いはほぼ見られない。 しかし,適合率の低い「又」「唯」「で」では,レジスターによる適合率の違いが見られる。 ③ 「又」の詳細調査(1,000件対象)の結果,適合率は「接続詞」85.8%である。レジスター別では「接 続詞」の「特定目的・ブログ」42.4%が特に低い。 ④ 「で」の詳細調査(1,000件対象)の結果,適合率は「接続詞」62.0%である。レジスター別では「特. 32 「特定目的・韻文」「特定目的・教科書」は,「で」詳細調査で用例が抽出されていないため適合率は不明であり,補正後 の順位は付していない。「特定目的・法律」の順位も付していない。. 27.

(17) 馬 場 俊 臣. 定目的・国会会議録」44.4%,「特定目的・知恵袋」46.0%が特に低い。 ⑤ 誤判定の起こり易い環境(前後の文脈)として,直前・直後1文字の組み合わせが関わる可能性があ る。また「接続詞」の「で」の場合は特に文頭部分の「であるから,でもって」等の複合辞や連語の誤 判定・誤解析が関わる可能性がある。 ⑥ 適合率に基づいて補正した使用頻度の数値を用いることにより,調査結果の信頼性を増すことができ る。適合率に基づいて補正することにより,例えば接続詞使用頻度上位20語の順位や「で」のレジスター 別順位が入れ替わる。 接続詞研究では,従来,コーパス検索の際に,多くは文字列検索が行われ,また,効率的に検索するため に,文頭に限定したり読点が後続する場合に限定したりすることも多かった。今後の研究において, BCCWJでの品詞情報が利用できることは極めて有益なことである。「接続詞」全体での品詞情報の解析精度 はコーパス全体(全品詞)よりもやや劣るが,「接続詞」全体として他品詞と比較する場合には大きな問題 は生じないであろう。しかし,異なり語の少ない接続詞内部で個々の語(語群)を分析する場合には,品詞 情報の解析精度の違いが問題となる。もちろん,BCCWJの品詞情報を利用する際には,研究の目的や方法 に応じて人手による点検が不可欠であるが,検索結果をそのまま利用する場合では,特に分析対象とする語 の解析精度やそのレジスターによる違いを十分把握しておく必要がある。 今後は,誤判定,誤解析の要因を明らかにし解析精度の向上を図ることが期待される。本稿の結果は品詞 情報付与に関する解析器改良のための参考資料を提供するものでもある。. 文 献 稲益佐知子,丸山岳彦(2009)「第Ⅰ部 BCCWJ構築におけるサンプリングの方針と基準 第4章 排除原則の運用―排除基 準と選択基準,運用基準」柏野和佳子,丸山岳彦,稲益佐知子,田中弥生,秋元祐哉,佐野大樹,大矢内夢子,山崎誠『『現 代日本語書き言葉均衡コーパス』における収録テキストの抽出手順と事例』文部科学省科学研究費特定領域研究「日本語コー パス」データ班,pp.27-35. 大内薫子(2012) 「接続表現の二重使用についてのコーパス調査―「接続詞+接続詞」と「接続助詞+接続詞」の比較から―」 『2012年日本語教育国際研究大会予稿集第2分冊』日本語教育学会,p.230. 小木曽智信(2014)「第5章 形態素解析」山崎誠(編)『講座日本語コーパス 2.書き言葉コーパス―設計と構築―』朝倉 書店,pp.89-115. 小木曽智信,小椋秀樹,小磯花絵,宮内佐夜香,渡部涼子,伝康晴(2010) 「形態素解析辞書のベンチマークテスト― IPAdic・NAIST-jdic・UniDicのジャンル別精度比較―」『言語処理学会第16回年次大会発表論文集』言語処理学会, pp.326-329. 小椋秀樹,小磯花絵,冨士池優美,宮内佐夜香,小西光,原裕(2011) 『 『現代日本語書き言葉均衡コーパス』 形態論情報規 程集 第4版 (下)』国立国語研究所. 小椋秀樹,小磯花絵,宮内佐夜香,原裕(2011)「第3章 短単位」小椋秀樹,小磯花絵,冨士池優美,宮内佐夜香,小西光, 原裕(2011)『『現代日本語書き言葉均衡コーパス』 形態論情報規程集 第4版 (下) 』国立国語研究所,pp.1-172. 小椋秀樹,冨士池優美(2011)「第4章 形態論情報」国立国語研究所コーパス開発センター『 『現代日本語書き言葉均衡コー パス』利用の手引 第1.0版』国立国語研究所コーパス開発センター,pp.39-73. 鯨井綾希(2011)「主成分分析を用いた文章構造の特徴抽出――品詞構成の変動に注目した分析――」 『文芸研究』172,日本文 芸研究会,pp.59-48. 鯨井綾希(2013)「同一語のくり返しが集中する文章構造の特徴――BCCWJ特定目的サブコーパスの 「教科書」 を例として――」 『日本語文法』13(2),日本語文法学会,pp.71-87. 鯨井綾希(2014)「文章中の内容展開と用語類似度の変化との対応関係――接続表現の前後文脈に注目した分析――」 『国語学 研究』(53),東北大学大学院文学研究科国語学研究室内「国語学研究」刊行会,pp.59-75. 国立国語研究所コーパス開発センター(2011) 『『現代日本語書き言葉均衡コーパス』利用の手引 第1.0版』国立国語研究所コー. 28.

(18) BCCWJの品詞情報の解析精度について. パス開発センター. 国立国語研究所コーパス開発センター(2013)『『現代日本語書き言葉均衡コーパス』マニュアル 第1.1版(Web公開用) 』国 立国語研究所コーパス開発センター .(http://www.ninjal.ac.jp/corpus_center/bccwj/doc/manual/BCCWJ_Manual.zip) 斎藤達哉(2009)「コーパスを用いた公共性の高い文章における表記改善への視点」 『特定領域研究「日本語コーパス」平成20 年度公開ワークショップ(研究成果報告会)予稿集』文部科学省科学研究費特定領域研究「日本語コーパス」総括班, pp.109-116. 砂川有里子,清水由貴子,奥川育子(2009)「コーパスを用いた類義語研究―「それなのに」 「そのくせ」 「それでいて」の記 述―」『日中言語研究と日本語教育』(2),好文出版,pp.21-33. 多田知子(2010)「複合接続詞――文の文頭部分の階層性――」 『国文論叢』 (42),神戸大学文学部国語国文学会,pp.52-39,68. 西部みちる,大島一,間淵洋子,小林正行,田島孝治,高田智和,山口昌也(2011) 『 『現代日本語書き言葉均衡コーパス』に おける電子化テキストの構築』文部科学省科学研究費特定領域研究「日本語コーパス」データ班. 馬場俊臣(2013a)「接続詞の連続使用・二重使用――複合接続詞的使用も含めて――」藤田保幸(編) 『形式語研究論集』和泉 書院,pp.205-232. 馬場俊臣(2013b)「接続詞の二重使用の承接順序について―『現代日本語書き言葉均衡コーパス』を用いた再検討―」 『語学 文学』(52),北海道教育大学語学文学会,pp.1-23. 馬場俊臣(2014) 「接続詞の二重使用の承接順序及び文体差―『現代日本語書き言葉均衡コーパス』全ジャンルによる追加調 査―」『北海道教育大学紀要 人文科学・社会科学編』65(1),北海道教育大学,pp.1-17. 馬場俊臣(2015)「BCCWJの接続詞の品詞情報の解析精度について」 『第7回コーパス日本語学ワークショップ予稿集』国立 国語研究所言語資源研究系・コーパス開発センター,pp.185-194. 藤井聖子(2013)「現代日本語における条件構文基盤の談話標識(化)―その形式と機能に関する類型試案―」 『東京大学大学 院総合文化研究科言語情報科学専攻紀要 Language, Information, Text』20,東京大学大学院総合文化研究科言語情報科学 専攻,pp.87-101. 冨士池優美,小西光,小椋秀樹,小木曽智信,小磯花絵(2011) 「長単位に基づく『現代日本語書き言葉均衡コーパス』の品 詞比率に関する分析」『言語処理学会第17回年次大会発表論文集』言語処理学会,pp.663-666. 丸山岳彦,山崎誠,柏野和佳子,佐野大樹,秋元祐哉,稲益佐知子,田中弥生,大矢内夢子(2011) 『 『現代日本語書き言葉均 衡コーパス』におけるサンプリングの原理と運用』文部科学省科学研究費特定領域研究「日本語コーパス」データ班. 宮内佐夜香(2013) 「接続詞「なので」の書き言葉における使用について――『現代日本語書き言葉均衡コーパス』を資料と して――」『中京国文学』(32),中京大学文学会,pp.106-93. 山崎誠(2013)「コーパスでできること2 ――BCCWJを例に――」 『日本語学』32(14),明治書院,pp.104-116.. 付 記 本稿の内容の一部は,「第7回コーパス日本語学ワークショップ」 (国立国語研究所,2015年3月11日)で発表したもの(馬 場(2015))を加筆・修正したものである。会場において有意義なコメントを下さった方々に感謝申し上げる。本研究は,平 成26~28年度科学研究費補助金(基盤研究B) 「日本語の多様な表現性を支える複合辞などの「形式語」に関する総合研究」 (研 究代表者:藤田保幸,課題番号:26284064)による成果の一部である。. (札幌校教授). 29.

(19)

参照

関連したドキュメント

それに対して現行民法では︑要素の錯誤が発生した場合には錯誤による無効を承認している︒ここでいう要素の錯

行ない難いことを当然予想している制度であり︑

(注)本報告書に掲載している数値は端数を四捨五入しているため、表中の数値の合計が表に示されている合計

 貿易統計は、我が国の輸出入貨物に関する貿易取引を正確に表すデータとして、品目別・地域(国)別に数量・金額等を集計して作成しています。こ

解析実行からの流れで遷移した場合、直前の解析を元に全ての必要なパスがセットされた状態になりま

音響域振動計測を行う。非対策船との比較検証ができないため、ここでは、浮床対策を施し た公室(Poop Deck P-1

それらのデータについて作成した散布図を図 15.16 に、マルチビームソナー測深を基準に した場合の精度に関する統計量を表 15.2 に示した。決定係数は 0.977