• 検索結果がありません。

BCCWJの品詞情報の解析精度 ─短単位「接続詞」の場合─

N/A
N/A
Protected

Academic year: 2021

シェア "BCCWJの品詞情報の解析精度 ─短単位「接続詞」の場合─"

Copied!
11
0
0

読み込み中.... (全文を見る)

全文

(1)Title. BCCWJの品詞情報の解析精度 ─短単位「接続詞」の場合─. Author(s). 馬場, 俊臣. Citation. 札幌国語研究, 21: A1-A10. Issue Date. 2016. URL. http://s-ir.sap.hokkyodai.ac.jp/dspace/handle/123456789/8077. Rights. Hokkaido University of Education.

(2) BCCWJの品詞情報の解析精度 ―― 短単位「接続詞」の場合 ―― 馬 場 俊 臣. 1 はじめに 『現代日本語書き言葉均衡コーパス』(BCCWJ)を利用した接続詞研究の問題点 と可能性に関する基礎的研究の一環として、馬場俊臣(2015)では、BCCWJの接 続詞に関する品詞情報の信頼性を見るために品詞情報「接続詞」1の解析精度に関す る調査を行い、その結果に基づいて、品詞情報を利用する際の留意点を示した。具 体的には、BCCWJの非コアデータで「接続詞」の品詞情報が付与された長単位の 語彙素2(使用頻度上位20位まで)の解析精度(適合率)の調査を行った。その結果、 適合率は63.0%~100.0%の範囲にあり特に「で」「唯」「又」の適合率が低いこと、 レジスター別の適合率で40%台の低い適合率の語があることなどを明らかにした。 この結果は、BCCWJを利用した今後の接続詞研究に対して重要な基礎的知見を提 供するとともに、品詞情報付与に関する解析器の改良のための参考資料を提供する ものでもある。 BCCWJでは、利用目的に応じて使い分けることができるように「短単位」と「長 単位」という2種類の言語単位を採用している。「短単位」は「用例検索での利用 を主たる目的」(小椋秀樹2014:74)とした「言語の形態的側面に着目して規定した 言語単位」(:75)である。長単位は「各レジスターの言語的特徴の解明を主たる目 的」(:74)とした「言語の構文的な機能に着目して規定した言語単位」 (:77)であ る。接続詞では、例えば、「又」は短単位でも長単位でも1語であり、 「だから」は 短単位では「だ」 「から」の2語に分かれるが長単位では「だから」の1語となる。 接続詞として従来扱われてきた多くの語は長単位にほぼ相当する。 馬場(2015)でも長単位の「接続詞」を対象として調査を行った。しかし、接続 詞以外の品詞も含めた何らかの数量的研究を行う際には、短単位ももちろん利用さ れる。したがって、短単位での品詞情報「接続詞」の解析精度についても知見を得 ておく必要がある。 1.  品詞情報として「接続詞」が付与されていることを、以下「品詞情報「接続詞」 」又は単 に括弧を付けて「接続詞」と記す。他の品詞についても同様である。 2 「   語彙素」は「表記や語形の違いにかかわらず、 同じ語」と認めた「同一の見出し」で、 「国 語辞典の見出しに相当」するものである(小椋2014:80) 。以下、特に紛らわしくない場合 は単に「語」と記す。. -1-.

(3) 本稿では、短単位での品詞情報「接続詞」の語を対象として、品詞情報の解析精 度の調査を行う3。それを通して、短単位品詞情報「接続詞」の使用頻度の値をその まま用いる場合の留意点を示したい。 具体的な研究課題は、(1)のとおりである。なお、補足的に、接続詞の使用頻 度の推定についても扱う。 (1)① 使用頻度上位20位までの短単位品詞情報「接続詞」の語を対象とし て、非コアデータの各語の解析精度を抽出調査により明らかにする。 ② 馬場(2015)の長単位「接続詞」での調査結果と比較し、相違点と 共通点及びその理由を明らかにする。. 2 短単位と長単位の関係、コアデータと非コアデータについて 調査方法を示す前に、短単位と長単位との関係及びコアデータと非コアデータに ついて説明を補っておく。 BCCWJの短単位は「形態素解析器MeCabと形態素解析用辞書UniDic」を使った 自動解析システムの結果に基づいている。長単位は、この短単位解析結果から「解 析器Comainu」を用いて「自動構成」したものである(小椋2015:80) 。 長単位の「接続詞」は、短単位の「接続詞」がそのまま長単位の「接続詞」とな 「グルー るもの以外に、 「CSJ4で認定されていた全体で1長単位とするもののリスト」 5 の大見出し」「『岩波国語辞典』第6版、『日本国語大辞典』 プ・ジャマシイ(1998). 第2版」を参照して選定した「連語」(「然しながら、従って、すると」など32語) を長単位の「接続詞」としている(冨士池優美ほか(2011) :32、同資料:30-33) 。 同形の語彙素であっても、短単位と長単位では延べ語数が異なる。例えば、 「又」 は短単位では延べ語数116,270語(コアデータ1,050語、非コアデータ115,220語)で あるが、長単位では延べ語数86,442語(コアデータ899語、非コアデータ85,543語) である。本稿で対象とする語彙素では、特に「又」「然し」「で」「けれど」が短単 位と長単位の語数の差が大きい(表3参照)。 「コアデータ」は「高精度の解析を実現するために、BCCWJの一部を形態素解 析器・長単位解析器の学習用データ」として整備したものであり、「短単位・長単 位とも自動解析後に、全データに対して人手による確認を行い、誤解析の修正を 行っ」たデータであり、「各レジスターから5000件を無作為抽出して、精度検査」 を行い「99%以上の精度」となっていることを確認したデータである(小椋2015: 81-83) 。 「非コアデータ」は、この「コアデータ」を学習用データとした形態素解 析器・長単位解析器により自動解析を行ったデータである(:81-83) 。さらに、実 3  調査の意義・目的の詳細、BCCWJの品詞情報を利用した接続詞研究の概観、BCCWJ全体 の品詞情報の解析精度については、馬場(2015)参照。 4 『   日本語話し言葉コーパス』 (Corpus of Spontaneous Japanese : CSJ) 5  グループ・ジャマシイ(1998) 『日本語文型辞典』くろしお出版. -2-.

(4) 際の形態論情報の付与作業では「高精度で不統一のない形態論情報」 とするために、 随時「人手修正」が行われている(:82-86)。. 3 調査方法及び結果 馬場(2015)の長単位(非コアデータ)の調査に準じて下記の手順で調査を行っ た。 まず、国立国語研究所コーパス開発センターが作成・公開している「『現代日本 語 書 き 言 葉 均 衡 コ ー パ ス 』 語 彙 表ver.1.0」(http://pj.ninjal.ac.jp/corpus_center/ bccwj/freq-list.html)(2016年5月12日閲覧)の「短単位語彙表データ」 (BCCWJ_ frequencylist_suw_ver1_0.tsv)を利用して、品詞情報「接続詞」の使用頻度6上位 20語(語彙素)を選定する。次に、「中納言」(中納言 2.2.0)を利用して、語彙素 ごとに、非コアデータを検索対象とし、「品詞」「語彙素」「語彙素読み」を指定し て検索し7、検索結果表示画面で表示される500件の最初の100件の用例を調査対象と して取り出す8。調査対象の100件の用例の品詞を前後の文脈を読み取りながら人手 で確認を行う。 調査を行った語彙素は(2)の20語である。 (2) 又、然し、そして、及び、或いは、で、更に、唯、然も、猶、但し、 即ち、且つ、一方、扠、若しくは、けれど、が、尤も、乃至 人手による品詞情報の確認の際に、副詞など接続詞以外の品詞との判別が特に問 題となるものについては、馬場(2015)同様、(3)のような置き換え可能性を目 安にして判断した。また、コアデータでの品詞判定も参考にした。判定に迷う場合 は接続詞とした。 (3)① 「又」:「並びに、その上に、又は」に置き換えられるかどうか。 「再 び、同様に、一方、一体全体・まったく」に置き換えられる場合は副 6.  コアデータ及び非コアデータの合計の使用頻度。  検索条件式は、次の通りである( 「又」で例示) 。 キ ー:( 品 詞 LIKE "接 続 詞 % " AND 語 彙 素="又" AND 語 彙 素 読 み="マ タ")IN ( (registerName="出版・新聞" AND core="false")OR(registerName="出版・雑誌" AND core="false")OR(registerName="出版・書籍" AND core="false")OR(registerName="図 書館・書籍" AND core="false")OR(registerName="特定目的・白書" AND core="false") OR(registerName="特定目的・ベストセラー " AND core="false")OR(registerName="特 定 目 的・ 知 恵 袋" AND core="false")OR(registerName="特 定 目 的・ ブ ロ グ" AND core="false")OR(registerName="特定目的・法律" AND core="false")OR(registerName=" 特定目的・国会会議録" AND core="false")OR(registerName="特定目的・広報誌" AND core="false")OR(registerName="特定目的・教科書" AND core="false")OR(registerName=" 特定目的・韻文" AND core="false") )WITH OPTIONS tglKugiri="" AND tglBunKugiri="" AND limitToSelfSentence="1" AND tglFixVariable="2" AND tglWords="100" AND unit="1" AND encoding="UTF-16LE" AND endOfLine="CRLF" 8  検索及び用例抽出は、2016年5月~6月に行った。 7. -3-.

(5) 詞。 ② 「で」:「それで」に置き換えられるかどうか。 ③ 「更に」:「その上に、それに加えて」に置き換えられるかどうか。 「ま すます、もっと、少しも(~ない)」に置き換えられる場合は副詞。 ④ 「唯」 :「ただし」に置き換えられるかどうか。 「単に」に置き換えら れる場合は副詞。 ⑤ 「猶」:言い添える内容が続くかどうか。 「相変わらず、 やはり、 一層、 ちょうど(のごとし)」に置き換えられる場合は副詞。 調査結果を表1に示す。 表1 接続詞(短単位、非コアデータ、サンプル調査)の適合率(語彙素別) 頻度 順位 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20. 語彙素. 頻度合計. 又 然し そして 及び 或いは で 更に 唯 然も 猶 但し 即ち 且つ 一方 扠 若しくは けれど が 尤も 乃至 計. 116,270 71,506 62,757 48,990 26,630 19,649 18,891 16,549 14,682 12,377 11,751 10,763 8,545 8,170 8,084 6,886 5,390 5,091 3,349 2,920. 調査 件数 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 2,000. 接続 他品 精度 他品詞等内訳 詞 詞等 (適合率) 89 11 89.0% 副詞11 100 0 100.0% 100 0 100.0% 99 1 99.0% 動詞1 100 0 100.0% 61 39 61.0% 格助詞14、助動詞10、誤解析7、接続助詞4、記号2、副助詞1、誤字1 89 11 89.0% 副詞11 76 24 76.0% 副詞17、名詞5、誤解析2 100 0 100.0% 86 14 86.0% 副詞13、名詞1 98 2 98.0% 副詞1、誤解析1 100 0 100.0% 96 4 96.0% 誤解析4 96 4 96.0% 名詞4 100 0 100.0% 100 0 100.0% 96 4 96.0% 接続助詞4 91 9 91.0% 格助詞6、接続助詞2、副詞1 93 7 93.0% 副詞7 92 8 92.0% 誤解析8 1,862 138 93.1%. 表1の「頻度合計」欄の数値はコアデータ及び非コアデータの使用頻度の合計で ある。「調査件数」は各語彙素100件である。「接続詞」欄の数値は「品詞情報「接 続詞」を付与されて正しく接続詞であった件数」である。「他品詞等」欄の数値は 「精度(適合率) 」 接続詞以外の件数であり内訳は「他品詞等内訳」に示している9。 は(4)の式により求めた解析精度である。本研究では解析精度として適合率を用 いた10。 9.  品詞分類の誤りを「誤判定」と呼び、それ以外の形態素境界の誤りなどを「誤解析」と呼 び、便宜的に呼び分ける。 10  分類の評価指標として、適合率(精度) 、再現率、F値がある。適合率は付与された品詞. -4-.

(6) (4) (適合率)=(品詞情報「接続詞」を付与されて正しく接続詞であっ た件数)÷(品詞情報「接続詞」を付与された件数)×100[%] 表2は、本稿の短単位の調査結果と馬場(2015)の長単位の調査結果11とを並べ て示した表である12。「長単位」の「語彙素」欄で「*」を付けた語彙素は、長単位 で「連語」の接続詞となる語彙素である。. 4 分析・考察 表1及び表2に基づいて、短単位「接続詞」の使用頻度上位20語の解析精度、及 び長単位「接続詞」の解析精度との異同について分析・考察を行う。 まず、短単位「接続詞」の解析精度は、全体で93.1%、最小は「で」の61.0%、 最大は100%(7語)である。「又」89.0%、「で」61.0%、「更に」89.0%、「唯」 76.0%、 「猶」86.0%の5語が90%未満であるが、これら5語を除いた15語全体の解 析精度は97.4%であり高くなっている。 長単位「接続詞」の調査結果でも、全体で93.9%、最小は「で」の63.0%、最大 は100%(10語、ただしそのうち「連語」は6語)である。「又」82.0%、「更に」 89.0%、「其れから*」87.0%、「唯」76.0%、「猶」89.0%、 「で」63.0%の6語が90% 未満であるが、これら6語を除いた14語全体の解析精度は99.2%であり極めて高く なっている。 がどのくらい正しいかを表す指標である。再現率は実際にある品詞であるものをどれくら いカバーして付与できているかを表す指標である。F値は適合率と再現率の調和平均であ る。接続詞を例にすると、次の式で求められる。評価指標としてはF値を用いることが多い が、本研究では、 「調査対象全体で実際に接続詞である件数」の調査が事実上困難であり再 現率を求めることができずしたがってF値も求めることができないため、適合率を用いた。 (適合率)=(品詞情報「接続詞」を付与されて正しく接続詞であった件数)÷(品 詞情報「接続詞」を付与された件数)×100[%] (再現率)=(品詞情報「接続詞」を付与されて正しく接続詞であった件数)÷(調 査対象全体で実際に接続詞である件数)×100[%] (F値)=2×(適合率)×(再現率)÷( (適合率)+(再現率) ) 11  馬場(2015)の調査では長単位「或いは」100件の内に副詞2件が含まれるとしている。 しかし、BCCWJではコアデータで(ア)のような「もしかすると」の意の場合も「接続詞」 としている。本稿では、 「もしかすると」の意の短単位「或いは」を接続詞と判定した。表 2では、馬場(2015)の長単位「或いは」の副詞2件も接続詞に修正し数値も修正した。 (ア) そうした大変動のそもそもの動因、病根の摘発、分析さえ、ほとんどソルジェニー ツィン一人に委せっ切りという有様ではなかったか。 『ガン病棟』の激しく直截な 文学的「告発」に始まった彼の尨大な作品群こそ、あるいは二十世紀最後の「世 界文学」の打上げ花火だったのかも知れない。 (PM42_00026) 12  馬場(2015)では長単位「接続詞」の「非コアデータ頻度」は中納言の検索結果に基づ いている。 「だから」 「だが」 「所が」は「 『現代日本語書き言葉均衡コーパス』長単位語彙 表 ver1.0」 (http://www.ninjal.ac.jp/corpus_center/bccwj/freq-list.html) (2014年7月閲覧) での頻度と比べて、それぞれ2件、1件、6件少ない。理由は不明である. -5-.

(7) 表2 短単位「接続詞」と長単位「接続詞」の適合率(語彙素別) 頻度 順位 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20. 短 単 位 非コアデ 精度 頻度 ータ頻度 (適合率) 順位 又 115,220 89.0% 1 然し 70,919 100.0% 2 そして 62,331 100.0% 3 及び 48,330 99.0% 4 或いは 26,524 100.0% 5 で 19,543 61.0% 6 更に 18,616 89.0% 7 唯 16,390 76.0% 8 然も 14,576 100.0% 9 猶 12,288 86.0% 10 但し 11,671 98.0% 11 即ち 10,725 100.0% 12 且つ 8,398 96.0% 13 一方 8,033 96.0% 14 扠 8,007 100.0% 15 若しくは 6,842 100.0% 16 けれど 5,331 96.0% 17 が 5,052 91.0% 18 尤も 3,327 93.0% 19 乃至 2,912 92.0% 20 計 93.1% 語彙素. 長 単 位 非コアデ 精度 ータ頻度 (適合率) 又 85,543 82.0% 然し 68,041 100.0% そして 62,269 100.0% 及び 48,295 99.0% でも* 36,397 100.0% 又は* 29,560 100.0% 或いは 26,490 100.0% だから* 20,840 100.0% 更に 18,614 89.0% だが* 17,695 100.0% 其れから* 16,570 87.0% 唯 16,388 76.0% 然も 14,570 100.0% 猶 12,272 89.0% 但し 11,667 99.0% 所が* 11,295 100.0% で 10,866 63.0% 即ち 10,717 100.0% 従って* 9,900 100.0% 其れでも* 9,807 93.0% 計 93.9% 語彙素. なお、長単位「接続詞」の調査結果から「連語」の8語を除いて12語のみで集 計した場合も全体で91.3%であり、90%未満の5語を除いた7語全体の解析精度は 99.4%である。 以上のように、短単位「接続詞」の解析精度は、長単位「接続詞」の解析精度と ほぼ同じ傾向であることが分かる。「接続詞」全体の解析精度は高いが、 特に「で」 は60%台、「唯」は70%台で極めて低く、「又」「更に」 「猶」は80%台で低くなって いる。短単位と長単位との解析精度の差は「又」が7%と大きくなっている以外は、 0~3%の範囲での差でありほぼ同じと見てよい。 殆どの場合は、基本的には、 「連語」以外は短単位「接続詞」がそのまま長単位「接 続詞」となるため、以上の結果は言わば当然である。 「又」について、短単位と長単位との解析精度の差が大きくなっている理由につ いて、以下で分析を補う。 表2で、同形の短単位「接続詞」と長単位「接続詞」の「非コアデータ頻度」を 比べると、若干の差があることが分かる。この差の理由を検討するために表3をま とめた。表3は、調査対象の20語について、短単位「接続詞」と長単位「接続詞」 の使用頻度の差をコアデータ、非コアデータ別にまとめた表である。表の数値は、 コアデータ、非コアデータともに、それぞれの短単位「接続詞」の使用頻度から長 単位「接続詞」の使用頻度を引いて求めた件数である。 -6-.

(8) 表3 短単位「接続詞」と長単位「接続詞」の使用頻度の差 頻度 語彙素 順位 1 又 2 然し 3 そして 4 及び 5 或いは 6 で 7 更に 8 唯 9 然も 10 猶 11 但し 12 即ち 13 且つ 14 一方 15 扠 16 若しくは 17 けれど 18 が 19 尤も 20 乃至. コアデータ の頻度差 151 26 0 0 0 32 0 0 0 0 0 0 0 0 0 0 13 0 0 0. 非コアデータ の頻度差 29,677 2,878 62 35 34 8,677 2 2 6 16 4 8 19 6 1 13 1,542 1 0 50. コアデータは入念な人手修正が行われているため、「又」 「然し」 「で」 「けれど」 の4語以外は使用頻度の差が0であり、短単位「接続詞」がそのまま長単位「接続 詞」となっている。ただし、非コアデータでは「解析器Comainu」による長単位の 自動構成に伴う誤判定又は誤解析がそのまま残りごく僅かながら短単位「接続詞」 の件数が多くなってはいるが、差はごく小さく実用上は誤差の範囲と見ることがで きる。 「又」の件数の差について、コアデータの用例を検討した結果、 (5)のように、 一つの短単位「接続詞」が複数の長単位「接続詞」に対応していた。これが両者の 頻度差が生じる理由である13。 (5) 短単位 「又」(1050語) 長単位 「又」(899語)、「又は*」(151語) ( 「連語」 ) 解析精度の調査で、長単位「又」の解析精度が短単位「又」の解析精度よりも低 くなっている大きな理由は、長単位「又」に連語「又は」の自動構成に失敗した用 13.  短単位「然し」 (587語)は、 長単位では「然し」 (561語) 「 、然しながら*」 (24語) ( 「連語」 ) 、 「しっかし」 (1語) 、 「しかーし」 (1語)になっている。短単位「で」 (106語)は、長単 位では「で」 (74語) 、 「じゃ」 (19語) 、 「じゃあ」 (8語) 、 「んで」 (5語)になっている。 短単位「けれど」 (59語)は、長単位では「けれど」 (46語) 、 「けど」 (12語) 、 「けどう」 (1 語)になっている。 「連語」以外の「しっかし」 「じゃ」 「けど」などのような長単位の語彙 素は「解析器Comainu」によって自動的に構成されたものではなく、 「人手修正」が行われ たものである可能性がある。. -7-.

(9) 例がある程度含まれていることによるものである。 馬場(2015)の調査結果では、長単位「又」100件では、副詞の誤判定13件、 「又 は」の誤解析5件が含まれており、仮に「又は」の誤解析5件を除いた95件で解析 精度を計算すると86.3%となる。また、馬場(2015)では長単位「又」については1,000 件の詳細な調査も行っているが、その調査についても同様に「又は」を除いて解析 精度を計算すると87.8%となり、今回の短単位「又」の解析精度89.0%に近い値と なる。 以上のように、 「又」について、短単位と長単位との解析精度の差が他の語に比 べて大きくなっているのは、長単位では「又は」の長単位構成に失敗した用例があ る程度含まれていることによるものであると見られる。. 5 補足調査──接続詞の使用頻度の推定 今回の調査では、 「又」 「で」 「更に」 「唯」 「猶」の5語が90%未満の解析精度であっ た。解析精度が低い場合は、その使用頻度の値をそのまま用いることには注意が必 要である。実際には、解析精度が低いことを示したうえでそのままの値を用いるか、 あるいは、使用頻度に解析精度を乗じた値を臨時的に用いるかなどの方法が考えら れる。 今回の調査では、 「接続詞」の「又」100件中に11件の副詞が含まれていた。逆に、 もし品詞情報「副詞」の「又」にも接続詞の用例がある程度含まれていれば、結果 的には「接続詞」の使用頻度の値をそのまま用いても支障が生じないとも考えられ る。ただし、 「接続詞」全体の使用頻度と「副詞」全体の使用頻度は同じでないため、 使用頻度の違いを加味して考える必要がある。 本節では、BCCWJの非コアデータの接続詞の使用頻度の推定を行う試みの調査 を補足的に行う。 今回の調査結果から、「接続詞」の「又」「更に」「唯」 「猶」については副詞の誤 判定が多く含まれており、「接続詞」の「で」については助詞及び助動詞の誤判定 が多く含まれていることが分かった14。「又」「更に」「唯」「猶」については品詞情 報「副詞」の「又」「更に」「唯」「猶」100件中に含まれる接続詞の件数、 「で」に ついては品詞情報「助詞」50件及び「助動詞」50件の計100件中に含まれる接続詞 の件数を調査した15。具体的な調査方法は、品詞情報「接続詞」の調査と同様の方 法16である。 14.  表1「他品詞等内訳」参照。 「   副詞」 「助詞」 「助動詞」以外の品詞情報の用例の中に接続詞が含まれている可能性はあ るがごく僅かであると考えられ、実際上は考慮する必要はないと見做した。 16  ただし、 「副詞」の語彙素「唯」には「たった」も含まれるため検索条件式に「発音形出 現形="タダ"」の条件を加え「たった」を除外した。また、 「助動詞」の「だ」の連用形「で」 だけが対象となるため検索条件式に「活用形="連用形-一般"」の条件を加えた。 15. -8-.

(10) 結果を表4-1、表4-2に示す。 表4-1 「接続詞」(5語)の他品詞の同形の語彙素の調査結果(非コアデータ) 「接続詞」調査(各100件) a. b. c. d. e. 「副詞」調査/「助詞・助動詞」 調査 (各100件) f. g. h. i. j. k. l. 助詞・ 他品 精度 非コアデ 助詞・ 他品 精度 非コアデ 頻度 接続詞 副詞 接続詞 副詞 語彙素 助動詞 詞等 (適合率) ータ頻度 助動詞 詞等 (適合率) ータ頻度 順位 1. 又. 115,220. 89. 11. 0. 0. 6. で. 19,543. 61. 0. 29. 10. 89.0%. 28,907. 12. 87. 0. 1. 87.0%. 61.0% 2,199,687. 0. 0. 100. 0. 100.0%. 7. 更に. 18,616. 89. 11. 0. 0. 89.0%. 8. 唯. 16,390. 76. 17. 0. 7. 76.0%. 19,751. 24. 76. 0. 0. 76.0%. 11,154. 11. 88. 0. 1. 10. 猶. 12,288. 86. 13. 0. 1. 86.0%. 88.0%. 3,507. 0. 97. 0. 3. 97.0%. 表4-2 「接続詞」 (5語)の使用頻度の推定値及び補正精度(非コアデータ) 接続詞の使用頻度の推計 m n (a×b÷100) (g×h÷100) 頻度 語彙素 順位. 「接続詞」 調査から. 「副詞」 調査/ 「助詞・助動詞」 調査から. o (m+n). p (o÷a). 接続詞の頻度の 推定値. 「接続詞」の 補正精度. 1. 又. 102,546. 3,469. 106,015. 6. で. 11,921. 0. 11,921. 92.0% 61.0%. 7. 更に. 16,568. 4,740. 21,308. 114.5%. 8. 唯. 12,456. 1,227. 13,683. 83.5%. 10. 猶. 10,568. 0. 10,568. 86.0%. 表4-1には品詞情報「接続詞」の調査結果及び本節での品詞情報「副詞」(又 は「助詞」及び「助動詞」)の調査結果を示している17。表4-2はこの調査結果に 基づく接続詞の使用頻度の推定値及びその推定値に基づいて補正を行った 「接続詞」 の解析精度である。m欄は「接続詞」の使用頻度にその解析精度を乗じた件数で正 しく接続詞である件数の推定値である。n欄は「副詞」 (又は「助詞」及び「助動詞」 ) の使用頻度に接続詞が含まれる比率を乗じた件数で接続詞の件数の推定値である。 o欄はm欄とn欄の数値を合計した値であり非コアデータ全体の接続詞の件数(用 例数)の推定値である。p欄は接続詞の件数の推定値(o欄)を「接続詞」の非コ アデータ頻度(a欄)で除した値で言わば補正した解析精度と言える値である。 表4-2のp欄の「補正精度」の値を見ると、表1の「精度(適合率) 」に比べ「又」 「唯」はそれぞれ3ポイント及び7.5ポイント高くなっており、「更に」は25.5ポイ 17. 「   で」の「非コアデータ頻度」は「助詞」と「助動詞」を併せた使用頻度である。この使 用頻度は、 「中納言」での検索結果として表示される件数を用いた。. -9-.

(11) ントも高くなっており、 「で」 「猶」は同じである。「又」18「唯」は品詞情報「副詞」 に接続詞が含まれる比率がわずかであり、「更に」は品詞情報「副詞」に接続詞が 含まれる比率が高く、 「で」 「猶」は品詞情報「副詞」 (又は「助詞」及び「助動詞」 ) に接続詞が含まれていないということである。 本節の初めに「使用頻度に解析精度を乗じた値を臨時的に用いる」方法を示した が、その場合はこの「補正精度」を用いた方がより精確となるであろう。ただし、 本節の調査結果からは、「更に」のように極端に値が変わる場合を例外とすれば、 実用上はその必要性は高くないと言えるであろう。. 6 おわりに 本稿では、 『現代日本語書き言葉均衡コーパス』 (BCCWJ)の短単位の品詞情報「接 続詞」(非コアデータ)の解析精度を明らかにするために、使用頻度上位20位まで の語を対象として調査を行った。調査の結果、短単位「接続詞」全体の解析精度は 高いが、特に「で」61.0%、「唯」76.0%は極めて低く、「又」「更に」「猶」は80% 台で低くなっており、長単位「接続詞」での調査結果とほぼ同様の傾向を示すこと が分かった。なお、 「又」については、短単位より長単位で解析精度が低く、これ は連語「又は」の自動構成に失敗した用例が長単位にある程度含まれていることの 影響であることも指摘した。さらに、解析精度が低い5語について、他品詞の同形 の語彙素の調査を行い接続詞の使用頻度の推計を行う試みを示した。 接続詞研究においてBCCWJの品詞情報の検索結果をそのまま利用する際には、 本稿での指摘に充分留意する必要がある。 参照文献 小椋秀樹(2014)「第4章 形態論情報」山崎誠(編) 『講座日本語コーパス 2. 書き言葉コーパス─設計と構築─』朝倉書店、pp.68-88. 馬場俊臣(2015)「BCCWJの品詞情報の解析精度について─特に接続詞に注目して ─」『北海道教育大学紀要 人文科学・社会科学編』66(1) 、北海道教育大学、 pp.13-29. 冨士池優美、小椋秀樹、小西光(2011)「第2章 長単位」小椋秀樹、小磯花絵、 冨士池優美、宮内佐夜香、小西光、原裕『『現代日本語書き言葉均衡コーパス』 形態論情報規程集 第4版(上)』国立国語研究所、pp.11-98. 付記 本研究はJSPS 科研費JP16K02715の助成を受けたものである。. 18.  同様の計算式で、馬場(2015)の長単位「又」の詳細調査(1000件)のデータを使って 求めた長単位「接続詞」の「又」の補正精度は91.2%である。. - 10 -.

(12)

参照

関連したドキュメント

「文字詞」の定義というわけにはゆかないとこ ろがあるわけである。いま,仮りに上記の如く

それぞれの絵についてたずねる。手伝ってやったり,時には手伝わないでも,"子どもが正

HORS

の総体と言える。事例の客観的な情報とは、事例に関わる人の感性によって多様な色付けが行われ

今回の調壺では、香川、岡山、広島において、東京ではあまり許容されない名詞に接続する低接

3. 利用者の安全確保のための遊歩道や案内板などの点検、 応急補修 4. 動植物の生息、 生育状況など自然環境の継続的観測および監視

   遠くに住んでいる、家に入られることに抵抗感があるなどの 療養中の子どもへの直接支援の難しさを、 IT という手段を使えば

行ない難いことを当然予想している制度であり︑