BCCWJ文体情報の各文体指標の特徴語 ― 『BCCWJ図書館サブコーパスの文体情報』を用いて ―
15
0
0
全文
(2) 北海道教育大学紀要(人文科学・社会科学編)第69巻 第2号 Journal of Hokkaido University of Education(Humanities and Social Sciences)Vol. 69, No.2. 平 成 31 年 2 月 February, 2019. BCCWJ文体情報の各文体指標の特徴語 ―― 『BCCWJ図書館サブコーパスの文体情報』を用いて ――. 馬 場 俊 臣 北海道教育大学札幌校日本語学研究室. Feature Terms of the Criterions of “Writing Style Annotation for the Library Subcorpus of the BCCWJ ” BABA Toshiomi Department of Japanese Linguistics, Sapporo Campus, Hokkaido University of Education. 概 要 『BCCWJ図書館サブコーパスの文体情報』の各文体指標の値を利用した「専門度平均値」 「客観度平均値」「硬度平均値」「くだけ度平均値」は語の文体差の尺度として利用することが できる。本稿では,これら4種類の指標の平均値に基づいてそれぞれの指標の特徴語・反特徴 語を,対数尤度比を用いて抽出し,各指標の性質の分析を行った。専門度,客観度の特徴語・ 反特徴語の語数は,硬度,くだけ度に比べて多いこと,専門度の反特徴語(より専門的である) は販売対象(Cコード)が「教養」及び「専門」のサンプルでの使用が相対的に多く,特徴語(よ り専門的でない)は販売対象が「児童」又は「一般」 (特にNDCコード第1次区分の「歴史」 「文 学」 )のサンプルでの使用が相対的に多いこと,客観度の反特徴語(より客観的である)は NDCコード第1次区分の「自然科学」「技術・工学」のサンプルでの使用が相対的に多いこと などを指摘し,専門度,客観度の平均値は,販売対象となる読者の違いやジャンルの違いの影 響が僅かではあるが見られることを明らかにした。. 1. はじめに 類似の意味を表す語であっても,「決定する,決める」「昨今,近頃」「しかし,けど」「行く,伺う」など のように,硬さ・柔らかさ,書き言葉的・話し言葉的,改まり・くだけなどの類型的な文体差によって複数 の語が存在する。 このような語の文体差は, 「文体的特徴からする単語の分類は,連続的であり,程度の差によるものであ る。 」(宮島1977:873)と指摘されているように「連続的」である。馬場(2018a,2018b)は,国立国語研. 1.
(3) 馬 場 俊 臣. 究所(2015) 『BCCWJ図書館サブコーパスの文体情報』(以下,『文体情報』)のアノテーションデータを利 用して, 「連続的な」数値である「専門度平均値」「客観度平均値」「硬度平均値」「くだけ度平均値」を算出 し,これらが語の文体差の尺度として利用することができることを示している。 本稿では,これら4種類の文体指標の平均値の性質をより明らかにするために,「専門度平均値」「客観度 平均値」 「硬度平均値」「くだけ度平均値」に基づいて,各指標の特徴語・反特徴語を抽出して分析を行う。. 2.『文体情報』及び4種類の指標の平均値について まず, 『文体情報』の概要を説明する1。 『文体情報』は,「文体研究を進める」ために,『現代日本語書き言葉均衡コーパス』(以下,BCCWJ)の 「図書館サブコーパス」の書籍サンプルを対象として「文体情報のアノテーション」を行いその「成果を公 開用にまとめたデータ」である。「図書館サブコーパス」の各サンプルを対象として,「内容・表現の文体的 特徴を表す分類指標」及び「形式・内容・表現に文体判断が単純にいかない特徴をもつものの分類指標」を 付与している。専門度,客観度,硬度,くだけ度は,「内容・表現の文体的特徴を表す分類指標」である。 特に,専門度は「対象読者に想定される読解レベル(難易度)」に関わる指標であり,客観度は「テキスト の作成意図」に関わる指標であり,硬度及びくだけ度は「さまざまな文体情報」のうちの「形式性,親疎性 「言語データ構築経験有のおおよそ20~50代の女性,延べ9 を問う」指標である2。これらの4種類の指標は, 名。 」の作業者によって付与され,それぞれ次の3段階~5段階のいずれかの段階が付与されている。 (a)専門度 1 専門家向き,2 やや専門的な一般向き,3 一般向き,4 中高生向き,5 小学生・幼児向き (b)客観度 1 とても客観的,2 どちらかといえば客観的,3 どちらかといえば主観的,4 とても主観的 (c)硬度 1 とても硬い,2 どちらかといえば硬い,3 どちらかといえば軟らかい,4 とても軟らかい (d)くだけ度 1 とてもくだけている,2 どちらかといえばくだけている,3 くだけていない 馬場(2018a)では,各サンプルに付与された専門度,客観度,硬度,くだけ度の1~3(又は4,5)の段 階の番号を数値として扱い,BCCWJ「図書館サブコーパス」の長単位の語(全品詞)を対象として,それ ぞれの語の専門度平均値,客観度平均値,硬度平均値,くだけ度平均値を算出したうえで,特に使用異なり サンプル数100以上の語彙素7,877語に関して分析を加えている。分析の結果,専門度平均値,客観度平均値, 硬度平均値,くだけ度平均値の4種類の平均値は相互に強い相関があること,これら4種類の平均値は語の 文体差に関する内省判断に関する調査研究の数値と強い相関があることを明らかにし,これら4種類の平均 値を語の文体差の目安として用いることが可能であることを示している。 馬場(2018a)では,4種類の平均値及び語りかけ性度平均値の計5種類の平均値を二組ずつセットにして, 語別のそれぞれの平均値の散布図,相関係数,無相関検定結果を図1のように示している。専門度平均値, 客観度平均値,硬度平均値,くだけ度平均値は上記の通り,相互に強い相関がある。ただし,散布図を見て も分かるように若干外れ値となる語もある。 本稿では,専門度平均値,客観度平均値,硬度平均値,くだけ度平均値のそれぞれについて,他の3種類 の平均値に比べて特徴的な値を示す語にはどのような語があるのかを見ていく。例えば,専門度平均値,客. 1 国立国語研究所(2015)添付文書「概要」及び柏野(2013)に基づく。 2 「内容・表現の文体的特徴を表す分類指標」には, 「さまざまな文体情報」のうちの「口語性を問う」指標である語りか け性度もあるが,これに基づいて算出した語りかけ性度平均値は語の文体差を反映しているとは言えない(馬場2018a)ため, 本稿では扱わない。. 2.
(4) BCCWJ文体情報の各文体指標の特徴語. 図1 語別5指標各平均値相互の散布図,相関係数,無相関検定結果(馬場2018a:244). 観度平均値,硬度平均値の3種類は類似している(ともに高い,あるいはともに低い)が,くだけ度平均値 は傾向が異なっている語を,くだけ度のみで特徴的な値を示す語と捉え,そのような語をくだけ度の特徴語 乃至は反特徴語と呼ぶこととする。. 3. 各指標の特徴語・反特徴語の抽出方法 対数尤度比(LLR : Log-Likelihood Ratio)を用いて,専門度,客観度,硬度,くだけ度のそれぞれの特 徴語・反特徴語の抽出を行う3。 対数尤度比は,対象とするテキスト(対象テキスト)に特徴的に高頻度または低頻度で使用されている程 度を示す統計的指標の一つとして用いられており,対象とするテキスト(対象テキスト)におけるある語の. 3 馬場(2018a)と同じく使用異なりサンプル数100以上の語彙素7,877語を分析対象とする。ただし,専門度,硬度,くだ け度は付与されているが客観度が付与されていないサンプルがあるため,客観度の使用異なりサンプル数が100未満の語も 以下の分析対象に含まれている。. 3.
(5) 馬 場 俊 臣. 使用頻度が,比較のために用いるテキスト(参照テキスト)におけるその語の使用頻度から期待される数値 と比較してどの程度多いのか,または少ないのかを示す指標である4。 本稿では,対象テキストはある指標(対象指標) (例:専門度)とし,参照テキストは他の3種類の指標(参 照指標) (例:他の客観度と硬度とくだけ度)とする。 また,語の使用頻度は,それぞれの指標の語別の平均値(専門度平均値などの語別の値)とする。ただし, 専門度は5段階,客観度は4段階,硬度は4段階,くだけ度は3段階で分類されており,そのままでは直接 比較できないため,標準化して扱いやすいように各語の平均値を偏差値に換算して,この偏差値を語の使用 頻度に相当するものとして用いる。対象指標は各語の偏差値をそのまま用いる。参照指標は他の3種類の指 標の各語の偏差値を平均した値を用いる。 さらに,専門度,客観度,硬度は,より専門的5,より客観的,より硬いほど数値が低くなるが,くだけ度 はよりくだけているほど数値が低くなっており,くだけ度だけは値の方向が逆になっている。方向を揃える ために,くだけ度平均値については,本来の「1 とてもくだけている,2 どちらかといえばくだけている, 3 くだけていない」の段階(値)を,「3 とてもくだけている,2 どちらかといえばくだけている,1 くだけ ていない」のように反転してくだけ度平均値を計算し直し,この反転した値を用いる。 対数尤度比の計算式として,宮島・近藤(2011),小木曽(2015)に倣い,次の式を用いる6。ただし,同 じく宮島・近藤(2011) ,小木曽(2015)に倣い,「a:対象指標での語Wの偏差値」が「b:参照指標での語 Wの3種類の偏差値を平均した値」より低い場合には,対数尤度比に-1を乗じる補正を行う。 G2=2(alna+blnb+clnc+dlnd-(a+b)ln(a+b)-(a+c)ln(a+c)-(b+d)ln(b+d)-(c+d)ln(c+d)+(a+b+c+d) ln(a+b+c+d)) (なお,lnは自然対数を表す。) a:対象指標での語Wの偏差値 b:参照指標での語Wの3種類の偏差値を平均した値 c:対象指標でのすべての語の偏差値の合計-a d:参照指標でのすべての語の偏差値の合計/3-b 対数尤度比が正の場合は,数値が大きいほど他の指標に比べてその指標での偏差値(すなわち平均値)が 相対的に高いことを示し,また負の場合は,数値が小さいほど他の指標に比べてその指標での偏差値(すな わち平均値)が相対的に低いことを示す。本稿では便宜的に対数尤度比が2以上の語を「特徴語」,-2以下の 語を「反特徴語」と見做す。 4種類の指標は,段階の値(及び平均値,偏差値)が大きいほどその性質を持たないことを表す。そのた め,例えば,専門度の特徴語は,より専門的な内容でないサンプルで使われやすい語であることが予想され る。逆に,専門度の反特徴語は,より専門的な内容であるサンプルで使われやすい語であることが予想され る。 抽出の手順が分かりやすいように,例示しておく。 表1は,馬場(2018a)の方法に基づいて算出した4種類の指標の平均値の表の一部である。ただし,く だけ度平均値は,評定段階の値を反転して計算し直している。表2は,4種類の指標の平均値の偏差値及び 専門度の対数尤度比の計算に用いた値の表の一部である。. 4 宮島・近藤(2011),石川(2012),小木曽(2015)参照。 5 専門度の選択肢表現をそのまま用いて表すと「より専門家向き」となる。 6 Dunning(1993)の式を書き直したKilgarriff(2001)の式である。. 4.
(6) BCCWJ文体情報の各文体指標の特徴語. 表1 4種類の指標の平均値(くだけ度平均値は反転)(一部例示) 語. 専門度 平均値. 品詞. 客観度 平均値. 硬度 平均値. くだけ度 平均値(反転). も. 助詞-係助詞. 2.9754. 2.3973. 2.5915. 1.4133. ている する れる 成る から 事 有る 其の ない. 助動詞 動詞-一般 助動詞 動詞-一般 助詞-格助詞 名詞-普通名詞-一般 動詞-一般 連体詞 助動詞. 2.9740 2.9763 2.9727 2.9760 2.9753 2.9749 2.9745 2.9741 2.9779. 2.3951 2.4011 2.3940 2.3975 2.3957 2.4012 2.3994 2.3953 2.4109. 2.5903 2.5931 2.5889 2.5920 2.5906 2.5927 2.5924 2.5894 2.5971. 1.4114 1.4140 1.4112 1.4139 1.4130 1.4136 1.4137 1.4115 1.4166. 表2 4種類の指標の平均値の偏差値及び専門度の対数尤度比(一部例示) 品詞. 専門度 偏差値. 客観度 偏差値. 硬度 偏差値. くだけ度 偏差値. も ている する. 助詞-係助詞 助動詞 動詞-一般. 49.79 49.71 49.84. 47.27 47.19 47.40. 50.33 50.28 50.40. れる 成る から 事 有る 其の ない. 助動詞 動詞-一般 助詞-格助詞 名詞-普通名詞-一般 動詞-一般 連体詞 助動詞. 49.64 49.83 49.79 49.76 49.74 49.72 49.94. 47.16 47.28 47.22 47.40 47.34 47.20 47.73. 50.23 50.35 50.30 50.38 50.37 50.25 50.56. 語. a. b. c. d. 49.22 49.11 49.26. 49.79 49.71 49.84. 48.94 48.86 49.02. 393800.21 393800.29 393800.16. 393735.14 393735.21 393735.06. 対数尤度比 (LLR) 0.0072 0.0071 0.0068. 49.10 49.25 49.20 49.24 49.24 49.12 49.40. 49.64 49.83 49.79 49.76 49.74 49.72 49.94. 48.83 48.96 48.90 49.01 48.98 48.86 49.23. 393800.36 393800.17 393800.21 393800.24 393800.26 393800.28 393800.06. 393735.25 393735.12 393735.17 393735.07 393735.09 393735.22 393734.85. 0.0065 0.0074 0.0077 0.0057 0.0057 0.0074 0.0049. 4. 各指標の特徴語・反特徴語 表3~6に,専門度,客観度,硬度,くだけ度のそれぞれの特徴語,反特徴語を示す。対数尤度比の昇順 で配列しているため,反特徴語が上部に並ぶ。例えば,表3の専門度では,表の上部の「適用」「事物」な どの専門度平均値は,他の3種類(客観度平均値,硬度平均値,くだけ度平均値)に比べて,相対的に低く なっているということである。逆に,下部の「抱く」「軍勢」などの専門度平均値は,他の3種類の平均値 に比べて,相対的に高くなっているということである。 これらの表のとおり,専門度は反特徴語が9語,特徴語が19語あり,客観度は反特徴語が28語,特徴語が 7語あるのに対して,硬度,くだけ度はそれぞれ反特徴語が2語,特徴語が3語と少ない。硬度,くだけ度 は4種類の指標のいわば平均像を表すと見ることができる。 ここで特に問題となるのは,これらの語が専門度や客観度などの特徴語,反特徴語となる理由である。 このことを明らかにするために,特に専門度及び客観度の特徴語,反特徴語が,どのようなサンプル(テ キスト)に使われているのか,それらのサンプルにどのような性質の偏りがあるのかということを見ていく。 まず,専門度に関して見ていく。専門度に関しては,各サンプルに付与されているCコード(左から)1 桁目7を利用してサンプルの性質の偏りを検討する。Cコード1桁目は「販売対象コード」であり,対象読者. 7 『BCCWJ図書館サブコーパスの文体情報』に記載されている各サンプルのCコードを用いた。なお,Cコード(図書分類 コード)は日本図書コードの一部である。. 5.
(7) 馬 場 俊 臣. 表3 専門度の特徴語,反特徴語 語. 品詞. 専門度 偏差値. 客観度 偏差値. 硬度 偏差値. くだけ度 偏差値. 対数尤度比 (LLR). 10.86 19.18 12.83 16.64 17.23 18.44 48.54 22.55 22.33 47.43. 23.93 42.71 23.57 32.73 32.77 30.91 68.23 35.55 35.51 30.90. 20.62 29.43 24.46 24.84 23.13 25.50 59.64 27.56 29.00 36.76. 28.65 35.99 32.90 30.65 33.42 32.46 66.08 36.97 34.11 35.96. -5.3345 -5.2387 -5.1451 -3.5918 -3.3888 -2.6292 -2.3047 -2.1074 -2.0305 2.0359. 将軍 目掛ける 武力 兵 使者 墨 兵力 宝 其方 大坂 無事 藩 大喜び 孵る 大軍 大名 軍勢 抱く. 名詞-普通名詞-一般 動詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 代名詞 名詞-固有名詞-地名-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 動詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 動詞-一般. 51.46 76.89 44.79 53.93 53.14 77.69 45.49 65.78 66.93 50.65 76.11 55.22 81.21 79.97 52.34 54.12 55.22 85.40. 35.80 56.98 36.38 38.38 35.18 56.09 31.23 43.55 41.61 37.11 54.16 39.70 53.59 54.31 33.77 31.30 30.50 48.23. 38.68 60.82 27.34 38.58 39.11 62.40 28.82 53.46 53.87 33.65 61.51 37.36 64.37 63.06 33.33 35.40 36.17 62.68. 39.25 62.34 32.22 41.63 41.90 61.47 36.10 49.94 52.52 35.25 53.61 38.22 63.29 60.33 36.45 40.62 39.33 60.19. 2.0610 2.0744 2.1468 2.2265 2.2654 2.2813 2.3373 2.4657 2.6694 2.7395 2.9322 3.0245 3.0596 3.0962 3.6836 3.7686 4.3990 5.6830. 特徴語. 名詞-普通名詞-一般 名詞-普通名詞-一般 動詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 動詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般. 反特徴語. 適用 事物 結合する 本章 体系 結合 女優 解する 原理 家臣. 専門度. を表し,次のように分類されている(国立国語研究所コーパス開発センター2015:129)。 「0」= 一般,「1」= 教養,「2」= 実用,「3」= 専門,「4」=(欠番),「5」= 婦人, 「6」= 学参I(小中),「7」= 学参II(高校),「8」= 児童,「9」= 雑誌扱い 専門度平均値が相対的に低い,すなわち専門度の反特徴語は,「「3」= 専門」のサンプルでの使用が相対 的に多いことが予想される。一方,専門度平均値が相対的に高い,すなわち専門度の特徴語は,「「8」= 児 童」のサンプルでの使用が相対的に多いことが予想される。 表7は,表3の専門度の反特徴語9語,特徴語19語が使用されているサンプル数(異なり)をCコード1 桁目によって分類した表である。また,図2はその分布の割合を示した帯グラフである。 表8は,表3の専門度の反特徴語全9語,特徴語全19語が使用されているサンプル数(異なり)及び専門 度が付与されている全8,821サンプル(異なり)をCコード1桁目によって分類した表である。また,図3は その分布の割合を示した帯グラフである。 これらの図表から,反特徴語は「「1」= 教養」及び「「3」= 専門」のサンプルでの使用が相対的に多い ことが分かる8。一方,特徴語は「「8」= 児童」のサンプルでの使用が相対的に多いことが分かる。ただし, 「家臣」 「武力」「兵力」「大坂」など「「8」= 児童」のサンプルでの使用が少ない語もあり,これらの語で 8 「女優」は例外となる。. 6.
(8) BCCWJ文体情報の各文体指標の特徴語. 表4 客観度の特徴語,反特徴語 語. 品詞. 専門度 偏差値. 客観度 偏差値. 硬度 偏差値. くだけ度 偏差値. 対数尤度比 (LLR). 55.95. 31.34. 48.31. 48.10. -4.6521. 85.40 50.38 41.76 58.50 52.32 52.61 80.80 64.99 48.49 49.77 60.50 64.05 66.93 45.08 53.86 59.71 58.91 57.52 42.01 55.22 62.83 32.78 66.93 54.20 81.21 60.63 52.25 38.02 58.39 57.40 54.92. 48.23 33.42 29.34 39.57 33.17 39.95 59.26 43.03 29.99 34.92 42.76 47.07 41.61 32.42 37.51 43.63 42.03 44.69 30.51 30.50 46.29 25.82 49.00 39.17 53.59 46.76 38.08 49.57 79.08 76.64 75.90. 62.68 51.29 51.40 57.31 48.21 60.23 73.51 56.40 37.98 49.67 59.53 63.93 53.87 47.42 51.17 58.44 55.68 61.16 47.20 36.17 62.21 40.38 61.38 53.05 64.37 62.53 49.17 32.55 61.71 58.96 61.55. 60.19 52.20 45.40 58.91 49.23 60.45 87.25 61.07 47.20 51.28 58.52 64.96 52.52 47.77 52.45 60.16 57.38 62.50 41.90 39.33 61.17 39.90 65.26 51.91 63.29 61.80 53.09 38.54 66.25 63.34 60.77. -3.8428 -3.8013 -3.7958 -3.5895 -3.4022 -3.2700 -3.2524 -3.0637 -2.8668 -2.7745 -2.7620 -2.6846 -2.6432 -2.6121 -2.5108 -2.4358 -2.3649 -2.3587 -2.3586 -2.3225 -2.3098 -2.2323 -2.1320 -2.0997 -2.0953 -2.0545 -2.0200 2.0337 2.0408 2.0553 2.0986. 御会いする 御宅 事物. 動詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般. 52.37 55.17 19.18. 71.87 78.52 42.71. 58.89 63.94 29.43. 53.90 60.64 35.99. 2.2318 2.5036 2.9888. 特徴語. 名詞-普通名詞-一般 動詞-一般 名詞-普通名詞-一般 動詞-一般 形状詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 代名詞 動詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 動詞-一般 名詞-普通名詞-一般 代名詞 形状詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 動詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 名詞-数詞 動詞-一般 動詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 名詞-普通名詞-一般 動詞-一般 副詞 名詞-普通名詞-一般. 反特徴語. 海面 抱く 金属 付着する 秘密 海水 拳銃 私達 切り裂く 配下 大気 溶ける 人差し指 其方 小型 後方 包帯 食い込む 腕時計 成分 軍勢 横顔 二つ 拾い上げる 突き止める 大喜び 爪先 車両 民主主義 失礼する 案の定 我が家. 客観度. 表5 硬度の特徴語,反特徴語. 紛争. 名詞-普通名詞-一般. 専門度 偏差値 34.42. 利害. 名詞-普通名詞-一般. 31.96. 語. 品詞. 客観度 偏差値 35.04. 硬度 偏差値 22.21. くだけ度 偏差値 29.82. 対数尤度比 (LLR) -2.1572. 36.30. 22.65. 32.34. -2.1216. 硬度 反特 徴語. は「 「0」= 一般」のサンプルでの使用が相対的に多い。「「0」= 一般」のサンプルの特徴をより詳しくみ るために, 「「0」= 一般」のサンプルのみを対象としてNDCコード第1次区分(詳細は後述)によって分類 して示した図表が表9,図4である。これを見ると,特徴語の「「0」= 一般」のサンプルでは「2 歴史」 と「9 文学」のサンプルでの使用が相対的に多いことが分かる。 以上のように,専門度平均値が相対的に低い語(反特徴語)は「「1」= 教養」及び「「3」= 専門」のサ ンプルでの使用が相対的に多く,専門度平均値が相対的に高い語(特徴語)は「「8」= 児童」又は「 「0」. 7.
(9) 馬 場 俊 臣. 表6 くだけ度の特徴語,反特徴語 語. 専門度 偏差値. 品詞. 客観度 偏差値. 硬度 偏差値. くだけ度 偏差値. 対数尤度比 (LLR). 事項. 名詞-普通名詞-一般. 21.03. 21.79. 17.28. 30.53. 2.1933. 適用 結合する. 名詞-普通名詞-一般 動詞-一般. 10.86 12.83. 23.93 23.57. 20.62 24.46. 28.65 32.90. 2.2116 3.0191. くだけ度 特徴語. 表7 専門度の特徴語・反特徴語の使用サンプルのCコード1桁目分類 Cコード1桁目 専門度. 語. 0 一般. 1 教養. 2 実用. 3 専門. 6 7 学参I 学参II (小中) (高校). 5 婦人. 8 児童. 9 雑誌扱い. 空欄. 計. 反特徴語 特徴語. 適用 事物 結合する 本章 体系 結合 女優 解する 原理. 53 57 73 63 69 61 93 72 168. 18 20 27 20 33 19 6 29 45. 13 0 5 3 2 1 2 1 11. 36 17 34 39 26 19 2 23 49. 0 0 1 0 0 0 0 0 0. 0 0 0 0 0 0 0 0 0. 0 0 0 0 0 0 0 1 0. 0 0 1 0 0 0 1 1 0. 1 0 0 0 0 0 0 1 0. 5 7 5 7 6 4 4 5 17. 126 101 146 132 136 104 108 133 290. 家臣 将軍 目掛ける 武力 兵 使者 墨 兵力 宝 其方 大坂 無事 藩 大喜び 孵る 大軍 大名 軍勢 抱く. 76 181 154 84 203 132 112 96 84 109 83 83 81 69 133 81 90 77 58. 16 23 7 16 23 21 6 10 7 4 13 4 6 5 10 9 10 11 8. 3 2 0 0 3 1 4 0 1 0 0 0 0 0 1 1 1 0 2. 4 6 0 7 3 4 2 2 3 0 2 0 3 1 6 2 2 1 6. 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2. 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0. 1 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0. 1 11 28 2 8 11 35 0 13 9 2 22 6 21 56 4 6 6 35. 1 2 1 1 0 0 1 1 0 0 1 0 0 0 0 0 2 1 1. 5 7 8 7 14 11 7 2 7 3 2 7 5 8 15 5 8 5 8. 107 233 198 117 255 180 168 111 115 125 103 116 101 104 221 102 119 101 120. 表8 専門度の特徴語・反特徴語の使用サンプルのCコード1桁目分類(全体合計) Cコード1桁目 専門度 反特徴語 全9語 特徴語 全19語 全 8,821サンプル. 8. 0 一般 709 1,986 6,592. 1 教養 217 209 626. 2 実用 38 19 276. 3 専門 245 54 544. 5 婦人 1 3 18. 6 7 学参I 学参II (小中) (高校) 0 0 5. 1 3 2. 8 児童 3 276 329. 9 雑誌 扱い 2 12 32. 空欄 60 134 397. 計 1,276 2,696 8,821.
(10) BCCWJ文体情報の各文体指標の特徴語. 図2 専門度の特徴語・反特徴語の使用サンプルのCコード1桁目分類(百分率). 図3 専門度の特徴語・反特徴語の使用サンプルのCコード1桁目分類(全体合計)(百分率). = 一般」 (特に「2 歴史」「9 文学」)のサンプルでの使用が相対的に多い。 反特徴語の「適用」,特徴語の「抱く」「兵力」の用例を例示しておく。 (1) そこでは市民一人一人が,完全ではないにしても,人権の適用を要求することが可能になる。(C コード1桁目「1 教養」 LBl3_00042 『グローバル・デモクラシー』) (2) これも沿革に基づく区別にすぎないとすると,恣意性は拭えず,いきおい適用には困難を伴うは. 9.
(11) 馬 場 俊 臣. 表9 専門度の特徴語・反特徴語の使用サンプルのCコード1桁目「0」のNDCコード分類(全体合計) NDCコード第1次区分 (Cコード1桁目「0 = 一般」のみ対象) 専門度 反特徴語 全9語 特徴語 全19語 全 8,821サンプル. 0 総記 27 21 135. 1 哲学 89 68 328. 2 歴史 71 421 696. 3 社会 科学 158 174 1,104. 4 自然 科学 87 28 365. 5 技術・ 工学 44 29 299. 6 産業 14 26 190. 7 芸術・ 美術 66 77 494. 8 言語 9 2 75. 9 文学 141 1,125 2,869. 空欄 3 15 37. 計 709 1,986 6,592. 図4 専門度の特徴語・反特徴語の使用サンプルのCコード1桁目「0」のNDCコード分類(全体合計)(百分率). ずである。(Cコード1桁目「3 専門」 LBm3_00128 『民法典の百年』) (3) 夜があけて,そとを見ると,朝早くからジーナが人形をだいて,家のしきいのところに立ってい ます。 (Cコード1桁目「8 児童」 LBbn_00006 『イワンのばか』) (4) 「新国防方針の解剖」という六十枚に及ぶ論文で,米国を仮想敵国とする非を,兵力や経済の比 較によって論じた。 (Cコード1桁目「0 一般」 NDCコード第1次区分「2 歴史」 LBs2_00050 『行 蔵は我にあり』) 次に, 客観度に関して見ていく。客観度に関しては,各サンプルに付与されているNDC(日本十進分類法) (国 コード第1次区分を利用してサンプルの性質の偏りを検討する9。NDCコード第1次区分は次の通りである 立国語研究所コーパス開発センター2015:129)。 「0 総記」,「1 哲学」,「2 歴史」,「3 社会科学」,「4 自然科学」,「5 技術・工学」,「6 産業」 10 「7 芸術・美術」,「8 言語」,「9 文学」,「分類なし1」. 客観度平均値が相対的に低い,すなわち客観度の反特徴語は,「4 自然科学」「5 技術・工学」などの理科 系の内容のサンプルでの使用が相対的に多いことが予想される。一方,客観度平均値が相対的に高い,すな わち客観度の特徴語は,「9 文学」のサンプルでの使用が相対的に多いことが予想される。 表10は,表4の客観度の反特徴語28語,特徴語7語が使用されているサンプル数(異なり)をNDCコー ド第1次区分によって分類した表である。また,図5はその分布の割合を示した帯グラフである。 表11は,表4の客観度の反特徴語全28語,特徴語全7語が使用されているサンプル数(異なり)及び客観 度が付与されている全5,901サンプル(異なり)をNDCコード第1次区分によって分類した表である。また, 図6はその分布の割合を示した帯グラフである。. 9 Cコード3・4桁目の「内容コード」も内容による分類である。大分類のCコード3桁目を用いた分析も行った。 「全5,901 サンプル」で工学の「5」の分類のサンプル数が少ないことを除いては,NDCコード第1次区分を用いた分析と類似の傾向 が見られた。 10 集計では「空欄」として扱った。. 10.
(12) BCCWJ文体情報の各文体指標の特徴語. 表10 客観度の特徴語・反特徴語の使用サンプルのNDCコード第1次区分分類 NDCコード第1次区分 客観度. 語. 0 総記. 1 哲学. 3 社会 科学. 2 歴史. 4 自然 科学. 5 技術・ 工学. 7 芸術・ 美術. 6 産業. 8 言語. 9 文学. 計. 空欄. 反特徴語. 海面. 0. 0. 12. 3. 7. 8. 3. 3. 1. 4. 1. 42. 抱く. 0. 5. 3. 16. 3. 8. 2. 4. 0. 4. 2. 47. 金属. 0. 3. 12. 14. 26. 20. 0. 16. 0. 5. 2. 98. 付着する. 0. 0. 3. 10. 29. 16. 3. 3. 0. 5. 0. 69. 秘密. 3. 4. 5. 8. 4. 4. 1. 4. 0. 7. 1. 41. 海水. 0. 2. 6. 5. 16. 11. 6. 6. 1. 1. 3. 57. 拳銃. 1. 0. 7. 9. 0. 0. 0. 3. 1. 1. 0. 22. 私達. 0. 0. 1. 2. 1. 0. 0. 2. 0. 2. 0. 8. 切り裂く. 0. 1. 4. 6. 4. 2. 0. 2. 0. 3. 0. 22. 配下. 0. 9. 19. 5. 2. 4. 0. 2. 0. 4. 0. 45. 大気. 0. 1. 3. 14. 19. 7. 0. 7. 1. 3. 4. 59. 溶ける. 4. 4. 9. 17. 32. 20. 3. 13. 0. 15. 4. 121. 人差し指. 2. 3. 4. 6. 7. 7. 1. 9. 0. 6. 1. 46. 其方. 0. 0. 5. 1. 0. 1. 0. 2. 0. 2. 2. 13. 小型. 3. 3. 12. 11. 21. 18. 9. 11. 0. 10. 3. 101. 後方. 2. 1. 19. 18. 12. 10. 5. 22. 1. 9. 1. 100. 包帯. 0. 1. 7. 10. 3. 2. 3. 1. 0. 4. 0. 31. 食い込む. 1. 1. 10. 11. 1. 5. 1. 5. 2. 0. 0. 37. 腕時計. 0. 1. 4. 9. 2. 2. 0. 5. 0. 5. 0. 28. 成分. 0. 1. 0. 3. 48. 29. 8. 1. 0. 3. 1. 94. 軍勢. 0. 4. 29. 9. 0. 0. 0. 5. 0. 3. 2. 52. 横顔. 0. 0. 4. 2. 2. 0. 1. 5. 0. 5. 0. 19. 二つ. 12. 7. 10. 50. 42. 27. 11. 21. 10. 0. 11. 201. 特徴語. 拾い上げる. 0. 2. 3. 6. 1. 3. 1. 2. 1. 9. 1. 29. 突き止める. 2. 11. 16. 18. 24. 3. 3. 1. 0. 10. 0. 88. 大喜び. 1. 0. 5. 12. 4. 2. 3. 10. 1. 8. 2. 48. 爪先. 0. 0. 6. 2. 3. 7. 1. 12. 0. 3. 0. 34. 車両. 0. 1. 16. 7. 1. 6. 24. 4. 2. 2. 0. 63. 民主主義. 7. 10. 31. 104. 3. 3. 3. 10. 1. 11. 2. 185. 失礼する. 3. 0. 3. 5. 0. 0. 3. 5. 0. 4. 1. 24. 案の定. 3. 4. 10. 18. 6. 1. 3. 14. 0. 6. 0. 65. 我が家. 11. 5. 23. 49. 15. 19. 17. 20. 3. 53. 2. 217. 御会いする. 3. 7. 10. 12. 1. 5. 2. 8. 2. 15. 1. 66. 御宅. 2. 2. 4. 14. 1. 9. 2. 11. 1. 13. 1. 60. 事物. 7. 17. 9. 19. 10. 2. 2. 15. 2. 12. 0. 95. 表11 客観度の特徴語・反特徴語の使用サンプルのNDCコード第1次区分分類(全体合計) NDCコード第1次区分 客観度 反特徴語 全28語 特徴語 全7語 全 5,901サンプル. 0 総記 31 36 185. 1 哲学 65 45 434. 2 歴史 234 90 890. 3 社会 科学 284 221 1,673. 4 自然 科学 314 36 516. 5 技術・ 工学 222 39 467. 6 産業 89 32 296. 7 芸術・ 美術 181 83 651. 8 言語 21 9 116. 9 文学 133 114 592. 空欄 41 7 81. 計 1,615 712 5,901. 11.
(13) 馬 場 俊 臣. 図5 客観度の特徴語・反特徴語の使用サンプルのNDCコード第1次区分分類(百分率). 図6 客観度の特徴語・反特徴語の使用サンプルのNDCコード第1次区分分類(全体合計)(百分率). 12.
(14) BCCWJ文体情報の各文体指標の特徴語. これらの図表から,反特徴語は全体的に「4 自然科学」及び「5 技術・工学」のサンプルでの使用が相対 「御会いする」 「我が家」で若干「9 文学」のサンプルでの 的に多いことが分かる11。一方,特徴語は「御宅」 使用が相対的に多いようだが,全体的に一貫して傾向は見出しがたい。 以上のように,客観度平均値が相対的に低い語(反特徴語)は「4 自然科学」及び「5 技術・工学」のサ ンプルでの使用が相対的に多く,一方,客観度平均値が相対的に高い語(特徴語)は一貫した目立った特徴 を指摘しがたい。 反特徴語の「海面」の用例を例示しておく。 (5) 海洋性エーロゾルは, 海面に生じた泡の破裂から生まれたものである。(NDCコード第1次区分「4 自然科学」 LBg4_00039 『微粒子が気候を変える』) (6) 旧利根川デルタの海面は引いても,河口のあたりは,湿地帯や入り組んだ水路,沼沢などになっ ており,適当な港もつくりにくい。(NDCコード第1次区分「5 技術・工学」 LBg5_00013 『江 戸東京まちづくり物語』). 5. まとめ 『BCCWJ図書館サブコーパスの文体情報』の各文体指標の値を利用した「専門度平均値」 「客観度平均値」 「硬度平均値」 「くだけ度平均値」は語の文体差の尺度として利用することができる。本稿では,「専門度平 均値」 「客観度平均値」「硬度平均値」「くだけ度平均値」に基づいて,各指標の特徴語・反特徴語を抽出し, その性質を分析した。 特徴語とは他の指標の平均値に比べて相対的に高い平均値となっている語のことである。各指標は,値が 大きいほどその性質を持たないことを表すため,例えば,専門度の特徴語は,より専門的な内容でないサン プルで使われやすい語であることを表す。逆に,反特徴語とは他の指標の平均値に比べて相対的に低い平均 値となっている語のことである。例えば,専門度の反特徴語は,より専門的な内容であるサンプルで使われ やすい語であることを表す。 本稿では,対数尤度比を用いて,特徴語,反特徴語を抽出し,便宜的に対数尤度比が2以上の語を「特徴語」, -2以下の語を「反特徴語」と見做して分析を行った。 専門度は反特徴語が9語,特徴語が19語あり,客観度は反特徴語が28語,特徴語が7語あった。これに対 して,硬度,くだけ度はそれぞれ反特徴語が2語,特徴語が3語と少ない。硬度,くだけ度は4種類の指標 のいわば平均像を表すと見ることができることを指摘した。 さらに,専門度及び客観度の反特徴語,特徴語が用いられているサンプルの性質を分析し,次のような違 いがあることを指摘した。専門度の反特徴語(より専門的である)は「「1」= 教養」及び「「3」= 専門」 のサンプルでの使用が相対的に多く,特徴語(より専門的でない)は「「8」= 児童」又は「「0」= 一般」 (特に「2 歴史」「9 文学」)のサンプルでの使用が相対的に多い。客観度の反特徴語(より客観的である) は「4 自然科学」及び「5 技術・工学」のサンプルでの使用が相対的に多く,客観度の特徴語(より客観的 でない)は一貫した目立った特徴は見出せない。 以上のように,「専門度平均値」「客観度平均値」「硬度平均値」「くだけ度平均値」は相互に強い相関があ るが,その中でも,専門度,客観度は,販売対象となる読者の違いやジャンルの違いの影響が僅かではある が見られることが本稿の分析で明らかになった。 11 「拳銃」「軍勢」などいくつかの語は例外となる。. 13.
(15) 馬 場 俊 臣. 参考文献 Dunning, T. (1993) Accurate methods for the statistics of surprise and coincidence. Computational Linguistics, 19(1), pp.61-74. Kilgarriff, A. (2001) Comparing corpora. International Journal of Corpus Linguistics, 6(1), pp.97-133. 石川慎一郎(2012)『ベーシック コーパス言語学』,ひつじ書房. 小木曽智信(2015) 「中古和文における文体別の特徴語」近藤泰弘・田中牧郎・小木曽智信(編) 『コーパスと日本語史研究』, ひつじ書房,pp.93-117. 柏野和佳子(2013)「書籍サンプルの文体を分類する」 『国語研プロジェクトレビュー』4(1),国立国語研究所,pp.43-53. 国立国語研究所(2015)『BCCWJ図書館サブコーパスの文体情報』 (第1版) . (http://pj.ninjal.ac.jp/corpus_center/anno/) (BCCWJ_LB_Stylistics-1.0.zip) 国立国語研究所コーパス開発センター(2015)『『現代日本語書き言葉均衡コーパス』利用の手引 第1.1版』 . (http://pj.ninjal. ac.jp/corpus_center/bccwj/doc.html) 馬場俊臣(2018a) 「『BCCWJ図書館サブコーパスの文体情報』を利用した語の文体差研究の可能性」 『言語資源活用ワークショッ プ2018発表論文集』,国立国語研究所コーパス開発センター,pp.240-255. 馬場俊臣(2018b)「接続詞の文体差の計量的分析の試み――『BCCWJ図書館サブコーパスの文体情報』を用いて―」『北海 道教育大学紀要 人文科学・社会科学編』69(1),北海道教育大学,pp.1-14. 宮島達夫(1977)「単語の文体的特徴」松村明教授還暦記念会(編)『松村明教授還暦記念 国語学と国語史』,明治書院, pp.871-903. 宮島達夫・近藤明日子(2011)「古典作品の特徴語」『計量国語学』28(3),計量国語学会,pp.94-105. 謝辞 本研究はJSPS 科研費JP16K02715の助成を受けたものである。. . 14. (札幌校教授).
(16)
関連したドキュメント
成績 在宅高齢者の生活満足度の特徴を検討した結果,身体的健康に関する満足度において顕著
この論文の構成は次のようになっている。第2章では銅酸化物超伝導体に対する今までの研
「系統情報の公開」に関する留意事項
図 21 のように 3 種類の立体異性体が存在する。まずジアステレオマー(幾何異 性体)である cis 体と trans 体があるが、上下の cis
生活のしづらさを抱えている方に対し、 それ らを解決するために活用する各種の 制度・施 設・機関・設備・資金・物質・
吹付け石綿 (レベル1) 、断熱材等 (レベル2) が使用されて
トン その他 記入欄 案内情報のわかりやすさ ①高齢者 ②肢体不自由者 (車いす使用者) ③肢体不自由者 (車いす使用者以外)
吹付け石綿 (レベル1) 、断熱材等 (レベル2) が使用されて