助詞の使用度数と結合価に関する 計量的分析方法の検討
真田 治子
【要旨】
特定の言語資料における助詞の使用度数を使った研究は,国語研究所(
1964
)『現代雑誌九十種の用語用字』,宮島達夫(
1994
)『語彙論研究』,石綿敏雄(1999
)『現代言語理論と格』,荻野孝野他(
2005
)らのEDR
コーパスから作成した「日 本語動詞の結合価」を使った研究などで進められてきた.この他,格文法や結合 価文法などの文法理論,コロケーションの研究,日本語教育,自然言語処理の諸 分野でも多くの関連した研究がある.本研究では散文,結合価データベース,国立国語研究所『現代日本語書き言葉 均衡コーパス』(
BCCWJ
)の3
つの資料において6
つの動詞が伴う助詞の使用頻 度を結合価の分布の観点から分析した.その結果,ある動詞について出現する格 助詞の種類や頻度の分布の全体像は3
つの資料である程度似た傾向が認められた.また主格が出現するか省略されるかについても動詞によってある程度似た傾向が 認められた.時・場所など基本的な情報を示す助詞は結合価に関わらずどの動詞 でも出現する可能性があるが,その中でも助詞同士の共存や反発はあるのかを今 後確認する必要がある.日本語の助詞には多様な用法があり,主語と目的語の両 方に使うもの,主題と主語を兼ねるもの,「も」のようにどの助詞とも交替可能な ものなどがある.計量的な分析にはこのような助詞の扱いにも考慮する必要があ る.
【キーワード】
助詞,動詞,使用頻度,結合価,コロケーション,現代日本語書き言葉均衡コーパス(
BCCWJ
),現代日本語1. はじめに
現代日本語においてどの動詞がどのような助詞を伴うかについては文法論,構 文論,日本語教育などで多くの先行研究がある.文法的に正しいかどうかだけで なく,例えば「に」と「へ」は使い分けの上での意味的な違いや話者の出身地の 問題と関わることもある.
しかし実際に,ある動詞の下でどの助詞がどのくらいの頻度で出現しているか についての計量的な調査は管見ではそれほど多くはない.例えば「会う」という 動詞は「新宿で山田くんに会った.」のように「で」や「に」を伴うが,このよう な構文では会う対象を示す「に」1に比べると場所を示す「で」の出現率はやや低 いのではないかと考えられる.これは動詞と助詞の結びつきという観点から見て,
「会う」という動詞との結びつきは「に」と比べるとやや弱いともいえるし,情報 の重要性という観点からみて「会う」対象よりも「会う」場所の方が重要度が低 いともいえる.たとえばドイツ語の格と異なり,日本語では格を示すのに格助詞 を伴うことが多いのでこれを「動詞と助詞の共起」という範疇で扱うこともでき る.また宮島氏はこのような問題を「係り受けの共存度」の問題ととらえた(国 立国語研究所
1964,
宮島1994c
).このように助詞の分布の事象をどう意味づけするかという問題もあるが,本研 究ではある動詞が文法上とり得る助詞,特に格を示す助詞についてその使用頻度 との関わりを計量的な分析を視野に入れて考察したい.
まず結合価理論を中心とした日本語学の研究や自動翻訳を目的とした自然言語 処理の研究など関連の先行研究を参照して本研究の位置づけを行う.動詞との関 わりで助詞の分布について計量的な分析を行っている研究のうち,宮島氏の研究
(国立国語研究所
1964,
宮島1994a, 1994b, 1994c
),結合価理論に基づいて構築1 このほか「…に
(会う)」では「昼に会う」というような時を表す用法などもある.
された辞書をデータに用いた
Köhler
(2012
),石綿氏による一連の日本語の結合 価研究と,それを自然言語処理での同音異表記判別に反映した荻野(孝)・小林・井佐原(
2003
),荻野(孝)・木村・吉田・小林・井佐原(2005
)を特に参考にし た.さらに
2012
年6
月15
日に公開された国立国語研究所「NINJAL-LWP for
BCCWJ
(NLB
)」を使った検索結果などで6
つの動詞と助詞の分布に関する分析を行う.
2. 助詞と結合価に関わる先行研究と本研究の位置づけと目的
動詞と助詞の関係を論じた研究の中でも,計量言語学や自然言語処理研究に取 り入れられた理論の一つとして結合価理論が知られている.「結合価」はもともと 化学の用語で,フランスの言語学者テニエールが
1959
年に発表した(Tesnière
1959, 1988
).石綿らによればある原子が他のいくつかの原子と結びついて分子をつくる考え方を,動詞がいくつかの成分を伴うことに応用したもので,その後 この理論はドイツに入って発達したという(石綿・荻野(孝)
1983a,
石綿1999
)2. この「成分」には必須のものと随意のものがあるが,その境界は様々な考え方が あるようである.また成分の範囲を格に限定するかその他の状況的な成分に拡張 するかについても議論があるとされている.ここでは日本語における結合価理論研究と関連分野の先行研究についてみてい く.先行研究は日本語学・言語学と自然言語処理研究で並行して互いに参照しな がら発達してきたといえる.これらの研究は研究の着眼点や対象によって以下の ようなタイプに分類できる.
①理論を概説した文献
②文法理論構築,辞典作成のための研究および辞典類
③共起関係や結合価パターンを利用した研究
2 結合価理論は動詞から形容詞や名詞に拡張されている
( Sommerfeldt & Schreiber 1974,
1977
など)がここでは動詞についてとりあげる.④係り受け・語順・構文解析に関する研究
⑤助詞の意味分類や結合価辞書のパターンの拡張に重点を置いた研究
⑥対照言語学的研究・外国語研究
2‒1. 助詞と結合価に関わる先行研究
①理論を概説した文献
テニエールの著作は近年小泉保によって翻訳された(テニエール・小泉保訳
2007
).結合価理論とそれに関連した研究を紹介したり概要を説明した文献には,上述の石綿・荻野(孝)
1983a
,石綿1999
,石綿氏の『計量国語学』掲載の書評(
1981, 2010, 2011
)の他,ドイツ語学の見地から西本(1977
),コロケーション 研究との関わりから荻野(綱)・荻野(孝)(2007
)及び木村(2007
)がある.②文法理論構築,辞典作成のための研究および辞典類
日本語に結合価理論を取り込む研究では仁田氏(
1973, 1974
)の研究が比較的 早く,また石綿氏の一連の研究(石綿1983,
石綿1998,
石綿1999,
石綿・荻野(孝)
1983a,
石綿・荻野(孝)1983b
)は自然言語処理の研究にも影響を与えた.こ のほか丸山1990
,国立国語研究所1997
,小泉2007
も日本語に結合価理論の考 え方を適用する研究を行っている.この結合価理論を含む様々な文法理論を背景に,日本語の動詞はどのような格 助詞を伴うかという研究も行われ,成果は「辞書」という形でまとめられた.小 泉らの『日本語基本動詞用法辞典』(小泉・船城・本田・仁田・塚本
2000
),ドイ ツの日本学研究者のRickmeyer
氏による『Kleines japanisches Valenzlexikon
』(
2008
),自然言語処理の分野では『日本語動詞の結合価』(荻野(孝)・小林・井 佐原2003
)がある.『日本語動詞の結合価』は,EDR
電子化辞書の共起辞書とそ の元データのコーパスを使って,動詞がどのような結合価をとるかを検索できる ようにしたものである.これらは理論としての研究成果であると同時に,日本語 学では日本語教育への応用,自然言語処理では自動翻訳や構文解析への応用を考 慮して作成されたものである.池原悟氏らによる『日本語語彙大系』(池原・宮崎・白井・横尾・中岩・小倉・
大山・林・
NTT
コミュニケーション科学基礎研究所1997, 1999
)はNTT
の日 英機械翻訳システムのための辞書を元に作られたもので,構文解析に結合価理論 の考え方を導入している.約6,000
語の用言と15,000
件の文型を収録している という.関連の研究には機械翻訳に必要な結合価パターンを探索するものや受動 態の自動翻訳などに関するものがある(白井・池原・横尾・井上1995,
福田・徳 久・村上・池原2010,
吉田・徳久・村上・池原2010
).③共起関係や結合価パターンを利用した研究
理論や辞書の研究では文法上どの動詞がどの格助詞を伴うのが正しいかを検討 しているのに対して,どの動詞がどの格助詞と共起しやすいかという観点からこ の問題をコロケーション研究の一つと位置づけているものもある.村木
2007
で はコロケーション研究の概論の中で結合価理論に触れている.宮島氏の研究(
1994a, 1994b
)は係り受けの研究(国立国語研究所1964
)を発展させ,「行く」「来る」などの移動動詞が出発や到着を示す格とどの程度共存するかを考察してい る.
自然言語処理の分野では,自動翻訳や構文解析のために予め用意した辞書とパ ターンマッチングを行って推定される文型を絞り込んでいく手法が多い(新納・
井佐原
1994,
辻・安藤・獅々堀・青江1996,
足立・牧野2000,
野口・滝川・徳久2011,
村上・乾・橋本・内海・石川2007
).動詞とその結合価を記述した辞書もこのような研究で使われている.効率よく,よりよい精度で絞り込みを行うため に様々な研究がなされている.
頻度の情報も活用した研究は多くはないが,荻野(孝)・植田・小林・井佐原
(
2005
)では動詞と結合価のパターンマッチングに加え,結合価の出現頻度を「〜で会う/合う」のような同音異表記の識別に用いている.また足立・牧野
2000
は日経新聞のコーパスを使って「に向け」「に伴い」などの格助詞相当句と動詞と の共起頻度を使って動詞の分類を試みている.④係り受け・語順・構文解析に関する研究
宮島氏は現代雑誌九十種のデータや川端康成の作品を用いて,頻度と文中での
位置から係り受けの距離やその共存の度合い,語順について考察している(国立 国語研究所
1964,
宮島1994c
).近藤・山下2010
は国立国語研究所の『日本語話 し言葉コーパス(CSJ
)』を用いて「に」と「を」が共起する文章での両者の出現 の順番を調査している.また徳永・田中1991
,徳永2000
では結合価辞書を使っ て助詞の出現順序の推定を試みている.竹信らは「住宅を失った被災者の支援」「廃棄物を積んだ英国の輸送船」のような,「
V
+A
のB
」の形式の係り受けの関 係の区別を自動化するために結合価パターンとのマッチングを行っている(竹信・徳久・村上・池原
2004
).このほか自然言語処理の分野では結合価情報を構文解析に利用する研究がみら れる(奥
1998
,竹内・荒木・栃内1999
など).たとえば日本語では主格のない文 はしばしば見られるが英語では主語は必須であるため,関・藤井・石川2002
で は自動翻訳の前処理として省略された格を結合価情報を使って補う研究がなされ ている.⑤助詞の意味分類や結合価辞書のパターンの拡張に重点を置いた研究
助詞の理論的研究の一環として,あるいは国語辞書,日本語教育,自然言語処 理のための辞書の整備に役立てることを想定した助詞の用法の研究も多数行われ てきた.
丸山氏は国立国語研究の『現代日本語書き言葉均衡コーパス』(
BCCWJ
)を 使って助詞の用法をその頻度別に分析し,従来の辞書の記述の見直しを行ってい る(2010, 2011
).大石・松本
1995
は自然言語処理用の格パターン辞書を使った動詞の用法の使 い分けについて研究している.金出地・徳久・村上・池原2004
は格パターン辞 書を使った自動翻訳の精度を翻訳家の翻訳と比較して辞書の精度の検証を行って いる.荻野(孝)・木村・吉田・小林・井佐原2005
は結合価辞書の整備のため詳 細な意味分類を行っている.この研究は『日本語動詞の結合価』(荻野(孝)・小 林・井佐原2003
)に続くものといえよう.⑥対照言語学的研究・外国語研究
結合価文法がドイツで発達したことを反映して,ドイツ語学や英語学の立場か らの,あるいは日本語との対照的な研究も行われている.この分野に属する研究 としては北林氏(
1990
),成田氏(1994, 2002, 2003
),橋本氏(2001
),三浦氏(
2004, 2005
),湯淺氏(2006, 2007
)の論考などがあるがいずれも計量的な分析 ではなく記述的な分析が主体となっている.2‒2. 本研究の位置づけと目的
日本語の,特に動詞がどのような格をとり得るかということについては,文法 論,辞書論,日本語教育,自然言語処理など多方面から研究が進められてきた.
これは日本語の規範的な文法規則をより厳密にとらえる研究といえる.
その一方で,計量的な研究の重要性も指摘されている.石綿氏は宮島氏の一連 の研究を参照して以下のように述べている.
格の数という問題とともに、ある述語にたいしてどういう格がどのくらいあ らわれるかということを計量的に調べる(中略)ことは必要であり、重要な意 味をもつ。(石綿
1999: 132
)宮島氏はこの問題に
1960
年代から取り組んでおり,格支配の量的側面の研究 の必要性について頻度と範囲の両面から以下のように述べている.ある動詞が,たんにある格とむすびつく,というだけでなく,どの程度ひん ぱんに,あるいは,まれに,むすびつくか,ということをあきらかにする必 要があるだろう。(宮島
1994b: 465
)「どの格を支配することがおおいか」を格支配のパラグマティックな面,「同 時にいくつの格を支配するか」を格支配のシンタグマティックな面というこ ともできるだろう。(宮島
1994a: 438
)動詞と共起する成分について理論上の結びつきと頻度としての結びつきを区別
する考え方についても以下のように言及している.
共起関係のつよいものを『典型成分』,よわいものを『例外成分』とよぶこと もできるだろう。これは,必須・随意の区別とちがって,純粋に量的なちが いである。(中略)その程度のつよさの測定が必要である。(宮島
1994a: 438
)さらに宮島氏はこの問題を広い視点から,係り受けの問題,(「共起」だけでな く)「共存と反発」の問題としてもとらえている.
どんな〈かかり〉とどんな〈かかり〉とは共存しやすいか,ということにはあ る傾向があるはずである。(国立国語研究所
1964: 238
)(かかりの共存度について)結びつきの比較的ゆるいものとかたいものとのち がいがあらわれている。(国立国語研究所
1964: 239
)格支配の計量的な研究については以上のような問題が予見され,これまで人手 で処理できる範囲で検証されてきた.宮島氏はこの問題についてまた次のように も述べている.
辞典としては,ある動詞の結合能力,その可能性だけを記述しておけば,そ れでじゅうぶんだろう。しかし,能力とはべつに,ある動詞が,ある成分と,
現実にどのくらいよく共起するか,という問題もある。これは,これはあく まで現象的,量的な事実である。(宮島
1994a: 437
)「現象的,量的な事実」というのは前の文脈の理論研究に対する位置づけである が,宮島氏は「ある傾向があるはず(国立国語研究所
1964: 238
)」とも述べてお り,その法則性を予見していると思われる.これまでこの分野の研究があまり進められてこなかったのは,この問題を検証 するためには係り受け解析済みの言語データが一定量必要だということが大きい.
語彙表や前後の文脈を示した
KWICK
索引,同一文中の共起のためだけのサーチではこの問題は検証できない.荻野(孝)他
2005
も以下のように述べている.動詞の結合価に関する検討は,各動詞の基本的な格パターンに着目して結合 価を決定することを中心として検討されてきた.しかし,省略も含め,結合 価が実際の言語データでどういう形で出現しているかについて,全容を示す ようなものは報告されていない.(荻野(孝)・植田・小林・井佐原
2005: 63
)近年,このような研究の資料として適当と思われるものが出てきた.『日本語動 詞の結合価』(荻野(孝)・小林正博・井佐原均
2003
)は係助詞「は」「も」を意味 上対応する格助詞に配置したり,目的格を示す格助詞「が」を「を」に,主格を 示す格助詞「の」を「が」に配置するなど,格助詞の頻度を示すだけでなく文脈 を考慮して人手で修正を行っている.国立国語研究所『現代日本語書き言葉均衡コーパス
BCCWJ
』に対応したオンライン検索システム「NINJAL-LWP for
BCCWJ
」(NLB
)(2012
年6
月発表)では上記のような修正は行われていない が,動詞と格助詞の共起関係と頻度のについて検索することができる.電子化テ キストの係り受け解析のソフトも発表されており,京都大学・NTT
で開発され た形態素解析器Mecab
と奈良先端科学技術大学院大学で開発された係り受け解析
Cabocha
の組み合わせ,あるいは京都大学で開発された形態素解析器Juman
と係り受け解析
KNP
の組み合わせなどがある.結合価理論が誕生したヨーロッパでも結合価の分布に関する計量的な研究はま だそれほど進められていない.その中で
Köhler2012
は諸言語で結合価の計量的 な調査を始めており,Helbig & Schenkel
(1969, 1983
)のドイツ語動詞の結合 価辞書を使って動詞がとり得る結合価の数の分布を分析したり,ロシア語のコー パスを使って実際に出現する結合価の分布を分析したりしている.筆者は上述の石綿・宮島・荻野(孝)・
Köhler
の諸研究を参考に,この格支配 の量的問題のうち以下のような点について,コーパスなどを使って一定の法則化 を目指したいと考えている.●動詞は理論上定義された格を常に一様にとる訳ではなく,出現の頻度は格によっ て異なる.
●文法上の必須の格・随意の格という区分と,出現頻度の多少とは必ずしも一致 しない.
●格同士はその出現状況に共存しやすい,あるいは反発しやすい組み合わせがあ る.
●動詞によって理論上定義された格の中でも,実際の使用においては同時にとり 得る格の数は異なり,広くとるものとそうでないものとがある.
●動詞によって,頻度の多い格の組み合わせと少ない組み合わせがある.
3. 助詞の使用頻度についての調査
3-1. 調査の概要
格支配の量的な問題の試験的な調査として,「人生論ノート」(三木
1941, 1995
) をデータとして,同じ文・同じ節の中で「会う」「動く」「破る」「生まれる」「動 く」「与える」の6
つの動詞にかかる格助詞について,使用頻度と分布の調査を 行った.比較のため『日本語動詞の結合価』(荻野(孝)・小林・井佐原2003
)お よびオンライン検索システム「NINJAL-LWP for BCCWJ
」(NLB
)を使った 国立国語研究所『現代日本語書き言葉均衡コーパスBCCWJ
』でも同じ6
つの動 詞について調査を行った.「人生論ノート」は,『新潮文庫の
100
冊CD-ROM
版』(新潮社1995
)に収め られている作品の中で,会話文を含まず現代日本語で書かれており,形態素解析 器で処理しやすいことから採用した.形態素解析器Mecab
と形態素解析用辞書UniDic
を使った解析の後,人手で誤りを修正し,異なり2,322
語(付属語・英数字を含む,記号含まず),延べ
41,816
語(付属語・英数字を含む,記号含まず)を 得た.複合動詞か否かの認定は形態素解析器Mecab
の結果に従っている.調査対象とした「会う」「動く」「破る」「生まれる」「動く」「与える」の
6
つ の動詞は,補助動詞的な用法を持たず形態素解析器Mecab
が「動詞-
一般」と分 類した動詞412
語のうち,「あげる」(授受動詞と移動)のような多義でないもの,「人生論ノート」である程度使用度数を持つもので,とり得る格を比較的想定しや すいと思われるものを試験的に選んだ.表
1
には「「人生論ノート」使用度数20
以上の動詞(「動詞
-
一般」に分類されたもの)と今回調査対象とした動詞」を示 した.『日本語動詞の結合価』では助詞は「は・が・を・に・へ・から・より・まで・
で・と・その他」に分類されている.出現語形をそのまま計上するのではなく文 脈上の働きを考慮した修正が加えられており,係助詞「は」のうち主題と主語を 兼ねるものは「が」に配置されている.また格助詞「の」が意味上の主語を示す ものは「が」に,格助詞「が」が意味上の目的語を示すものは「を」に配置され ている.係助詞「も」はその文脈上の意味に応じていずれかの助詞に配置されて いる.「人生論ノート」ではこの『日本語動詞の結合価』の助詞の分類に従って調 査対象を定めた.また係助詞「は・も・の」は『日本語動詞の結合価』に倣って 文脈上の意味に従って各助詞の度数に計上した.目的語を示す「が」の用例は今 回はなかった.「
NLB
」では助詞「は・が・を・に・へ・から・より・まで・で・と・の・も」を検索対象としているが,『日本語動詞の結合価』のような修正処理 は行わず出現語形の度数をそのまま計上している.また「
NLB
」は係り受け解析器
Cabocha
を解析に使用しているが,結果の分析にあたっては解析ミスも考慮する必要がある.
頻度分布の結果との比較のため,
6
つの動詞に関する結合価の辞書群の記述を 抜粋し,表2
「日本語用言の結合価」(石綿・荻野1983b
),表3
『Kleines japa- nisches Valenzlexikon. 2nd edition.
』(Rickmeyer 2008
),表4
『日本語基本動表 1
「人生論ノート」使用度数 20 以上の動詞と今回調査対象とした動詞 (
*印)動詞 度数 動詞 度数 動詞 度数 動詞 度数
言う
514
作る46
反する25
働く* 17
於く237
取る46
求める22 ……
拠る
140
生ずる46
愛する20
生まれる* 10
考える135
従う42
失う20 ……
対する
87
感ずる37
動く* 20
破る* 8
持つ75
示す36
入る20 ……
就く
73
出る35
与える* 20
会う* 7
知る71
生きる35 ……
叱る
48
思う27
詞用法辞典』(小泉ほか
2000
),表5
「計算機用日本語基本辞書IPAL
」として論 文末尾に掲げた.一般に言語理論や言語学習のための辞書よりも,自動翻訳の訳 し分けなどの精度を上げるため自然言語処理で使われる辞書の方がそれぞれの動 詞について細かく分類する傾向がみられる.このような辞書は電子媒体で,紙面 の制約がないということも関係があろう.3‒2. 助詞の頻度分布の結果
今回の調査結果とこれらの辞書群を比較したところ,全般的に次のような特徴 がみられた.
●ある動詞について出現する格助詞の種類や頻度の分布の全体像は,
3
つの資料 である程度似た傾向が認められる.例えば「会う」の場合,「と」も「に」も両方 出現するが,「と」よりも「に」の方が多い.どのくらいの比率で分布するかにつ いては今後まだ検討が必要である.●動詞の用例数に対して,主格「が」(「は」を含む処理をしている場合もある)
が出現するか省略されるかについても,その動詞によってある程度似た傾向が認 められる.「を」「に」など目的格をとるものはとらないものに比べて,用例数に 対して主格「が」の出現の度合いがやや低い傾向がみられる.これは例えば「〜
が〜に会う」という文であれば対象を示す「に」を提示すれば,文脈上主格は明 示しなくても読み取れるということもあるかもしれない.またすぐ前の文脈で提 示されているなど,省略できる主格であっても「を」「に」などの他の格成分を必 須の成分としてとらない動詞(いわゆる自動詞)では文体の調子を整えるために主 格を省略しない場合も考えられる.
●期間や区間を示す「から」「より」「まで」,副詞的成分につく「に」などは動詞 の意味・用法に関わらず,どのような内容の文でも一定量出現する可能性がある.
このような全般的な情報を持った成分と助詞の出現はどの程度か,他の成分と反 発して出現しない条件はあるのか,なども今度確認する必要がある.
●「
NLB
」の検索結果では,辞書に記述された格以外に多様な用例がみつかった.これらも格の使用度数に含まれていることを考慮して今後分析する必要がある.
●『日本語動詞の結合価』では上述のような,意味・用法上の修正が加えられて助
詞が配置されているが,これはいわば規範的な分布であるといえる.一方,「
NLB
」 の検索結果は未修整で,解析誤りも含んではいるものの現実の日本語における分 布である.この違いはどの程度あるのか,また今後の調査では修正を加えた方が よいのかどうか慎重に検討する必要があろう.助詞の頻度分布は動詞別に,さらに「人生論ノート」『日本語動詞の結合価』
「
NLB
」の検索結果の3
つの資料別に図1
から図18
に示した.助詞「は・も・が・の」の扱いについては,「人生論ノート」『日本語動詞の結合価』は修正済で,
一方「
NLB
」の検索結果は未修整である.以下,「
NLB
」の用例とともに動詞別に考察を行う.用例は話し言葉的な表現 を含まない,書籍のコーパスから引用した.①会う(図
1
〜3
)動詞「会う」の場合は,辞書群では会う対象を示す「に/と」があがっている.
調査では「に」の方が「と」より頻度が高く,その他に「で」が共起することが 多い.「
NLB
」では「を会う」が33
例あがっているが,係り受けの解析誤りまた は「(人)を会わせる」の形式での使用だった.時を示す「に」が対象の「に」と 共起する文(例1
),副詞的成分の「に」が出現する文(例2
),人数を示す「で」が場所の「で」と共起する文(例
3
),理由を示す「で」と共起する文(例4
),対 象を示す「に/と」がなく時を示す「に」と「で」が出現する文(例5
)がみられ た.例
1
そして火曜日に,医者に会う.(北方謙三著『罅・街の詩』,2001, 9
文 学)例
2
久しぶりに会った友人は,みんな同じ科白を口にする.(北方謙三著『帰 路』,1988, 9
文学)例
3
とにかく三人で銀座で会った.(田口ランディ著『スカートの中の秘密の 生活』,2001, 3
社会科学)例
4
友人の紹介でパトナム社のウィリアム・ターグに会った.(常盤新平著『マ フィアの噺』,1993, 3
社会科学)ெ⏍ㄵ䝒䞀䝌⤎ྙ౮ 䐖ఌ䛌 ౚᩝᩐ䠉
㻓 㻖
㻓 㻙
㻓 㻓 㻓 㻓 㻓
㻔 㻖
㻓 㻔 㻕 㻖 㻗 㻘 㻙
図 1
「人生論ノート」の動詞「会う」の結合価頻度分布
(助詞「は・も・が・の」修正済)
ᮇㄊິペ䛴⤎ྙ౮ 䐖ఌ䛌 ౚᩝᩐ㻕㻗㻖
㻓 㻜㻜
㻓 㻔㻕㻔
㻓 㻓 㻓 㻓
㻛㻚 㻛㻖 㻚㻔
㻓 㻕㻘 㻘㻓 㻚㻘 㻔㻓㻓
図 2
『日本語動詞の結合価』の動詞「会う」の結合価頻度分布
(助詞「は・も・が・の」修正済)
㻱㻯㻥⤎ྙ౮ 䐖ఌ䛌 ⏕ౚᩐ㻛㻔㻕㻚
㻘㻙㻙 㻘㻕㻕 㻖㻖
㻕㻏㻕㻛㻙
㻜 㻙㻜 㻔㻗 㻗㻚 㻔㻏㻔㻖㻚㻔㻏㻓㻖㻘
㻔㻓 㻕㻗㻛 㻓
㻘㻓㻓 㻔㻓㻓㻓 㻔㻘㻓㻓 㻕㻓㻓㻓
図 3
「NINJAL-LWP for BCCWJ」を使った
『現代日本語書き言葉均衡コーパス (BCCWJ)』の
動詞「会う」の結合価頻度分布(助詞「は・も・が・の」未修正)
例
5
月曜日に,マルセル・ポーメルの葬儀のあとで会うことにします(ジャン= フランソワ・ルメール著;長島良三訳『恐怖病棟』,1997, 9
文学)②働く(図
4
〜図6
)動詞「働く」の場合は調査では「を」「に」「で」「から」「と」などが共起デー タとして出ており,特に「で」はかなりの頻度であがっている.「に」も「で」に 次いで多い.「に」については,連体修飾節の中で場所を示すもの(例
6
),副詞 的成分(例7
),時を示すもの(例8
)が見られた.「を」については,不正・悪事 を働くという例,解析誤りの他に,期間を示すもの(例9
)が見られた.例
6
こういう環境の中では,クリスチャンであることは,会社に働く人(中略)に求められている素質として,非常に尊敬され,信頼されるのが現実です.
(山崎龍一著『クリスチャンの職業選択』,
2004, 1
哲学)例
7
ニコチンによって脳細胞は活発に働くのですが,一方で脳の血流は下がり ます.(川島隆太著『5
分間活脳法』,2004, 4
自然科学)例
8
この二人は,ぼくが学生時代に働いていた精神病棟やアル中患者病棟で,(以下略)(今福竜太ほか編『旅のはざま』,
1996, 9
文学)例
9
1
ヶ月の夏のヴァカンスのために残り11
ヶ月を働く,などと言われるフ ランス人であるが,(大村敦志著『フランスの社交と法』,2002, 3
社会科 学)③破る(図
7
〜図9
)対象を示す「を」,手段を示す「で」の他に副詞的成分を示す「に」と共起する 例が見られた(例
10
).例
10
かと言って,いったん約束したことを簡単に破るのも嫌だ.(ゆらただし 著『保津の夜明け』,2003, 9
文学)ெ⏍ㄵ䝒䞀䝌⤎ྙ౮ 䐗഼䛕 ౚᩝᩐ㻔㻚
㻓 㻔㻔
㻕 㻗
㻓 㻕
㻓 㻓 㻔
㻓 㻔 㻓
㻕 㻗 㻙 㻛 㻔㻓
図 4
「人生論ノート」の動詞「働く」の結合価頻度分布
(助詞「は・も・が・の」修正済)
ᮇㄊິペ䛴⤎ྙ౮ 䐗഼䛕 ౚᩝᩐ㻖㻖㻙
㻓 㻕㻕㻙
㻔 㻛 㻓 㻓 㻓 㻓
㻔㻙㻜
㻔 㻔㻗㻕
㻓 㻘㻓 㻔㻓㻓 㻔㻘㻓 㻕㻓㻓
図 5
『日本語動詞の結合価』の動詞「働く」の結合価頻度分布
(助詞「は・も・が・の」修正済)
㻱㻯㻥⤎ྙ౮ 䐗഼䛕 ⏕ౚᩐ㻛㻓㻜㻔
㻛㻘㻘 㻔㻏㻙㻗㻖
㻕㻗㻖 㻔㻏㻓㻓㻚
㻕 㻔㻔㻓 㻔㻛 㻔㻗㻓 㻕㻏㻔㻙㻚
㻗㻙 㻔㻗㻜 㻕㻛㻗 㻓
㻘㻓㻓 㻔㻓㻓㻓 㻔㻘㻓㻓 㻕㻓㻓㻓
図 6
「NINJAL-LWP for BCCWJ」を使った
『現代日本語書き言葉均衡コーパス (BCCWJ)』の
動詞「働く」の結合価頻度分布(助詞「は・も・が・の」未修正)
㻱㻯㻥⤎ྙ౮ 䐘◒䜑 ⏕ౚᩐ㻔㻖㻜㻙
㻔㻕㻘 㻕㻔㻔
㻛㻙㻜
㻔㻓㻛
㻓 㻔㻗 㻔 㻚 㻔㻗㻓
㻚 㻚 㻕㻕 㻓
㻔㻘㻓 㻖㻓㻓 㻗㻘㻓 㻙㻓㻓 㻚㻘㻓
図 9
「NINJAL-LWP for BCCWJ」を使った
『現代日本語書き言葉均衡コーパス (BCCWJ)』の
動詞「破る」の結合価頻度分布(助詞「は・も・が・の」未修正)
ெ⏍ㄵ䝒䞀䝌⤎ྙ౮ 䐘◒䜑 ౚᩝᩐ㻛
㻓 㻕
㻚
㻓 㻓 㻓 㻓 㻓 㻓 㻓
㻔 㻓
㻔 㻕 㻖 㻗 㻘 㻙 㻚
図 7
「人生論ノート」の動詞「破る」の結合価頻度分布
(助詞「は・も・が・の」修正済)
ᮇㄊິペ䛴⤎ྙ౮ 䐘◒䜑 ౚᩝᩐ㻘㻔
㻔 㻕㻗
㻘㻓
㻓 㻓 㻓 㻓 㻓
㻜 㻓 㻗 㻓
㻔㻓 㻕㻓 㻖㻓 㻗㻓 㻘㻓
図 8
『日本語動詞の結合価』の動詞「破る」の結合価頻度分布
(助詞「は・も・が・の」修正済)
④生まれる(図
10
〜図12
)「に/から/で」と共起する例は多いが,「へ」と共起する例も見られた(例
11
).例
11
だが,卵の内部で育ったものは,殻を破り外へ生まれてこなければなり ません.(荒俣宏著『エジプト』,1999, 7
芸術・美術)⑤動く(図
13
〜図15
)「に/へ/で」と共起する例は多いが,その他に「を」と共起する例が見られ た.これは「(特定の場所)を動く+禁止・否定」(例
12
),「(空間・距離・幅)を 動く」(例13
,例14
)の2
つのタイプに分かれた.例
12
そこを動くな.(ジャンバッティスタ・バジーレ原作;杉山洋子,三宅忠 明訳『ペンタメローネ』,1995, 9
文学)例
13
八九,九〇年頃にはシティコープの株価は二〇ドルから三〇ドルの間を動 いていましたが,(以下略)(八城政基著『よみがえれ! 日本企業』,1997, 3
社会科学)例
14
ライラエルはすぐに,その光は空を動く太陽で,あまりの速さに軌跡が ぼうっと見えているのだとわかった.(ガース・ニクス著;原田勝訳『ラ イラエル』,2003, 9
文学)⑥与える(図
16
〜図18
)「を/に」と共起する例が多いが「へ与える」の例も見られた(例
15
).「から 与えられる」という受動態の文型も「NLB
」の検索結果に含まれている(例16
) が,その他に「(時)から与える」(例17
),「(方向)から与える」(例18
)のよう な例も見られた.例
15
(前略)その当時のスキーの服装や社会へ与えた反響などを(中略)語る ことにしたい.(長岡忠一著『日本スキー事始め』,1989, 7
芸術・美術)例
16
神から与えられたサッカーで,私は富を得た.(ジーコ著『ジーコの「勝ெ⏍ㄵ䝒䞀䝌⤎ྙ౮ 䐙⏍䜄䜒䜑 ౚᩝᩐ㻔㻓
㻓 㻗
㻓 㻔
㻓 㻙
㻓 㻓 㻓 㻓
㻖
㻓 㻔 㻕 㻖 㻗 㻘 㻙
図 10
「人生論ノート」の動詞「生まれる」の結合価頻度分布
(助詞「は・も・が・の」修正済)
ᮇㄊິペ䛴⤎ྙ౮ 䐙⏍䜄䜒䜑 ౚᩝᩐ㻖㻕
㻔 㻖㻔
㻓 㻙
㻓 㻔㻖
㻓 㻓 㻕
㻓 㻗 㻓
㻘 㻔㻓 㻔㻘 㻕㻓 㻕㻘 㻖㻓
図 11
『日本語動詞の結合価』の動詞「生まれる」の結合価頻度分布
(助詞「は・も・が・の」修正済)
㻱㻯㻥⤎ྙ౮ 䐙⏍䜄䜒䜑 ⏕ౚᩐ㻜㻗㻘㻚
㻔㻏㻓㻙㻛 㻖㻏㻘㻖㻙
㻔㻖 㻔㻏㻚㻔㻛
㻕㻔 㻔㻏㻓㻕㻙
㻕㻗 㻖㻙 㻜㻚㻖
㻘㻜 㻔㻖㻛 㻖㻔㻙 㻓
㻙㻓㻓 㻔㻏㻕㻓㻓 㻔㻏㻛㻓㻓 㻕㻏㻗㻓㻓 㻖㻏㻓㻓㻓
図 12
「NINJAL-LWP for BCCWJ」を使った
『現代日本語書き言葉均衡コーパス (BCCWJ)』の
動詞「生まれる」の結合価頻度分布(助詞「は・も・が・の」未修正)
ெ⏍ㄵ䝒䞀䝌⤎ྙ౮ 䐚ິ䛕 ౚᩝᩐ㻕㻓
㻓 㻖
㻓 㻓 㻓 㻓 㻓
㻔
㻓 㻓 㻓
㻓 㻔 㻕 㻖
図 13
「人生論ノート」の動詞「動く」の結合価頻度分布
(助詞「は・も・が・の」修正済)
ᮇㄊິペ䛴⤎ྙ౮ 䐚ິ䛕 ౚᩝᩐ㻕㻔㻘
㻖 㻔㻛㻓
㻙 㻘㻔
㻘 㻛 㻓 㻚
㻗㻚
㻔 㻛㻓
㻓 㻗㻓 㻛㻓 㻔㻕㻓 㻔㻙㻓
図 14
『日本語動詞の結合価』の動詞「動く」の結合価頻度分布
(助詞「は・も・が・の」修正済)
㻱㻯㻥⤎ྙ౮ 䐚ິ䛕 ⏕ౚᩐ㻙㻖㻛㻚
㻔㻏㻔㻚㻘 㻔㻏㻛㻛㻓
㻔㻔㻓 㻛㻚㻓
㻚㻓 㻔㻙㻓 㻔㻙 㻗㻗
㻚㻚㻙
㻛㻙 㻚㻗 㻕㻖㻔 㻓
㻗㻓㻓 㻛㻓㻓 㻔㻏㻕㻓㻓 㻔㻏㻙㻓㻓
図 15
「NINJAL-LWP for BCCWJ」を使った
『現代日本語書き言葉均衡コーパス (BCCWJ)』の
動詞「動く」の結合価頻度分布(助詞「は・も・が・の」未修正)
ெ⏍ㄵ䝒䞀䝌⤎ྙ౮ 䐛䛎䜑 ౚᩝᩐ㻕㻓
㻓 㻛 㻛
㻙
㻓 㻔
㻓 㻓 㻔
㻓 㻓 㻓
㻕 㻗 㻙 㻛
図 16
「人生論ノート」の動詞「与える」の結合価頻度分布
(助詞「は・も・が・の」修正済)
ᮇㄊິペ䛴⤎ྙ౮ 䐛䛎䜑 ౚᩝᩐ㻔㻚㻗
㻔 㻚㻜
㻔㻚㻔
㻔㻓㻖
㻓 㻗 㻓 㻓 㻔㻘
㻓 㻖㻙
㻓 㻖㻓 㻙㻓 㻜㻓 㻔㻕㻓 㻔㻘㻓
図 17
『日本語動詞の結合価』の動詞「与える」の結合価頻度分布
(助詞「は・も・が・の」修正済)
㻱㻯㻥⤎ྙ౮ 䐛䛎䜑 ⏕ౚᩐ㻔㻖㻙㻛㻕
㻕㻏㻖㻖㻛㻕㻏㻖㻛㻔 㻛㻏㻙㻘㻖
㻙㻏㻖㻔㻖
㻗㻙 㻖㻜㻖 㻗㻙 㻚㻗 㻛㻕㻛
㻚㻔 㻛㻕 㻖㻖㻜 㻓
㻕㻏㻓㻓㻓 㻗㻏㻓㻓㻓 㻙㻏㻓㻓㻓 㻛㻏㻓㻓㻓
図 18
「NINJAL-LWP for BCCWJ」を使った
『現代日本語書き言葉均衡コーパス (BCCWJ)』の
動詞「与える」の結合価頻度分布(助詞「は・も・が・の」未修正)
利の法則」』,
1995, 7
芸術・美術)例
17
初対面の時から「デキる人」という印象を与えるだろう.(一條青風著『陰 陽師・安倍晴明占い』,2001, 1
哲学)例
18
彼は,この隠されていた医療行為に対して,正面から道徳的根拠を与え ようとしたのだ.(岡本裕一朗著『異議あり! 生命・環境倫理学』,2002, 4
自然科学)4. おわりに
動詞の結合価に関する研究を振り返り,結合価の出現の範囲と頻度の分布につ いての研究の位置づけを考察した.また電子化テキストやコーパスを使って,
6
つの動詞について出現する格の種類や頻度を調査し,結合価辞書との比較を行っ た.今後は結合価の出現の種類と頻度の分布について,傾向をとらえ法則化を目指 したいと考えている.その場合にはどの文にも一定量出現すると考えられる,全 般的な情報を持った格成分の扱いや,格の共存と反発の問題なども考える必要が あろう.また格が示す名詞の意味分野も考慮に入れていく必要もあるだろう.さ らに,例えば「花を山田さんにあげた」より「山田さんに花をあげた」の方が自 然な日本語だといえるように,徳永・田中
1991
,徳永2000
が扱っている格成分 の順の問題に目を配ることも考えられる.このようにして現代日本語の格に関す る全体的な傾向が把握できれば,自動翻訳などの省略された格成分を補う研究に も有効と思われる.格の出現の範囲や頻度については計量的な分析方法もまだ確立されていないが,
たとえば石川
2006
ではコロケーションの分析に使われる計量的な指標を比較し ている.このような指標も今後,格の頻度分析に有益ではないかと考えられる.分布の形状の分析については
Köhler2012
がFitter
という確率分布フィッティン グソフトを使用して分析しているので,これを参考にしたいと考えている.また 毎日新聞の1995
年の記事を解析した「京都コーパス」なども資料として検討し たい.係り受け解析器Cabocha
の出力を使って格情報を取り出す試みも行ったが,係り受け解析の精度に依存するため現在はまだ効率的な分析に役立てること ができない.京都大学の係り受け解析器
KNP
を使うことも検討している.この 点についても今後の課題としたい.付記
本研究は国立国語研究所共同研究プロジェクト「コーパス日本語学の創成」研究発 表会
( 2012
年6
月,於国立国語研究所)における発表に加筆・修正を加えたものであ る.また本研究の一部は日本学術振興会科学研究費(課題番号 19520402 ・研究課題名 :
『哲学字彙』にみられる近代学術用語の現代日本語への定着過程の検証,及び課題番号
23520567 ・研究課題名 :
明治後期の学術用語の伝播・浸透と現代日本語への影響に関する研究)の助成を得ている.
【ソフトウェア・解析用辞書】
京都大学情報学研究科「
JUMAN 」(形態素解析器)
http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN
京都大学情報学研究科「KNP 」(形態素解析器)
http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP
京都大学情報学研究科「京都大学格フレーム
Ver1.0 」 (自然言語処理用辞書) ( GSK
配 布版)京都大学情報学研究科「京都大学テキストコーパス
Ver. 4.0 」 (解析済毎日新聞コーパ
ス)http://nlp.ist.i.kyoto-u.ac.jp/index.php?NLP
リソース京都大学情報学研究科・日本電信電話株式会社コミュニケーション科学基礎研究所
「 Mecab 」(形態素解析器)
http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
工藤拓「Cabocha 」(係り受け解析器)
http://code.google.com/p/cabocha/
国立国語研究所「
UniDic 」(形態素解析辞書)
http://www.tokuteicorpus.jp/dist/
国立国語研究所『現代日本語書き言葉均衡コーパス』
( Balanced Corpus of Contem-
porary Written Japanese ,略称 BCCWJ )
オンライン版http://www.ninjal.ac.jp/kotonoha/
国立国語研究所・
Lago
言語研究所「NINJAL-LWP for BCCWJ Ver.1.00 」 (国立国
語研究所『現代日本語書き言葉均衡コーパス( BCCWJ )』用オンライン検索システ
ム)http://ninjal-lwp-bccwj.ninjal.ac.jp/
情報処理振興事業協会「計算機用日本語基本辞書
IPAL ―動詞・形容詞・名詞」 (自然
言語処理用辞書)( GSK
配布版)「 Altmann-Fitter Ver. 3.1 」(確率分布フィッティングソフト)
http://www.rst-gmbh.de/frames_en.htm
【資料】
三木清
( 1941, 1995 ).「人生論ノート」(新潮社編『新潮文庫の 100
冊CD-ROM
版』東京
:
新潮社 所収).毎日新聞社
( 1996 ).『 CD-
毎日新聞ʼ 95 CD-Answer
版』東京:
日外アソシエーツ.【参考文献】
足立顕・牧野武則
( 2000 ). 「表層格と動詞の関係に基づく動詞の自動分類」 『情報処理
学会研究報告・自然言語処理研究会報告』vol. 2000 ( 86 ) , pp. 93–100.
池原悟
( 2007 ).「日本語語彙大系とその後」『科学 (岩波書店)』 vol. 77 ( 4 ) , pp. 382–
384.
池原悟・宮崎正弘・白井諭・横尾昭男
( 1997 ). 「シソーラスで調べる―『日本語語彙大
系』の概要と用法」『日本語学(明治書院)』 vol. 16 ( 12 ) , pp. 33–43.
池原悟・宮崎正弘・白井諭・横尾昭男・中岩浩巳・小倉健太郎・大山芳史・林良彦
(編)・ NTT
コミュニケーション科学基礎研究所(監修) ( 1997 ). 『日本語語彙大系』
1 〜 5
巻 東京:
岩波書店.池原悟・宮崎正弘・白井諭・横尾昭男・中岩浩巳・小倉健太郎・大山芳史・林良彦
(編)・ NTT
コミュニケーション科学基礎研究所(監修) ( 1999 ). 『日本語語彙大系』
CD-ROM
版 東京:
岩波書店.石川慎一郎