日本語の数量表現に関する一考察 −KWIC作
成とQCを内在させている構文について−
著者
加藤 久雄
雑誌名
奈良教育大学紀要. 人文・社会科学
巻
56
号
1
ページ
89-102
発行年
2007-10-31
その他のタイトル
Research of Japanese Quantifier Expression
− Making of KWIC and Syntax Included QC
−
1.はじめに
次に示す文の下線部、「3時」「4冊」「5度」「6人」 「7枚」は、「サンジ」「ヨンサツ」「ゴド」「ロクニン」 「ナナマイ」と異なる語形を有しているが、いずれも何 らかの数に関する表現である。また、いずれも、「数を 表す形式+数えられるものの範疇を表す形式」という構 造を有している。 ・奈良に 3時に 着いた。 ・本を 4冊 読みました。 ・5度も 会いに行った。 ・6人の学生が来る。 ・葉書は全部で 7枚です。 このような形式は、「数詞」「数量詞」「Quantifier」 「Numerical」などと呼ばれ、名称は定まっていない。 「数を表す形式」の部分を、「本数詞」「数詞語幹」など と呼んだ研究もあるが、その術語は広く使われるには至 っていない。一方、「数えられるものの範疇を表す形式」 の部分は、「助数詞」と呼ばれ、この術語は広く一般化 している。その背景には、様々な助数詞があることが日 本語の特徴とされ、語彙論の立場から通時的な研究を含 め、関心を集めたことがあると思われる。本考察では、 「数を表す形式+数えられるものの範疇を表す形式」全 体をQ形式(略してQ)と呼ぶことにする。(1)日本語の数量表現に関する一考察
−KWIC作成とQCを内在させている構文について−
加 藤 久 雄
奈良教育大学国語教育講座(国語学) (平成19年5月7日受理)Research of Japanese Quantifier Expression
− Making of KWIC and Syntax Included QC −
KATO Hisao
(Department of Japanese Linguistics,Nara University of Education,Nara 630-8528,Japan) (Received May 7, 2007 )
Abstract
In this paper I considered the Japanese Quantifier. Especially the syntax included QC . To analyze QC, I made KWIC. And, it explained . The KWIC consists of 298 sentences. I clarified the relations between QC(3人に資料を送った), NQC(学生三人が部屋に残った), Qノ NC(三人の学 生が部屋に残った), and NCQ(学生三人が部屋に残った). I proposed to make the QC type a base. I proved the hypothesis by using KWIC of 298 sentences. The KWIC is made from the output of the morphological analysis by WinCha. The analysis of a large amount of data became possible by this method.
Key Words: Japanese Quantifier grep
KWIC WinCha
キ−ワ−ド: 日本語 数量詞 grep検索
Q形式の構文的特徴については、従来の研究によって 様々な点が明らかにされてきた。それらの研究をふまえ、 加藤(1986)において残された課題となった問題のいくつ かについて、grep検索と形態素解析ツールを用いて収 集した大量の用例の分析することによって明らかにした い。特にQCを内在させている構文について考察する。 このことが本考察の第1の目的である。(2) また、Q形式のように語形からの検索が困難なケース における用例収集や整理の方法(汎用性のある方法)に ついて明らかにしたい。このことが本考察の第2の目的 である。(3) 第2章で第2の目的について、第3章で第1の目的に ついて述べる。なお、夏目漱石の『坊っちゃん』(1906) を分析の対象とした。具体的には、青空文庫(http://w ww.aozora.gr.jp/)から、圧縮ファイル(752_ruby_243 8.zip 94KB)の形でダウンロードしたものを解凍するこ とによって得られたテキスト(bocchan.txt 205KB)を 用いた。
2.用例の収集と整理
2.1.形態素解析の必要性 あるテキストから、ある一定の語形(文字列)を含む 用例を収集するのは、grep検索を用いることによって 可能である。例えば、bocchan.txtにある「喧嘩」の文 字列を含む用例を1文単位(改行単位)で収集するのは、 秀丸エディタなどのテキストエディタを用いて、①の文 書整形を行い、そのテキストを対象にして、②のgrep 検索を行い、その検索結果の出力によって可能である。(4) ① bocchan.txtを、正規表現を用いた置換で、「。」 を「。¥n」に置換し、1文(句点)ごとに改行さ せる。 ② grep検索で、「喧嘩」を検索する。 しかし、様々な語形(文字列)で文中に出現するQ形 式の用例は、このような方法ではうまく収集することが できない。そこで、形態素解析ツールを用いて、Q形式 に対して何らかのタグを振り、そのタグを手がかりに、 用例を収集する方法について考察する。 2.2.解析対象テキストの作成 形態素解析の対象とするファイルは、『坊っちゃん』 の本文のみをテキストとするものであらねばならない。 そこで、bocchan.txtに対して、以下のような加工を施 し、形態素解析の対象になり得るテキスト(b1.txt)を 作成する。(5) 2.2.1.冒頭と末尾の注記と空白の削除 bocchan.txtのテキスト冒頭には、作品名と作家名に 続き以下のような注記がある(行番号1から16まで)。 これらを全て削除し、本文のみを残す。(6) 坊っちゃん 夏目漱石 ---【テキスト中に現れる記号について】 《》:ルビ (例)坊《ぼ》っちゃん |:ルビの付く文字列の始まりを特定する記号 (例)夕方|折戸《おりど》の蔭《かげ》に [#]:入力者注 主に外字の説明や、傍点の位置 の指定 (例)おくれんかな[#「おくれんかな」に傍点] ---また、ダウンロードしたテキスト末尾には、底本、入 力者や校正者、公開日などについて、以下のような注記 がある(注記全文を引用して示す)。これは、テキスト 行番号511から522までにあたる。これらを全て削除す る。なお、本文と注記の間の3つの改行も削除する。 底本:「ちくま日本文学全集 夏目漱石」筑摩書房 1992(平成4)年1月20日第1刷発行 底本の親本:「夏目漱石全集2」ちくま文庫、筑摩 書房 1987(昭和62)年10月27日第1刷発行 ※底本の注によれば、本作品の原稿には、「そのう ち学校もいやになった。」の後に、漱石自身による 2字あけの指定があるという。このファイルでは、 その情報にもとづいて、当該の箇所を2字あけとし た。 ※底本は、物を数える際や地名などに用いる「ヶ」 (区点番号5-86)を、大振りにつくっています。 入力:真先芳秋 校正:柳沢成雄1999年9月13日公開 2004年2月27日修正 青空文庫作成ファイル: このファイルは、インターネットの図書館、青空文 庫(http://www.aozora.gr.jp/)で作られました。入 力、校正、制作にあたったのは、ボランティアの皆 さんです。 また、テキスト中の全角空白を「文字列無し」に置換 し、全角空白を全て削除する。空白の存在は、本文を閲 覧する際には何の影響もないが、形態素解析の際には空 白は記号としてひとつずつ解析対象となってしまい、そ の後の用例整理に大変邪魔な存在となる。あらかじめ全 角空白を削除しておく(264箇所)。(7) 2.2.2.1文1行に整形・空白行の削除 後に用いるgrepは、正規表現にマッチする行を検索 して表示する。この場合の行とは、改行から改行までを 指す。従って、文単位の検索結果を得るためには、句点 ごとに改行されているテキストを用意しておく必要があ る。 そのためには、「。」を「。¥n」に置換し、1文1行 に文書整形すればよい(2451箇所)。¥nは正規表現で改 行を表す。秀丸を用いた置換では、正規表現のボックス にチェックを入れておく必要がある。チェックがない場 合は、¥nを文字列とみなすので、「。」があったところ が全て、「。¥n」の文字列になってしまうので注意が必 要である。 続いて、「¥n¥n」を「¥n」に置換することによって、 空白行(連続した改行)を削除し、本文中に最初からあ る空白行を全て削除してしまう。文の数を得ようとする 時に、¥nの数をカウントすることがあるが、そのよう な場合、空白の1行も1文とカウントされてしまうので、 そのようなことを避けるためにも、¥nの連続を削除し ておく必要がある(227箇所)。 2.2.3.ルビの削除 bocchan.txtでは、ルビの付く文字列の始まりを特定 する記号として、「|」(パイプライン vertical line)が 用いられている。これも形態素解析の対象になってしま うので、空白文字に置換し、「|」を全て削除してしま う(119箇所)。 次に、以下の一連の置換によって、全てのルビを削除 する。秀丸の正規表現は「最長一致の原則」に従ってい るので、「正規表現にマッチする最も長いパターン」と マッチすることになる。そこで、①で現在の改行位置を マークしておくために、置換対象テキストに使用されて いない任意の文字列(ここでは「kkk」)に「¥n」を置 換しておき、続いて②の置換で、「》」の後に改行を挿入 し、1文中には、「《」と「》」で挟まれた文字列がひと つしか存在しないようにしておく。 ③の「.」(ピリオド)は、正規表現で「改行を除く任 意の1文字」を表す。「+」は「直前の文字列やメタ文 字の1回以上の繰り返し」を表す。従って、「《.+》」は、 例えば、《あいうえお》も《山田》も《789》にもマッ チすることになる。つまり、《 と 》とで挟まれた文字 列を表す。 ④は②で付加された「¥n」の削除。⑤は①で削除さ れた¥nの付加。少しやっかいだが、①②を飛ばして③ をおこなうと、「最長一致の原則」が働き、例えば、「親 譲《おやゆず》りの無鉄砲《むてっぽう》で小供の時か ら損ばかりしている。」では、「《おやゆず》りの無鉄砲 《むてっぽう》」がマッチしてしまい、本文である「りの 無鉄砲」も削除してしまうことになる。 ① 置換:¥n→kkk ② 置換:》→》¥n ③ 置換:《.+》→空白文字 ④ 置換:¥n→空白文字 ⑤ 置換:kkk→¥n また、改行に関する①②(従って④⑤も)の置換をし ないまま、次の置換によっても同じ結果が得られる。 《[^》]+》→空白文字 この時、「[ ]」(ブラケット bracket)は、ブラケット の中に示された1文字(または正規表現)のいずれかひ とつとマッチすればマッチしたと判断せよという指示を 行っている。 また、ブラケットの中の「^」(キャレット caret) は、ブラケット内に含まれない1文字にマッチする。従 って、「[^》]+」は、「》」を除く1文字以上の文字列を 表す。従って、「《[^》]+》」は、「《」と「》」に挟まれた 文字列(「《」と「》」も含め)とマッチすることになる。 なお、HMJRE.DLL(正規表現の機能を拡張するフリーソ フト)が動作する環境(秀丸はそれに該当する)におい ては、上記の①②(従って④⑤も)をしないまま、以下 の置換でも同じ結果が得られる。 《.*?》→空白文字 (3034箇所) 「《.*?》」は、「《」と「》」に挟まれた最も短い文字列 とのマッチを指示している。(8)
2.2.4.入力者注の削除 上記の手法を用いて、入力者注の文字列を以下の置換 で削除する。 置換:[.*?]→空白文字 (18箇所) 「[」と「]」は全角である。置換後、「[」と「]」を 検索して、ヒットしない(存在しない)ことを確認し、 以上の一連の文書整形の結果を、b1.txtとして保存す る。ファイル名は任意である。 なお、『坊っちゃん』では、「[」も「]」も、ヒットし ないが、例えば、同じことを『吾輩は猫である』で行う と、「[」は見つからないが、1413文に、「]」が見つか る。つまり、一部において、入力者注の削除にエラーが 生ずる。これは、1413文に次の下線部のような入れ子 ([ ]の中に[ ]がある)になっている注が存在する からである。 「香一※[#「火+主」、第3水準1-87-40][# 「香一※[#「火+主」、第3水準1-87-40] 」に傍 点]もあまり唐突だから已めろ」と惜気もなく筆誅 する。 この入れ子になっている部分に対して、先の置換では、 「最長一致の原則」が働き、「[#「火+主」、第3水準1-87-40][#「香一※[#「火+主」、第3水準1-87-40]」 の文字列が削除され、「 」に傍点]」が、残ってしまう からである。これを回避するのは、正規表現では困難で、 置換に際して、「[」や「]」の数をカウントするしくみ が必要になると考えられる。 以上の文書整形について、文書整形前と文書整形後を 例示しておく。 【文書整形前】全1行 親譲《おやゆず》りの無鉄砲《むてっぽう》で小供の 時から損ばかりしている。小学校に居る時分学校の二 階から飛び降りて一週間ほど腰《こし》を抜《ぬ》か した事がある。なぜそんな無闇《むやみ》をしたと聞 く人があるかも知れぬ。 【文書整形後】全3行 親譲りの無鉄砲で小供の時から損ばかりしている。 小学校に居る時分学校の二階から飛び降りて一週間ほ ど腰を抜かした事がある。 なぜそんな無闇をしたと聞く人があるかも知れぬ。 2.3.形態素解析とその解析結果の処理 2.3.1.茶筌(ちゃせん)による形態素解析 形態素解析ツールには、「MeCab(和布蕪)」(京都大 学情報学研究科 日本電信電話株式会社コミュニケーシ ョン科学基礎研究所共同研究ユニットプロジェクト)や、 「茶筌」(奈良先端科学技術大学院大学 情報科学研究科 松本裕治研究室 http://cl.naist.jp/)などがある。 本考察では、「茶筌」のWindows版であるWinChaを 用いて形態素解析を行った。WinCha(茶筌Ver.2.1 for Windows)は、上記よりcha21244sp5.exeをダウンロー ドし、自己解凍でインストールすることができる。 2.3.2.解析実行と解析結果 解析結果の出力項目は、Q形式の用例収集のために最 低限必要な、「表層語」と「品詞」の2項目とする。出 力項目を増やせば解析結果のファイルサイズも大きくな るので、その扱いに困難が生ずる場合もある。 「茶筌」の操作画面で、【ファイル】--【テキストフ ァイルを開く】で、b1.txtを開くと、「ファイルが大き いため画面に表示できません。今すぐ解析を実行して結 果を保存しますか?」とダイアログが表示されるので、 「OK」で進む。瞬時に、b1.txtのあったフォルダに、 b1.txt.cha(986KB)として結果が書き出される。テキ ストファイルなので、名前をbc1.txtと変更し、エディ タとの関連をつける。ファイル名は任意である。先の 「【文書整形後】(全3行)」に示した前2行(「親譲りの 無鉄砲で小供の時から損ばかりしている。」「小学校に居 る時分学校の二階から飛び降りて一週間ほど腰を抜かし た事がある。」)の解析結果は次のようになる。 親譲り 名詞-一般 の 助詞-連体化 無鉄砲 名詞-形容動詞語幹 で 助動詞 小 接頭詞-名詞接続 供 名詞-一般 の 助詞-連体化 時 名詞-非自立-副詞可能 から 助詞-格助詞-一般 損 名詞-一般 ばかり 助詞-副助詞 し 動詞-自立 て 助詞-接続助詞 いる 動詞-非自立 。 記号-句点 EOS 小学校 名詞-一般 に 助詞-格助詞-一般 居る 動詞-自立 時分 名詞-一般 学校 名詞-一般
の 助詞-連体化 二 名詞-数 階 名詞-接尾-助数詞 から 助詞-格助詞-一般 飛び降り 動詞-自立 て 助詞-接続助詞 一 名詞-数 週間 名詞-接尾-助数詞 ほど 助詞-副助詞 腰 名詞-一般 を 助詞-格助詞-一般 抜かし 動詞-自立 た 助動詞 事 名詞-非自立-一般 が 助詞-格助詞-一般 ある 動詞-自立 。 記号-句点 EOS このような形式で書き出された形態素解析の結果をも とに、数量詞を含む文を以下の手順で収集する。 2.3.3.解析結果の処理 秀丸を用いて、bc1.txtに対して、以下の置換処理を 行い、形態素解析の結果が、『坊っちゃん』の1文単位 で改行されるよう整形する。 ① 置換:¥n→k (60073箇所) ② 置換:EOSk→EOS¥n (2731箇所) この処理は、次のような整形結果を生む。『坊っちゃ ん』の第1文「親譲りの無鉄砲で小供の時から損ばかり している。」と第2文の「小学校に居る時分学校の二階 から飛び降りて一週間ほど腰を抜かした事がある。」で 示す。 親譲り 名詞-一般kの 助詞-連体化k無鉄砲 名詞-形容動詞語幹kで 助動詞k小 接頭詞-名詞接続k供 名詞-一般kの 助詞-連体化k時 名詞-非自立-副詞 可能kから 助詞-格助詞-一般k損 名詞-一般kばか り 助詞-副助詞kし 動詞-自立kて 助詞-接続助 詞kいる 動詞-非自立k。 記号-句点kEOS 小学校 名詞-一般kに 助詞-格助詞-一般k居る 動詞-自立k時分 名詞-一般k学校 名詞-一般kの 助詞-連体化k二 名詞-数k階 名詞-接尾-助数詞k から 助詞-格助詞-一般k飛び降り 動詞-自立kて 助詞-接続助詞k一 名詞-数k週間 名詞-接尾-助数 詞kほど 助詞-副助詞k腰 名詞-一般kを 助詞-格助詞-一般k抜かし 動詞-自立kた 助動詞k 事 名詞-非自立-一般kが 助詞-格助詞-一般kある 動詞-自立k。 記号-句点kEOS 整形結果を、bc2.txtとして保存する。bc2.txtに対し て、秀丸で「助数詞」を検索語としてgrep検索を行う。 これによって、文字列「助数詞」を含む行のみが収集さ れ、そこには、必ずQ形式が含まれているということに なる。この結果を、bc3.txtとして保存する([EOF]の行 番号:369番)。 2.3.4.KWICの作成 エクセルを用いて、分類・分析のプラットフォームと してのKWIC(keyword in context 文脈付き索引)を 以下の手順で作成する。 bc3.txtに対して、エクセルへのインポートのために、 kをタブ(正規表現 ¥t)に置換する処理(10810箇所) と、各行の冒頭にあるbc2.txt(*)のファイルネームの後 ろにある「:(半角)」を「¥t」に置換する処理(368箇 所)を行う。これにより、フィールドの区切り文字がタ ブに統一されることになる。結果をbc4.txtとして保存 する(11547行)。 KWICにおいてキーワードの位置を揃えるため(エ クセル上では列にあたる)、bc4.txtに対して、「名詞-接 尾-助数詞」を、「¥n名詞-接尾-助数詞」に置換し、(454 箇所)その結果をbc5.txtとして保存する。 bc5.txtをエクセルにインポートする。フィールド区 切り文字はタブである。A列からC列と1行から10行の 範囲は次のようになる。 1-2-3行、4-5-6行、7-8行、9-10行のグループが、それ ぞれ、Q形式を含むひとつずつの文に当たる。bc2.txt は、bc2.txtを対象にgrep検索を行った際の検索結果の 出力であることを示している。(3)、(6)などの番号は、 bc2.txtでの行番号である。
bc2.txt(3)とbc2.txt(6)が3行に渡っているのは、各々 の文に「名詞-接尾-助数詞」が2箇所あったからである。 bc3.txtの行数が368で、「名詞-接尾-助数詞」を「¥n名 詞-接尾-助数詞」に置換した箇所が454であったことか ら、その差86が一文中に重複して出現しているQ形式 の数ということになる。一文中の3箇所に出現している ケースもあるので、86からQ形式が重複出現している 文の数を計算で割り出すことはできない。最大で43文 あるということになる。KWICは分析のためのプラッ トフォームである。それで、一文中にQ形式がひとつあ る構文の分析用のプラットフォームとして、Q形式が重 複出現している文を削除した。重複出現している構文の プラットフォームは別に設ける必要がある。 A列で「昇順で並べ替え」を実行すると、A列に「名 詞-接尾-助数詞」含む行が表全体の列の末尾に並ぶ。こ の行を全て選択し、行は1行目、列はbc2.txt(*)をA列に 持つ全ての行のうちデータ入力のある最右列の右横の列 の位置に貼り付ける。このようにして、全ての行におけ る「名詞-接尾-助数詞」の列位置を揃え、Q形式をキー ワードとする文脈付き索引(形態素解析タグ付き)をエ クセル上に作成した。こうして集められたQ形式用例は 298文(298行244列(JGのセルまで)の表)にのぼっ た。(9)
3.考察
3.1.異なり語と出現頻度 KWIC中、茶筌の形態素解析で「名詞-接尾-助数 詞」のタグがついた形式の語形の異なり、つまり、助数 詞の異なりは、次のとおりである。 出現総度数(延べ語数)は298、異なり語が52であ る。典型例を一例ずつ示す。 4 母が死んでからは、おやじと兄と三人で暮して いた。 8 これはずっと後の事であるが金を三円ばかり貸 してくれた事さえある。 23 二日立って新橋の停車場で分れたぎり兄にはそ の後一遍も逢わない。 137 おれは膏っ手だから、開けてみると一銭五厘が 汗をかいている。 64 授業はひと通り済んだが、まだ帰れない、三時 までぽつ然として待ってなくてはならん。 59 最初の一時間は何だかいい加減にやってしまっ た。 38 何だか二階の楷子段の下の暗い部屋へ案内し た。 70 一週間ばかりしたら学校の様子もひと通りは飲 み込めたし、宿の夫婦の人物も大概は分った。 36 ごろごろと五分ばかり動いたと思ったら、もう 降りなければならない。 29 しかし不思議なもので、三年立ったらとうとう 卒業してしまった。 104 しかしだれがしたと聞かれた時に、尻込みをす るような卑怯な事はただの一度もなかった。 122 さっきから船中見渡すが釣竿が一本も見えな い。 117 あんまりないが、子供の時、小梅の釣堀で鮒を 三匹釣った事がある。 18 おれは一ヶ月以前から、しばらく前途の方向の つくまで神田の小川町へ下宿していた。 185 ぶらぶら土手の上をあるきながら、約三丁も来 たと思ったら、向うに人影が見え出した。 83 おれは人の居ないのを見済しては十五畳の湯壺 を泳ぎ巡って喜んでいた。89 それで晩飯を急いで四時半に片付けてしまうん だから豪傑に違いない。 26 三年間一生懸命にやれば何か出来る。 124 おや釣れましたかね、後世恐るべしだと野だが ひやかすうち、糸はもう大概手繰り込んでただ 五尺ばかりほどしか、水に浸いておらん。 139 それでこそ一校の教頭で、赤シャツを着ている 主意も立つというもんだ。 187 おれの足音を聞きつけて、十間ぐらいの距離に 逼った時、男がたちまち振り向いた。 161 符箋が二三枚ついてるから、よく調べると、山 城屋から、いか銀の方へ廻して、いか銀から、 萩野へ廻って来たのである。 240 先を争った衝突は、折合がついたには相違ない が、つまり中学校が一歩を譲ったのである。 15 どうか置いて下さいと何遍も繰り返して頼ん だ。 256 隣りのものが一秒でも早過ぎるか、遅過ぎれば、 自分の鼻は落ちるかも知れない。 130 ここへ来た時第一番に氷水を奢ったのは山嵐 だ。 190 萩野の婆さんから、山嵐が、うらなり君のため に赤シャツと談判をしたと聞いた時は、それは 感心だと手を拍った。 12 今となっては十倍にして返してやりたくても返 せない。 76 その晩は久し振に蕎麦を食ったので、旨かった から天麩羅を四杯平げた。 44 そんな面倒な事をするよりこの辞令を三日間職 員室へ張り付ける方がましだ。 179 もっとも田舎者はけちだから、たった二銭の出 入でもすこぶる苦になると見えて、大抵は下等 へ乗る。 216 床の真中に大きな懸物があって、おれの顔くら いな大きさな字が二十八字かいてある。 241 旅団長が祝詞を読む、知事が祝詞を読む、参列 者が万歳を唱える。 133 独立した人間が頭を下げるのは百万両より尊と いお礼と思わなければならない。 35 門口へ立ったなり中学校を教えろと云ったら、 中学校はこれから汽車で二里ばかり行かなくっ ちゃいけないと聞いて、なお上がるのがいやに なった。 151 というものはこの事件はどの点から見ても、五 十名の寄宿生が新来の教師某氏を軽侮してこれ を翻弄しようとした所為とより外には認められ んのであります。 260 実は新聞を見るのも退儀なんだが、男がこれし きの事に閉口たれて仕様があるものかと無理に 腹這いになって、寝ながら、二頁を開けてみる と驚ろいた。 6 その時はもう仕方がないと観念して先方の云う 通り勘当されるつもりでいたら、十年来召し使 っている清という下女が、泣きながらおやじに 詫まって、ようやくおやじの怒りが解けた。 108 三度目に床へはいった時は少々落ち付いたがな かなか寝られない。 243 庭は十坪ほどの平庭で、これという植木もな い。 145 おれは、別に恥ずかしい事をした覚えはないん だから、立ち上がりながら、部屋中一通り見巡 わしてやった。 188 おれは苦もなく後ろから追い付いて、男の袖を 擦り抜けざま、二足前へ出した踵をぐるりと返 して男の顔を覗き込んだ。 52 二十五万石の城下だって高の知れたものだ。 118 それから神楽坂の毘沙門の縁日で八寸ばかりの 鯉を針で引っかけて、しめたと思ったら、ぽち ゃりと落としてしまったがこれは今考えても惜 しいと云ったら、赤シャツは顋を前の方へ突き 出してホホホホと笑った。 233 山嵐は委細構わず、ステッキを持って来て、踏 破千山万岳烟と真中へ出て独りで隠し芸を演じ ている。 169 ――おれは一皿の芋を平げて、机の抽斗から生 卵を二つ出して、茶碗の縁でたたき割って、よ うやく凌いだ。 27 新体詩などと来ては二十行あるうちで一行も分 らない。 150 おれはこう考えて何か云おうかなと考えてみた が、云うなら人を驚ろすかように滔々と述べた てなくっちゃつまらない、おれの癖として、腹 が立ったときに口をきくと、二言か三言で必ず 行き塞ってしまう。 146 黒い皮で張った椅子が二十脚ばかり、長いテー ブルの周囲に並んでちょっと神田の西洋料理屋 ぐらいな格だ。 174 赤シャツが何ダース寄ったって、これほど立派 な旦那様が出来るもんか。 149 見ると最初が処分の件、次が生徒取締の件、そ の他二三ヶ条である。 224 大賛成だが一ヶ所気に入らないと抗議を申し込 んだら、どこが不賛成だと聞いた。 以上の各語形が、茶筌が「名詞-接尾-助数詞」と形態 素解析した語形である。この中で、190の「拍」は、
「思わず手をぱちぱちと拍《う》った。」(190)と「そ れは感心だと手を拍《う》った。」(219)の全2例であ る。おそらく、茶筌の辞書には「拍」に「うつ」の読み がなく、「一拍」「二拍」の助数詞として解析されたもの と思われるが、Q形式ではない。 なお、27と150は、それぞれ「二十行」「一行」、「二 言」「三言」とQ形式が一文中にふたつ存在している。 これは、先に一文中にQ形式がひとつ出現する文を分析 の対象としたことと矛盾する。27と150の解析結果を見 ると、「二十行」「二言」は「名詞-接辞-助数詞」と解析 されているが、「一行」「三言」は「名詞-一般」と解析 されている。先のQ形式が一文中にひとつのみ出現する 用例を抽出する際に、「名詞-接辞-助数詞」を検索語と したので、抽出の対象となったわけである。 また、241の「歳」は「参列者が万歳を唱える。」で あり、Q形式ではあるが数量表現とはいえない。「歳」 は全2例であるが、もう一つも「万歳」である。また、 233の「千山」は「千山万岳烟《ふみやぶるせんざんば んがくのけむり》」の一部分でこれも数量表現とはいえ ない。 「茶筌」などのツールを用いた形態素解析には、この ような不都合が生じるのであるが、再起性を有している ので、発生の規則性も見いだしやすく、処理することが 可能である。 3.2.分類のフレーム 数量表現には、NQC型、QノNC型、NCQ型の3 タイプの構文があることが指摘されている。Nは数えら れている対象を表す名詞。Cは助詞である。NとCとQ が数量表現の基本3成分であり、NQC型、QノNC型、 NCQ型が基本3構文といえる。 ・学生3人が 部屋にいました。 NQC型 ・3人の学生が 部屋にいました。 QノNC型 ・学生が3人 部屋にいました。 NCQ型 しかし、数量表現にとって、Nは必須の成分ではない。 数えられている対象が何であるかを、Nを示して表現し なくても足りる場合、つまり、前後の文脈や助数詞 (「人」)が数えられる対象の意味的カテゴリを表す性質 を有していることを手がかりに、Nが具体的に何である かを知ることができる場合は、Nを省略し、QとCから なるQC型の構文が出現することになる。 ・3人が 部屋にいました。 QC型 このような構文の存在が、品詞論においては、Qを 「数詞」として名詞の下位範疇として扱ってきた一因に なっていると思われる。つまり、Qは品詞論的には名詞 としての特徴を十分有しているわけである。 名詞と述部との格関係が明瞭であるならば、「名詞+ C」のCは省略可能である。Cは格関係を明示する標識 であって、格関係は名詞と述語との支配・被支配の関係 において既に決定されているからである。同様の原理で、 「QC」のCが省略され、QのみのQ型の構文が出現す る。 ・3人 部屋にいました。 Q型 NQC型、QノNC型、NCQ型の基本3構文とQC 型構文、Q型構文の相互関係をどのようにとらえたらよ いかが、数量表現の大きな研究課題のひとつである。例 えば、NQC型からNCQ型を派生させる考え方と、Q ノNC型からNCQ型を派生させる考え方の対立がある ことはよく知られている。基本3構文の相互関係につい ていえば、定・不定の問題や属性を表すQノNC型の問 題、NCQ型のCは、ガまたヲでなければならないとい う制約の存在などから、NQC型をベースに置くことが 妥当であると考えられよう。(10) しかし、基本3構文のほかに、QC型やC型の構文が ある。また、NQC型の出現度数は、今回の調査では7 例ときわめて少ない。(11) 47 そんなえらい人が月給四十円で遥々こんな田舎 へくるもんか。 271 山嵐はいよいよ辞表を出して、職員一同に告別 の挨拶をして浜の港屋まで下ったが、人に知れ ないように引き返して、温泉の町の枡屋の表二 階へ潜んで、障子へ穴をあけて覗き出した。 248 あの表二階をかりて、障子へ穴をあけて、見て いるのさ」 77 翌日何の気もなく教場へはいると、黒板一杯ぐ らいな大きな字で、天麩羅先生とかいてある。 190 萩野の婆さんから、山嵐が、うらなり君のため に赤シャツと談判をしたと聞いた時は、それは 感心だと手を拍った。 112 長く東から西へ貫いた廊下には鼠一匹も隠れて いない。 54 この後いつはいれるか分らないから、洋服を脱 いで浴衣一枚になって座敷の真中へ大の字に寝
てみた。 しかも、数量表現であるのは47、112、54で、271、 248は複合名詞の要素、77は副助詞「ぐらい」が後接し ているとおり、典型的なNQC型とはいえない。 このようなことから、NQC型を基底にするのではなく、 QC型を基底とした相互関係を仮定し、分類のフレーム として用いることにする。QC型構文には、次の3タイ プがある。 タイプ(1) 3人が 部屋に残った。 タイプ(2) 3人に 資料を送った。 タイプ(3) 3時に 博多を出発した。 QC型構文は、まず、そのQがNQを基底とするもの と基底としないものに大別される。タイプ(1)(2)が前者、 タイプ(3)が後者である。 NQを基底とするタイプ(1)(2)は、そのNQのNが表 層化した場合に、NQC型、QノNC型、NCQ型の数 量表現の基本3構文のいずれの構文もとることができ る。それは、QがNQを基底としているから、表層化す べきNが基底にあるからであり、QがNQを基底として いるとする所以である。ただし、この時、NQC型構文 とQノNC型構文におけるCについては制約がないが、 NCQ型構文については、Cが「が」「を」であるとい う制約がある。 一方、QがNQを基底としないタイプ(3)は、表層化 すべきNを有しないので、基本3構文のいずれもとるこ とができない。 (1) 3人が 部屋に残った. QC型 (1a) 学生3人が 部屋に残った. NQC型 (1b) 3人の学生が 部屋に残った. QノNC型 (1c) 学生が3人 部屋に残った. NCQ型 (2) 3人に 資料を送った. QC型 (2a) 学生3人に 資料を送った. NQC型 (2b) 3人の学生に 資料を送った. QノNC型 (2c) *学生に3人 資料を送った. NCQ型 (3) 3時に 博多を出発した. QC型 (3a) *N3時に 博多を出発した. NQC型 (3b) *3時のNに 博多を出発した. QノNC型 (3c) *Nに3時に 博多を出発した. NCQ型 3タイプともQ形式を伴った数に関する表現ではある が、(3)は明らかにタイプが違う。QC型、NQC型、 QノNC型、NCQ型に相互関係が存在する表現を、数 量表現とするならば、タイプ(3)については数量表現と 見なすことができない。また、(1)と(2)もCに関する制 約だけでなく微妙に文法的なふるまいを異にする。以下 では、3つのタイプを弁別的に扱うために、タイプ(1) のQC型をQ1C型、NQC型をNQ1C型、QノNC 型をQ1ノNC型、NCQ型をNCQ1型と表す。同様 に、タイプ(2)の「Q」は「Q2」、タイプ(3)の「Q」は 「Q3」と表す。 このような相互関係を分類フレームの基本として、Q Cを内在させている構文について考察を行う。 3.3.QCを内在させている用例 Q形式の直後に、茶筌による解析で「助詞-*」とされ た形態素が後接している用例(QCを内在させている構 文)は、182例にのぼる。(12) しかし、この182例が全て、QC型構文というわけで はない。QCに該当する文字列を含む構文(「Q形式の 直後に、「助詞-*」のタグを有する形態素が後接してい る」構文)の用例の中には、例えば、NQC型やNノQ C型も含まれることになる。 182例を分類フレームによって整理すると以下のよう になる。表中、タイプ(1)の用例数を括弧なしで、タイ プ(2)の用例数を( )で、タイプ(3)の用例数を< >で示 す。連体QC型とCN型については、タイプの区別がな い。
3.3.1.QC型 次の2が、Q1C型の典型例である。文脈上、Nが 「友達」であることがわかるので、Nを表層化させたNQ C型、QノNC型、NCQ型の構文をとっていない。し かし、以下に示すように、それぞれの構文も可能である。 2 親のものから西洋製のナイフを貰って奇麗な刃 を日に翳して、友達に見せていたら、一人が光 る事は光るが切れそうもないと云った。 2-1 見せていたら、友達一人が光る事は光るが切れ そうもないと云った。 NQC型 2-2 見せていたら、一人の友達が光る事は光るが切 れそうもないと云った。 QノNC型 2-3 見せていたら、友達が一人光る事は光るが切れ そうもないと云った。 NCQ型 180や260のようなQ3C型も存在する。これらは、N を想定することができない。260の「頁」は、従来、助 数詞と呼ばれてきたが、むしろ単位を表す形式であると 考えるべきだと思われる。Q1C型とQ3C型は弁別さ れねばならない。 180 温泉へ着いて、三階から、浴衣のなりで湯壺へ 下りてみたら、またうらなり君に逢った。 260 実は新聞を見るのも退儀なんだが、男がこれし きの事に閉口たれて仕様があるものかと無理に 腹這いになって、寝ながら、二頁を開けてみる と驚ろいた。 用例数の面では、145例中106例と、QC型が他の型 に比して圧倒的に多い。また、106例中67例がQ3C型 であり、数量表現の基本3文型の出現頻度は極めて低い といえる。 3.3.2.NQC型 基本3構文の基底をNQC型とする考え方があるが、 用例数としては、極めて少ない。 47 そんなえらい人が月給四十円で遥々こんな田舎 へくるもんか。
54 この後いつはいれるか分らないから、洋服を脱 いで浴衣一枚になって座敷の真中へ大の字に寝 てみた。 上の2例は、QC型やQノNC型を許容する。 47-1 そんなえらい人が四十円で遥々こんな田舎へく るもんか。 47-2 そんなえらい人が四十円の月給で遥々こんな田 舎へくるもんか。 54-1 この後いつはいれるか分らないから、洋服を脱 いで一枚になって座敷の真中へ大の字に寝てみ た。 54-2 この後いつはいれるか分らないから、洋服を脱 いで一枚の浴衣になって座敷の真中へ大の字に 寝てみた。 しかし、NCQ型は非文となる。 47-3 *そんなえらい人が月給で四十円遥々こんな田舎 へくるもんか。 54-3 *この後いつはいれるか分らないから、洋服を脱 いで浴衣に一枚なって座敷の真中へ大の字に寝 てみた。 3.3.3.NノQC型 62や123のように、部分数量を表す用法が見られる。 QC型のQが、Nノによって限定的な修飾を受けている 用法である。 62 ただ帰りがけに生徒の一人がちょっとこの問題 を解釈をしておくれんかな、もし、と出来そう もない幾何の問題を持って逼ったには冷汗を流 した。 123 鰹の一匹ぐらい義理にだって、かかってくれる だろうと、どぼんと錘と糸を抛り込んでいい加 減に指の先であやつっていた。 いずれも、QノNC型にしても意味が変わらない。し かし、QノNCのQが「一」以外を許容するのに対して、 NノQC型のQは、「一」を基本とする。 62-1 ただ帰りがけに一人の生徒がちょっとこの問題 を解釈をしておくれんかな、もし、と出来そう もない幾何の問題を持って逼ったには冷汗を流 した。 123-1 一匹の鰹ぐらい義理にだって、かかってくれる だろうと、どぼんと錘と糸を抛り込んでいい加 減に指の先であやつっていた。 3.3.4.連体QC型 11や2247のQCは、Q形式が「この」「この間うらな りの送別会の時に来た」によって連体修飾されている被 修飾名詞として機能している。これらは、[[[この][3 円]]は]、[[[うらなりの送別会の時に来た][一人]] が]の構造であり、「この月給三円は」「この三円の月給 は」「うらなりの送別会の時に来た友人一人が」「うらな りの送別会の時に来た一人の友人が」のように、NQC 型やQノNC型を許容する。しかし、「この月給は三円」 「うらなりの送別会の時に来た友人が一人」は非文とな る。これは、11や247が有している修飾・被修飾の関係 が崩れるからである。 11 この三円は何に使ったか忘れてしまった。 247 山嵐は無暗に牛肉を頬張りながら、君あの赤シ ャツが芸者に馴染のある事を知ってるかと聞く から、知ってるとも、この間うらなりの送別会 の時に来た一人がそうだろうと云ったら、そう だ僕はこの頃ようやく勘づいたのに、君はなか なか敏捷だと大いにほめた。 3.3.5.CN 次のように、Qが複合語の後接要素となって、「黒板 一杯」「一銭五厘」「表二階」を構成し、それに助詞が後 接しているものがある。これらは、構文要素としては数 量を表す成文として機能しているものではない。従って、 基本の3タイプ等と構文的な観点から相互関係を見いだ すことは可能ではない。 77 翌日何の気もなく教場へはいると、黒板一杯ぐ らいな大きな字で、天麩羅先生とかいてある。 137 おれは膏っ手だから、開けてみると一銭五厘が 汗をかいている。 248 あの表二階をかりて、障子へ穴をあけて、見て いるのさ」 以上のほかに「の」(助詞-連体化)をCとする次のよう
な用例があった。 257 三十人の足の運びも、手の働きも、腰の曲げ方 も、ことごとくこのぼこぼん君の拍子一つで極 まるのだそうだ。 52 二十五万石の城下だって高の知れたものだ。 55 十五畳の座敷に寝ている。 58 五円の茶代を奮発してすぐ移るのはちと残念だ が、どうせ移る者なら、早く引き越して落ち付 く方が便利だから、そこのところはよろしく山 嵐に頼む事にした。 上例に見られる「の」は格関係を表すものではないの で、他の型との構文的な相互関係を見いだすことができ ない。なお、助数詞の異なりは、「人:8例」「円:5例」 「校:3例」「本:3例」「時間:2例」「畳:2例」「階:1 例」「皿:1例」「時:1例」「時半:1例」「週間:1例」 「石:1例」「銭:1例」「度:1例」「日:1例」「年:1例」 「秒:1例」「名:1例」「厘:1例」である。