▼ Excel による『日本古典対照分類語彙表』データの活用…小木曽智信
Excel による
『日本古典対照分類語彙表』
データの活用
小木曽智信
(国立国語研究所准教授) 付属の CD-ROM には電子版の『日本古典対照分類語彙表』(Excel ファイル)が収録されています。 このデータをパソコンで扱うことで,書籍の語彙表ではできない検索や集計処理を行うことができます。 ここでは,Excel を使ってこのデータを活用する方法について,事例を挙げながら簡単に説明します。 なお,Excel の操作手順はバージョンによって異なりますが,ここでは Excel 2010(Windows 版)を例 に説明しています。 1. ファイルの形式 電子版の『日本古典対照分類語彙表』は 1 枚の大きな表で,横に 26 列,縦に 34,181 行あります。 1行が1つの見出し語に関する情報で,左から順に次の情報になります。 データの値は,A・C 〜 F・Z が文字列,他は数値です。 2. 検索 表は 34,181 行もあるため,目的の行を表示して前後を確認するためには「検索」機能を使って当該 箇所に移動する必要があります。 検索は次のように行います。 1.メニューの「ホーム」にある「検索と選択」の「検索」をクリックするか,[Ctrl]キーを押し ながら[F]キーを押す。 2.表示される「検索と置換」ダイアログボックス(下図)で「検索する文字列」に検索したい文字 列を入力する。 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 見 出 し 順 漢 字 語 種 品 詞 注 記 作 品 合 計 徒 然 平 家 宇 治 方 丈 新 古 大 鏡 更 級 紫 源 氏 枕 蜻 蛉 後 撰 土 左 古 今 伊 勢 竹 取 万 葉 意 味 分 類 作品別頻度3.[次を検索]ボタンをクリックする。 検索にヒットするセルが複数ある場合には,[次を検索]ボタンをクリックするごとに,次に現れる 位置に移動できます。 実際に「かなしむ」を含む語を検索してみましょう。「検索する文字列」に「かなしむ」と入力して[次 を検索]ボタンをクリックすると,次のように「あはれみかなしむ」のセルに移動します。表の中で最 初に「かなしむ」という文字列が現れるのがこの語だからです。 ここで再び[次を検索]ボタンをクリックすると,今度は「うれへかなしむ」に移動します。同様に,[次 を検索]をクリックするたびに,次々と「かなしむ」を含む語を検索することができます。 検索はどれだけ行っても,元の表の内容には影響を与えません。 3. フィルター(絞り込み) 「フィルター」機能を用いることで,条件に合う行だけを表示することができます。検索とは異なり, 条件に合わない行は表示されなくなりますので前後を確認することはできませんが,必要な語だけを見 渡すのにたいへん便利です。フィルターを実行しても,元の表のデータには影響を与えません。表示さ れなくなったデータは削除されたわけではなく,非表示になっているだけです。 3.1. 簡単なフィルター(チェックボックスから選ぶ) フィルターは次のようにして利用します。 1.(表の先頭行の一つのセルだけが選択されている状態で)メニューの「データ」にある「フィルター」 をクリック 2. 表の先頭行に「▼」ボタンが表示されるので,絞り込みを行いたい列の「▼」ボタンをクリック 3. 当該列にある異なりデータが表示されるので,チェックボックスをオン ・ オフして表示したいもの だけにチェックを入れて「OK」ボタンをクリック なお,フィルターを解除して元に戻すには,1. の「フィルター」ボタンをもう一度クリックします。 実際に,フィルター機能を使って形容動詞の一覧表を作ってみましょう。「フィルター」をクリック し,表の先頭行のセルに「▼」ボタンが表示されるのを確認してください。その中の「品詞」の右の「▼」 ボタンをクリックしてください。
▼ Excel による『日本古典対照分類語彙表』データの活用…小木曽智信 このように,全種類の品詞(「品詞」列にある異なりデータ)が表示され,各品詞の左にチェックボッ クスが出ます。このチェックは,フィルター実行後に表示される項目であることを意味します。そこで, 「形動」だけにチェックが付いた状態にして[OK]ボタンをクリックしてください。 すると,次のように「品詞」が「形動」のものだけが表示されます。フィルターがかかった状態では, 通常は黒色で表示されている行番号が青色で表示されます。 「フィルター」ボタン(1. でクリックした場所)をもう一度クリックすることで元の状態に戻すこと ができます。
3.2. 複数列のフィルター 3.1 と同様の手順で複数の列でフィルターを指定し,多重にフィルターをかけていくことができます。 今度は,「品詞」列に加えて「語種」列でもフィルターをかけることで,漢語形容動詞の一覧を作っ てみましょう。まず,3.1 と同様に「品詞」を「形動」に絞り込みます。この状態で,次のように「語種」 列で「漢」だけを表示するように指定します。 こうすることで,品詞が「形動」かつ語種が「漢」のもの,すなわち漢語形容動詞だけを表示させるこ とができます。 3.3. テキストフィルター これまでに見てきたチェックボックスで選択するタイプのフィルターは,品詞や語種のように決まっ た値が入っている項目ではたいへん有効です。しかし,「見出し」や「漢字」のように毎行異なる値が 入る項目では,必要なものだけを選択することができません。このような場合には,チェックボックス から選択するのではなく,「○○で始まる」とか「○○を含む」などの条件でフィルターをかけること ができる「テキストフィルター」を利用するのが効果的です。 テキストフィルターを使うには,フィルターをかけるときの「▼」ボタンを押したあと,チェックボッ
→
▼ Excel による『日本古典対照分類語彙表』データの活用…小木曽智信 クス等の上に表示される「テキストフィルター」を選択します。すると,「指定の値に等しい」「指定の 値で始まる」「指定の値で終わる」「指定の値を含む」などの選択肢が現れます。 テキストフィルターを使って,見出し語に「かなしむ」を含むものだけを表示してみましょう。「見 出し」列の▼ボタンをクリックし,「テキストフィルター」→「指定の値を含む」を選択してください。 すると次のようなダイアログボックスが表示されるので,ここで「かなしむ」と入力します。 [OK]をクリックしてください。すると,次のように,「かなしむ」を含む見出しだけが表示されます。 同様の手順で,テキストフィルターを「意味分類」列に適用することにより,類義語だけを表示する ことができます。次の例は,「菓子」の分類語彙表番号である「14340」を含むものに絞り込んだ例です。
次のように「菓子」の見出し語だけが表示されます。 3.4. 数値フィルター 数値を含む列でも,チェックボックスで選ぶタイプのフィルターはあまり効果的ではありません。数 値を扱う場合には,「指定した値より大きい/より小さい/以上/以下」などの指定ができる「数値フィ ルター」が便利です。 数値フィルターを使うには,「▼」ボタンをクリックすると表示されるメニューから「数値フィルター」 を選びます。数値を含まない列では数値フィルターのメニューは表示されません。 ここでは,合計の頻度が 50 以上の語だけを表示してみましょう。「合計」列の▼ボタンをクリックし, 「数値フィルター」→「指定の値以上」を選択してください。 すると次のようなダイアログボックスが表示されるので,ここで「50」と入力します。 [OK]をクリックしてください。次のように,合計の頻度が 50 以上の語だけが表示されます。
▼ Excel による『日本古典対照分類語彙表』データの活用…小木曽智信 フィルター機能のまとめとして,ここまでに見てきた機能を組み合わせて「源氏物語における用例数 が 50 以上の漢語名詞」を表示してみましょう。 フィルターを有効にして「源氏」列の数値フィルターで「50」以上を指定し,[OK]をクリックします。 つづいて「語種」列のフィルターで「漢」を選びます。さらに「品詞」列で「( 空白セル )」を選びます(名 詞は「品詞」列において空白で表されます)。以上の 3 つの列のフィルターの組み合わせで,次のように「源 氏物語における用例数が 50 以上の漢語名詞」のリストを得ることができます。 4. 並べ替え 「並べ替え」機能によって表を指定した順に並べ替えることができます。並べ替えを行うと,実際にデー タの並び順が変わります(その状態でファイルを保存すると並べ替え後のデータとして保存され,もと の状態ではなくなってしまいます。注意してください)。 「品詞順で並べる」「頻度順で並べる」など,指定した列の値によって単純に並べ替えを行う場合には,
(※空白セルがある場所で並べ替えを行うと表の一部だけが並べ替えられてしまうので,表の先頭行を 選択した状態で行ってください。) たとえば,合計頻度の高いものから順に並べ替えるには,「合計」列の先頭で「Z A↓」ボタンをクリッ クします。すると,次のように頻度順に並び順が変わります。 より詳細な並べ替えをするには,メニューの「データ」にある「並べ替え」ボタンで複数の列にわた る詳細な条件を指定することができます。 たとえば,「見出し」列で並べ替えたうえで同じ見出しの場合は「順」列にしたがって並べ替えるよ うに指定してみましょう。まず,[並べ替え]をクリックして,表示される「最優先されるキー」を次 のように「見出し」「昇順」に指定します。 さらに[レベルの追加]ボタンをクリックして「次に優先されるキー」を追加し,ここで,「順」を「昇 順」に指定します。 この並び順は,日本古典対照分類語彙表の初期状態の並び順に相当します。並べ替えを行った後で元に 戻したい場合には,こうして並べ替えを行ってください。 並べ替えを行った後でフィルターを利用することで,利用目的に応じた表を表示させることもできます。
▼ Excel による『日本古典対照分類語彙表』データの活用…小木曽智信 例として,源氏物語で頻度が高い順に形容詞を並べた表を作ってみましょう。まず,表全体を「源氏」 列で降順に並べ替えます。 この状態で,フィルターによって「品詞」列が「形」のものだけに絞り込みます。 これで,源氏物語における形容詞の頻度順リストができました。 なお,フィルターがかかった状態で並べ替えを行うと,表示されているデータだけが並べ替えられて しまうので注意してください。 5. ピボットテーブルによる集計 「ピボットテーブル」という機能を使うことで,目的に合わせて自在に集計を行うことができます。
1.(表の先頭行の一つのセルだけが選択されている状態で)メニューの「挿入」にある「ピボットテー ブル」ボタンを押して「ピボットテーブル」を選択してください。 2.ピボットテーブルの元となるデータの範囲が自動で選択され,「ピボットテーブルの作成」ダイ アログボックスが表示されます。表全体が選択されていることを確認してください。また,ピボッ トテーブルの配置場所が「新規ワークシート」になっていることを確認して[OK]をクリックし てください。 3.次のようにピボットテーブルとフィールドリストが新しいワークシート(Sheet1)に表示されます。
▼ Excel による『日本古典対照分類語彙表』データの活用…小木曽智信 この画面上で操作を行うことでピボットテーブルという集計表をいろいろに試しながら作ることができ ます。操作がすぐに結果として反映されるので,その場で思いついた集計を試してみることができます。 ここでは,例としてまず次のような集計表を作ることを考えます。すなわち,語種別に頻度を集計し たものです。語種を縦に(行として)並べることにします。 このような集計表を作るために,画面右上のフィールドリストの項目を次の図の矢印のようにドラッ グアンドドロップ(項目を右クリックしたままカーソルを移動してボックスの位置ではなす)してくだ さい。「語種」を「行ラベル」に,「合計」を「値」に持って行きます。 「行ラベル」と「値」の位置関係は,上で作ろうと考えた表の位置関係と同じです。行ラベルに「語種」 列を持ってくることで,語種を行とする表を作ります。値に「合計」列を持ってくることで,それぞれ の行に「合計」列の値を合計した結果が入ります。 このドラッグアンドドロップ操作を行うと,すでに画面左上に意図した表ができているはずです。た 合計 和語 X 漢語 Y 混種語 Z
なお,一度ドラッグアンドドロップで指定した項目を解除して元に戻すには,元のフィールドリスト の位置にその項目をドラッグアンドドロップしてください。 さきほどの手順で,「語種」の代わりに「品詞」をドラッグアンドドロップすれば,品詞別の頻度を 集計することができます。 また,「語種」はそのままにして「合計」列の代わりに「源氏」などの作品別頻度の列をドラッグア ンドドロップすれば,作品別・語種別の頻度を出すことができます。ただし,このとき初期状態では「値」 が「合計」ではなく「データの個数」で計算・表示されます(「合計」になるか「データの個数」にな るかはドラッグアンドドロップしたときに自動で選択されますが,作品別頻度の列には空白のセルが含 まれるため「データの個数」が優先されます)。「データの個数」では,見出し語の数,すなわち,のべ 語数ではなく異なり語数を集計した結果になります。
▼ Excel による『日本古典対照分類語彙表』データの活用…小木曽智信 のべ語数で正しく集計するためには,ドロップした「値」のフィールドをクリックして,「値フィー ルドの設定」を選んでください。 次のダイアログボックスで「合計」を選び直して[OK]をクリックしてください。 すると,次のようにのべ語数で正しく集計されます。
同じようにして,いくつかの作品の語種別の頻度を比較してみましょう。次の例は「万葉集」「古今 和歌集」「源氏物語」「宇治拾遺物語」「平家物語」について,のべ語数を語種別に集計したものです。 先ほどの手順を 5 つの作品について繰り返しています。
▼ Excel による『日本古典対照分類語彙表』データの活用…小木曽智信 ピボットテーブルは,グラフにすることができます。次のグラフは,先ほどの 5 作品の語種別頻度表 をもとに,100%積み上げ横棒グラフで語種割合を表したものです。グラフの種類や表示形式はさまざ まな組み合わせから選ぶことができます。詳しくは Excel のヘルプ機能や市販の解説書で確認してくだ さい。 このように,ピボットテーブルを利用することで,日本古典対照分類語彙表からさらに別の集計表を 作って活用することができます。 おわりに 以上のように,日本古典対照分類語彙表は,Excel で利用することによってさまざまな活用が可能です。 ここで紹介した例は,考えられる応用のごく一部に過ぎません。利用者の皆さんにさらなる可能性を引 き出していただきたいと思います。 ここで紹介した検索・フィルター・並べ替え・ピボットテーブルの機能は,それぞれの基本的な部分 に留まります。それぞれさまざまなオプション等がありますので,詳細は Excel のヘルプ機能や市販の 解説書で確認してください。