• 検索結果がありません。

Collocation/Cooccurrence

ドキュメント内 CasualConc 20 マニュアル CasualConc 20 J (ページ 32-39)

Collocation/Cooccurrence を使うには、ツールタブで Collocation を選びます。

Collocation と Cooccurrence ツールの切り替えは、ウインドウ右上のスイッチで行います。

3.3.1 Collocation ツール

Collocationツールは、検索語(キーワード)の左右で指定された範囲の文脈に現れる単語・

n-gram の頻度を集計して表示します。検索したい文字列を入力して、範囲を指定し、検索ボタンをク リックするかリターンキーを押します。

赤色の数字は、その共起語が最も多く現れる位置を示しています。Word Countと同様に、結果とし て表示する最低頻度を指定することができます。環境設定 ->その他-> 最低頻度で設定してくださ い。

結果の並べ替えは、並べ替えたい列のヘッダをクリックして行います。結果表示後に文脈の範囲を 変えたい場合は、範囲の値を変更してから並べ替えをクリックします。

また、Word Count と同様に、結果の絞り込みもできます。

検索のオプションで n-gram (2-5) を選ぶと、n-gram を共起語としてリストを作成できます。

n-gramが共起語として集計される際は、L1の位置の共起語は、検索語からn番目の位置の単語か ら始まります。2-gramが選択されていると、L1は検索語の左 2単語目から始まる2-gramとなり、

L2は検索語の左3単語目から始まる2-gramとなります。つまり、文脈にある同じ単語は、最大n回

n-gram の一部として数えられることになります(これは Word Count の n-gram と同じです)。

3.3.1.1 コロケーション統計

共起語のリストと単語リストを同じファイル・コーパス・データベースで作成すると、コロケーショ ン統計値を計算することができます。メインメニューの統計 -> Collocationで計算したい統計値を選 びます。

コロケーション統計値を計算すると、左右合計列の左側に新しい列が挿入されて統計値が表示され ます。下の例で分かるように、共起語の頻度がコーパス全体少ない場合は、共起語としての頻度が少な くても統計値が大きくなる場合があります(選択した統計値によります)。このような場合は、最低 頻度をある程度の値に設定した方がいいかもしれません。

3.3.1.2 コロケーション視覚化

コロケーション統計値の計算と同様に、コロケーションリストと単語リストを同じファイル・コー パス・データベースで作成すると、頻度や統計値を利用して共起情報を視覚化することができます。こ の機能は実験的なものなので、将来的には大きな変更を行うかもしれません。

リストを作成したら、視覚化をクリックします。コロケーション視覚化ウインドウでは、使用した い統計値と使用したい情報を選びます。まずは、使用したい統計値を指定します。

そして、使用する情報を指定します。ラジオボタンで、列の場合は上を、範囲の場合は下を選んで列 または範囲を選択します。列を選んだ場合は、範囲にチェックを入れると、その位置から検索語までの 共起語の頻度を利用します。例えば、L5を選んで範囲にチェックを入れると、L5からL1までの頻度 情報が使われます。

そして、テーブルの上から何語までの情報を使うかを指定します。もし、指定した語数が共起語の数 よりも大きい場合は、すべての共起語の情報が利用されます。

次の例は、onlyの共起語リストを作成し、頻度上位100までの共起語のL5 ~ R5の範囲の頻度を もとにして作成しました。単語は、アルファベット順に並びます。

その他のオプションは次の通りです。

頻度 0 を無視 - 頻度 0 の単語を無視します

頻度情報を含める - 頻度情報を灰色の濃淡で表します; 低頻度の単語は白っぽく表示されます

LL 値を log に変換 - Log-Likelihood の値は大きいため log 変換します

複数の統計値を利用 - 複数の統計値を組み合わせることができます; 色を指定してください 次の例では、Log-log の統計値を利用して、下のオプションで視覚化します。

文字の大きさはLog-logの値を表し、色は3つの統計値の組み合わせで、色合いは統計値の相対的 な大きさ、色の濃さは頻度で表現されています。

細かな統計値を確認するには、統計値をクリックします。二本指・右クリックでコンテクストメ ニューからテーブルの統計値をコピーすることもできます。

3.3.1.3 その他の機能

3.3.1.3.1 中心語(キーワード)を一つの語として扱う

ワイルドカード文字を使った検索や二つ以上の単語、正規表現での検索などでは、共起語はそれぞ れの中心語ごとに集計されます。環境設定->その他-> Collocationの中心語を一つの語として扱うに チェックを入れると、すべての中心語をまとめて一つとして扱って、共起語の頻度が集計されます。こ の機能は、同じ単語の異綴りを検索した場合や語形変化をまとめて扱う場合に便利です。

3.3.1.3.2 結果のコピー

結果をコピーしたい場合は、コピーしたい行を選択して二本指・右クリックしてコンテクストメ ニューからコピーの方法を選びます。コピーしたテキストはタブ区切りのテキストとしてペーストでき ます。

3.3.1.3.3 Concord で検索

コンテクストメニューのConcordで検索を選ぶと、中心語(キーワード)を検索語として、共起語 を文脈語として Concord で検索できます。

3.3.1.3.4 結果の書き出し

結果をタブ区切りのテキストファイルとして書き出すには、メニューのファイル ->書き出しを選ん

で文字コードを指定します。書き出されたファイルは、拡張子が .txt となります。

3.3.2 Cooccurrence

Cooccurrence(共起)リストは、コロケーション頻度集計と同時に作成されます。この二つは、基

本的には同じ情報を別の表示の仕方で表しているものです。デフォルトでは、共起語はそれぞれの出現 位置で頻度順に並べられます。ただ、Collocationツールと異なり、列のヘッダをクリックしても並べ 替えることはできません。

結果の並べ替えは、コロケーション統計値を利用します。左上のポップアップボタンで統計値を選ん で、並べ替えをクリックします。

統計値を表示させたい場合は、右上の値にチェックを入れます。

この結果は、列ごとの情報をコピーすることに意味はないので、全体を書き出すことしかできませ ん。文字コードの他に、統計値を含めるかどうかを指定できます。単語(*)を選ぶと、統計値は単語に 続いてカッコに入って書き出され、Numbers やExcelで開くと同じセルに入ります。別の列を選ぶ と、単語と統計値はタブで区別されて別の列になり、別のセルに入ります。

ドキュメント内 CasualConc 20 マニュアル CasualConc 20 J (ページ 32-39)

関連したドキュメント