3.4 Word Cluster
3.5.4 Key Group Frequency
キーワードグループでは、指定した文字列(単語・句)の頻度を集計します。単語頻度との違いは、
複雑な文字列や複数の文字列をラベルをつけて、まとめて数え上げることができるところにあります。
この下にあるような、単純な単語やn-gramのリストの場合は、単語頻度で集計してから絞り込んだ方 が早い場合があります。特に、数え上げる項目のリストが長くなる場合には、単語頻度の機能の方が処 理時間は短くなります。
数え上げる文字列のリストを作るには、キーワードグループをクリックします。
リストを直接入力するかファイルを読み込むかを指定して、読み込みをクリックしてください。
入力を選択した場合は、テキスト入力パネルが現れるので、そこにテキストを入力してください。基 本的な書式は、ラベル(キーワード) に続いて‘->’を入力し、その後にそのラベルに含める文字列を
コンマ( , )もしくはスラッシュ( / )でつないで並べます。どちらで繋ぐかは、環境設定->ファイル情
報->キーワードグループ頻度の区切り文字で設定します:KEY->WORD1,WORD2,WORD3,...も し、コンマを文字列の一部に加えたい時は、スラッシュだけを区切り文字に指定してください。
上の例では、最初の行のラベルは ‘I’ で、それに含める単語は、I、me、my、mine なので、
I->I,me,my,mineと記述します。準備ができたら、読み込みをクリックします。その際に、追加に
チェックが入っていると、テーブル上のリストに追加されますが、そうでなければ置き換えになりま す。もし、ラベル、つまり、単語・句だけで改行すると、その全体がラベルとともに含まれる語として 認識されます。含まれる語のところは正規表現で記述することもできます。
ファイルから読み込む場合のファイルの書式は、テキストを入力する際の書式と同じです。また、
NumbersやExcel、テキストエディタでリストを作成した場合は、ペーストボタンをクリックするこ
とで、直接貼り付けることもできます。ただし、直接ペーストした場合は、リストに追加される形とな ります。ラベルを準備せずに自動ID割り振りにチェックを入れておくと、自動で IDが割り振られま す。
もし、単語・句などで、含めたくない文字列がある場合は、##EXCEPT##の後に同じようにリス トを記述することで、数を除外することができます。例えば、
in addition->in addition ##EXCEPT## in addition to
と記述すると、in additionは数えられますが、in addition to の一部としての頻度は差し引かれま す。
環境設定->ファイル情報->キーワードグループ頻度で、素頻度で集計するか相対頻度で集計する
か、割合(%)で集計するかを指定できます。
その他にも、正規表現のチェックや、単語だけのリストをレマ処理することもできます。
次の例では、上で追加したリストを使って、BROWNコーパスでの頻度を集計しています。頻度
は、1,000語あたりの頻度で表示しています。BRWONコーパスでは、AからCが報道テキスト、D
からHが一般テキスト、Jが学術テキスト、KからRがフィクションとなっています。見てわかるよ うに、Iとyouはフィクションで多くなっており、また、一般書の中でも趣味や定期刊行物 (E)でyou
の使用が多くなっているのがわかります。
アドバンストモードでは、ファイルだけでなく、コーパス・データベースごとでも頻度集計できま す。ファイルマネージャで複数のコーパス・データベースを作成し、使用したいものにチェックを入れ ます。そして、同様に頻度集計します。次の例は、同じリストを使ってI/you/theyの頻度を集計したも のです。Iの使用は、口語コーパスや学習者エッセイコーパス(ICNALE and NICE)での使用が多く、
youの使用は、口語コーパスと低いレベルのエッセイサブコーパス (ICNALE A2, B1_1)で多いこと がわかります。
3.5.5 コロケーション頻度
コロケーション頻度では、単語リストもしくは二つの単語リストから、共起頻度を集計できます。
まずは、使うリストを指定します。リストを読み込むをクリックしてください。左側のテーブルには キーワード(中心語:行)、右側のテーブルには共起語(列)のリストを読み込みます。つまり、行 テーブルの単語の前後指定した範囲で列テーブルの単語が何度出現するかを集計します。
追加する単語のリストは、テキストエディタなどで作成し、ペーストをクリックするかcommand + P ペーストします。書式は、一行一単語もしくは、キーワードグループでの書式と同じく、
KEY->Word1,Word2,...のように記述します。列テーブルが空の場合は、行テーブルの単語が共起語
としても扱われます。
共起語の集計には次の 6 つのオプションがあります。
指定範囲で数え上げ (P) - 同一パラグラフ内の指定範囲内に出現した数を集計します 指定範囲に存在 (P) - 同一パラグラフ内の指定範囲内に出現すれば 1 として集計します パラグラフに存在 - 同じパラグラフに出現すれば 1 として集計します
指定範囲で数え上げ - 指定範囲内に出現した数を集計します 指定範囲に存在 - 指定範囲内に出現すれば 1 として集計します パラグラフで数え上げ - 同じパラグラフに出現した数を集計します
ここでのパラグラフは、改行文字 (\n, \r, \r\n) で区切られた文字列を意味します。
正規表現にチェックを入れると、指定した正規表現にマッチした文字列を集計します。
次の例は、形容詞と副詞の共起頻度を集計したものです。BROWNコーパスでの高頻度形容詞を中 心語(行)、高頻度副詞を共起語(列)としています。ともに頻度上位25語まででリストを作成して います。そして、指定範囲で数え上げ(P)を範囲のオプションに選択してL5-R5を範囲に指定してい ます。
頻度集計は、素頻度とそれを元にしたコロケーション統計値が選べます。
上の設定で集計した素頻度のテーブルは次のようになりました。
この結果を使って、様々なコロケーション分析ができます。
4 共通機能 4.1 検索モード
Concord/Collocation/Clusterや Word Countのアドバンストモードでは、特定の文字列を検索で
きます。CasualConcには、単語、文字、正規表現、タグの4つのモードがあります。モードの切り替
えは、環境設定 -> 一般、もしくは、メインウインドウの右下のポップアップボタンで行います。
4.1.1 単語
単語・句などを Concord/Collocation/ClusterやWord Countのアドバンストモードで検索する際 に、ワイルドカード文字(半角)が使えます。
*(アスタリスク)
*は、0文字以上の文字列にマッチします。独立して使うと、単語がない場合にもある場合にもマッ チします。もし、他の文字列の一部として使うと、その文字列に続く文字がない場合もある場合もマッ チします。つまり、
in * context で検索すると in context, in a context, in the context などがマッチします
context* で検索すると context, contexts, contextual などがマッチします
! (エクスクラメーションマーク)
! は、1 文字にマッチします。つまり、
ma!e で検索すると made, make, male, mate などがマッチします
? (クエスチョンマーク)
?は、1文字以上の文字列にマッチします。独立して使うと、単語がある場合のみマッチします。他 の文字列の一部として使うと、その文字列に続く文字がある場合のみマッチします。つまり、
in ? context を検索するとin a context,in the contextはマッチしますが、in contextはマッチし ません
context? を検索すると contexts, contextual はマッチしますが、context はマッチしません
(A|B)
(A|B) は、A と B のどちらかにマッチします。つまり、
it (is|was) interesting を検索すると it is interesting と it was interesting がマッチします
/ (スラッシュ)
/は、検索文字列を分ける機能を持っており、/で区切られた文字列は、別の検索文字列として検索 されます。つまり
result/finding で検索すると result と finding がマッチします
it is/was interesting で検索すると it is と was interesting がマッチします。
これらのワイルドカード文字は、組み合わせて使うことができます。
it (is|was|should be) * * that
で検索すると、BROWN コーパスでは、次のような文字列にマッチしました。
it is also found that, it is believed that, it is that, it should be noted that, it should be painfully obvious that, it was a face that, it was evident that, it was that など。
4.1.2 文字
文字モードでは、検索文字列はすべてそのままの文字が検索されます。正規表現でいうと、すべての メタ文字がエスケープされた検索ということになります。
4.1.3 正規表現
正規表現は、そのまま、正規表現での検索ができます。CasualConcで利用している正規表現エンジ ンはOS X標準のICUとなります。これは、以前のバージョンのOnigurumaとは多少異なる点があ りますが、大きな問題になるほど差はありません。詳しい情報に関しては、ウェブなどで検索してくだ さい。
4.1.4 タグ
これは、実験的なモードで、動作の保障はありません。基本的には、タグのついたテキストを、タ グで検索するモードです。単語・正規表現でも検索文字列を工夫すればタグの検索はできますが、この モードは、タグのみを指定してタグのついた単語ごと検索することを試みています。現在は、4つのタ グタイプに対応しています(ちゃんと機能していれば)。タグの切り替えは、環境設定->一般->テキ