CasualConc 20 マニュアル CasualConc 20 J

(1)

CasualConc _{マニュアル}

(バージョン 2.0.3, 2016/04/08)

(2)

1 使い始める前に 1

2 ファイルの管理 2

2.1 シンプル−ファイル 2

2.2 シンプル−テキスト 4

2.3 アドバンスト−ファイル 4

2.4 アドバンスト−データベース 6

3 基本ツール 9

3.1 Concord 9

3.1.1 検索結果の限定 10

3.1.2 文脈表示範囲と結果の並べ替え 11

3.1.3 結果の操作 11

3.1.3.1 結果の書き出し 13

3.1.4 その他の機能 13

3.1.5 並列処理設定 14

3.2 Word Count 15

3.2.1 結果の並べ替え 17

3.2.2 結果の絞り込み 18

3.2.3 アドバンストモード 19

3.2.3.1 特定の語句検索 19

3.2.3.2 POS タグを利用したリストの作成 21

3.2.4 その他の機能 22

3.2.4.1 結果のコピーと書き出し 22

3.2.4.2 特徴語統計 23

3.2.4.3 結果を新規ウインドウで開く 24

3.2.4.4 Concord で検索 25

3.2.4.5 単語リスト抽出 25

3.3 Collocation/Cooccurrence 26

3.3.1 Collocation ツール 26

3.3.1.1 コロケーション統計 28

3.3.1.2 コロケーション視覚化 29

3.3.1.3 その他の機能 31

3.3.1.3.1 中心語（キーワード）を一つの語として扱う 31

3.3.1.3.2 結果のコピー 31

3.3.1.3.3 Concord で検索 32

3.3.1.3.4 結果の書き出し 32

3.3.2 Cooccurrence 32

3.4 Word Cluster 33

(3)

3.4.1 結果の書き出し 34

3.5 ファイル情報 35

3.5.1 基本ファイル情報 36

3.5.2 単語頻度 37

3.5.2.1 結果の絞り込み 39

3.5.2.2 結果の 2 値化 41

3.5.2.3 特徴語統計 41

3.5.2.4 単語リスト抽出 43

3.5.2.5 特徴語抽出 43

3.5.2.5.1 順位・平均比較 44

3.5.2.5.2 ランダムフォレスト 46

3.5.2.5.3 特徴度指数比較 52

3.5.3 TF-IDF 53

3.5.4 Key Group Frequency 54

3.5.5 コロケーション頻度 56

4 共通機能 59

4.1 検索モード 59

4.1.1 単語 59

4.1.2 文字 60

4.1.3 正規表現 60

4.1.4 タグ 60

4.2 文脈の範囲 61

4.3 数字の扱い 61

4.4 文字の置換 61

4.5 単語の一部として含める文字処理 62

4.6 特殊な単語・文字の扱い 62

4.7 レマ・異綴り・キーワードグループ 65

4.7.1 レマ 66

4.7.2 異綴り 67

4.7.3 キーワードグループ 68

4.8 語彙プロファイラ 69

4.9 正規表現テスト 72

4.10 単語リスト結合 73

5 Advanced Tools (Graph Drawing) 76

5.1 Word Cloud 76

5.1.1 Options 80

5.1.2 Handling Multiple Files 82

5.2 Chart 85

5.2.1 Line Chart 85

5.2.1.1 Options 86

(4)

5.2.2 Bar Chart 90

5.2.2.1 Options 91

5.2.3 Pie Chart 94

5.2.3.1 Options 95

5.2.4 Radar Chart 97

5.2.4.1 Options 98

5.3 Scatter Plot 98

5.3.1 Options 100

5.4 Cluster 102

5.4.1 Options 104

5.5 Correspondence 107

5.5.1 Options 108

5.6 PCA (Principal Component Analysis) 113

5.6.1 Options 114

5.7 EFA (Exploratory Factor Analysis) 118

5.7.1 Options 120

5.8 MDS (Multi-Dimensional Scaling) 122

5.8.1 Options 123

5.9 Network 125

5.9.1 Options 126

5.10 Item Position 134

5.10.1 From Concord 134

5.10.1.1 Options 135

5.10.2 New Search 137

5.10.2.1 Options 138

5.11 Graph Window 141

5.12 R Result Window 142

5.12.1 Statistical Results 142

5.12.2 R Script 143

5.13 Label Coloring 143

6 環境設定 152

6.1 一般 152

6.1.1 コーパスモード 152

6.1.2 フォント 152

6.1.3 検索語履歴 152

6.1.4 テキスト処理 153

6.1.5 文字処理 154

6.1.6 単語の一部として含める文字処理 154

6.1.7 文字・単語の分析における扱い 154

6.1.8 レマ・異綴り・キーワードグループ 154

(5)

6.1.9 その他 154

6.2 ファイル 154

6.2.1 ファイル処理 155

6.2.2 元ファイル編集・アプリケーション指定 155

6.2.3 デフォルトフォルダ 156

6.2.4 トークン化 156

6.3 タグ 157

6.3.1 タグモード 157

6.3.2 ヘッダ部分 158

6.3.3 タグ付けされたセクションの処理 158

6.3.4 コンテクストタグの処理 159

6.3.5 文字列の処理 159

6.4 Concord 160

6.4.1 フォント 160

6.4.2 並べ替え 161

6.4.3 KWIC 結果表示 162

6.4.4 その他 164

6.4.5 キーワード 164

6.4.6 並列処理 164

6.4.7 結果のコピー 164

6.4.8 タグ付きテキストの処理 (_TAG) 165

6.4.9 コンテクストビュー 165

6.5 ファイル情報 165

6.5.1 一般 165

6.5.2 ファイル基本情報 165

6.5.3 単語頻度 166

6.5.4 キーワードグループ頻度 166

6.5.5 TF-IDF 166

6.5.6 書き出し・コピー 167

6.6 視覚化 167

6.6.1 R 167

6.6.2 読み込み制限 168

6.6.3 POS チェック 168

6.6.4 Concordance プロット 168

6.7 Word Count 168

6.7.1 一般 169

6.7.2 アドバンスト 170

6.7.3 TreeTagger 170

6.8 その他 171

6.8.1 Collocation 172

(6)

6.8.2 最低頻度 172

6.8.3 その他 172

6.8.4 コピー 173

6.8.5 語彙プロファイラ 173

(7)

1 _{使い始める前に}

CasualConcは、OS Xネイティブのコンコーダンサーです。UTF-8のプレイテキストファイルを扱

うことを念頭に設計されていますが、MS Word 文書、Open Ofﬁce 文書、PDF、HTML、Web

Archiveなどのファイルからもテキストを抽出して処理できます。ただし、これらのファイルからのテ

キストの抽出には多少の時間がかかるため、同じファイルで何度もテキストを検索する場合には、これらのファイルをプレインテキストファイルに変換しておくといいでしょう。プレインテキストファイルへの変換はお好みのアプリケーションを使っていただけばいいのですが、CasualTextractorでも、これらのファイルを一括でプレインテキストファイルに変換できます。

CasualConcでの分析の基本単位は段落です。ここでいう段落とは、改行記号(\n, \r\n, \rなど)で区切られたテキストの塊を指します。そのため、テキスト検索、並べ替え語、単語クラスターなどは、段落内のテキストが対象となります。段落以外には、一つのファイル全体を分析単位とするモードもあります。

CasualConcをお使いのMacから完全に削除するには、次の場所にあるファイル・フォルダを削除

してください。これらのファイル・フォルダはそのままにしておいても、ディスクスペースを占拠し続ける以外は特に問題になることはありません。ライブラリフォルダは、システムのものではなく、ユーザーフォルダ内のものです。ユーザーフォルダ内のライブラリフォルダはデフォルトでは表示されない

ので、Finder メニューの「表示」を Option キーを押しながらクリックして移動してください。

アプリケーションフォルダ内の CasualConc.app

~/ライブラリ/Application Support フォルダ内の CasualConc フォルダ

~/ライブラリ/Preferences フォルダ内の jp.yi.CasualConcRM.plist ファイル

この新しいバージョンのCasualConcは、これまでのバージョンとは異なるプログラム言語で開発しています。残念ながら、この言語でのテキスト処理は多くの場合、これまでよりも遅くなります。この問題に対処するため、OS Xの標準機能である並列処理を利用して処理時間の削減に努めています。並列処理はデフォルトでオンになっていますが、処理結果に疑問がある場合は、環境設定->一般にある並列処理をオフにしてみてください。

(8)

2 _{ファイルの管理}

テキストファイルやテキストの管理はファイルマネージャで行います。ファイルマネージャに切り替えるには、上部タブのファイルをクリックします。CasualConcにはテキストを扱う4つのモードがあります：シンプル−ファイル、シンプル−テキスト、アドバンスト−ファイル、アドバンスト−データベース。モードは、メインウインドウの右上のポップアップボタンとモードセレクタで指定します。

シンプルとアドバンストの切り替えは、ポップアップボタンで、ファイル・テキストとファイル・ダタベースの切り替えはセレクタボタンで行います。

デフォルトでは、UTF-8もしくはASCIIでエンコードされたプレインテキスト(.txt)のみが扱えます。他のファイルタイプを扱うには、環境設定->ファイルのファイル処理でコーパスファイルタイプを選択したファイルタイプに変更し、扱いたいファイルタイプにチェックを入れます。すべてのファイルタイプを選ぶと、リストにあるすべてのファイルタイプに加えて、それ以外のすべてのファイルをプレインテキストファイルとして扱えます。ドラッグアンドドロップでファイルを読み込む際に適用されるプレインテキストのデフォルト文字コードもここで設定します。

2.1 _{シンプル−ファイル}

CasualConcを始めて立ち上げると、シンプル−ファイルモードが選択されています。シンプル−

ファイルモードでは、ファイルリストテーブルにファイルを追加して、そのファイルを処理します。このモードは、手っ取り早く手元にあるファイルを扱うために用意してあります。デフォルトでは、プレインテキスト(.txt)のみを扱えるようになっているので、他のファイルタイプを扱うには、環境設定->

ファイルで設定してください（セクション 6.2.1 参照）。

ファイルをファイルリストテーブルに追加するには、メインメニューのファイル->ファイルを追加を選びます。

(9)

ここで追加したいファイルを選んで開くをクリックします。フォルダを選ぶと、そのフォルダ内にあるファイルがサブフォルダ内のものも含めてすべて追加されます。文字コードを選んで読み込んでください。

これ以外にも、テーブル右下の追加ボタンをクリックするか、テーブルにファイルをドラッグアンドドロップしてもファイルを追加できます。

ファイルマネージャのファイルリストテーブル上では、読み込んだファイルをチェックできます。また、右上のプレビューにチェックを入れてファイルリストテーブル上でファイルを選ぶと、ファイルの中身が下のテキストボックスに表示されます。

テーブルからファイルを削除するには、削除したいファイルを選んで削除ボタンをクリックします。すべてのファイルを削除するには、クリアボタンをクリックします。

(10)

ファイルテーブル上でファイルを選んで二本指・右クリックすると、選択したファイルをFinderもしくは指定したアプリケーションで開くことができます。プレインテキストファイルの場合は、

CasualConc のエディタで開いて編集することもできます。

2.2 _{シンプル−テキスト}

テキストモードでは、テキストボックスにテキストをコピーアンドペーストして手軽に分析できます。このモードは、CasualConc 2.x での新機能です。

このモードには、二つのテキストボックスがあり、Concord、Collocation/Cooccurrence、ファイル情報では、左側のテキストが使われます。Word CountとClusterでは、二つのテーブルのそれぞれに対応するテキスト、左のテーブルには左のテキスト、右のテーブルには右のテキストが使われます。このモードでは、手元の文書やウェブ上で見つけたテキストを手っ取り早くチェックすることができます。

2.3 アドバンスト−ファイル

このモードでは、ファイルのグループを作って管理・分析することができます。CasualConcでは、このグループをコーパスと呼びます。コーパスを作るには、まず、ファイルマネージャで右上のファイルリストテーブルにファイルを読み込みます。メインメニューのファイル -> ファイルを追加を選ぶか、追加ボタンをクリックする、もしくは、テーブルにファイルをドラッグアンドドロップします。

(11)

ファイルを読み込んだら、左上のコーパスリストテーブル右下にある新規ボタンをクリックします。

コーパスの名前をつけるように促されるので、名前を入力して作成ボタンをクリックします。もし同じ名前のコーパスがリストにある場合は、別の名前をつけるように促されます。

新しく作成されたコーパスは、左上のコーパスリストテーブルに追加されます。複数のコーパスがある場合には、テーブル上で選択したコーパスをクリックしながらドラッグアンドドロップすることでコーパスの位置を移動させることができます。

コーパスを分析に使うには、チェクボックスにチェックを入れます。左下のテーブル上部のファイルリストを表示にチェックを入れて、コーパスリストテーブルでコーパスを選びます。ファイルプレビューにチェックを入れて右下のファイルリストテーブルのファイルを選ぶと、そのファイルの中身を確認できます。

(12)

既存のコーパスにファイルを追加するには、コーパスリストテーブル上のコーパスを選んで、右上のファイルリストテーブルにファイルを読み込み、ファイルを追加ボタンをクリックします。複数のコーパスを選んで、結合ボタンをクリックすると、コーパスを結合できます。もし何らかの理由で、コーパスの中のファイル数の表示が正しくない場合は、リストを更新をクリックするとファイル数を集計し直します。コーパスに含まれるファイルを削除するには、ファイルリストを表示させて消したいファイルを選択し、左下のテーブル右下にあるファイルを削除ボタンをクリックします。コーパステーブル左下の削除ボタンをクリックすると、選択されたコーパスがテーブルから削除されます。

2.4 アドバンスト−データベース

このモードは、Concord、Collocation、Clusterでの検索時間を短縮するために実装されています。特に、扱うファイル数が多い場合には有効ですが、場合によってはファイルモードよりも遅くなることもあります。テキストファイルのテキストは、段落、つまり、改行記号で区切られた塊ごとに分けられ

てSQLiteデータベースに保存されます。文字列を検索する際には、あらかじめその文字列を含むエン

トリに絞り込まれてから処理されます。このため、Word Countやファイル情報などのすべてのテキストを処理するツールではファイルモードよりも時間がかかることが多くなります。データベースファイルは、アドバンスト−ファイルのコーパスと同様に管理できます。

新規のデータベースを作成するには、右上のファイルリストテーブルにファイルを追加して、左上のデータベースリストテーブル右下にある新規ボタンをクリックします。データベースファイルに名前を付けて保存するように促されます。新規に作成されたデータベースファイルはデータベースリストテーブルに追加されます。

(13)

データベーステーブル上のデータベースファイルににテキストファイルを追加したり、データベースを結合することもできます。以前のバージョンのCasualConcで作成したデータベースファイルがある場合には、追加ボタンをクリックしてデータベースファイルを選ぶかドラッグアンドドロップで、データベースリストテーブルに追加することができます。その際は、データベースの情報を処理するため、大きなデータベースファイルや複数のデータベースファイルを追加する場合は、それなりの時間と多くのメモリが必要となる場合があります。大きなデータベースファイルは一つずつ追加し、追加後には

CasualConc を再起動することをお勧めします。

ファイルモードと同様に、データベースファイルを使うには、チェックボックスにチェックを入れます。また、左下のテーブル上部のファイルリストを表示にチェックを入れて、データベースリストテーブルでデータベースを選ぶと、データベースに含まれるファイルのリストを確認できます。ファイルプレビューにチェックを入れて右下のファイルリストテーブルのファイルを選ぶと、そのファイルの中身が確認できます。

既存のデータベースファイルにファイルを追加するには、データベースリストテーブル上のデータベースを選んで、右上のファイルリストテーブルにファイルを読み込み、ファイルを追加ボタンをクリックします。複数のデータベースを選んで、結合ボタンをクリックすると、データベースを結合できます。もし何らかの理由で、データベースファイル中のファイル数や述べ語数の表示が正しくない場合は、更新をクリックするとファイル数と述べ語数を集計し直します。データベースファイルにに含まれ

(14)

るファイルを削除するには、ファイルリストを表示させて消したいファイルを選択し、左下のテーブル右下にあるファイルを削除ボタンをクリックします。データベーステーブル左下の削除ボタンをクリックすると、選択されたデータベースがテーブルから削除されます。

データベースリストテーブルでデータベースを選んで二本指・右クリックすると選択されたデータベースファイルを Finder 上に表示させることができます。

(15)

3 _{基本ツール}

CasualConc には、5 つの基本分析ツールがあります：Concord、Word Count、Collocation/ Cooccurrence、Cluster、ファイル情報です。ConcordではKWICコンコーダンスリストを作成できます。Word Countでは単語・n-gramリストを作成できます。Collocation/Cooccurrenceでは検索語を中心として指定した範囲に現れる単語のリストを作成できます。Clusterは指定した文字列を含む n- gramのリストを作成します。ファイル情報では、ファイルの基本情報、指定文字列、TF-IDF、指定した文字列の共起語などの表を作成できます。

3.1 Concord

Concord を使うには、ツールタブで Concord を選びます。

Concord の基本機能は、KWIC コンコーダンスリスト作成です。

検索テキストボックスに検索したい文字列を入力して検索ボタンをクリックするか、^Enterキーを押します。また、過去の検索語をポップアップメニューから選ぶこともできます。履歴に残す項目数は環境設定 -> 一般で指定します。

(16)

検索モードと検索範囲の指定は、ウインドウ右下で指定できます（セクション4.1、セクション4.2

を参照）。並べ替え語、結果テーブルのフォント・サイズ、テーブルの行の高さなどは、環境設定-> Concord で設定できます。

アドバンスト−ファイルモードではファイルマネージャで複数のコーパス・データベースが選択できますが、選択された全てを検索対象にするか、そのうち一つを検索対象にするかを選択できます。

3.1.1 _{検索結果の限定}

Conconrdでの検索結果は、指定した範囲の文脈に現れる語・フレーズを指定することで限定できま

す。検索の前に、文脈語にチェックを入れて、文脈に現れるべき語を入力し、検索語を中心とした左右の範囲を指定します。

上の例では、検索文字列indicate?（?はワイルドカード文字）の左右5語以内に「as」が現れる結果だけに絞り込まれています。デフォルトでは、指定した文字列は下線で装飾されますが、環境設定

-> Concord -> KWICの結果表示で、ボールド、下線ボールド、指定した色での装飾などを指定できま

す。

指定した文字列が指定した範囲に現れない結果に絞り込みたい時は、環境設定-> Concord -> Misc

で文脈にない語の指定にチェックを入れます。これで、除外語とその範囲を指定できます。この二つは同時に指定して、特定の語が現れて、別の特定の語が現れない結果への絞り込みができます。

(17)

3.1.2 文脈表示範囲と結果の並べ替え

KWICの結果の文脈表示範囲を左右独立して、10文字刻みで0から150文字の範囲でポップアップボタンで指定できます。デフォルトでは、左右共に60文字に設定されています。この範囲は、結果が表示されている状態でも変更できますが、変更を反映させるには、並べ替えボタンをクリックしてください。

結果は、文脈語で並べ替えることができます。プリセットリストから組み合わせを選んでください。デフォルトでは、R1-R2-R3、つまり、キーワードの右側の1つ目、2つ目、3つ目の単語のアルファベット順で並べ替えられます。プリセットは、環境設定 -> Concordの並べ替えで指定できます（セク

ション6.4.2参照）。詳細はプリセットでも指定できますが、検索結果を見ながら並べ替え順を詳細

に設定したい場合は、並べ替え選択にチェックを入れて、並べ替え順を指定します。^FNはファイル名、POS は、段落・ファイル内の位置、CDN はコーパス・データベース名です。

並べ替える語の範囲を左右5語（L5–R5）よりも広げたい場合は、環境設定-> Concordの Misc

にあ広範囲モードにチェックを入れることで左右¹⁵語（L15–R15）の範囲で指定できるようになります。この広範囲モードは、文脈語・除外語にも適用されます。

3.1.3 _{結果の操作}

テーブル右上のコンテクストにチェックを入れてテーブル上の結果をクリックすると、下部のコンテ

(18)

クストビューに結果表示の範囲を超えた文脈が表示されます。結果を選択した状態で二本指・右クリックすると、コンテクストメニューが現れ、選択した結果をコピーできます。選択した行をスタイル情報を保持してコピーを選ぶと、キーワードはボールドでコピーされます。環境設定-> Concord_の結果の

コピーで文脈語の色と文脈語のスタイルを保持してコピーするかどうかを指定できます。^TABを挿入にチェックを入れると、タブ記号(\t)がキーワードの前後に挿入されてコピーされます。タブ記号を挿入すると、Numbers や Excel にペーストした際に文脈とキーワードが別のセルに入ります。

選択した行を削除することのもでき、削除を取り消すこともできますが、確実に取り消せない場合もあるので気をつけてください。また、Command + delete キーでも削除できます。

選択した行ファインダーに表示したり、指定したアプリケーションを開いたり出来ます。プレインテキストファイルの場合は、CasualConcのエディタで開いて編集できます。これらの処理は、複数の行が選択されている場合、選択された行の一番上のファイルが処理されます。

コンテクストビューでは、選択した単語を OS 標準の辞書.app で検索できます。

また、コンテクストメニューの選択した文字列を ^Concordで検索を選ぶと、選択した文字列を

Concord で検索できます。

(19)

3.1.3.1 _{結果の書き出し}

検索結果は、スタイル付きのテキストとしてRTFとして書き出すか、タブ区切りのプレインテキストとしてかきだせます。メニューのファイル -> 書き出すを選んでください。

保存オプションで、フォント情報保持にチェックを入れると、フォント、キーワードのスタイルなどが保持されて、RTFとして保存されます。文脈語の色とスタイルは保持するかどうかを個別に指定できます。チェックを入れないと、CSVとして保存されます。キーワードの前後にタブ記号(\t)を入れることもできます。

文脈語にチェックを入れるて範囲を指定すると、タブ記号で区切られて文脈語が結果のテキストと一緒に書き出されます。その他には、ファイル名や、コーパス・データベース名もかきだせます。フォント情報を保持しないで書き出す際に最大文脈範囲にチェックを入れて書き出すと、^CasualConcが保持しているキーワード前後のテキストがすべて書き出されます。通常は、結果テーブルに表示されているよりも広い範囲のテキストが保持されています。

3.1.4 _{その他の機能}

以前のバージョンと同様に、キーワードを括弧付きの空白や下線で置き換えて表示させることもできます。環境設定 -> Concord のキーワードで設定します。

(20)

検索結果を別のウインドウで開くこともできます。メニューのウインドウ-> Concord_{の結果を新}

規ウインドウで開くを選んでください。

新しいウインドウが開き、結果が表示されます。このウインドウ上でも、結果の並べ替えや、保存、書き出しができます。メインウインドウとは異なり、ウインドウ上の保存・書き出しをクリックして処理してください。

3.1.5 _{並列処理設定}

データベースモードでの並列処理は不安定になることもあるため、デフォルトではファイルモードで

(21)

のみ適用されます。環境設定-> Concord ->並列処理で、データベースモードでも並列処理するように設定できます。

3.2 Word Count

Word Count を使うには、ツールタブで Word Count を選びます。

Word Count では、表示されている二つのテーブルにそれぞれ単語・n-gramリストを作成できま

す。

Word Count では、デフォルトで次の情報が得られます。

type：タイプ−重なり語数

token：トークン−述べ語数・総語数

頻度：それぞれの項目の頻度

割合：総語数に対する項目頻度の割合 (0.01% 以上)

含ファイル：それぞれの項目が現れるファイル数

(22)

含ファイル割合：それぞれの項目が現れるファイル数の総ファイル数に対する割合

重なり語数（type）と総語数（token）の数値は、レマ処理、ストップワードの削除、結果の絞り込みなどの処理の前の値となっています。環境設定のその他->その他にある、リストに含まれる項目を集計にチェックを入れると、絞り込みでテーブルに表示されている項目の重なり語数と総語数が表示されます。

環境設定のWord Count ->一般にある単位で文字を指定すると、文字の頻度リストが作れます。また、単語の境界を超えて集計にチェックを入れると、文字の ^n-gramは単語の境界を超えます。チェックが入っていなければ、単語内での n-gram のみが集計されます。

テーブルに表示する単語と n-gramの最低頻度をそれぞれで指定することができます。環境設定->

その他->最低頻度で指定してください。もし、大きなコーパス（1000万語超）で、コーパスに出現す

るすべてのn-gramのリストを作ろうとすると、お使いのMacのメモリをすべて消費した上で、処理にとても長い時間がかかることがあります。例えば、100万語のコーパスで4-gramを作ったところ、

10 回以上使われている 4-gram は 256 ありました。

環境設定 -> Word Count ->一般の頻度の標準化にチェックを入れて、基準にする語数を指定する

と、n語ごとの頻度を表示できます。次の例は、1,000単語ごとの標準（相対）頻度を表示させています。

(23)

デフォルトでは、n-gramの結果表示は、単語間に半角のスペースが入りますが、タブ記号（\t）に置き換えて表示させることもできます。タブ記号で区切って結果を表示させたものを書き出したりコピーすると、単語がタブで区切られているため、NumbersやExcelなどにペーストすると、それぞれの単語が別のセルに入ります。この設定は、環境設定-> Word Count -> n-gram_{の区切りで指定しま}

す。

アドバンストコーパスモードでは、ボタンなどがあるヘッダー部分にコーパス・データベースを選択するポップアップボタンが現れるので、複数のコーパス・データベースをすべて分析対象にするか、一つを選択して分析するかを選べます。この際に左右のテーブルで異なるコーパス・データベースを選ぶと、結果の比較が容易にできます。

単語・n-gramリストの作成では、テキストデータのすべてを扱うため、特定の文字列の検索を得意

とするデータベースモードでは、かえって遅くなったり、多くのメモリを消費します。また、内部プロセスの効率やメモリ消費の関係上、現在のバージョンでは、n-gramリストの作成では並列処理は行いません。

3.2.1 _{結果の並べ替え}

結果を並べ替えるには、並べ替え隊列のヘッダをクリックするか、特殊並べ替え順をポップアップボタンで選んで、並べ替えをクリックします。Words/n-gramsの列での並べ替えは、大文字小文字の区別がされませんが、通常のアルファベット以外の文字を使った言語には対応していません。例えば、装飾文字のある言語では、装飾文字の大文字小文字は対応した大文字小文字として処理されないこともあります。特定の言語に対応した並べ替えをするには、環境設定->その他->その他で、言語固有の大文字小文字区別にチェックを入れてください。標準では、英語と日本語のみがリストに表示されますが、追加をクリックしてその他の言語を追加することができます。

(24)

特殊並べ替えには、次の 4 つのオプションがあります。

後方アルファベット^-最後の文字から順にアルファベット順で並べ替えます単語長^-単語に含まれる文字数が多い順に並べ替えます

逆単語長^-単語に含まれる文字数が少ない順に並べ替えます。

大小区別のアルファベット - 通常は、同頻度の単語はアルファベット順に並びますが、このオプションを選ぶと、大文字で始まる単語がアルファベット順に並んだ後に、小文字で始まる単語がアルファベット順に並びます。

後方アルファベットでは、次のような並び順になります。

3.2.2 _{結果の絞り込み}

リストを作成後に結果の絞り込みができます。テーブル右上の検索ボックスに任意の文字をタイプしてください。左端の虫眼鏡アイコンをクリックすると、絞り込みのオプションが選べます。POSのオプションは、タグ付きのテキストもしくはタグ付け処理してリストを作った際に利用します。

「ly」を「で終わる」オプションで絞り込むと、次のような結果になります。

(25)

3.2.3 _{アドバンストモード}

Word Countには、独自のアドバンストモードがあります。環境設定-> Word Count ->アドバンストで、アドバンストモードにチェックを入れてください。

3.2.3.1 _{特定の語句検索}

アドバンストモードでは、単語のリスト作成オプションが選ばれていると、特定の語句を検索して頻度集計できます。単語検索モードでは、ワイルドカード文字が使えます。次の例では、at the ? ofを検索した結果が表示されています。

ワイルドカード文字を含む検索文字列の一部をカッコに入れると、カッコの中の部分だけでリストが作成されます。次の例では、at the (?) ofを検索した結果が表示されています。この場合は、(?)の部分にあたる文字列のみでリストが作られています。

n-gramリスト作成オプションを選ぶと、ギャップn-gram（フル：n-gramの単語のひとつがギャッ

プ＝任意の単語として扱われるn-gram）もしくは p-frame（ギャップn-gramの単語に囲まれた部分

(26)

のみがギャップのもの）のリストが作成できます。ギャップにチェックを入れてn-gramリストを作成してください。フル・p-frames の二つのオプションは、環境設定 -> Word Count -> Advanced の

ギャップ^n-gramsで切り替えられます。次の例は、フルオプションで作成したギャップ^n-gramのリ

ストです。

p-frames のオプションでは、ギャップが両端に来たものは集計されません。

詳細にチェックを入れると、ギャップの位置に使われていた単語が集計されます。

ギャップ位置の単語の詳細は、確認した行にポインタを合わせて、二本指・右クリックで、コンテクストメニューから括弧に該当する単語のリストを表示を選んでください。

(27)

パネルが現れて、リストが頻度とともに表示されます。リストをコピーをクリックすることで、単語と頻度がコピーされます。

3.2.3.2 POS タグを利用したリストの作成

Word Countでは、POSタグがついてテキストの頻度リストを作ることができます。現在は、

Word_Tag の形式か、TreeTagger の標準出力の形式のみ対応しています。

この機能を使うには、環境設定-> Word Count ->アドバンストでアドバンストモードにチェックを入れ、タグ分析にチェックを入れてください。オプションは、^Word_Tag、TreeTagger、

TreeTagger (no syms)の3つです。TreeTaggerを選ぶと、単語かレマのどちらで頻度集計するかを選べます。次の例は、TreeTagger -単語（左）、TreeTagger -レマ（右）で作成した単語リストです。

同じ設定で、4-gram のリストを作ったのが次の例になります。

(28)

このバージョンでは、タグのついたテキストが扱えるだけでなく、タグのついていないテキストに、

OS X標準のPOS分析機能を利用してPOSタグを付けてリストを作ることもできます（英語のみ）。

環境設定-> Word Count ->アドバンストで、タグ分析をオンにしてタグ処理にチェックを入れてくだ

さい。TreeTaggerをインストールすれば、TreeTaggerで利用できる言語でPOSタグを利用したリス

トを作ることもできます。また、システムにMeCabがインストールされていると、日本語も POSタグをつけて頻度集計できます。

次の例では、標準の機能（左）、TreeTagger（右）で単語リストを作成しました。

TreeTaggerでは、標準では記号もタグ付けされますが、記号を無視することもできます。Sym_削

除にチェックを入れてください。ここまでの例では、記号は削除しています。

3.2.4 _{その他の機能}

3.2.4.1 結果のコピーと書き出し

選択した行の項目の情報や単語などをコピーすることができます。コピーしたい行を選択して、二本指・右クリックでコンテクストメニューを表示させて選んでください。

(29)

選択した行をコピー^-選択した行のすべての情報をコピーします

選択した単語をコピー^-選択した項目（単語・n-gram）のみをコピーします選択した単語と頻度情報をコピー - 選択した行の項目と頻度のみをコピーします

結果は、CSVファイルとして書き出すことができます。書き出したいテーブルとオプションを選択してください。書き出したデータを2011以前のExcelで開きたい場合は、文字コードでUTF-16を選択してください。

3.2.4.2 _{特徴語統計}

左右のテーブルで異なるファイルやコーパス・データベースで単語リストを作った場合、特徴度指数

（Keyness）を計算できます。左のテーブルのリストが対照コーパス、右のテーブルのリストが参照

コーパスとして扱われます。

特徴度指数を計算するには、メニューの統計-> WC特徴度指数で、計算したい統計値を選びます。すべてを選択すると、すべての統計値が計算されます。

計算された統計値は、左側のテーブルに表示されます。赤で表示された数値は、参照コーパスでの頻度（相対頻度）が多いことを意味します。この色付けは、環境設定-> Word Count ->一般の負のキーワード統計値を赤で表示でオフにすることができます。

次の例では、すべての特徴度指数を表示しています。アメリカの歴代大統領の就任演説コーパスの単語リストをアメリカ英語の一般コーパスであるFROWNと比較して、LL (Log-Likelihood)の値の大きい順に並べ替えて表示しています。

(30)

3.2.4.3 結果を新規ウインドウで開く

結果のテーブルは、新しいウインドウで開くことができます。単語・n-gramリストを作成したら、メニューのウインドウ -> Word Countの結果を新規ウインドウで開くで左右の開きたいテーブルを選択します。

このウインドウでは、メインウインドウ上のテーブルと同様に結果の並べ替えや絞り込みができます。保存や書き出しもできますが、メニューからではなく、ウインドウ左上のメニューをクリックしてください。

(31)

3.2.4.4 Concord _で検索

テーブル上で選択した単語・n-gramをConcordで検索することができます。ただ、n-gramを検索する場合は、結果の頻度が違うことがあります。これは、n-gramは単語間に記号がある場合も含まれるためですが、一致させるには、環境設定 -> 一般 ->その他の単語間に記号がある場合も検索にチェックを入れてください。これで、検索語の単語の間に記号がある場合も処理されます。

3.2.4.5 _{単語リスト抽出}

左右二つのリストから、共通する単語・n-gram、それぞれにしかない単語・n-gramのリストを作成することもできます。左右のテーブルに単語・n-gramリストを作成してから、メインメニューのウインドウ -> 単語リスト抽出を選びます。

単語リスト抽出ウインドウが現れます。

Word Count では、3 つのオプションが選べます。

左右: 左右両方のテーブルに現れる項目のリストを作ります左のみ^:左のテーブルにのみ現れる項目のリストを作ります右のみ^:右のテーブルにのみ現れる項目のリストを作ります

(32)

左右

左のみ右のみ

次の例では、左テーブルにアメリカ英語（FROWN）右テーブルにイギリス英語（FLOB）のコーパスで単語リストを作って抽出しています。見てわかるように、左のみでは、アメリカ英語の綴りやアメリカに関連する単語が並び、右のみでは、イギリス英語の綴りやイギリスに関連する単語が並んでいます。

3.3 Collocation/Cooccurrence

Collocation/Cooccurrence を使うには、ツールタブで Collocation を選びます。

Collocation と Cooccurrence ツールの切り替えは、ウインドウ右上のスイッチで行います。

3.3.1 Collocation _ツール

Collocationツールは、検索語（キーワード）の左右で指定された範囲の文脈に現れる単語・n-

gram の頻度を集計して表示します。検索したい文字列を入力して、範囲を指定し、検索ボタンをクリックするかリターンキーを押します。

(33)

赤色の数字は、その共起語が最も多く現れる位置を示しています。Word Countと同様に、結果として表示する最低頻度を指定することができます。環境設定 ->その他-> 最低頻度で設定してください。

結果の並べ替えは、並べ替えたい列のヘッダをクリックして行います。結果表示後に文脈の範囲を変えたい場合は、範囲の値を変更してから並べ替えをクリックします。

また、Word Count と同様に、結果の絞り込みもできます。

検索のオプションで n-gram (2-5) を選ぶと、n-gram を共起語としてリストを作成できます。

(34)

n-gramが共起語として集計される際は、L1の位置の共起語は、検索語からn番目の位置の単語から始まります。2-gramが選択されていると、L1は検索語の左 2単語目から始まる2-gramとなり、

L2は検索語の左3単語目から始まる2-gramとなります。つまり、文脈にある同じ単語は、最大n回

n-gram の一部として数えられることになります（これは Word Count の n-gram と同じです）。

3.3.1.1 _{コロケーション統計}

共起語のリストと単語リストを同じファイル・コーパス・データベースで作成すると、コロケーション統計値を計算することができます。メインメニューの統計 -> Collocationで計算したい統計値を選びます。

コロケーション統計値を計算すると、左右合計列の左側に新しい列が挿入されて統計値が表示されます。下の例で分かるように、共起語の頻度がコーパス全体少ない場合は、共起語としての頻度が少なくても統計値が大きくなる場合があります（選択した統計値によります）。このような場合は、最低頻度をある程度の値に設定した方がいいかもしれません。

(35)

3.3.1.2 _{コロケーション視覚化}

コロケーション統計値の計算と同様に、コロケーションリストと単語リストを同じファイル・コーパス・データベースで作成すると、頻度や統計値を利用して共起情報を視覚化することができます。この機能は実験的なものなので、将来的には大きな変更を行うかもしれません。

リストを作成したら、視覚化をクリックします。コロケーション視覚化ウインドウでは、使用したい統計値と使用したい情報を選びます。まずは、使用したい統計値を指定します。

そして、使用する情報を指定します。ラジオボタンで、列の場合は上を、範囲の場合は下を選んで列または範囲を選択します。列を選んだ場合は、範囲にチェックを入れると、その位置から検索語までの共起語の頻度を利用します。例えば、L5を選んで範囲にチェックを入れると、L5からL1までの頻度情報が使われます。

そして、テーブルの上から何語までの情報を使うかを指定します。もし、指定した語数が共起語の数よりも大きい場合は、すべての共起語の情報が利用されます。

(36)

次の例は、onlyの共起語リストを作成し、頻度上位100までの共起語のL5 ~ R5の範囲の頻度をもとにして作成しました。単語は、アルファベット順に並びます。

その他のオプションは次の通りです。

頻度⁰を無視^-頻度 0 の単語を無視します

頻度情報を含める - 頻度情報を灰色の濃淡で表します; 低頻度の単語は白っぽく表示されます

LL _値を log _に変換 - Log-Likelihood の値は大きいため log 変換します

複数の統計値を利用^-複数の統計値を組み合わせることができます; 色を指定してください次の例では、Log-log の統計値を利用して、下のオプションで視覚化します。

文字の大きさはLog-logの値を表し、色は3つの統計値の組み合わせで、色合いは統計値の相対的な大きさ、色の濃さは頻度で表現されています。

(37)

細かな統計値を確認するには、統計値をクリックします。二本指・右クリックでコンテクストメニューからテーブルの統計値をコピーすることもできます。

3.3.1.3 _{その他の機能}

3.3.1.3.1 中心語（キーワード）を一つの語として扱う

ワイルドカード文字を使った検索や二つ以上の単語、正規表現での検索などでは、共起語はそれぞれの中心語ごとに集計されます。環境設定->その他-> Collocationの中心語を一つの語として扱うにチェックを入れると、すべての中心語をまとめて一つとして扱って、共起語の頻度が集計されます。この機能は、同じ単語の異綴りを検索した場合や語形変化をまとめて扱う場合に便利です。

3.3.1.3.2 _{結果のコピー}

結果をコピーしたい場合は、コピーしたい行を選択して二本指・右クリックしてコンテクストメニューからコピーの方法を選びます。コピーしたテキストはタブ区切りのテキストとしてペーストできます。

(38)

3.3.1.3.3 Concord _で検索

コンテクストメニューのConcordで検索を選ぶと、中心語（キーワード）を検索語として、共起語を文脈語として Concord で検索できます。

3.3.1.3.4 _{結果の書き出し}

結果をタブ区切りのテキストファイルとして書き出すには、メニューのファイル ->_{書き出しを選ん}

で文字コードを指定します。書き出されたファイルは、拡張子が .txt となります。

3.3.2 Cooccurrence

Cooccurrence（共起）リストは、コロケーション頻度集計と同時に作成されます。この二つは、基

本的には同じ情報を別の表示の仕方で表しているものです。デフォルトでは、共起語はそれぞれの出現位置で頻度順に並べられます。ただ、Collocationツールと異なり、列のヘッダをクリックしても並べ替えることはできません。

結果の並べ替えは、コロケーション統計値を利用します。左上のポップアップボタンで統計値を選んで、並べ替えをクリックします。

(39)

統計値を表示させたい場合は、右上の値にチェックを入れます。

この結果は、列ごとの情報をコピーすることに意味はないので、全体を書き出すことしかできません。文字コードの他に、統計値を含めるかどうかを指定できます。単語^(*)を選ぶと、統計値は単語に続いてカッコに入って書き出され、Numbers やExcelで開くと同じセルに入ります。別の列を選ぶと、単語と統計値はタブで区別されて別の列になり、別のセルに入ります。

3.4 Word Cluster

Word Cluster を使うには、ツールタブで Cluster を選びます。

CasualConcでいう単語クラスターとは、特定の語（検索語）を含むn-gramのことです。2から9-

gram までのリストを作れます。

(40)

クラスターの範囲は、両方、左のみ、右のみを選べます。左のみを選ぶと、検索語が一番最後にく

るn-gram、つまり、検索語の左側に単語があるn-gramのリストになり、右のみを選ぶと、検索語で

始まる n-gram のリストになります。

結果の並べ替えは、それぞれの列のヘッダをクリックしてください。

また、他のツールと同様に、結果の絞り込みができます。ただし、結果の文字列に含むか含まないかだけが選べます。

3.4.1 _{結果の書き出し}

結果の書き出しは、文字コードとどちらのテーブルの結果を書き出すかだけが指定できます。

(41)

3.5 _{ファイル情報}

ファイル情報を使うには、ツールタブでファイル情報を選びます。

このツールには、5 つの機能があります。

基本ファイル情報 - タイプ、トークン、タイプ・トークン比、平均単語長、文字数ごとの単語頻度単語頻度^-単語もしくは 2 から 5-gram までのリスト

TF-IDF - ファイルごとの TF-IDF 値表キーワードグループ - 指定文字列の頻度表

コロケーション頻度 - 指定した文字列の共起語の頻度および指定した文字列同士の共起頻度

ファイル情報では、デフォルトではテーブルに表示されるのは 200列までになっています。これは、単語頻度リストなどでありえる、数千列などの大きなテーブルを表示するとスクロールなどに影響が出るためです。環境設定->ファイル情報->一般で、この制限を外したり、制限値を変えたりすることができます。

シンプル−ファイルモードでは、それぞれのファイルごとの情報が集計されます。アドバンストモードでは、ファイルごとだけでなく、コーパス・データベースごとにまとめたり、それぞれを組み合わせて情報の集計ができます。

混合を選んだら、ファイルごとの集計にするか、コーパス・データベースごとに集計するかをコーパス・データベースごとに指定します。

ファイルを選んだ場合には、それぞれのファイルにファイル名とは別のラベルをつけることができま

(42)

す。ラベルをつけるには、パネル左下の編集をクリックします。ラベルリストパネルが現れるので、左下の編集をクリックして、現れたパネルで一行一ラベルで入力します。

処理を実行すると、ファイル名はつけたラベルに置き換えられて表示されます。

3.5.1 _{基本ファイル情報}

基本ファイル情報は、コーパス・データベースもしくはそれらに含まれるファイルの基本的な情報を集計する機能です。実行をクリックしてください。

(43)

Types - タイプ−異なり語

Tokens - トークン−述べ語数・総語数

TTR - タイプ・トークン比

STDTTR - 標準化タイプ・トークン比

Ave W Lgth - 平均単語長

n letters - n 文字単語の頻度

STDTTRは、環境設定->ファイル情報->基本ファイル情報の標準^TTRにチェックを入れること

結果に含めることができ、指定した単語数ごとの TTR の平均値となります。

デフォルトでは、16文字以上の単語の頻度はまとめて16+ lettersで表示されますが、環境設定->

ファイル情報->基本ファイル情報のすべての単語文字数を集計にチェックを入れると、すべての文字数の単語の頻度が集計されます。

結果の並べ替えるには、他のツールと同様に、並べ替えたい列のヘッダをクリックします。

3.5.2 _単語頻度

単語頻度では、リストにあるファイルごともしくは選択されたコーパス・データベースに含まれるファイルごとおよび選択されたコーパス・データベースごとに単語・n-gramの頻度を集計できます。頻度集計は、素頻度もしくは標準化（相対）頻度のいずれかを選べます。環境設定->ファイル情報->

単語頻度で、頻度の標準化にチェックを入れてください。さらに、ファイルごとの割合（％）で表示するか、指定単語ごとの相対頻度で表示するかを選べます。

実行するは、集計する単位（単語・n-gram）を選んで、実行をクリックします。

(44)

結果テーブルの頻度ゼロのセルは空白になります。テーブル右上の検索テキストボックス左に表示される数値は、テーブルに表示されている列数を示しています。カッコ内の数値は総列数で、その前の数値は表示されている項目の列数（グループ名と Totalを除く）です。表示列数が多くなると多くのメモ

リと CPU パワーが必要となるので、デフォルトでは 200 列に限定されています。

また、Word Count と同様に、文字の頻度も集計することができます。

表示される項目の順序は、それぞれの項目の合計数の順で表示されますが、ファイルごとの項目の頻度順でも表示することができます。環境設定->ファイル情報->単語頻度で、ファイルごとの頻度で並べ替えにチェックを入れてください。

結果を書き出す際は、列合計の行と行合計の列を書き出すかどうかを指定できます。また、書き出す際は、空白のセルは 0 に置き換えられます。

(45)

特定の単語の列を検索するには、右上の検索テキストボックスに単語を入力してreturn/enterキーを押します。もしその単語がテーブルに表示されていれば、その列まで移動してハイライトされて表示されます。

3.5.2.1 _{結果の絞り込み}

もし、結果を元にある特定の単語の頻度テーブルを作りたい場合は、その単語のリストを使うことで結果を絞り込むことができます。キーワードグループでも指定した単語の頻度を集計できますが、単語頻度表を作って、そこから絞り込む方が速い場合があります。ただ、キーワードグループの機能は文字列の指定が柔軟に行えるため、単語・n-gramのリストから絞り込むことでは扱えないような場合には、キーワードグループの機能を使ってください。

ここで結果を絞り込むには、単語頻度表が表示されている状態で、フィルタをクリックします。

ここで、ペーストをクリックして単語リストをペーストするか、読込をクリックして表示されるテキストパネルに単語を入力します。もし、レマ処理の準備ができていれば(seeセクション8:レマ・異綴り・キーワードグループ)、レマ化をクリックすることで、リストの単語をレマ処理できます。

CasualConc 20 マニュアル CasualConc 20 J

CasualConc マニュアル

CasualConc _{マニュアル}