• 検索結果がありません。

CasualConc 20 マニュアル CasualConc 20 J

N/A
N/A
Protected

Academic year: 2018

シェア "CasualConc 20 マニュアル CasualConc 20 J"

Copied!
179
0
0

読み込み中.... (全文を見る)

全文

(1)

CasualConc マニュアル

(バージョン 2.0.3, 2016/04/08)

(2)

目次

1 使い始める前に 1

2 ファイルの管理 2

2.1 シンプル−ファイル 2

2.2 シンプル−テキスト 4

2.3 アドバンスト−ファイル 4

2.4 アドバンスト−データベース 6

3 基本ツール 9

3.1 Concord 9

3.1.1 検索結果の限定 10

3.1.2 文脈表示範囲と結果の並べ替え 11

3.1.3 結果の操作 11

3.1.3.1 結果の書き出し 13

3.1.4 その他の機能 13

3.1.5 並列処理設定 14

3.2 Word Count 15

3.2.1 結果の並べ替え 17

3.2.2 結果の絞り込み 18

3.2.3 アドバンストモード 19

3.2.3.1 特定の語句検索 19

3.2.3.2 POS タグを利用したリストの作成 21

3.2.4 その他の機能 22

3.2.4.1 結果のコピーと書き出し 22

3.2.4.2 特徴語統計 23

3.2.4.3 結果を新規ウインドウで開く 24

3.2.4.4 Concord で検索 25

3.2.4.5 単語リスト抽出 25

3.3 Collocation/Cooccurrence 26

3.3.1 Collocation ツール 26

3.3.1.1 コロケーション統計 28

3.3.1.2 コロケーション視覚化 29

3.3.1.3 その他の機能 31

3.3.1.3.1 中心語(キーワード)を一つの語として扱う 31

3.3.1.3.2 結果のコピー 31

3.3.1.3.3 Concord で検索 32

3.3.1.3.4 結果の書き出し 32

3.3.2 Cooccurrence 32

3.4 Word Cluster 33

(3)

3.4.1 結果の書き出し 34

3.5 ファイル情報 35

3.5.1 基本ファイル情報 36

3.5.2 単語頻度 37

3.5.2.1 結果の絞り込み 39

3.5.2.2 結果の 2 値化 41

3.5.2.3 特徴語統計 41

3.5.2.4 単語リスト抽出 43

3.5.2.5 特徴語抽出 43

3.5.2.5.1 順位・平均比較 44

3.5.2.5.2 ランダムフォレスト 46

3.5.2.5.3 特徴度指数比較 52

3.5.3 TF-IDF 53

3.5.4 Key Group Frequency 54

3.5.5 コロケーション頻度 56

4 共通機能 59

4.1 検索モード 59

4.1.1 単語 59

4.1.2 文字 60

4.1.3 正規表現 60

4.1.4 タグ 60

4.2 文脈の範囲 61

4.3 数字の扱い 61

4.4 文字の置換 61

4.5 単語の一部として含める文字処理 62

4.6 特殊な単語・文字の扱い 62

4.7 レマ・異綴り・キーワードグループ 65

4.7.1 レマ 66

4.7.2 異綴り 67

4.7.3 キーワードグループ 68

4.8 語彙プロファイラ 69

4.9 正規表現テスト 72

4.10 単語リスト結合 73

5 Advanced Tools (Graph Drawing) 76

5.1 Word Cloud 76

5.1.1 Options 80

5.1.2 Handling Multiple Files 82

5.2 Chart 85

5.2.1 Line Chart 85

5.2.1.1 Options 86

(4)

5.2.2 Bar Chart 90

5.2.2.1 Options 91

5.2.3 Pie Chart 94

5.2.3.1 Options 95

5.2.4 Radar Chart 97

5.2.4.1 Options 98

5.3 Scatter Plot 98

5.3.1 Options 100

5.4 Cluster 102

5.4.1 Options 104

5.5 Correspondence 107

5.5.1 Options 108

5.6 PCA (Principal Component Analysis) 113

5.6.1 Options 114

5.7 EFA (Exploratory Factor Analysis) 118

5.7.1 Options 120

5.8 MDS (Multi-Dimensional Scaling) 122

5.8.1 Options 123

5.9 Network 125

5.9.1 Options 126

5.10 Item Position 134

5.10.1 From Concord 134

5.10.1.1 Options 135

5.10.2 New Search 137

5.10.2.1 Options 138

5.11 Graph Window 141

5.12 R Result Window 142

5.12.1 Statistical Results 142

5.12.2 R Script 143

5.13 Label Coloring 143

6 環境設定 152

6.1 一般 152

6.1.1 コーパスモード 152

6.1.2 フォント 152

6.1.3 検索語履歴 152

6.1.4 テキスト処理 153

6.1.5 文字処理 154

6.1.6 単語の一部として含める文字処理 154

6.1.7 文字・単語の分析における扱い 154

6.1.8 レマ・異綴り・キーワードグループ 154

(5)

6.1.9 その他 154

6.2 ファイル 154

6.2.1 ファイル処理 155

6.2.2 元ファイル編集・アプリケーション指定 155

6.2.3 デフォルトフォルダ 156

6.2.4 トークン化 156

6.3 タグ 157

6.3.1 タグモード 157

6.3.2 ヘッダ部分 158

6.3.3 タグ付けされたセクションの処理 158

6.3.4 コンテクストタグの処理 159

6.3.5 文字列の処理 159

6.4 Concord 160

6.4.1 フォント 160

6.4.2 並べ替え 161

6.4.3 KWIC 結果表示 162

6.4.4 その他 164

6.4.5 キーワード 164

6.4.6 並列処理 164

6.4.7 結果のコピー 164

6.4.8 タグ付きテキストの処理 (_TAG) 165

6.4.9 コンテクストビュー 165

6.5 ファイル情報 165

6.5.1 一般 165

6.5.2 ファイル基本情報 165

6.5.3 単語頻度 166

6.5.4 キーワードグループ頻度 166

6.5.5 TF-IDF 166

6.5.6 書き出し・コピー 167

6.6 視覚化 167

6.6.1 R 167

6.6.2 読み込み制限 168

6.6.3 POS チェック 168

6.6.4 Concordance プロット 168

6.7 Word Count 168

6.7.1 一般 169

6.7.2 アドバンスト 170

6.7.3 TreeTagger 170

6.8 その他 171

6.8.1 Collocation 172

(6)

6.8.2 最低頻度 172

6.8.3 その他 172

6.8.4 コピー 173

6.8.5 語彙プロファイラ 173

(7)

1 使い始める前に

CasualConcは、OS Xネイティブのコンコーダンサーです。UTF-8のプレイテキストファイルを扱

うことを念頭に設計されていますが、MS Word 文書、Open Office 文書、PDFHTMLWeb

Archiveなどのファイルからもテキストを抽出して処理できます。ただし、これらのファイルからのテ

キストの抽出には多少の時間がかかるため、同じファイルで何度もテキストを検索する場合には、これ らのファイルをプレインテキストファイルに変換しておくといいでしょう。プレインテキストファイル への変換はお好みのアプリケーションを使っていただけばいいのですが、CasualTextractorでも、こ れらのファイルを一括でプレインテキストファイルに変換できます。

CasualConcでの分析の基本単位は段落です。ここでいう段落とは、改行記号(\n, \r\n, \rなど)で区 切られたテキストの塊を指します。そのため、テキスト検索、並べ替え語、単語クラスターなどは、段 落内のテキストが対象となります。段落以外には、一つのファイル全体を分析単位とするモードもあり ます。

CasualConcをお使いのMacから完全に削除するには、次の場所にあるファイル・フォルダを削除

してください。これらのファイル・フォルダはそのままにしておいても、ディスクスペースを占拠し続 ける以外は特に問題になることはありません。ライブラリフォルダは、システムのものではなく、ユー ザーフォルダ内のものです。ユーザーフォルダ内のライブラリフォルダはデフォルトでは表示されない

ので、Finder メニューの「表示」を Option キーを押しながらクリックして移動してください。

アプリケーションフォルダ内の CasualConc.app

~/ライブラリ/Application Support フォルダ内の CasualConc フォルダ

~/ライブラリ/Preferences フォルダ内の jp.yi.CasualConcRM.plist ファイル

この新しいバージョンのCasualConcは、これまでのバージョンとは異なるプログラム言語で開発 しています。残念ながら、この言語でのテキスト処理は多くの場合、これまでよりも遅くなります。こ の問題に対処するため、OS Xの標準機能である並列処理を利用して処理時間の削減に努めています。 並列処理はデフォルトでオンになっていますが、処理結果に疑問がある場合は、環境設定->一般にあ る並列処理をオフにしてみてください。

(8)

2 ファイルの管理

テキストファイルやテキストの管理はファイルマネージャで行います。ファイルマネージャに切り替 えるには、上部タブのファイルをクリックします。CasualConcにはテキストを扱う4つのモードがあ ります:シンプル−ファイル、シンプル−テキスト、アドバンスト−ファイル、アドバンスト−データ ベース。モードは、メインウインドウの右上のポップアップボタンとモードセレクタで指定します。

シンプルとアドバンストの切り替えは、ポップアップボタンで、ファイル・テキストとファイル・ダ タベースの切り替えはセレクタボタンで行います。

デフォルトでは、UTF-8もしくはASCIIでエンコードされたプレインテキスト(.txt)のみが扱えま す。他のファイルタイプを扱うには、環境設定->ファイルのファイル処理でコーパスファイルタイプ を選択したファイルタイプに変更し、扱いたいファイルタイプにチェックを入れます。すべてのファイ ルタイプを選ぶと、リストにあるすべてのファイルタイプに加えて、それ以外のすべてのファイルをプ レインテキストファイルとして扱えます。ドラッグアンドドロップでファイルを読み込む際に適用され るプレインテキストのデフォルト文字コードもここで設定します。

2.1 シンプル−ファイル

CasualConcを始めて立ち上げると、シンプル−ファイルモードが選択されています。シンプル−

ファイルモードでは、ファイルリストテーブルにファイルを追加して、そのファイルを処理します。こ のモードは、手っ取り早く手元にあるファイルを扱うために用意してあります。デフォルトでは、プレ インテキスト(.txt)のみを扱えるようになっているので、他のファイルタイプを扱うには、環境設定->

ファイルで設定してください(セクション 6.2.1 参照)。

ファイルをファイルリストテーブルに追加するには、メインメニューのファイル->ファイルを追加 を選びます。

(9)

ここで追加したいファイルを選んで開くをクリックします。フォルダを選ぶと、そのフォルダ内にあ るファイルがサブフォルダ内のものも含めてすべて追加されます。文字コードを選んで読み込んでくだ さい。

これ以外にも、テーブル右下の追加ボタンをクリックするか、テーブルにファイルをドラッグアンド ドロップしてもファイルを追加できます。

ファイルマネージャのファイルリストテーブル上では、読み込んだファイルをチェックできます。ま た、右上のプレビューにチェックを入れてファイルリストテーブル上でファイルを選ぶと、ファイルの 中身が下のテキストボックスに表示されます。

テーブルからファイルを削除するには、削除したいファイルを選んで削除ボタンをクリックします。 すべてのファイルを削除するには、クリアボタンをクリックします。

(10)

ファイルテーブル上でファイルを選んで二本指・右クリックすると、選択したファイルをFinder しくは指定したアプリケーションで開くことができます。プレインテキストファイルの場合は、

CasualConc のエディタで開いて編集することもできます。

2.2 シンプル−テキスト

テキストモードでは、テキストボックスにテキストをコピーアンドペーストして手軽に分析できま す。このモードは、CasualConc 2.x での新機能です。

このモードには、二つのテキストボックスがあり、ConcordCollocation/Cooccurrence、ファイル 情報では、左側のテキストが使われます。Word CountClusterでは、二つのテーブルのそれぞれに 対応するテキスト、左のテーブルには左のテキスト、右のテーブルには右のテキストが使われます。こ のモードでは、手元の文書やウェブ上で見つけたテキストを手っ取り早くチェックすることができま す。

2.3 アドバンスト−ファイル

このモードでは、ファイルのグループを作って管理・分析することができます。CasualConcでは、 このグループをコーパスと呼びます。コーパスを作るには、まず、ファイルマネージャで右上のファイ ルリストテーブルにファイルを読み込みます。メインメニューのファイル -> ファイルを追加を選ぶ か、追加ボタンをクリックする、もしくは、テーブルにファイルをドラッグアンドドロップします。

(11)

ファイルを読み込んだら、左上のコーパスリストテーブル右下にある新規ボタンをクリックします。

コーパスの名前をつけるように促されるので、名前を入力して作成ボタンをクリックします。もし同 じ名前のコーパスがリストにある場合は、別の名前をつけるように促されます。

新しく作成されたコーパスは、左上のコーパスリストテーブルに追加されます。複数のコーパスがあ る場合には、テーブル上で選択したコーパスをクリックしながらドラッグアンドドロップすることで コーパスの位置を移動させることができます。

コーパスを分析に使うには、チェクボックスにチェックを入れます。左下のテーブル上部のファイル リストを表示にチェックを入れて、コーパスリストテーブルでコーパスを選びます。ファイルプレ ビューにチェックを入れて右下のファイルリストテーブルのファイルを選ぶと、そのファイルの中身を 確認できます。

(12)

既存のコーパスにファイルを追加するには、コーパスリストテーブル上のコーパスを選んで、右上の ファイルリストテーブルにファイルを読み込み、ファイルを追加ボタンをクリックします。複数のコー パスを選んで、結合ボタンをクリックすると、コーパスを結合できます。もし何らかの理由で、コーパ スの中のファイル数の表示が正しくない場合は、リストを更新をクリックするとファイル数を集計し直 します。コーパスに含まれるファイルを削除するには、ファイルリストを表示させて消したいファイル を選択し、左下のテーブル右下にあるファイルを削除ボタンをクリックします。コーパステーブル左下 の削除ボタンをクリックすると、選択されたコーパスがテーブルから削除されます。

2.4 アドバンスト−データベース

このモードは、ConcordCollocationClusterでの検索時間を短縮するために実装されています。 特に、扱うファイル数が多い場合には有効ですが、場合によってはファイルモードよりも遅くなること もあります。テキストファイルのテキストは、段落、つまり、改行記号で区切られた塊ごとに分けられ

SQLiteデータベースに保存されます。文字列を検索する際には、あらかじめその文字列を含むエン

トリに絞り込まれてから処理されます。このため、Word Countやファイル情報などのすべてのテキス トを処理するツールではファイルモードよりも時間がかかることが多くなります。データベースファイ ルは、アドバンスト−ファイルのコーパスと同様に管理できます。

新規のデータベースを作成するには、右上のファイルリストテーブルにファイルを追加して、左上の データベースリストテーブル右下にある新規ボタンをクリックします。データベースファイルに名前を 付けて保存するように促されます。新規に作成されたデータベースファイルはデータベースリストテー ブルに追加されます。

(13)

データベーステーブル上のデータベースファイルににテキストファイルを追加したり、データベース を結合することもできます。以前のバージョンのCasualConcで作成したデータベースファイルがある 場合には、追加ボタンをクリックしてデータベースファイルを選ぶかドラッグアンドドロップで、デー タベースリストテーブルに追加することができます。その際は、データベースの情報を処理するため、 大きなデータベースファイルや複数のデータベースファイルを追加する場合は、それなりの時間と多く のメモリが必要となる場合があります。大きなデータベースファイルは一つずつ追加し、追加後には

CasualConc を再起動することをお勧めします。

ファイルモードと同様に、データベースファイルを使うには、チェックボックスにチェックを入れま す。また、左下のテーブル上部のファイルリストを表示にチェックを入れて、データベースリストテー ブルでデータベースを選ぶと、データベースに含まれるファイルのリストを確認できます。ファイルプ レビューにチェックを入れて右下のファイルリストテーブルのファイルを選ぶと、そのファイルの中身 が確認できます。

既存のデータベースファイルにファイルを追加するには、データベースリストテーブル上のデータ ベースを選んで、右上のファイルリストテーブルにファイルを読み込み、ファイルを追加ボタンをク リックします。複数のデータベースを選んで、結合ボタンをクリックすると、データベースを結合でき ます。もし何らかの理由で、データベースファイル中のファイル数や述べ語数の表示が正しくない場合 は、更新をクリックするとファイル数と述べ語数を集計し直します。データベースファイルにに含まれ

(14)

るファイルを削除するには、ファイルリストを表示させて消したいファイルを選択し、左下のテーブル 右下にあるファイルを削除ボタンをクリックします。データベーステーブル左下の削除ボタンをクリッ クすると、選択されたデータベースがテーブルから削除されます。

データベースリストテーブルでデータベースを選んで二本指・右クリックすると選択されたデータ ベースファイルを Finder 上に表示させることができます。

(15)

3 基本ツール

CasualConc には、5 つの基本分析ツールがあります:ConcordWord CountCollocation/ CooccurrenceCluster、ファイル情報です。ConcordではKWICコンコーダンスリストを作成でき ます。Word Countでは単語・n-gramリストを作成できます。Collocation/Cooccurrenceでは検索語 を中心として指定した範囲に現れる単語のリストを作成できます。Clusterは指定した文字列を含む n- gramのリストを作成します。ファイル情報では、ファイルの基本情報、指定文字列、TF-IDF、指定し た文字列の共起語などの表を作成できます。

3.1 Concord

Concord を使うには、ツールタブで Concord を選びます。

Concord の基本機能は、KWIC コンコーダンスリスト作成です。

検索テキストボックスに検索したい文字列を入力して検索ボタンをクリックするか、Enterキーを 押します。また、過去の検索語をポップアップメニューから選ぶこともできます。履歴に残す項目数は 環境設定 -> 一般で指定します。

(16)

検索モードと検索範囲の指定は、ウインドウ右下で指定できます(セクション4.1、セクション4.2

を参照)。並べ替え語、結果テーブルのフォント・サイズ、テーブルの行の高さなどは、環境設定-> Concord で設定できます。

アドバンスト−ファイルモードではファイルマネージャで複数のコーパス・データベースが選択でき ますが、選択された全てを検索対象にするか、そのうち一つを検索対象にするかを選択できます。

3.1.1 検索結果の限定

Conconrdでの検索結果は、指定した範囲の文脈に現れる語・フレーズを指定することで限定できま

す。検索の前に、文脈語にチェックを入れて、文脈に現れるべき語を入力し、検索語を中心とした左右 の範囲を指定します。

上の例では、検索文字列indicate??はワイルドカード文字)の左右5語以内に「as」が現れる結 果だけに絞り込まれています。デフォルトでは、指定した文字列は下線で装飾されますが、環境設定

-> Concord -> KWICの結果表示で、ボールド、下線ボールド、指定した色での装飾などを指定できま

す。

指定した文字列が指定した範囲に現れない結果に絞り込みたい時は、環境設定-> Concord -> Misc

で文脈にない語の指定にチェックを入れます。これで、除外語とその範囲を指定できます。この二つは 同時に指定して、特定の語が現れて、別の特定の語が現れない結果への絞り込みができます。

(17)

3.1.2 文脈表示範囲と結果の並べ替え

KWICの結果の文脈表示範囲を左右独立して、10文字刻みで0から150文字の範囲でポップアッ プボタンで指定できます。デフォルトでは、左右共に60文字に設定されています。この範囲は、結果 が表示されている状態でも変更できますが、変更を反映させるには、並べ替えボタンをクリックしてく ださい。

結果は、文脈語で並べ替えることができます。プリセットリストから組み合わせを選んでください。 デフォルトでは、R1-R2-R3、つまり、キーワードの右側の1つ目、2つ目、3つ目の単語のアルファ ベット順で並べ替えられます。プリセットは、環境設定 -> Concordの並べ替えで指定できます(セク

ション6.4.2参照)。 詳細はプリセットでも指定できますが、検索結果を見ながら並べ替え順を詳細

に設定したい場合は、並べ替え選択にチェックを入れて、並べ替え順を指定します。FNはファイル 名、POS は、段落・ファイル内の位置、CDN はコーパス・データベース名です。

並べ替える語の範囲を左右5語(L5–R5)よりも広げたい場合は、環境設定-> Concord Misc

にあ広範囲モードにチェックを入れることで左右15語(L15–R15)の範囲で指定できるようになり ます。この広範囲モードは、文脈語・除外語にも適用されます。

3.1.3 結果の操作

テーブル右上のコンテクストにチェックを入れてテーブル上の結果をクリックすると、下部のコンテ

(18)

クストビューに結果表示の範囲を超えた文脈が表示されます。結果を選択した状態で二本指・右クリッ クすると、コンテクストメニューが現れ、選択した結果をコピーできます。選択した行をスタイル情報 を保持してコピーを選ぶと、キーワードはボールドでコピーされます。環境設定-> Concordの結果の

コピーで文脈語の色と文脈語のスタイルを保持してコピーするかどうかを指定できます。TABを挿入 にチェックを入れると、タブ記号(\t)がキーワードの前後に挿入されてコピーされます。タブ記号を挿 入すると、Numbers Excel にペーストした際に文脈とキーワードが別のセルに入ります。

選択した行を削除することのもでき、削除を取り消すこともできますが、確実に取り消せない場合 もあるので気をつけてください。また、Command + delete キーでも削除できます。

選択した行ファインダーに表示したり、指定したアプリケーションを開いたり出来ます。プレインテ キストファイルの場合は、CasualConcのエディタで開いて編集できます。これらの処理は、複数の行 が選択されている場合、選択された行の一番上のファイルが処理されます。

コンテクストビューでは、選択した単語を OS 標準の辞書.app で検索できます。

また、コンテクストメニューの選択した文字列を Concordで検索を選ぶと、選択した文字列を

Concord で検索できます。

(19)

3.1.3.1 結果の書き出し

検索結果は、スタイル付きのテキストとしてRTFとして書き出すか、タブ区切りのプレインテキス トとしてかきだせます。メニューのファイル -> 書き出すを選んでください。

保存オプションで、フォント情報保持にチェックを入れると、フォント、キーワードのスタイルなど が保持されて、RTFとして保存されます。文脈語の色とスタイルは保持するかどうかを個別に指定で きます。チェックを入れないと、CSVとして保存されます。キーワードの前後にタブ記号(\t)を入れ ることもできます。

文脈語にチェックを入れるて範囲を指定すると、タブ記号で区切られて文脈語が結果のテキストと 一緒に書き出されます。その他には、ファイル名や、コーパス・データベース名もかきだせます。フォ ント情報を保持しないで書き出す際に最大文脈範囲にチェックを入れて書き出すと、CasualConcが保 持しているキーワード前後のテキストがすべて書き出されます。通常は、結果テーブルに表示されてい るよりも広い範囲のテキストが保持されています。

3.1.4 その他の機能

以前のバージョンと同様に、キーワードを括弧付きの空白や下線で置き換えて表示させることもで きます。環境設定 -> Concord のキーワードで設定します。

(20)

検索結果を別のウインドウで開くこともできます。メニューのウインドウ-> Concordの結果を新

規ウインドウで開くを選んでください。

新しいウインドウが開き、結果が表示されます。このウインドウ上でも、結果の並べ替えや、保存、 書き出しができます。メインウインドウとは異なり、ウインドウ上の保存・書き出しをクリックして処 理してください。

3.1.5 並列処理設定

データベースモードでの並列処理は不安定になることもあるため、デフォルトではファイルモードで

(21)

のみ適用されます。環境設定-> Concord ->並列処理で、データベースモードでも並列処理するように 設定できます。

3.2 Word Count

Word Count を使うには、ツールタブで Word Count を選びます。

Word Count では、表示されている二つのテーブルにそれぞれ単語・n-gramリストを作成できま

す。

Word Count では、デフォルトで次の情報が得られます。

type:タイプ−重なり語数

token:トークン−述べ語数・総語数

頻度:それぞれの項目の頻度

割合:総語数に対する項目頻度の割合 (0.01% 以上)

含ファイル:それぞれの項目が現れるファイル数

(22)

含ファイル割合:それぞれの項目が現れるファイル数の総ファイル数に対する割合

重なり語数(type)と総語数(token)の数値は、レマ処理、ストップワードの削除、結果の絞り込 みなどの処理の前の値となっています。環境設定のその他->その他にある、リストに含まれる項目を 集計にチェックを入れると、絞り込みでテーブルに表示されている項目の重なり語数と総語数が表示さ れます。

環境設定のWord Count ->一般 にある単位で文字を指定すると、文字の頻度リストが作れます。ま た、単語の境界を超えて集計にチェックを入れると、文字の n-gramは単語の境界を超えます。チェッ クが入っていなければ、単語内での n-gram のみが集計されます。

テーブルに表示する単語と n-gramの最低頻度をそれぞれで指定することができます。環境設定->

その他->最低頻度で指定してください。もし、大きなコーパス(1000万語超)で、コーパスに出現す

るすべてのn-gramのリストを作ろうとすると、お使いのMacのメモリをすべて消費した上で、処理 にとても長い時間がかかることがあります。例えば、100万語のコーパスで4-gramを作ったところ、

10 回以上使われている 4-gram 256 ありました。

環境設定 -> Word Count ->一般の頻度の標準化にチェックを入れて、基準にする語数を指定する

と、n語ごとの頻度を表示できます。次の例は、1,000単語ごとの標準(相対)頻度を表示させていま す。

(23)

デフォルトでは、n-gramの結果表示は、単語間に半角のスペースが入りますが、タブ記号(\t)に 置き換えて表示させることもできます。タブ記号で区切って結果を表示させたものを書き出したりコ ピーすると、単語がタブで区切られているため、NumbersExcelなどにペーストすると、それぞれ の単語が別のセルに入ります。この設定は、環境設定-> Word Count -> n-gramの区切りで指定しま

す。

アドバンストコーパスモードでは、ボタンなどがあるヘッダー部分にコーパス・データベースを選択 するポップアップボタンが現れるので、複数のコーパス・データベースをすべて分析対象にするか、一 つを選択して分析するかを選べます。この際に左右のテーブルで異なるコーパス・データベースを選ぶ と、結果の比較が容易にできます。

単語・n-gramリストの作成では、テキストデータのすべてを扱うため、特定の文字列の検索を得意

とするデータベースモードでは、かえって遅くなったり、多くのメモリを消費します。また、内部プロ セスの効率やメモリ消費の関係上、現在のバージョンでは、n-gramリストの作成では並列処理は行い ません。

3.2.1 結果の並べ替え

結果を並べ替えるには、並べ替え隊列のヘッダをクリックするか、特殊並べ替え順をポップアップ ボタンで選んで、並べ替えをクリックします。Words/n-gramsの列での並べ替えは、大文字小文字の 区別がされませんが、通常のアルファベット以外の文字を使った言語には対応していません。例えば、 装飾文字のある言語では、装飾文字の大文字小文字は対応した大文字小文字として処理されないこと もあります。特定の言語に対応した並べ替えをするには、環境設定->その他->その他 で、 言語固有 の大文字小文字区別にチェックを入れてください。標準では、英語と日本語のみがリストに表示されま すが、追加をクリックしてその他の言語を追加することができます。

(24)

特殊並べ替えには、次の 4 つのオプションがあります。

後方アルファベット - 最後の文字から順にアルファベット順で並べ替えます 単語長 - 単語に含まれる文字数が多い順に並べ替えます

逆単語長 - 単語に含まれる文字数が少ない順に並べ替えます。

大小区別のアルファベット - 通常は、同頻度の単語はアルファベット順に並びますが、このオプ ションを選ぶと、大文字で始まる単語がアルファベット順に並んだ後に、小文字で始まる単語がア ルファベット順に並びます。

後方アルファベットでは、次のような並び順になります。

3.2.2 結果の絞り込み

リストを作成後に結果の絞り込みができます。テーブル右上の検索ボックスに任意の文字をタイプし てください。左端の虫眼鏡アイコンをクリックすると、絞り込みのオプションが選べます。POSのオ プションは、タグ付きのテキストもしくはタグ付け処理してリストを作った際に利用します。

ly」を「で終わる」オプションで絞り込むと、次のような結果になります。

(25)

3.2.3 アドバンストモード

Word Countには、独自のアドバンストモードがあります。環境設定-> Word Count ->アドバンス で、アドバンストモードにチェックを入れてください。

3.2.3.1 特定の語句検索

アドバンストモードでは、単語のリスト作成オプションが選ばれていると、特定の語句を検索して頻 度集計できます。単語検索モードでは、ワイルドカード文字が使えます。次の例では、at the ? ofを検 索した結果が表示されています。

ワイルドカード文字を含む検索文字列の一部をカッコに入れると、カッコの中の部分だけでリスト が作成されます。次の例では、at the (?) ofを検索した結果が表示されています。この場合は、(?) 部分にあたる文字列のみでリストが作られています。

n-gramリスト作成オプションを選ぶと、ギャップn-gram(フル:n-gramの単語のひとつがギャッ

プ=任意の単語として扱われるn-gram)もしくは p-frame(ギャップn-gramの単語に囲まれた部分

(26)

のみがギャップのもの)のリストが作成できます。ギャップにチェックを入れてn-gramリストを作成 してください。フル・p-frames の二つのオプションは、環境設定 -> Word Count -> Advanced

ギャップn-gramsで切り替えられます。次の例は、フルオプションで作成したギャップn-gramのリ

ストです。

p-frames のオプションでは、ギャップが両端に来たものは集計されません。

詳細にチェックを入れると、ギャップの位置に使われていた単語が集計されます。

ギャップ位置の単語の詳細は、確認した行にポインタを合わせて、二本指・右クリックで、コンテ クストメニューから括弧に該当する単語のリストを表示を選んでください。

(27)

パネルが現れて、リストが頻度とともに表示されます。リストをコピーをクリックすることで、単語 と頻度がコピーされます。

3.2.3.2 POS タグを利用したリストの作成

Word Countでは、POSタグがついてテキストの頻度リストを作ることができます。現在は、

Word_Tag の形式か、TreeTagger の標準出力の形式のみ対応しています。

この機能を使うには、環境設定-> Word Count ->アドバンストでアドバンストモードにチェックを 入 れ 、 タグ 分 析 に チ ェ ッ ク を 入 れてく だ さ い 。 オ プ シ ョ ン は 、Word_TagTreeTagger

TreeTagger (no syms)3つです。TreeTaggerを選ぶと、単語かレマのどちらで頻度集計するかを 選べます。次の例は、TreeTagger -単語(左)、TreeTagger -レマ(右)で作成した単語リストで す。

同じ設定で、4-gram のリストを作ったのが次の例になります。

(28)

このバージョンでは、タグのついたテキストが扱えるだけでなく、タグのついていないテキストに、

OS X標準のPOS分析機能を利用してPOSタグを付けてリストを作ることもできます(英語のみ)。

環境設定-> Word Count ->アドバンストで、タグ分析をオンにしてタグ処理にチェックを入れてくだ

さい。TreeTaggerをインストールすれば、TreeTaggerで利用できる言語でPOSタグを利用したリス

トを作ることもできます。また、システムにMeCabがインストールされていると、日本語も POS グをつけて頻度集計できます。

次の例では、標準の機能(左)、TreeTagger(右)で単語リストを作成しました。

TreeTaggerでは、標準では記号もタグ付けされますが、記号を無視することもできます。Sym

除にチェックを入れてください。ここまでの例では、記号は削除しています。

3.2.4 その他の機能

3.2.4.1 結果のコピーと書き出し

選択した行の項目の情報や単語などをコピーすることができます。コピーしたい行を選択して、二本 指・右クリックでコンテクストメニューを表示させて選んでください。

(29)

選択した行をコピー - 選択した行のすべての情報をコピーします

選択した単語をコピー - 選択した項目(単語・n-gram)のみをコピーします 選択した単語と頻度情報をコピー - 選択した行の項目と頻度のみをコピーします

結果は、CSVファイルとして書き出すことができます。書き出したいテーブルとオプションを選択 してください。書き出したデータを2011以前のExcelで開きたい場合は、文字コードでUTF-16 選択してください。

3.2.4.2 特徴語統計

左右のテーブルで異なるファイルやコーパス・データベースで単語リストを作った場合、特徴度指数

Keyness)を計算できます。左のテーブルのリストが対照コーパス、右のテーブルのリストが参照

コーパスとして扱われます。

特徴度指数を計算するには、メニューの統計-> WC特徴度指数で、計算したい統計値を選びます。 すべてを選択すると、すべての統計値が計算されます。

計算された統計値は、左側のテーブルに表示されます。赤で表示された数値は、参照コーパスでの頻 度(相対頻度)が多いことを意味します。この色付けは、環境設定-> Word Count ->一般の負のキー ワード統計値を赤で表示でオフにすることができます。

次の例では、すべての特徴度指数を表示しています。アメリカの歴代大統領の就任演説コーパスの単 語リストを アメリカ英語の一般コーパスであるFROWNと比較して、LL (Log-Likelihood)の値の大 きい順に並べ替えて表示しています。

(30)

3.2.4.3 結果を新規ウインドウで開く

結果のテーブルは、新しいウインドウで開くことができます。単語・n-gramリストを作成したら、 メニューのウインドウ -> Word Countの結果を新規ウインドウで開くで左右の開きたいテーブルを 選択します。

このウインドウでは、メインウインドウ上のテーブルと同様に結果の並べ替えや絞り込みができま す。保存や書き出しもできますが、メニューからではなく、ウインドウ左上のメニューをクリックして ください。

(31)

3.2.4.4 Concord で検索

テーブル上で選択した単語・n-gramConcordで検索することができます。ただ、n-gramを検索 する場合は、結果の頻度が違うことがあります。これは、n-gramは単語間に記号がある場合も含まれ るためですが、一致させるには、環境設定 -> 一般 ->その他の単語間に記号がある場合も検索に チェックを入れてください。これで、検索語の単語の間に記号がある場合も処理されます。

3.2.4.5 単語リスト抽出

左右二つのリストから、共通する単語・n-gram、それぞれにしかない単語・n-gramのリストを作 成することもできます。左右のテーブルに単語・n-gramリストを作成してから、メインメニューのウ インドウ -> 単語リスト抽出を選びます。

単語リスト抽出ウインドウが現れます。

Word Count では、3 つのオプションが選べます。

左右: 左右両方のテーブルに現れる項目のリストを作ります 左のみ: 左のテーブルにのみ現れる項目のリストを作ります 右のみ: 右のテーブルにのみ現れる項目のリストを作ります

(32)

左右

左のみ 右のみ

次の例では、左テーブルにアメリカ英語(FROWN)右テーブルにイギリス英語(FLOB)のコーパ スで単語リストを作って抽出しています。見てわかるように、左のみでは、アメリカ英語の綴りやアメ リカに関連する単語が並び、右のみでは、イギリス英語の綴りやイギリスに関連する単語が並んでいま す。

3.3 Collocation/Cooccurrence

Collocation/Cooccurrence を使うには、ツールタブで Collocation を選びます。

Collocation Cooccurrence ツールの切り替えは、ウインドウ右上のスイッチで行います。

3.3.1 Collocation ツール

Collocationツールは、検索語(キーワード)の左右で指定された範囲の文脈に現れる単語・n-

gram の頻度を集計して表示します。検索したい文字列を入力して、範囲を指定し、検索ボタンをク リックするかリターンキーを押します。

(33)

赤色の数字は、その共起語が最も多く現れる位置を示しています。Word Countと同様に、結果とし て表示する最低頻度を指定することができます。環境設定 ->その他-> 最低頻度で設定してくださ い。

結果の並べ替えは、並べ替えたい列のヘッダをクリックして行います。結果表示後に文脈の範囲を 変えたい場合は、範囲の値を変更してから並べ替えをクリックします。

また、Word Count と同様に、結果の絞り込みもできます。

検索のオプションで n-gram (2-5) を選ぶと、n-gram を共起語としてリストを作成できます。

(34)

n-gramが共起語として集計される際は、L1の位置の共起語は、検索語からn番目の位置の単語か ら始まります。2-gramが選択されていると、L1は検索語の左 2単語目から始まる2-gramとなり、

L2は検索語の左3単語目から始まる2-gramとなります。つまり、文脈にある同じ単語は、最大n

n-gram の一部として数えられることになります(これは Word Count n-gram と同じです)。

3.3.1.1 コロケーション統計

共起語のリストと単語リストを同じファイル・コーパス・データベースで作成すると、コロケーショ ン統計値を計算することができます。メインメニューの統計 -> Collocationで計算したい統計値を選 びます。

コロケーション統計値を計算すると、左右合計列の左側に新しい列が挿入されて統計値が表示され ます。下の例で分かるように、共起語の頻度がコーパス全体少ない場合は、共起語としての頻度が少な くても統計値が大きくなる場合があります(選択した統計値によります)。このような場合は、最低 頻度をある程度の値に設定した方がいいかもしれません。

(35)

3.3.1.2 コロケーション視覚化

コロケーション統計値の計算と同様に、コロケーションリストと単語リストを同じファイル・コー パス・データベースで作成すると、頻度や統計値を利用して共起情報を視覚化することができます。こ の機能は実験的なものなので、将来的には大きな変更を行うかもしれません。

リストを作成したら、視覚化をクリックします。コロケーション視覚化ウインドウでは、使用した い統計値と使用したい情報を選びます。まずは、使用したい統計値を指定します。

そして、使用する情報を指定します。ラジオボタンで、列の場合は上を、範囲の場合は下を選んで列 または範囲を選択します。列を選んだ場合は、範囲にチェックを入れると、その位置から検索語までの 共起語の頻度を利用します。例えば、L5を選んで範囲にチェックを入れると、L5からL1までの頻度 情報が使われます。

そして、テーブルの上から何語までの情報を使うかを指定します。もし、指定した語数が共起語の数 よりも大きい場合は、すべての共起語の情報が利用されます。

(36)

次の例は、onlyの共起語リストを作成し、頻度上位100までの共起語のL5 ~ R5の範囲の頻度を もとにして作成しました。単語は、アルファベット順に並びます。

その他のオプションは次の通りです。

頻度 0 を無視 - 頻度 0 の単語を無視します

頻度情報を含める - 頻度情報を灰色の濃淡で表します; 低頻度の単語は白っぽく表示されます

LL 値を log に変換 - Log-Likelihood の値は大きいため log 変換します

複数の統計値を利用 - 複数の統計値を組み合わせることができます; 色を指定してください 次の例では、Log-log の統計値を利用して、下のオプションで視覚化します。

文字の大きさはLog-logの値を表し、色は3つの統計値の組み合わせで、色合いは統計値の相対的 な大きさ、色の濃さは頻度で表現されています。

(37)

細かな統計値を確認するには、統計値をクリックします。二本指・右クリックでコンテクストメ ニューからテーブルの統計値をコピーすることもできます。

3.3.1.3 その他の機能

3.3.1.3.1 中心語(キーワード)を一つの語として扱う

ワイルドカード文字を使った検索や二つ以上の単語、正規表現での検索などでは、共起語はそれぞ れの中心語ごとに集計されます。環境設定->その他-> Collocationの中心語を一つの語として扱うに チェックを入れると、すべての中心語をまとめて一つとして扱って、共起語の頻度が集計されます。こ の機能は、同じ単語の異綴りを検索した場合や語形変化をまとめて扱う場合に便利です。

3.3.1.3.2 結果のコピー

結果をコピーしたい場合は、コピーしたい行を選択して二本指・右クリックしてコンテクストメ ニューからコピーの方法を選びます。コピーしたテキストはタブ区切りのテキストとしてペーストでき ます。

(38)

3.3.1.3.3 Concord で検索

コンテクストメニューのConcordで検索を選ぶと、中心語(キーワード)を検索語として、共起語 を文脈語として Concord で検索できます。

3.3.1.3.4 結果の書き出し

結果をタブ区切りのテキストファイルとして書き出すには、メニューのファイル ->書き出しを選ん

で文字コードを指定します。書き出されたファイルは、拡張子が .txt となります。

3.3.2 Cooccurrence

Cooccurrence(共起)リストは、コロケーション頻度集計と同時に作成されます。この二つは、基

本的には同じ情報を別の表示の仕方で表しているものです。デフォルトでは、共起語はそれぞれの出現 位置で頻度順に並べられます。ただ、Collocationツールと異なり、列のヘッダをクリックしても並べ 替えることはできません。

結果の並べ替えは、コロケーション統計値を利用します。左上のポップアップボタンで統計値を選ん で、並べ替えをクリックします。

(39)

統計値を表示させたい場合は、右上の値にチェックを入れます。

この結果は、列ごとの情報をコピーすることに意味はないので、全体を書き出すことしかできませ ん。文字コードの他に、統計値を含めるかどうかを指定できます。単語(*)を選ぶと、統計値は単語に 続いてカッコに入って書き出され、Numbers Excelで開くと同じセルに入ります。別の列を選ぶ と、単語と統計値はタブで区別されて別の列になり、別のセルに入ります。

3.4 Word Cluster

Word Cluster を使うには、ツールタブで Cluster を選びます。

CasualConcでいう単語クラスターとは、特定の語(検索語)を含むn-gramのことです。2から9-

gram までのリストを作れます。

(40)

クラスターの範囲は、両方、左のみ、右のみを選べます。左のみを選ぶと、検索語が一番最後にく

n-gram、つまり、検索語の左側に単語があるn-gramのリストになり、右のみを選ぶと、検索語で

始まる n-gram のリストになります。

結果の並べ替えは、それぞれの列のヘッダをクリックしてください。

また、他のツールと同様に、結果の絞り込みができます。ただし、結果の文字列に含むか含まない かだけが選べます。

3.4.1 結果の書き出し

結果の書き出しは、文字コードとどちらのテーブルの結果を書き出すかだけが指定できます。

(41)

3.5 ファイル情報

ファイル情報を使うには、ツールタブでファイル情報を選びます。

このツールには、5 つの機能があります。

基本ファイル情報 - タイプ、トークン、タイプ・トークン比、平均単語長、文字数ごとの単語頻度 単語頻度 - 単語もしくは 2 から 5-gram までのリスト

TF-IDF - ファイルごとの TF-IDF 値表 キーワードグループ - 指定文字列の頻度表

コロケーション頻度 - 指定した文字列の共起語の頻度および指定した文字列同士の共起頻度

ファイル情報では、デフォルトではテーブルに表示されるのは 200列までになっています。これ は、単語頻度リストなどでありえる、数千列などの大きなテーブルを表示するとスクロールなどに影響 が出るためです。環境設定->ファイル情報->一般で、この制限を外したり、制限値を変えたりする ことができます。

シンプル−ファイルモードでは、それぞれのファイルごとの情報が集計されます。アドバンストモー ドでは、ファイルごとだけでなく、コーパス・データベースごとにまとめたり、それぞれを組み合わせ て情報の集計ができます。

混合を選んだら、ファイルごとの集計にするか、コーパス・データベースごとに集計するかをコーパ ス・データベースごとに指定します。

ファイルを選んだ場合には、それぞれのファイルにファイル名とは別のラベルをつけることができま

(42)

す。ラベルをつけるには、パネル左下の編集をクリックします。ラベルリストパネルが現れるので、左 下の編集をクリックして、現れたパネルで一行一ラベルで入力します。

処理を実行すると、ファイル名はつけたラベルに置き換えられて表示されます。

3.5.1 基本ファイル情報

基本ファイル情報は、コーパス・データベースもしくはそれらに含まれるファイルの基本的な情報を 集計する機能です。実行をクリックしてください。

(43)

Types - タイプ−異なり語

Tokens - トークン−述べ語数・総語数

TTR - タイプ・トークン比

STDTTR - 標準化タイプ・トークン比

Ave W Lgth - 平均単語長

n letters - n 文字単語の頻度

STDTTRは、環境設定->ファイル情報->基本ファイル情報の標準TTRにチェックを入れること

結果に含めることができ、指定した単語数ごとの TTR の平均値となります。

デフォルトでは、16文字以上の単語の頻度はまとめて16+ lettersで表示されますが、環境設定->

ファイル情報->基本ファイル情報のすべての単語文字数を集計にチェックを入れると、すべての文字 数の単語の頻度が集計されます。

結果の並べ替えるには、他のツールと同様に、並べ替えたい列のヘッダをクリックします。

3.5.2 単語頻度

単語頻度では、リストにあるファイルごともしくは選択されたコーパス・データベースに含まれる ファイルごとおよび選択されたコーパス・データベースごとに単語・n-gramの頻度を集計できます。 頻度集計は、素頻度もしくは標準化(相対)頻度のいずれかを選べます。環境設定->ファイル情報->

単語頻度で、頻度の標準化にチェックを入れてください。さらに、ファイルごとの割合(%)で表示す るか、指定単語ごとの相対頻度で表示するかを選べます。

実行するは、集計する単位(単語・n-gram)を選んで、実行をクリックします。

(44)

結果テーブルの頻度ゼロのセルは空白になります。テーブル右上の検索テキストボックス左に表示さ れる数値は、テーブルに表示されている列数を示しています。カッコ内の数値は総列数で、その前の数 値は表示されている項目の列数(グループ名と Totalを除く)です。表示列数が多くなると多くのメモ

リと CPU パワーが必要となるので、デフォルトでは 200 列に限定されています。

また、Word Count と同様に、文字の頻度も集計することができます。

表示される項目の順序は、それぞれの項目の合計数の順で表示されますが、ファイルごとの項目の 頻度順でも表示することができます。環境設定->ファイル情報->単語頻度で、ファイルごとの頻度で 並べ替えにチェックを入れてください。

結果を書き出す際は、列合計の行と行合計の列を書き出すかどうかを指定できます。また、書き出 す際は、空白のセルは 0 に置き換えられます。

(45)

特定の単語の列を検索するには、右上の検索テキストボックスに単語を入力してreturn/enterキーを 押します。もしその単語がテーブルに表示されていれば、その列まで移動してハイライトされて表示さ れます。

3.5.2.1 結果の絞り込み

もし、結果を元にある特定の単語の頻度テーブルを作りたい場合は、その単語のリストを使うこと で結果を絞り込むことができます。キーワードグループでも指定した単語の頻度を集計できますが、単 語頻度表を作って、そこから絞り込む方が速い場合があります。ただ、キーワードグループの機能は文 字列の指定が柔軟に行えるため、単語・n-gramのリストから絞り込むことでは扱えないような場合に は、キーワードグループの機能を使ってください。

ここで結果を絞り込むには、単語頻度表が表示されている状態で、フィルタをクリックします。

ここで、ペーストをクリックして単語リストをペーストするか、読込をクリックして表示されるテキ ストパネルに単語を入力します。もし、レマ処理の準備ができていれば(seeセクション8:レマ・異綴 り・キーワードグループ)、レマ化をクリックすることで、リストの単語をレマ処理できます。

参照

関連したドキュメント

The Mathematical Society of Japan (MSJ) inaugurated the Takagi Lectures as prestigious research survey lectures.. The Takagi Lectures are the first series of the MSJ official

I give a proof of the theorem over any separably closed field F using ℓ-adic perverse sheaves.. My proof is different from the one of Mirkovi´c

Keywords: continuous time random walk, Brownian motion, collision time, skew Young tableaux, tandem queue.. AMS 2000 Subject Classification: Primary:

In view of the existence of traveling wavefronts for both the nonlocal monos- table equation (1.1) and the bistable non-local delayed diffusion equation [20], it is then expected

The main purpose of the present paper is a development of the fibering method of Pohozaev [17] for the investigation of the inhomogeneous Neumann boundary value problems

The object of this paper is the uniqueness for a d -dimensional Fokker-Planck type equation with inhomogeneous (possibly degenerated) measurable not necessarily bounded

In the paper we derive rational solutions for the lattice potential modified Korteweg–de Vries equation, and Q2, Q1(δ), H3(δ), H2 and H1 in the Adler–Bobenko–Suris list.. B¨

While conducting an experiment regarding fetal move- ments as a result of Pulsed Wave Doppler (PWD) ultrasound, [8] we encountered the severe artifacts in the acquired image2.