JAECS 2016 Workshop Handout CasualConc CasualConc JAECS 2016 Workshop

(1)

CasualConc— これからのコーパス分析は ^Mac で ^!

今尾康裕（大阪大学）

[email protected]

CasualConc

は、

https://sites.google.com/site/casualconcj/

から無料で入手できます。お使いの

Mac

に

R

がインストールされていない場合は、

https://cran.ism.ac.jp/

からダウンロードしてインストールしてください。また、インストールされたら、

CasualConc

を立ち上げて、環境設定の視覚化で

R

を使った視覚化にチェックを入れて、必要なパッケージをインストールしてください（自動でインストールされます）。

その他のアプリケーションのご紹介

CasualTextractor - PDF

や

Web

ページからテキストを抜き出し、簡単な編集

CasualTranscriber -

メディアファイルをショートカットでコントロールして文字起こし

CasualTagger - KWIC

を使いながらタグづけ

CasualTreeTagger - TreeTagger

を

GUI

で扱う

CasualConc

_{の世界へ！}

CasualConc

は、テキストデータを用意して分析する

Mac

専用のコンコーダンサーです。コンコー

ダンサーとしての基本的な機能に加えて、統計環境

R

を利用して頻度データを可視化する機能も付いています。

CasualConc

_{でできること}

基本機能：

^KWIC

検索、単語・

n-gram

リスト作成、コロケーション集計、単語クラスターリスト作成、頻度集計テーブルの作成

応用的機能：頻度情報の視覚化（

^R

を利用）、キーワード抽出

以前のバージョンからの変更点：正規表現エンジンの変更（

Oniguruma -> ICU

）、並列処理、視覚化機能の強化

扱えるファイル

デフォルト：

UTF-8

のプレインテキストファイル

その他に扱えるファイル形式：

RTF, .doc/.docx, .odt, PDF, HTML, .webarchive, XML

XML

ファイルは、

XML

を扱う機能が限られているため、プレインテキストと同じ扱いになります。対応していない形式・拡張子のファイルは、プレインテキストとして読み込みを試みることができ

(2)

テキストの扱い

ファイルをそのまま読み込んで使うこともできますが、

CasualConc

にはテキストを扱うモードが

4

つあります。いずれも、ファイルビューで操作を行います。モードの切り替えはウインドウ右上のボタンを使います。

シンプルファイルモード：扱いたいファイルをリストとして読み込んで処理します。テキストモード：テキストを貼り付けて処理します。

アドバンストファイル（コーパス）モード：ファイルをグループに分けて管理して扱います。ファイルパスを保存しています。

データベースモード：データベースファイルを作り管理して扱います。データベースファイルのパスを保存しています。

ファイルの読み込みはメニューやボタンからできますが、ドラッグ＆ドロップにも対応しています。

ファイル処理

ファイルの扱いに関しては、単にテキストを読み込む以外にも、少し特殊な機能が付いています。

ファイルの編集：プレインテキストは、

CasualConc

上でも可能です。タグづけなどの操作をしたけ

れば、

CasualTagger

などのアプリケーションをご使用ください。その他指定アプリケーションで

ファイルを開くことも可能です。

デフォルトフォルダの指定：コーパス・データベースファイルのあるフォルダ、書き出し用フォルダを指定できます。

トークン化：日本語など、わかち書きをしないと扱えない言語にも

^OS

標準の機能を使って実験的に対応しています。

TreeTagger

_{のインストール：}

TreeTagger

を使って分析、

POS

タグをつけた頻度集計が可能です。インストーラが付いているので、

CasualConc

上でインストールもできます。

コンテクストタグの扱い：ヘッダータグの部分を削除、指定タグに囲まれているテキストを分析・削除、タグを削除、指定文字列を削除などができます。プレビューにも適用すると、テキストのどの部分が処理されるかを確認できます。ただし、タグ付けされたセクションだけを処理の対象とする際に、絶対位置で処理すると、ファイルが大きい場合には処理時間がかなり長くなります。

単語の扱い

単語の一部として含める処理：

^’

と

-

はチェックを入れるだけ、それ以外にも任意の文字を指定できます。また、検索語にも適用が可能です。

単語の扱い：ストップワード、連語などをリストで管理します。

レマ・異綴り：単語リストなどのレマ処理・異綴り処理もリストで管理します。

(3)

シンプルファイル・テキストモード

普段使わないファイルやウェブサイトなどで見つけたテキストを一時的に登録して分析するモードになります。

アドバンストモード

アドバンストモードでは、ファイルをまとめてコーパスとして管理したり、データベースファイルを作って管理して扱うことができます。ファイルを読み込んで、名前をつけてコーパス・データベースを作成し、利用するコーパス・データベースにはチェックを入れて使用します。基本的には、このモードでテキストを扱うことになります。

コーパス（ファイル）モード：その都度細かな設定をしながら分析するのに適しています。

データベースモード：データベース作成時の設定を基本として、用例検索など、高速での繰り返しの検索に適しています。

Concord

KWIC

検索を行うツールです。検索モードが

4

つあります。

単語：ワイルドカードを使った検索です。文字：入力した文字をそのまま検索します。正規表現：正規表現（

^ICU

）を使った検索です。タグ：タグのみでタグのついた文字列を検索します。

単語モード

ワイルドカード文字：

*

（

\w*: 0 or 1

文字以上）、

?

（

\w+: 1

文字以上）、

!

（

\w: 1

文字）、

(A|B)

（

A

と

B

のどちらか）、

A/B

（

A

と

B

は別の検索文字列）

並べ替え：プリセット（環境設定で追加果）もしくは、位置指定での並べ替えができます。

文脈語での絞り込み

文脈にあり：メインウインドウで設定します。

文脈になし：環境設定で使えるようにしたのちに、メインウインドウで設定します。

文脈の範囲の設定

段落：素早く検索するために、検索語が含まれる段落を抜き出したのちにテキストを処理します。ファイル：ファイル全体を扱うので、処理時間が多少長くなり、メモリを多少多く消費します。

データベースモードではテキストを段落ごとに登録してあるため、ファイルを範囲に指定すると、同じファイル名で登録してある段落を全て読み込んでから処理するため、ファイルを読み込む場合よりも時間がかかります。

(4)

タグ検索モード：タグを見えなくしたり、消したりできます。検索語の置き換え：括弧・下線で置き換えることができます。

広範囲モード：文脈語・並べ替え後の範囲指定を

^L15-R15

まで広げることができます。ただし、必要となるメモリが多くなります。

結果の書き出し・コピー：リッチテキストでの書き出しやコピーが可能です。

キーワードグループ検索：キーワードグループを作り、単語をまとめて検索することもできます。このほかに、フォント、文脈語の色なども指定できます。

正規表現テストツール：任意のテキストで、正規表現のテストが可能です。

Word Count

単語・

n-gram

リストを作るツールです。左右で異なるリストが作れます。アドバンストモードでは

左右異なるコーパス・データベースを割り当てることもできます。

並べ替え：基本的な並べ替えは、テーブルのヘッダ部分をクリックすることで可能です。特殊な並べ替えは、ポップアップボタンで選択して行います。

絞り込み：検索ボックスに文字を入力すると、インクリメンタルで絞り込みができます。文字リスト作成：単語だけでなく、文字のリスト、文字の

n-gram

リストも作れます。

アドバンストモード

指定文字列検索、ギャップ

n-gram

リスト、タグづけしてあるファイルやタグづけしてのリストが作れます。

指定文字列検索：検索モードを反映して、指定文字列のリストを作成

単語モードでは、

(?)

や

(*)

のように、ワイルドカード文字を括弧に入れると、その部分だけでリストが作れます。

ギャップ

n-gram / p-frame

：

n-gram

の一箇所が空欄のものでリスト作成できます。タグのついているテキスト：

^Word_Tag

タイプもしくは

TreeTagger

標準出力形式タグづけ：

^OS

標準タガー（英語のみ）、

TreeTagger

、

MeCab

（インストール必要）

単語リスト抽出ツール：左右二つの単語リストに共通する単語のリスト、片方にしか現れない単語のリストなどを作成できます。

キーワード統計：右側のテーブルのリストを参照コーパスとして、左側のリストの単語のキーワード統計値を計算できます。

トークン化：日本語など、わかち書きをしないと扱えない言語にも

OS

標準の機能を使って実験的に対応しています。

英語以外の言語で分かち書きが必要なものは、

OS X

の機能を使って、簡易的に分かち書き処理をして分析もできます。設定は、環境設定のファイルにあります。

(5)

コンテクストタグの扱い：ヘッダータグの部分を削除、指定タグに囲まれているテキストを分析・削除、タグを削除、指定文字列を削除などができます。プレビューにも適用すると、テキストのどの部分が処理されるかを確認できます。ただし、タグ付けされたセクションだけを処理の対象とする際に、絶対位置で処理すると、ファイルが大きい場合には処理時間がかなり長くなります。

Cluster/Collocation/Cooccurrence

Cluster

：指定文字列を含む

n-gram

のリスト作成

Collocation/Cooccurrence

：位置ごとの共起語頻度、共起語リスト、コロケーション統計値の計算；簡易的な視覚化の機能も付いています。

ファイル情報

ファイル・コーパス・データベースごとの頻度表・

TF-IDF

表、選択したファイル・コーパス・データベース全体の共起頻度リスト作成をします。アドバンストモードでは、ファイルとコーパス・データベースの組み合わせを指定できます。

R

を使った視覚化は、多くのツールがここでの頻度集計データを使います。

基本ファイル情報：異なり語数（タイプ）、総語数（トークン）、

^TTR

、単語長別の頻度などの基本的な情報が得られます。

単語頻度：単語・

^n-gram

リストをファイル・コーパス・データベースごとに作れます。

TF-IDF

：個々のファイル・コーパス・データベースに特徴的な単語・

n-gram

を

TF-IDF

という指標を用いて集計します。

キーワードグループ：指定文字列のリストで頻度表を作ります。

¹

つのラベルの元に複数の文字列をまとめて集計することもできます。

コロケーション頻度：

¹

つの単語リストもしくは

1

組（

2

つ）の単語リストで、指定範囲・同一パラグラフでの共起頻度、共起するかどうかで集計できます。

タグフィルタ：アドバンストファイルモードのコロケーション頻度以外では、タグ付けされたセクションのテキストのみか、それ以外かを指定して頻度表を作れます。また、ここでは、実験的に

XPath

での指定もできるようになっています。

基本設定

テーブルに表示する列の制限：単語頻度・

^TF-IDF

では、ファイル・コーパス・データベース内のすべての単語が分析対象になるため、テーブルの列が多くなりすぎて、描画に大量のメモリと

CPU

パワーが必要となるため、表示列数を制限できるようにしてあります。

タグ処理：

^TreeTagger

もしくは

MeCab

（インストールが必要）を利用して

POS

タグをつけた頻度集計ができます。

(6)

基本ファイル情報

特別な機能はありませんが、

STD TTR

の計算は、あくまで目安として考えてください。ファイルごとに指定単語数ごとの

TTR

を計算してそれを平均しています。指定単位数に満たない場合は、単純に

TTR

を計算しています。指定単位数がファイルの単語数よりも多ければ、

TTR

と同じ値になります。

単語頻度

ファイル・コーパス・データベースごとに、単語・

n-gram

のリストを作成します。

フィルタ：単語リスト作成後に単語リストを使って頻度表の絞り込みができます。バイナリ：単語の有無（

^0/1

）に変換します

頻度の標準化：相対頻度および全体に対する割合（

^%

）で集計

ファイルごとの頻度での並べ替え：ファイルごとに頻度順に並べ替えます。頻度は単語の横に括弧に入った形で表示されます。

文字リストの作成：単語の代わりに文字でリスト・文字

^n-gram

リストを作れます。

キーワード統計・特徴語抽出（

^R

が必要）

標準特徴度指数：リストのうち一つのグループを参照コーパスとして、

^{Word Count}

でも使えるキーワード統計値を計算できます。

順位平均比較：相対頻度表を作ったファイルを

²

つのグループに分けて、

Mann-Whitney U

検定も

しくは

Welch

の検定を行い、効果量をもとに特徴語を抽出します。頻度表のすべての単語に対して

処理ができます。ただし、

n-gram

の場合は時間がかかるため、最低頻度を指定してください。ランダムフォレスト特徴度指数：ランダムフォレストを使って、特徴語を抽出します。ただし、ファイル中の全単語を使うことは難しいので、フィルタで絞り込んでからの使用を想定しています。特徴度指数比較：順位平均比較とランダムフォレストでの特徴度指数を並べて比較できます。

単語リストの抽出：すべてのファイルに含まれる単語および特定のファイルにしか現れない単語の抽出ができます。

単語リスト結合：

^{Word Count}

から書き出したり、

Word Count

・ファイル情報で保存したファイル、もしくは、別で用意した単語リストを結合してファイル情報テーブルに読み込むことができます。

TF-IDF

あるファイルにおけるある単語の出現頻度（割合）

(TF)

と、その単語がすべてのファイル中いくつのファイルに出てくるかの逆数を対数化したもの

(IDF)

の積。特定のファイルにおける出現頻度が高く、全体の中でその単語の出現するファイル数が少ないほど大きな値になるため、そのファイルの特徴語としてみることができます。

並べ替え：単語ごとの

^TF-IDF

の合計順か、ファイルごとの

TF-IDF

の値の順で並べ替え

(7)

キーワードグループ

あらかじめ用意した単語リストを使って頻度集計します。また、ラベルとそれに含める文字列を指定することで、複数の語をまとめることもできます。リストは、コピー＆ペーストもしくはファイルから読み込めます。読み込んだリストはレマ処理もできます。また、文字列は正規表現で記述することもできます。

label->word1,word2,word3,...

in addition->in addition ##EXCEPT## in addition to

大文字小文字の区別：大文字と小文字を区別するかどうか指定区切り文字：

^,

もしくは

/

を選択

並べ替え：列の並びをリストの順、合計頻度の順、アルファベット順で並べる標準化：相対頻度で頻度集計

単純な単語などの場合は、組み合わせてグループにするとしても、単語頻度で頻度表を作ってから絞り込んだ方が処理時間が短くなる場合が多いです。

コロケーション頻度

実験的な機能なので、検証が必要ですが、

1

つのリストの単語でそれぞれが共起する頻度、もしくは、

2

つのリストで、

1

つのリストの単語それぞれにもう

1

つのリストの単語が共起する頻度を集計できます。共起は、指定範囲での頻度・有無、同一パラグラフでの頻度・有無で集計できます。ただし、すべての組み合わせで検索をかけるので、処理時間はかなりかかります。

語彙プロファイラ

単語リストを用意して、

Word Count

の単語リストや人にのテキストに用意した単語リストの単語がどれくらいの割合で使われているかをチェックするツールです。

CasualConc

のディスクイメージにも、少しリストが入っています。

R

を利用した頻度情報の視覚化機能

R

がインストールされていると、

R

を使って頻度データを視覚化できます。

CRAN

からダウンロードしたパッケージを使ってインストールしてあれば、

CasualConc

は自動で認識をしますので、機能をオンにすれば使えます。

項目位置プロット：コンコーダンスプロットと呼ばれるもので、項目の出現位置をプロットしますチャート：頻度情報から、線グラフ、棒グラフ、パイチャート、レーダーチャートを描きます散布図：一組の頻度リストから、

X-Y

の二次元散布図を描きます

クラスター分析：類似度をもとにグループ分けする、階層的クラスター分析の樹形図を描きますコレスポンデンス分析：対応分析とも呼ばれ、行項目と列項目を同じ平面にプロットします

(8)

主成分分析（

^PCA

）：データの凝縮を目的として、因子得点と因子負荷量それぞれをプロットします

探索的因子分析（

EFA

）：観測変数間の共通因子を仮定して因子負荷量をもとに行項目をプロットします

多次元尺度構成法（

MDS

）：類似度を距離に変えて行項目を二次元にプロットしますネットワーク分析：

2-grams

・コロケーションを元にして、語の間の関連性を描きますワードクラウド：複数の単語・

^n-gram

リストの頻度情報を図示します

項目位置プロット

Concord

で、文脈の範囲をファイルにして検索する際にプロットのためのデータを収集できます

が、通常は、視覚化のコンコーダンスプロットパネル上で文字列を検索語プロットを描きます。コンテクストタグを使って特定部分だけの処理をする場合は、時間はかかりますが、絶対位置で処理すると、ほぼ正確な位置が記録できます。

チャート

基本的な折れ線グラフ、棒グラフなどが作れます。

クラスター分析

階層的クラスター分析では、頻度表から類似度を距離で計算して、デンドログラムを描くことができます。

コレスポンデンス分析

コレスポンデンス分析では、頻度表を使って、行と列のそれぞれの要素を同じ平面状にプロットして、その関係を見ることができます。

色付けには、行項目と列項目のそれぞれを色付けできます。列項目の方は、あまり意味ないかもしれませんが、

tree tagger

で簡易的に

POS

タグをつけてそれを元に色付けもできます。ただ、単語レベルなので精度は落ちます。

主成分分析

これも、コレスポンデンス分析と同じなのですが、ちょっと違った結果になります。詳しいことは、水本さんが違いを比較した論文を書かれていたと思うので、それを参照してください。

水本篤

(2009)

「コーパス言語学研究における多変量解析手法の比較―主成分分析

vs.

コレスポンデン

ス分析―」

.

統計数理研究所共同研究リポート

232

『コーパス言語研究における量的データ処理のための統計手法の概観』

, pp.53–64

ネットワーク分析

単語間のつながりの強さを見ることができます。基本的には、

Word Count

で

2-gram

リストを作る

か、

Collocation

で共起頻度表を作るか、ファイル情報でコロケーション頻度表を作ります。

(9)

ワードクラウド

最後にワードクラウドを描いてみます。

Word Count, Collocation,

ファイル情報で作った頻度表から作ることができ、頻度の多いものが大きな文字で表示されます。

二つ以上のリストを使うと共通するもの、それぞれを代表するものでワードクラウドが描けます。

JAECS 2016 Workshop Handout CasualConc CasualConc JAECS 2016 Workshop

CasualConc— これからのコーパス分析は Mac で !

[email protected]

CasualConc

https://sites.google.com/site/casualconcj/

Mac

R

https://cran.ism.ac.jp/

CasualConc

R

CasualTextractor - PDF

Web

CasualTranscriber -

CasualTagger - KWIC

CasualTreeTagger - TreeTagger

GUI

CasualConc

CasualConc

Mac

R

CasualConc

KWIC

n-gram

R

Oniguruma -> ICU

UTF-8

RTF, .doc/.docx, .odt, PDF, HTML, .webarchive, XML

XML

XML

CasualConc

4

CasualConc

CasualTagger

OS

TreeTagger

TreeTagger

POS

CasualConc

’

-

Concord

KWIC

4

ICU

*

\w*: 0 or 1

?

\w+: 1

!

\w: 1

(A|B)

A

B

A/B

A

B

L15-R15

Word Count

n-gram

n-gram

n-gram

(?)

(*)

n-gram / p-frame

n-gram

Word_Tag

TreeTagger

OS

TreeTagger

MeCab

OS

OS X

Cluster/Collocation/Cooccurrence

Cluster

n-gram

Collocation/Cooccurrence

TF-IDF

R

TTR

n-gram

CasualConc— これからのコーパス分析は ^Mac で ^!

^KWIC

^R

^OS

^’

^ICU

^L15-R15

^Word_Tag

^OS

^TTR

^n-gram

¹

¹

^TF-IDF

^TreeTagger

^0/1

^%

^n-gram

^R

^{Word Count}

²

^{Word Count}

^TF-IDF

^,

^PCA

^n-gram