CasualConc— これからのコーパス分析は Mac で !
今尾康裕(大阪大学)
[email protected]
CasualConc
は、https://sites.google.com/site/casualconcj/
から無料で入手できます。お使いのMac
に
R
がインストールされていない場合は、https://cran.ism.ac.jp/
からダウンロードしてインストール してください。また、インストールされたら、CasualConc
を立ち上げて、環境設定の視覚化でR
を 使った視覚化にチェックを入れて、必要なパッケージをインストールしてください(自動でインストー ルされます)。その他のアプリケーションのご紹介
CasualTextractor - PDF
やWeb
ページからテキストを抜き出し、簡単な編集CasualTranscriber -
メディアファイルをショートカットでコントロールして文字起こしCasualTagger - KWIC
を使いながらタグづけCasualTreeTagger - TreeTagger
をGUI
で扱うCasualConc
の世界へ!CasualConc
は、テキストデータを用意して分析するMac
専用のコンコーダンサーです。コンコーダンサーとしての基本的な機能に加えて、統計環境
R
を利用して頻度データを可視化する機能も付い ています。CasualConc
でできること基本機能:
KWIC
検索、単語・n-gram
リスト作成、コロケーション集計、単語クラスターリスト 作成、頻度集計テーブルの作成応用的機能:頻度情報の視覚化(
R
を利用)、キーワード抽出以前のバージョンからの変更点:正規表現エンジンの変更(
Oniguruma -> ICU
)、並列処理、視 覚化機能の強化扱えるファイル
デフォルト:
UTF-8
のプレインテキストファイルその他に扱えるファイル形式:
RTF, .doc/.docx, .odt, PDF, HTML, .webarchive, XML
XML
ファイルは、XML
を扱う機能が限られているため、プレインテキストと同じ扱いになりま す。対応していない形式・拡張子のファイルは、プレインテキストとして読み込みを試みることができテキストの扱い
ファイルをそのまま読み込んで使うこともできますが、
CasualConc
にはテキストを扱うモードが4
つあります。いずれも、ファイルビューで操作を行います。モードの切り替えはウインドウ右上のボタ ンを使います。
シンプルファイルモード:扱いたいファイルをリストとして読み込んで処理します。 テキストモード:テキストを貼り付けて処理します。
アドバンストファイル(コーパス)モード:ファイルをグループに分けて管理して扱います。ファイ ルパスを保存しています。
データベースモード:データベースファイルを作り管理して扱います。データベースファイルのパス を保存しています。
ファイルの読み込みはメニューやボタンからできますが、ドラッグ&ドロップにも対応しています。
ファイル処理
ファイルの扱いに関しては、単にテキストを読み込む以外にも、少し特殊な機能が付いています。
ファイルの編集:プレインテキストは、
CasualConc
上でも可能です。タグづけなどの操作をしたければ、
CasualTagger
などのアプリケーションをご使用ください。その他指定アプリケーションでファイルを開くことも可能です。
デフォルトフォルダの指定:コーパス・データベースファイルのあるフォルダ、書き出し用フォルダ を指定できます。
トークン化:日本語など、わかち書きをしないと扱えない言語にも
OS
標準の機能を使って実験的 に対応しています。TreeTagger
のインストール:TreeTagger
を使って分析、POS
タグをつけた頻度集計が可能で す。インストーラが付いているので、CasualConc
上でインストールもできます。コンテクストタグの扱い:ヘッダータグの部分を削除、指定タグに囲まれているテキストを分析・削 除、タグを削除、指定文字列を削除などができます。プレビューにも適用すると、テキストのどの部 分が処理されるかを確認できます。ただし、タグ付けされたセクションだけを処理の対象とする際 に、絶対位置で処理すると、ファイルが大きい場合には処理時間がかなり長くなります。
単語の扱い
単語の一部として含める処理:
’
と-
はチェックを入れるだけ、それ以外にも任意の文字を指定でき ます。また、検索語にも適用が可能です。単語の扱い:ストップワード、連語などをリストで管理します。
レマ・異綴り:単語リストなどのレマ処理・異綴り処理もリストで管理します。
シンプルファイル・テキストモード
普段使わないファイルやウェブサイトなどで見つけたテキストを一時的に登録して分析するモードに なります。
アドバンストモード
アドバンストモードでは、ファイルをまとめてコーパスとして管理したり、データベースファイルを 作って管理して扱うことができます。ファイルを読み込んで、名前をつけてコーパス・データベースを 作成し、利用するコーパス・データベースにはチェックを入れて使用します。基本的には、このモード でテキストを扱うことになります。
コーパス(ファイル)モード:その都度細かな設定をしながら分析するのに適しています。
データベースモード:データベース作成時の設定を基本として、用例検索など、高速での繰り返しの 検索に適しています。
Concord
KWIC
検索を行うツールです。検索モードが4
つあります。単語:ワイルドカードを使った検索です。 文字:入力した文字をそのまま検索します。 正規表現:正規表現(
ICU
)を使った検索です。 タグ:タグのみでタグのついた文字列を検索します。単語モード
ワイル ド カ ー ド 文 字 :
*
(\w*: 0 or 1
文 字 以 上 ) 、?
(\w+: 1
文 字 以 上 ) 、!
(\w: 1
文 字)、(A|B)
(A
とB
のどちらか)、A/B
(A
とB
は別の検索文字列)並べ替え:プリセット(環境設定で追加果)もしくは、位置指定での並べ替えができます。
文脈語での絞り込み
文脈にあり:メインウインドウで設定します。
文脈になし:環境設定で使えるようにしたのちに、メインウインドウで設定します。
文脈の範囲の設定
段落:素早く検索するために、検索語が含まれる段落を抜き出したのちにテキストを処理します。 ファイル:ファイル全体を扱うので、処理時間が多少長くなり、メモリを多少多く消費します。
データベースモードではテキストを段落ごとに登録してあるため、ファイルを範囲に指定すると、同 じファイル名で登録してある段落を全て読み込んでから処理するため、ファイルを読み込む場合よりも 時間がかかります。
タグ検索モード:タグを見えなくしたり、消したりできます。 検索語の置き換え:括弧・下線で置き換えることができます。
広範囲モード:文脈語・並べ替え後の範囲指定を
L15-R15
まで広げることができます。ただし、必 要となるメモリが多くなります。結果の書き出し・コピー:リッチテキストでの書き出しやコピーが可能です。
キーワードグループ検索:キーワードグループを作り、単語をまとめて検索することもできます。 このほかに、フォント、文脈語の色なども指定できます。
正規表現テストツール:任意のテキストで、正規表現のテストが可能です。
Word Count
単語・
n-gram
リストを作るツールです。左右で異なるリストが作れます。アドバンストモードでは左右異なるコーパス・データベースを割り当てることもできます。
並べ替え:基本的な並べ替えは、テーブルのヘッダ部分をクリックすることで可能です。特殊な並べ 替えは、ポップアップボタンで選択して行います。
絞り込み:検索ボックスに文字を入力すると、インクリメンタルで絞り込みができます。 文字リスト作成:単語だけでなく、文字のリスト、文字の
n-gram
リストも作れます。アドバンストモード
指定文字列検索、ギャップ
n-gram
リスト、タグづけしてあるファイルやタグづけしてのリストが作 れます。指定文字列検索:検索モードを反映して、指定文字列のリストを作成
単語モードでは、
(?)
や(*)
のように、ワイルドカード文字を括弧に入れると、その部分だけでリス トが作れます。ギャップ
n-gram / p-frame
:n-gram
の一箇所が空欄のものでリスト作成できます。 タグのついているテキスト:Word_Tag
タイプもしくはTreeTagger
標準出力形式 タグづけ:OS
標準タガー(英語のみ)、TreeTagger
、MeCab
(インストール必要)単語リスト抽出ツール:左右二つの単語リストに共通する単語のリスト、片方にしか現れない単語 のリストなどを作成できます。
キーワード統計:右側のテーブルのリストを参照コーパスとして、左側のリストの単語のキーワード 統計値を計算できます。
トークン化:日本語など、わかち書きをしないと扱えない言語にも
OS
標準の機能を使って実験的 に対応しています。英語以外の言語で分かち書きが必要なものは、
OS X
の機能を使って、簡易的に分かち書き処理をし て分析もできます。設定は、環境設定のファイルにあります。コンテクストタグの扱い:ヘッダータグの部分を削除、指定タグに囲まれているテキストを分析・削 除、タグを削除、指定文字列を削除などができます。プレビューにも適用すると、テキストのどの部 分が処理されるかを確認できます。ただし、タグ付けされたセクションだけを処理の対象とする際 に、絶対位置で処理すると、ファイルが大きい場合には処理時間がかなり長くなります。
Cluster/Collocation/Cooccurrence
Cluster
:指定文字列を含むn-gram
のリスト作成Collocation/Cooccurrence
:位置ごとの共起語頻度、共起語リスト、コロケーション統計値の計 算;簡易的な視覚化の機能も付いています。ファイル情報
ファイル・コーパス・データベースごとの頻度表・
TF-IDF
表、選択したファイル・コーパス・デー タベース全体の共起頻度リスト作成をします。アドバンストモードでは、ファイルとコーパス・データ ベースの組み合わせを指定できます。R
を使った視覚化は、多くのツールがここでの頻度集計データを 使います。基本ファイル情報:異なり語数(タイプ)、総語数(トークン)、
TTR
、単語長別の頻度などの基 本的な情報が得られます。単語頻度:単語・
n-gram
リストをファイル・コーパス・データベースごとに作れます。TF-IDF
:個々のファイル・コーパス・データベースに特徴的な単語・n-gram
をTF-IDF
という指 標を用いて集計します。キーワードグループ:指定文字列のリストで頻度表を作ります。
1
つのラベルの元に複数の文字列を まとめて集計することもできます。コロケーション頻度:
1
つの単語リストもしくは1
組(2
つ)の単語リストで、指定範囲・同一パラ グラフでの共起頻度、共起するかどうかで集計できます。タグフィルタ:アドバンストファイルモードのコロケーション頻度以外では、タグ付けされたセク ションのテキストのみか、それ以外かを指定して頻度表を作れます。また、ここでは、実験的に
XPath
での指定もできるようになっています。基本設定
テーブルに表示する列の制限:単語頻度・
TF-IDF
では、ファイル・コーパス・データベース内のす べての単語が分析対象になるため、テーブルの列が多くなりすぎて、描画に大量のメモリとCPU
パ ワーが必要となるため、表示列数を制限できるようにしてあります。タグ処理:
TreeTagger
もしくはMeCab
(インストールが必要)を利用してPOS
タグをつけた頻度 集計ができます。基本ファイル情報
特別な機能はありませんが、
STD TTR
の計算は、あくまで目安として考えてください。ファイルご とに指定単語数ごとのTTR
を計算してそれを平均しています。指定単位数に満たない場合は、単純 にTTR
を計算しています。指定単位数がファイルの単語数よりも多ければ、TTR
と同じ値になり ます。単語頻度
ファイル・コーパス・データベースごとに、単語・
n-gram
のリストを作成します。フィルタ:単語リスト作成後に単語リストを使って頻度表の絞り込みができます。 バイナリ:単語の有無(
0/1
)に変換します頻度の標準化:相対頻度および全体に対する割合(
%
)で集計ファイルごとの頻度での並べ替え:ファイルごとに頻度順に並べ替えます。頻度は単語の横に括弧に 入った形で表示されます。
文字リストの作成:単語の代わりに文字でリスト・文字
n-gram
リストを作れます。キーワード統計・特徴語抽出(
R
が必要)標準特徴度指数:リストのうち一つのグループを参照コーパスとして、
Word Count
でも使えるキー ワード統計値を計算できます。順位平均比較:相対頻度表を作ったファイルを
2
つのグループに分けて、Mann-Whitney U
検定もしくは
Welch
の検定を行い、効果量をもとに特徴語を抽出します。頻度表のすべての単語に対して処理ができます。ただし、
n-gram
の場合は時間がかかるため、最低頻度を指定してください。 ランダムフォレスト特徴度指数:ランダムフォレストを使って、特徴語を抽出します。ただし、ファ イル中の全単語を使うことは難しいので、フィルタで絞り込んでからの使用を想定しています。 特徴度指数比較:順位平均比較とランダムフォレストでの特徴度指数を並べて比較できます。単語リストの抽出:すべてのファイルに含まれる単語および特定のファイルにしか現れない単語の抽 出ができます。
単語リスト結合:
Word Count
から書き出したり、Word Count
・ファイル情報で保存したファイ ル、もしくは、別で用意した単語リストを結合してファイル情報テーブルに読み込むことができま す。TF-IDF
あるファイルにおけるある単語の出現頻度(割合)
(TF)
と、その単語がすべてのファイル中いくつ のファイルに出てくるかの逆数を対数化したもの(IDF)
の積。特定のファイルにおける出現頻度が 高く、全体の中でその単語の出現するファイル数が少ないほど大きな値になるため、そのファイル の特徴語としてみることができます。並べ替え:単語ごとの
TF-IDF
の合計順か、ファイルごとのTF-IDF
の値の順で並べ替えキーワードグループ
あらかじめ用意した単語リストを使って頻度集計します。また、ラベルとそれに含める文字列を指定 することで、複数の語をまとめることもできます。リストは、コピー&ペーストもしくはファイルか ら読み込めます。読み込んだリストはレマ処理もできます。また、文字列は正規表現で記述すること もできます。
label->word1,word2,word3,...
in addition->in addition ##EXCEPT## in addition to
大文字小文字の区別:大文字と小文字を区別するかどうか指定 区切り文字:
,
もしくは/
を選択並べ替え:列の並びをリストの順、合計頻度の順、アルファベット順で並べる 標準化:相対頻度で頻度集計
単純な単語などの場合は、組み合わせてグループにするとしても、単語頻度で頻度表を作ってから絞 り込んだ方が処理時間が短くなる場合が多いです。
コロケーション頻度
実験的な機能なので、検証が必要ですが、
1
つのリストの単語でそれぞれが共起する頻度、もしく は、2
つのリストで、1
つのリストの単語それぞれにもう1
つのリストの単語が共起する頻度を集計 できます。共起は、指定範囲での頻度・有無、同一パラグラフでの頻度・有無で集計できます。ただ し、すべての組み合わせで検索をかけるので、処理時間はかなりかかります。語彙プロファイラ
単語リストを用意して、
Word Count
の単語リストや人にのテキストに用意した単語リストの単語が どれくらいの割合で使われているかをチェックするツールです。CasualConc
のディスクイメージに も、少しリストが入っています。R
を利用した頻度情報の視覚化機能R
がインストールされていると、R
を使って頻度データを視覚化できます。CRAN
からダウンロー ドしたパッケージを使ってインストールしてあれば、CasualConc
は自動で認識をしますので、機能を オンにすれば使えます。項目位置プロット:コンコーダンスプロットと呼ばれるもので、項目の出現位置をプロットします チャート:頻度情報から、線グラフ、棒グラフ、パイチャート、レーダーチャートを描きます 散布図:一組の頻度リストから、
X-Y
の二次元散布図を描きますクラスター分析:類似度をもとにグループ分けする、階層的クラスター分析の樹形図を描きます コレスポンデンス分析:対応分析とも呼ばれ、行項目と列項目を同じ平面にプロットします
主成分分析(
PCA
):データの凝縮を目的として、因子得点と因子負荷量 それぞれをプロットしま す探索的因子分析(
EFA
):観測変数間の共通因子を仮定して因子負荷量をもとに行項目をプロット します多次元尺度構成法(
MDS
):類似度を距離に変えて行項目を二次元にプロットします ネットワーク分析:2-grams
・コロケーションを元にして、語の間の関連性を描きます ワードクラウド:複数の単語・n-gram
リストの頻度情報を図示します項目位置プロット
Concord
で、文脈の範囲をファイルにして検索する際にプロットのためのデータを収集できますが、通常は、視覚化のコンコーダンスプロットパネル上で文字列を検索語プロットを描きます。コンテ クストタグを使って特定部分だけの処理をする場合は、時間はかかりますが、絶対位置で処理すると、 ほぼ正確な位置が記録できます。
チャート
基本的な折れ線グラフ、棒グラフなどが作れます。
クラスター分析
階層的クラスター分析では、頻度表から類似度を距離で計算して、デンドログラムを描くことがで きます。
コレスポンデンス分析
コレスポンデンス分析では、頻度表を使って、行と列のそれぞれの要素を同じ平面状にプロットし て、その関係を見ることができます。
色付けには、行項目と列項目のそれぞれを色付けできます。列項目の方は、あまり意味ないかもし れませんが、
tree tagger
で簡易的にPOS
タグをつけてそれを元に色付けもできます。ただ、単語レベ ルなので精度は落ちます。主成分分析
これも、コレスポンデンス分析と同じなのですが、ちょっと違った結果になります。詳しいこと は、水本さんが違いを比較した論文を書かれていたと思うので、それを参照してください。
水本 篤
(2009)
「コーパス言語学研究における多変量解析手法の比較―主成分分析vs.
コレスポンデンス分析―」
.
統計数理研究所共同研究リポート232
『コーパス言語研究における量的データ処理 のための統計手法の概観』, pp.53–64
ネットワーク分析
単語間のつながりの強さを見ることができます。基本的には、
Word Count
で2-gram
リストを作るか、
Collocation
で共起頻度表を作るか、ファイル情報でコロケーション頻度表を作ります。ワードクラウド
最後にワードクラウドを描いてみます。
Word Count, Collocation,
ファイル情報で作った頻度表か ら作ることができ、頻度の多いものが大きな文字で表示されます。二つ以上のリストを使うと共通するもの、それぞれを代表するものでワードクラウドが描けます。