• 検索結果がありません。

JAECS 2016 Workshop Handout CasualConc CasualConc JAECS 2016 Workshop

N/A
N/A
Protected

Academic year: 2018

シェア "JAECS 2016 Workshop Handout CasualConc CasualConc JAECS 2016 Workshop"

Copied!
9
0
0

読み込み中.... (全文を見る)

全文

(1)

CasualConc— これからのコーパス分析は Mac !

今尾康裕(大阪大学)

[email protected]

CasualConc

は、

https://sites.google.com/site/casualconcj/

から無料で入手できます。お使いの

Mac

R

がインストールされていない場合は、

https://cran.ism.ac.jp/

からダウンロードしてインストール してください。また、インストールされたら、

CasualConc

を立ち上げて、環境設定の視覚化で

R

を 使った視覚化にチェックを入れて、必要なパッケージをインストールしてください(自動でインストー ルされます)。

その他のアプリケーションのご紹介

CasualTextractor - PDF

Web

ページからテキストを抜き出し、簡単な編集

CasualTranscriber -

メディアファイルをショートカットでコントロールして文字起こし

CasualTagger - KWIC

を使いながらタグづけ

CasualTreeTagger - TreeTagger

GUI

で扱う

CasualConc

の世界へ!

CasualConc

は、テキストデータを用意して分析する

Mac

専用のコンコーダンサーです。コンコー

ダンサーとしての基本的な機能に加えて、統計環境

R

を利用して頻度データを可視化する機能も付い ています。

CasualConc

でできること

基本機能:

KWIC

検索、単語・

n-gram

リスト作成、コロケーション集計、単語クラスターリスト 作成、頻度集計テーブルの作成

応用的機能:頻度情報の視覚化(

R

を利用)、キーワード抽出

以前のバージョンからの変更点:正規表現エンジンの変更(

Oniguruma -> ICU

)、並列処理、視 覚化機能の強化

扱えるファイル

デフォルト:

UTF-8

のプレインテキストファイル

その他に扱えるファイル形式:

RTF, .doc/.docx, .odt, PDF, HTML, .webarchive, XML

XML

ファイルは、

XML

を扱う機能が限られているため、プレインテキストと同じ扱いになりま す。対応していない形式・拡張子のファイルは、プレインテキストとして読み込みを試みることができ

(2)

テキストの扱い

ファイルをそのまま読み込んで使うこともできますが、

CasualConc

にはテキストを扱うモードが

4

つあります。いずれも、ファイルビューで操作を行います。モードの切り替えはウインドウ右上のボタ ンを使います。

シンプルファイルモード:扱いたいファイルをリストとして読み込んで処理します。 テキストモード:テキストを貼り付けて処理します。

アドバンストファイル(コーパス)モード:ファイルをグループに分けて管理して扱います。ファイ ルパスを保存しています。

データベースモード:データベースファイルを作り管理して扱います。データベースファイルのパス を保存しています。

ファイルの読み込みはメニューやボタンからできますが、ドラッグ&ドロップにも対応しています。

ファイル処理

ファイルの扱いに関しては、単にテキストを読み込む以外にも、少し特殊な機能が付いています。

ファイルの編集:プレインテキストは、

CasualConc

上でも可能です。タグづけなどの操作をしたけ

れば、

CasualTagger

などのアプリケーションをご使用ください。その他指定アプリケーションで

ファイルを開くことも可能です。

デフォルトフォルダの指定:コーパス・データベースファイルのあるフォルダ、書き出し用フォルダ を指定できます。

トークン化:日本語など、わかち書きをしないと扱えない言語にも

OS

標準の機能を使って実験的 に対応しています。

TreeTagger

のインストール:

TreeTagger

を使って分析、

POS

タグをつけた頻度集計が可能で す。インストーラが付いているので、

CasualConc

上でインストールもできます。

コンテクストタグの扱い:ヘッダータグの部分を削除、指定タグに囲まれているテキストを分析・削 除、タグを削除、指定文字列を削除などができます。プレビューにも適用すると、テキストのどの部 分が処理されるかを確認できます。ただし、タグ付けされたセクションだけを処理の対象とする際 に、絶対位置で処理すると、ファイルが大きい場合には処理時間がかなり長くなります。

単語の扱い

単語の一部として含める処理:

-

はチェックを入れるだけ、それ以外にも任意の文字を指定でき ます。また、検索語にも適用が可能です。

単語の扱い:ストップワード、連語などをリストで管理します。

レマ・異綴り:単語リストなどのレマ処理・異綴り処理もリストで管理します。

(3)

シンプルファイル・テキストモード

普段使わないファイルやウェブサイトなどで見つけたテキストを一時的に登録して分析するモードに なります。

アドバンストモード

アドバンストモードでは、ファイルをまとめてコーパスとして管理したり、データベースファイルを 作って管理して扱うことができます。ファイルを読み込んで、名前をつけてコーパス・データベースを 作成し、利用するコーパス・データベースにはチェックを入れて使用します。基本的には、このモード でテキストを扱うことになります。

コーパス(ファイル)モード:その都度細かな設定をしながら分析するのに適しています。

データベースモード:データベース作成時の設定を基本として、用例検索など、高速での繰り返しの 検索に適しています。

Concord

KWIC

検索を行うツールです。検索モードが

4

つあります。

単語:ワイルドカードを使った検索です。 文字:入力した文字をそのまま検索します。 正規表現:正規表現(

ICU

)を使った検索です。 タグ:タグのみでタグのついた文字列を検索します。

単語モード

ワイル ド カ ー ド 文 字 :

*

\w*: 0 or 1

文 字 以 上 ) 、

?

\w+: 1

文 字 以 上 ) 、

!

\w: 1

文 字)、

(A|B)

A

B

のどちらか)、

A/B

A

B

は別の検索文字列)

並べ替え:プリセット(環境設定で追加果)もしくは、位置指定での並べ替えができます。

文脈語での絞り込み

文脈にあり:メインウインドウで設定します。

文脈になし:環境設定で使えるようにしたのちに、メインウインドウで設定します。

文脈の範囲の設定

段落:素早く検索するために、検索語が含まれる段落を抜き出したのちにテキストを処理します。 ファイル:ファイル全体を扱うので、処理時間が多少長くなり、メモリを多少多く消費します。

データベースモードではテキストを段落ごとに登録してあるため、ファイルを範囲に指定すると、同 じファイル名で登録してある段落を全て読み込んでから処理するため、ファイルを読み込む場合よりも 時間がかかります。

(4)

タグ検索モード:タグを見えなくしたり、消したりできます。 検索語の置き換え:括弧・下線で置き換えることができます。

広範囲モード:文脈語・並べ替え後の範囲指定を

L15-R15

まで広げることができます。ただし、必 要となるメモリが多くなります。

結果の書き出し・コピー:リッチテキストでの書き出しやコピーが可能です。

キーワードグループ検索:キーワードグループを作り、単語をまとめて検索することもできます。 このほかに、フォント、文脈語の色なども指定できます。

正規表現テストツール:任意のテキストで、正規表現のテストが可能です。

Word Count

単語・

n-gram

リストを作るツールです。左右で異なるリストが作れます。アドバンストモードでは

左右異なるコーパス・データベースを割り当てることもできます。

並べ替え:基本的な並べ替えは、テーブルのヘッダ部分をクリックすることで可能です。特殊な並べ 替えは、ポップアップボタンで選択して行います。

絞り込み:検索ボックスに文字を入力すると、インクリメンタルで絞り込みができます。 文字リスト作成:単語だけでなく、文字のリスト、文字の

n-gram

リストも作れます。

アドバンストモード

指定文字列検索、ギャップ

n-gram

リスト、タグづけしてあるファイルやタグづけしてのリストが作 れます。

指定文字列検索:検索モードを反映して、指定文字列のリストを作成

単語モードでは、

(?)

(*)

のように、ワイルドカード文字を括弧に入れると、その部分だけでリス トが作れます。

ギャップ

n-gram / p-frame

n-gram

の一箇所が空欄のものでリスト作成できます。 タグのついているテキスト:

Word_Tag

タイプもしくは

TreeTagger

標準出力形式 タグづけ:

OS

標準タガー(英語のみ)、

TreeTagger

MeCab

(インストール必要)

単語リスト抽出ツール:左右二つの単語リストに共通する単語のリスト、片方にしか現れない単語 のリストなどを作成できます。

キーワード統計:右側のテーブルのリストを参照コーパスとして、左側のリストの単語のキーワード 統計値を計算できます。

トークン化:日本語など、わかち書きをしないと扱えない言語にも

OS

標準の機能を使って実験的 に対応しています。

英語以外の言語で分かち書きが必要なものは、

OS X

の機能を使って、簡易的に分かち書き処理をし て分析もできます。設定は、環境設定のファイルにあります。

(5)

コンテクストタグの扱い:ヘッダータグの部分を削除、指定タグに囲まれているテキストを分析・削 除、タグを削除、指定文字列を削除などができます。プレビューにも適用すると、テキストのどの部 分が処理されるかを確認できます。ただし、タグ付けされたセクションだけを処理の対象とする際 に、絶対位置で処理すると、ファイルが大きい場合には処理時間がかなり長くなります。

Cluster/Collocation/Cooccurrence

Cluster

:指定文字列を含む

n-gram

のリスト作成

Collocation/Cooccurrence

:位置ごとの共起語頻度、共起語リスト、コロケーション統計値の計 算;簡易的な視覚化の機能も付いています。

ファイル情報

ファイル・コーパス・データベースごとの頻度表・

TF-IDF

表、選択したファイル・コーパス・デー タベース全体の共起頻度リスト作成をします。アドバンストモードでは、ファイルとコーパス・データ ベースの組み合わせを指定できます。

R

を使った視覚化は、多くのツールがここでの頻度集計データを 使います。

基本ファイル情報:異なり語数(タイプ)、総語数(トークン)、

TTR

、単語長別の頻度などの基 本的な情報が得られます。

単語頻度:単語・

n-gram

リストをファイル・コーパス・データベースごとに作れます。

TF-IDF

:個々のファイル・コーパス・データベースに特徴的な単語・

n-gram

TF-IDF

という指 標を用いて集計します。

キーワードグループ:指定文字列のリストで頻度表を作ります。

1

つのラベルの元に複数の文字列を まとめて集計することもできます。

コロケーション頻度:

1

つの単語リストもしくは

1

組(

2

つ)の単語リストで、指定範囲・同一パラ グラフでの共起頻度、共起するかどうかで集計できます。

タグフィルタ:アドバンストファイルモードのコロケーション頻度以外では、タグ付けされたセク ションのテキストのみか、それ以外かを指定して頻度表を作れます。また、ここでは、実験的に

XPath

での指定もできるようになっています。

基本設定

テーブルに表示する列の制限:単語頻度・

TF-IDF

では、ファイル・コーパス・データベース内のす べての単語が分析対象になるため、テーブルの列が多くなりすぎて、描画に大量のメモリと

CPU

パ ワーが必要となるため、表示列数を制限できるようにしてあります。

タグ処理:

TreeTagger

もしくは

MeCab

(インストールが必要)を利用して

POS

タグをつけた頻度 集計ができます。

(6)

基本ファイル情報

特別な機能はありませんが、

STD TTR

の計算は、あくまで目安として考えてください。ファイルご とに指定単語数ごとの

TTR

を計算してそれを平均しています。指定単位数に満たない場合は、単純 に

TTR

を計算しています。指定単位数がファイルの単語数よりも多ければ、

TTR

と同じ値になり ます。

単語頻度

ファイル・コーパス・データベースごとに、単語・

n-gram

のリストを作成します。

フィルタ:単語リスト作成後に単語リストを使って頻度表の絞り込みができます。 バイナリ:単語の有無(

0/1

)に変換します

頻度の標準化:相対頻度および全体に対する割合(

%

)で集計

ファイルごとの頻度での並べ替え:ファイルごとに頻度順に並べ替えます。頻度は単語の横に括弧に 入った形で表示されます。

文字リストの作成:単語の代わりに文字でリスト・文字

n-gram

リストを作れます。

キーワード統計・特徴語抽出(

R

が必要)

標準特徴度指数:リストのうち一つのグループを参照コーパスとして、

Word Count

でも使えるキー ワード統計値を計算できます。

順位平均比較:相対頻度表を作ったファイルを

2

つのグループに分けて、

Mann-Whitney U

検定も

しくは

Welch

の検定を行い、効果量をもとに特徴語を抽出します。頻度表のすべての単語に対して

処理ができます。ただし、

n-gram

の場合は時間がかかるため、最低頻度を指定してください。 ランダムフォレスト特徴度指数:ランダムフォレストを使って、特徴語を抽出します。ただし、ファ イル中の全単語を使うことは難しいので、フィルタで絞り込んでからの使用を想定しています。 特徴度指数比較:順位平均比較とランダムフォレストでの特徴度指数を並べて比較できます。

単語リストの抽出:すべてのファイルに含まれる単語および特定のファイルにしか現れない単語の抽 出ができます。

単語リスト結合:

Word Count

から書き出したり、

Word Count

・ファイル情報で保存したファイ ル、もしくは、別で用意した単語リストを結合してファイル情報テーブルに読み込むことができま す。

TF-IDF

あるファイルにおけるある単語の出現頻度(割合)

(TF)

と、その単語がすべてのファイル中いくつ のファイルに出てくるかの逆数を対数化したもの

(IDF)

の積。特定のファイルにおける出現頻度が 高く、全体の中でその単語の出現するファイル数が少ないほど大きな値になるため、そのファイル の特徴語としてみることができます。

並べ替え:単語ごとの

TF-IDF

の合計順か、ファイルごとの

TF-IDF

の値の順で並べ替え

(7)

キーワードグループ

あらかじめ用意した単語リストを使って頻度集計します。また、ラベルとそれに含める文字列を指定 することで、複数の語をまとめることもできます。リストは、コピー&ペーストもしくはファイルか ら読み込めます。読み込んだリストはレマ処理もできます。また、文字列は正規表現で記述すること もできます。

label->word1,word2,word3,...

in addition->in addition ##EXCEPT## in addition to

大文字小文字の区別:大文字と小文字を区別するかどうか指定 区切り文字:

,

もしくは

/

を選択

並べ替え:列の並びをリストの順、合計頻度の順、アルファベット順で並べる 標準化:相対頻度で頻度集計

単純な単語などの場合は、組み合わせてグループにするとしても、単語頻度で頻度表を作ってから絞 り込んだ方が処理時間が短くなる場合が多いです。

コロケーション頻度

実験的な機能なので、検証が必要ですが、

1

つのリストの単語でそれぞれが共起する頻度、もしく は、

2

つのリストで、

1

つのリストの単語それぞれにもう

1

つのリストの単語が共起する頻度を集計 できます。共起は、指定範囲での頻度・有無、同一パラグラフでの頻度・有無で集計できます。ただ し、すべての組み合わせで検索をかけるので、処理時間はかなりかかります。

語彙プロファイラ

単語リストを用意して、

Word Count

の単語リストや人にのテキストに用意した単語リストの単語が どれくらいの割合で使われているかをチェックするツールです。

CasualConc

のディスクイメージに も、少しリストが入っています。

R

を利用した頻度情報の視覚化機能

R

がインストールされていると、

R

を使って頻度データを視覚化できます。

CRAN

からダウンロー ドしたパッケージを使ってインストールしてあれば、

CasualConc

は自動で認識をしますので、機能を オンにすれば使えます。

項目位置プロット:コンコーダンスプロットと呼ばれるもので、項目の出現位置をプロットします チャート:頻度情報から、線グラフ、棒グラフ、パイチャート、レーダーチャートを描きます 散布図:一組の頻度リストから、

X-Y

の二次元散布図を描きます

クラスター分析:類似度をもとにグループ分けする、階層的クラスター分析の樹形図を描きます コレスポンデンス分析:対応分析とも呼ばれ、行項目と列項目を同じ平面にプロットします

(8)

主成分分析(

PCA

):データの凝縮を目的として、因子得点と因子負荷量 それぞれをプロットしま す

探索的因子分析(

EFA

):観測変数間の共通因子を仮定して因子負荷量をもとに行項目をプロット します

多次元尺度構成法(

MDS

):類似度を距離に変えて行項目を二次元にプロットします ネットワーク分析:

2-grams

・コロケーションを元にして、語の間の関連性を描きます ワードクラウド:複数の単語・

n-gram

リストの頻度情報を図示します

項目位置プロット

Concord

で、文脈の範囲をファイルにして検索する際にプロットのためのデータを収集できます

が、通常は、視覚化のコンコーダンスプロットパネル上で文字列を検索語プロットを描きます。コンテ クストタグを使って特定部分だけの処理をする場合は、時間はかかりますが、絶対位置で処理すると、 ほぼ正確な位置が記録できます。

チャート

基本的な折れ線グラフ、棒グラフなどが作れます。

クラスター分析

階層的クラスター分析では、頻度表から類似度を距離で計算して、デンドログラムを描くことがで きます。

コレスポンデンス分析

コレスポンデンス分析では、頻度表を使って、行と列のそれぞれの要素を同じ平面状にプロットし て、その関係を見ることができます。

色付けには、行項目と列項目のそれぞれを色付けできます。列項目の方は、あまり意味ないかもし れませんが、

tree tagger

で簡易的に

POS

タグをつけてそれを元に色付けもできます。ただ、単語レベ ルなので精度は落ちます。

主成分分析

これも、コレスポンデンス分析と同じなのですが、ちょっと違った結果になります。詳しいこと は、水本さんが違いを比較した論文を書かれていたと思うので、それを参照してください。

水本 篤

(2009)

「コーパス言語学研究における多変量解析手法の比較―主成分分析

vs.

コレスポンデン

ス分析―」

.

統計数理研究所共同研究リポート

232

『コーパス言語研究における量的データ処理 のための統計手法の概観』

, pp.53–64

ネットワーク分析

単語間のつながりの強さを見ることができます。基本的には、

Word Count

2-gram

リストを作る

か、

Collocation

で共起頻度表を作るか、ファイル情報でコロケーション頻度表を作ります。

(9)

ワードクラウド

最後にワードクラウドを描いてみます。

Word Count, Collocation,

ファイル情報で作った頻度表か ら作ることができ、頻度の多いものが大きな文字で表示されます。

二つ以上のリストを使うと共通するもの、それぞれを代表するものでワードクラウドが描けます。

参照

関連したドキュメント

アンチウイルスソフトウェアが動作している場合、LTO や RDX、HDD 等へのバックアップ性能が大幅に低下することがあります。Windows Server 2016,

■使い方 以下の5つのパターンから、自施設で届け出る症例に適したものについて、電子届 出票作成の参考にしてください。

つまり、p 型の語が p 型の語を修飾するという関係になっている。しかし、p 型の語同士の Merge

○○でございます。私どもはもともと工場協会という形で活動していたのですけれども、要

非正社員の正社員化については、 いずれの就業形態でも 「考えていない」 とする事業所が最も多い。 一 方、 「契約社員」

基準の電力は,原則として次のいずれかを基準として決定するも

 今日のセミナーは、人生の最終ステージまで芸術の力 でイキイキと生き抜くことができる社会をどのようにつ

国では、これまでも原子力発電所の安全・防災についての対策を行ってきたが、東海村ウラン加