• 検索結果がありません。

Word Count

ドキュメント内 CasualConc 20 マニュアル CasualConc 20 J (ページ 174-179)

6.7.1 一般

集計前にストップワードを処理する:ファイル情報と同じように、単語・n-gramの集計前にストッ プワードを処理します。このため、n-gram は、通常の場合と結果が変わります。

n-gramの区切り: n-gram頻度集計結果を表示する際に、単語間の区切りを半角スペースかタブ記

号かを選べます。連語などの処理をしていない場合は、結果にはほとんど差がありませんが、連語な どがある場合、n-gramリストを読み込んで単語ごとに分ける処理などをする場合、単語の区切りが 意図したものと変わってしまいます。視覚化ツールによっては、タブで区切ってある必要があるもの もあります。

単位:単語か文字かを選べます。文字を選んだ場合は、n-gram作成時に単語の境界を超えて集計に チェックを入れると、単語の境界を超えた文字の n-gram も集計されます。

頻度の標準化: 指定語数ごとの相対頻度で集計します。

キーワード統計の方向性を示す:チェックを入れると、キーワード統計値で右テーブルの相対頻度が 大きい場合には、統計値がマイナスになり赤色で表示されます。

ライン IDを記録:各行・段落にIDがつけてある場合に、それを記録します。IDのフォーマット は、<*> のようなタグ形式か、最初の n 文字を ID として扱うかを選びます。

この例では、最初の 11 文字が ID として記録されます。例えば、次のような行があった場合、

00100131432 this is a sample text line.

“00100131432”はIDとして扱われて、それに続く文字列“this is a sample text line”の単語が集計 されます。ライン ID は別の行としてテーブルに表示されます。

標準化のオプションがオンになっていると、標準頻度の列が追加されます。数値は、割合の値と基 本的には変わりませんが、0.01% 以下のものも計算されます。

6.7.2 アドバンスト

アドバンストモード:これにチェックを入れることで、特定文字列を検索する機能や、6-gram以上

の n-gram、タグを使った分析など、Word Count のアドバンスト機能が使えるようになります。

タグ分析:この機能をオンにすると、タグのついたテキストの分析や、タグをつけてのタグの分析が できるようになります。現在は、タグ付きテキストは、Word_TagタイプかTreeTaggerのデフォ ルトタイプのタグのみが扱えます。TreeTaggerタイプのタグの場合は、SYMタグを無視すること もできます。また、TreeTagger を選んだ場合は、単語とレマのどちらを集計するかを選べます。

タグ処理:この機能をオンにすると、OS標準のTaggerでタグ付けをして単語・n-gramのリスト を作れます。TreeTaggerもしくはMeCabがインストールされていると、これらを使ったPOSタ グ処理ができます。TreeTaggerを選択した場合、インストールしたパラメターファイルの言語を選 べます。Sym削除にチェックを入れると、SYMタグを無視できます。また、単語とレマのどちら で集計するかも選べます。MeCabは実験的な機能なので、標準のインストールパスにあれば自動で 認識しますが、手動での認識はさせられません。

ギャップn-grams:アドバンストモードでは、ギャップn-gramのリストを作成できます。ギャップ

n-gramはn-gramの単語のうち一つが空欄(*で表示)になったものです。フルかp-frameかを選

べます。詳しくは、セクション 3.2.3.1 を参照してください。

6.7.3 TreeTagger

TreeTaggerパス: TreeTaggerが既にインストールされている場合、選択をクリックして、パスを 指定してください。インストールされていない場合は、インストールをクリックして、インストーラ を立ち上げてください。

インストーラをクリックすると、TreeTagger インストーラパネルが開きます。

インストールをクリックして、TreeTaggerをインストールするフォルダを選択すると、パラメタの リストが表示されます。

インストールに必ず必要な項目にはチェックが入っています。既にインストールされているものは、

左端にチェックマークは表示されます。インストールしたいパラメタファイルにチェックを入れたら、

インストールをクリックします。インストールに成功すると、TreeTaggerへのパスが認識されて分析 に使えるようになります。

6.8 その他

ここでは、ここまでに扱われなかったツールの設定や特殊な設定をします。将来的には、配置が変 わる可能性があります。

6.8.1 Collocation

デフォルトでは、スラッシュ(/)やワイルドカード文字を使って検索して、複数のキーワード(中心 語)が見つかった場合に、それぞれのキーワードに対して共起語の頻度が集計されます。中心語を一つ の語として扱うにチェックを入れると、中心語ごとに分かれていた共起語の頻度が一つにまとめられま す(詳しくはセクション3.3.1.3.1を参照してください)。タグ付きテキストを分析にチェックを入れ

ると、word_TAG タイプのタグを認識して分析されます。

6.8.2 最低頻度

ツールごとに、テーブルに表示する項目の最低頻度を指定できます。Word Countでは、単語と

n-gram は別々に指定します。

6.8.3 その他

ドキュメント内 CasualConc 20 マニュアル CasualConc 20 J (ページ 174-179)

関連したドキュメント