Label Coloring

Label Coloring tool is not by itself a visualizing tool. This is more of a helper tool than a visualizer, which assists assignment of colors to labels. To use this function, you need to have

TreeTagger installed on your Mac and select the path to it on CasualConc

To use Label Coloring tool, go to menu -> Window and select Label Coloring Window.

When the window is open, click Paste to paste a list of words. To add POS tags using TreeTagger, make sure TreeTagger is selected on the pop-up button at the upper right corner.

Since there is no context information and often with proper nouns not capitalized, tags are not very accurate, so you might need to make a lot of corrections, but it would be faster than you assigning tags manually. You can correct tags on the table by double clicking the one you want to change and type a new value.

Another choice isPaste Board. Copy a tab-delimited text with words and their tags, such as cells on Numbers or Excel. The list of word does not need to be the same as the list on the table. Only the matched words will be assigned a tag. So this can be used after the tag assignment is done with TreeTagger.

In the following example, the list was first assigned tags by TreeTagger, but since the letters were converted to lower case on Word Count, character (person) names are not tagged properly. So

prepare a list of character names with NP as a second column and processed with Paste Board selected.

Once tags are assigned, assign colors to each items. You can change them on the table or select a color on the pop-up button at the lower right corner and click + button. Sorting the list by Tag would help assigning colors. Just click the header of the column you want to sort with.

The sort options above the table are for sorting in the alphabetical order of the letters from the last. This would be useful when you want to assign colors to file names for tools like Correspondence, Cluster, or PCA.

When you are ready, select which piece(s) of information to copy. The default choice is Color only, which means color names assigned to each item or word are copied. W-P-L means copying

Word, POS, and Lemma. P-C is POS and Color, and W-C is Word and Color.

If you sort the items on the table, make sure you sort the list back to the original order by clicking the header of the first column.

If you click the Color button, Color Assignment Assist drawer opens. By default, TreeTagger tags are on the table. You can add a label by clicking Add, or delete a able by clicking Delete.

By clicking Apply, colors are assigned to the items on the main table of Label Coloring tool based on the POS information. If you hold Command key when applying the colors, color assignment will be based on theWords. If you hold Optionkey,Lemma is used as a link in color assignment. If Case is checked, capitalizations on the labels will be kept when the colors are applied on the table. The changes made to the list will be saved when you switch presets (below) or quit CasualConc.

On the Manage tab, TreeTagger, which is a TreeTagger tag list, is on the list by default.

You can add a new set of tags to the table. The file should be tab-delimited plain text file (.txt) in UTF-8 encoding. The file can contain only the tags or tags and colors. So create one or two columns on Numbersor Excel, one with labels and one with colors. Then copy & paste the list to TextEdit or other text editors and save it as a plain text (.txt) with UTF-8 encoding. ClickImportand name the list to import the list. If you clickImportwith Command(⌘) key pressed, a panel with a text box appears. Copy & paste tab-delimited list and name the list, and then click Import.

Copy & paste tab-delimited list and name the list, and then click Import. The new list will appear on the table.

You can also delete a preset by clickingDelete. Clicking Restoreadds TreeTagger tag set back to the table.

The following is a sample use of this tool with Network tool. First, a bi-gram list without stop words was created with a tab as an n-gram separator. The list is then imported to Network tool.

The default coloring of Network tool is lightblue, so the network diagram with the default color look like this.

Click the Color button to reveal the Color Assignment drawer and click Fill.

Click Copy and paste the list on to Label Coloring table. Then, click Process to add tags with TreeTagger.

Once the tags are assigned, apply NP or the personal noun tag to the list as shown above and make necessary changes to color assignments on the table. Then clickColorbutton to revealColor Assignment Assist drawer. By default, TreeTagger tags should be on the list. If you have not changed the default assignment, assign colors to tags. The changes you make will be saved.

Click Apply to assign colors.

Make sure the information to be copied isColorand clickCopy. Then go back toNetworkpanel and click Paste.

On the Option drawer, change the color of the Nodes to Specify, and click Process to draw a plot. With this color assignment, the network plot will look like this.

6 環境設定 6.1 一般

6.1.1 コーパスモード


管理(セクション 2)を参照してください。

シンプル - 読み込んだファイルを扱ったり、ペーストしたテキストを扱うモードです

アドバンスト - ファイルをコーパスとして管理したり、データベースを作ってを扱うモードです

6.1.2 フォント

Concord の KWIC 以外のテーブルのテキストのフォントとフォントサイズを指定します。

6.1.3 検索語履歴

Concord、Collocation、Cluster、Word Countのアドバンストモードで検索した文字列の履歴を残 す数を指定します。クリアをクリックすると、履歴を消去できます。

6.1.4 テキスト処理

検索モード- Concord、Collocation、Cluster、Word Countのアドバンストモードで文字列検索す る際のモードの設定をします。詳しくはセクション4.1を参照してください。ここで、大文字小文字 区別にチェックを入れることで、検索文字列の大文字小文字を検索結果に反映します。

レマにチェックを入れて、下のレマ・いつ釣り・キーワードグループのレマでレマリストを選択する と、検索した単語でレマリストに登録してあるものは、すべて検索されます。例えば、sawを検索語と して文字列を検索する際に、レマリストにsee->saw,seen,sees,seeingとういう項目が登録してある と、sawだけでなく、sawのレマであるseeに登録してあるseesawseenseesseeingがすべて 検索対象になります。

正規表現を選択すると、複数行にわたる文字列をマッチさせるかどうかを指定できます。マッチさ せるには、複数行にチェックを入れてください。また、日本語 JISキーボードでは、\(バックスラッ シュ)の代わりに¥記号のキーがありますが、¥\に置換にチェックを入れると、¥を\の代わりに エスケープ記号として使えます。

文脈の範囲-文脈の範囲を段落かファイルに設定します。詳しくは、セクション4.2を参照してくだ さい。

数字の扱い- Collocation、Cluster、Word Count、ファイル情報の単語頻度などで数字をどう扱う かを指定します。詳しくは、セクション 4.3 を参照してください。

並列処理 -チェックを入れると、n-gramリスト作成を除くほとんどの処理で、並列処理を行いま す。デフォルトではオンになっています。

6.1.5 文字処理

指定した文字列を分析前に置換する設定をします。詳しくは、セクション 4.4 を参照してください。

6.1.6 単語の一部として含める文字処理


4.5 を参照してください。

6.1.7 文字・単語の分析における扱い


4.6 を参照してください。

6.1.8 レマ・異綴り・キーワードグループ

レマ処理、異綴り処理、キーワードグループなどの設定をします。詳しくは、セクション4.7を参照 してください。

6.1.9 その他

単語間に記号がある場合も検索-通常、複数の連続する単語をスペースで区切って検索すると、単語 間にスペースのあるものだけがマッチしますが、このオプションにチェックを入れると、記号・句読点 などが単語間にある場合も、指定した単語が連続しているという扱いにしてマッチします。このオプ ションは、n-gramの結果と、それ以外の文字列検索の結果を一致させるためのものです。例えば、 n-gram を検索した場合には、単語間に記号などがある場合でも無視されるため、“in addition, to”と

“in addition to”は同じ 3-gram “in addition to” として集計されます。しかし、Concordなどで “in addition to”を検索すると、“in addition, to”はマッチしません。このオプションをオンにすると、“in addition, to” も検索結果に含まれます。

6.2 ファイル

6.2.1 ファイル処理

デフォルトでは、CasualConc はプレインテキストファイル(.txt)のみが扱えます。ここで、他の ファイルタイプも扱えるように設定を変更できます。ここで指定したデフォルトの文字コードは、ファ イルをドラッグアンドドロップで追加した際に適用されます。

選択したファイルタイプを選択した場合、表示されるファイルタイプで、読み込みたいものにチェッ クを入れてください。

すべてのファイルタイプを選択した場合、CasualConcが扱えるファイルタイプ以外のものや、拡張 子の付いていないファイルは、プレインテキストファイルとして扱われます。

6.2.2 元ファイル編集・アプリケーション指定


CasualConc 上のエディタで編集できます。

また、アプリケーションの関連づけをクリックすると、アプリケーション選択パネルが表示される ので、指定したファイルを開いて編集するアプリケーションを指定できます。

6.2.3 デフォルトフォルダ

通常、ファイルを開いたり保存する際は、最後に開いたフォルダが選択されますが、コーパスファイ ルのあるフォルダ、データベースファイルを保存するフォルダ、結果などを書き出すフォルダを指定し ておくと、そのフォルダが選択された状態になります。

6.2.4 トークン化

この実験的な機能は、単語間がスペースで区切られていない言語を OS Xの標準機能を使ってわか ち書きしてから処理するためのものです。トークン化することで、単語の区切りがない言語の単語リス トなどが作成できます。通常は、OS Xが自動でテキストの言語を判断するので、自動を選択してくだ さい。もしうまく認識されない場合は、特定の言語を指定してください。

スキップは、行番号や段落番号などが付いている場合に、それを無視してわかち書き処理をするた めのものです。

例えば、日本語の文章は単語の間にスペースがありません。そのため、句読点や記号で区切られた 部分までが 1つの単語として扱われてしまいます。次の2つの単語リストは、日本語の本で作ったも のです。左のテーブルは、わかち書きのしていないもの、右のテーブルは、わかち書き処理をした単語 リストになります。見てわかるように、左のものは9,179トークンで、ほぼ同じタイプ数(8,868)とな ています。ある程度の一定でない長さの句はあまり繰り返し出現したいためです。右のものは、わかち 書きがされているので、単語を認識していて、助詞が頻度上位にあります。

