• 検索結果がありません。

Concord

ドキュメント内 CasualConc 20 マニュアル CasualConc 20 J (ページ 166-174)

6.4.1 フォント

KWICの列のテキストは、他の列や他のツールの結果とは別にフォントとフォントサイズを指定で きます。ただし、キーワードを中心に表示するには、等幅フォントを指定してください。デフォルトで は、フォントの選択肢には、CourierとCourier Newが登録されていますが、他のフォントを選択肢 に追加することもできます。管理をクリックして、Concordフォント管理パネルでフォントを追加しま す。

フォントを追加するには、下のポップアップボタンでフォントを選び、追加をクリックします。ここ で追加されたフォントは、フォントの選択肢に追加されます。

6.4.2 並べ替え

Concordでの結果の並べ替えは、あらかじめ登録されたプリセットから選んでのものと、4番目ま

で任意で指定してのものがあります。ここでは、よく使う並び替えのプリセットを登録できます。プリ セットをクリックして、並べ替えプリセットパネルを表示します。

パネル上で、左から、1 番目、2 番目、と順にどの位置の単語で並べ替えるかを指定します。

L15 - R15:キーワード(中心語)の左15単語目から右15単語目。中心語から離れた位置の単語 を指定した場合は、広範囲モードで、文脈の表示文字数を増やす必要があるかもしれません。

FN: ファイル名

POS:パラグラフ内もしくはファイル内の位置(x文字目)、つまり、文脈の範囲で指定した範囲の 初めから数えて何文字目に位置するか(セクション 6.1.4 を参照)

CDN: コーパス・データベース名

NA: プリセットに含めない場合にはこれを選んでください。

復元をクリックすると、テーブル上のプリセットは削除され、デフォルトのプリセットが追加され ます。

6.4.3 KWIC 結果表示

並べ替え語と文脈語の色を指定できます。色を変更するには、変更したい位置のカラーウェル(色 の付いた四角いボタン)をクリックして色を指定します。リセットをクリックすると、デフォルトの色 に戻せます。並べ替え語は、結果を並べ替える順番で指定した位置にある語です。文脈語は、文脈語を 指定して結果を絞り込むと結果のテキストでマーキングされます。デフォルトでは、下線付きで色は付 きませんが、スラッシュ(/)を使って複数の文脈語を指定した場合に、色にチェックを入れると色もつ けられます。下の例では、young/middle/oldという文脈語で絞り込んでいます。文脈語が4種類以上 マッチした場合は、3 つめまでが色付けされます。

下線: 左上 ボールド: 上 下線+ボールド: 左

行の高さでは、Concordの結果テーブルの行の高さを指定できます。これは、右側の文脈が長くて 表示しきれない時などに、高さをデフォルトの2倍以上にすると、文脈の続きが2段目に表示されま す。

文脈の余白を削除にチェックを入れると、文脈のタグを削除した際に、通常残る空白を詰めて表示 します。

旧バージョンのわかち書きモードを再現したものが、テーブルのプションです。分割を選ぶと、キー ワードの左でテーブルの列が分割されます。

いくつかのアジア言語(日本語・韓国語・中国語など)は、通常単語間に空白はありません。テキ ストがトークン化・わかち書き(セクション6.2.4を参照)されると、キーワードが中心に位置しなく なります。これは、文字と空白の文字幅が異なるためです。テーブルを分割するオプションを選ぶと、

キーワードから別の列に表示されるため、常にキーワードの位置が揃います。つまり、左側の文脈と キーワード+右側の文脈が別々の列に表示されることになります。これは、特殊文字が多いテキスト ファイルで、キーワードが揃わない時などにも有効です。

通常 分割

6.4.4 その他

文脈にない語の指定:これにチェックを入れると、指定した文脈の範囲に特定の文字列(単語)があ るものは結果に含まれなくなります。

ワイルドカードに指定非文字を含める:これにチェックを入れると、単語の一部として含める文字列 で指定した記号などがワイルドカード文字(*と?)にヒットするようになります(セクション4.5

を参照)。

広範囲モード:これにチェックを入れると、文脈語と並べ替え語を指定できる位置が、最大左右15

までに広がります。

6.4.5 キーワード

この機能は、教育利用目的で追加したものです。KWICのキーワードを空欄で置き換えることがで きます(セクション 3.1.4を参照)。チェックを入れて、スタイルを選び、空欄の長さ(シングルス ペースの数)を選びます。

6.4.6 並列処理

並列処理を機能導入した初期段階では、データベースモードでの動作が不安定だったため、ファイル モードだけで適用されるようにしていました。データベースモードでも並列処理を行うには、 ファイ ル+ DBを選択してください。現在は、動作が安定しているため、将来ではこのオプションはなくなる 可能性があります(その際は、常に並列処理を行うようになります)。

6.4.7 結果のコピー

Concord の結果をコピーする際のオプションです。

文脈語の色: 文脈語・並べ替え語に対する色付けを保持するかどうか

文脈語のスタイル: 文脈語のスタイル(ボールド・下線)を保持するかどうか

TABを挿入:タブ記号(\t)をキーワードの前後に挿入するかどうか;タブ記号を挿入すると、表計 算アプリケーション (Numbers/Excel)で開いたときに、文脈とキーワードが別のセルに入ります。

ショートカットでのコピー:ショートカット (command + C) でコピーする際に、プレインテキス ト(プレイン)でコピーするかリッチテキスト(スタイル)でコピーするか

6.4.8 タグ付きテキストの処理 (_TAG)

_TAGタイプのタグが付いているテキストを扱う際に、文脈語についているタグをどのように扱う かを指定します。まず、タグをタグとして認識させるために、認識するにチェックを入れます。タグを 隠すにチェックを入れると、タグは認識されて処理されますが、表示される段階で空白に置き換えられ ます。タグを削除するにチェックを入れると、分析前にタグが削除されます。

6.4.9 コンテクストビュー

KWIC テーブル下のコンテクストビューのフォントサイズを指定します。

6.5 ファイル情報 6.5.1 一般

テーブルに表示する列を制限:列数が多い(数千・数万)とスクロールなどの表示に多くのメモリと 処理時間が必要となるため動作が緩慢になります。これを防ぐため、テーブル上に表示する列数(項 目数)を制限できます。データ自体は、メモリに保持されているので、表示されていなくても削除さ れるわけではありません。

タグ処理: TreeTaggerをインストールすると、単語頻度とTF-IDFでTreeTaggerを使った分析が できます(セクション 6.7.3 を参照)。スタイルのオプションは、word_taglemma のみ、

lemma_tagの3種類です。 また、実験的に、MeCabがインストールされている場合は、日本語の 形態素分析を同様に行うことができます。

頻度集計前にストップワードを処理する:単語を単位とした頻度テーブルを作る場合に、処理時間を 削減するために、ストップワードを最初から削除して集計します。

並列処理:ファイルごともしくは項目ごとのオプションがあります;項目ごとのオプションは、大き なファイルを扱う場合を想定しています。通常はファイルごとを選んでください。

6.5.2 ファイル基本情報

ファイル情報ツールでは、標準TTR(タイプ・トークン比)を計算するかどうかを指定できます。

標準 TTRは、指定した単語数ごとのTTRを計算して、ファイル・コーパス・データベースごとの平 均値を算出します。文字数ごとの単語頻度は、デフォルトでは、16文字以上の単語はすべてまとめら れますが、すべての単語文字数を集計にチェックを入れると、すべての文字長で単語頻度が個別に集計 されます。

6.5.3 単語頻度

頻度の標準化:頻度の相対化の方が正しい表記かもしれません。頻度の標準化にチェックを入れ、

パーセント(%)もしくは指定した語数あたりの頻度(per)に変換して集計します。標準化した場合 は、合計行の値を、そのファイル・コーパス・データベースの合計数(合計重なり語数)もしくは、

全体の合計に対する割合として集計するかを選びます。

ファイルごとの頻度で並べ替え:チェックを入れると、ファイル・コーパス・データベースごとの頻 度順に並べます。表記の書式は、単語(頻度)となります。

集計単位:デフォルトは単語ですが、文字の頻度集計もできます。文字を選んだ場合、単語の境界を 超えて集計にチェックを入れると、文字のn-gramを集計する際に、単語の区切りを超えたn-gram

も数えられます。デフォルトでは、単語ないの文字 n-gram だけが集計されます。

6.5.4 キーワードグループ頻度

大文字小文字を区別: デフォルトでは区別されませんが、チェックを入れると区別されます。

区切り文字: スラッシュ (/) を選ぶと、検索文字列でコンマ (,) が使えます。

並べ替え:リスト順は、読み込んだキーワードグループのリスト順で、そのほかに、頻度順(合計頻 度順)かアルファベット順を選べます。

標準化:相対頻度に変換します。総トークン数(ファイル中の述べ語数)もしくは項目合計(項目ご との合計数)を分母として、指定語数ごと (per)もしくはパーセント (%)で集計します。また、合 計行の値を、行合計(述べ語数)もしくは割合(総述べ語数に対する割合)から選べます。

6.5.5 TF-IDF

ドキュメント内 CasualConc 20 マニュアル CasualConc 20 J (ページ 166-174)

関連したドキュメント