• 検索結果がありません。

日常会話コーパス モニター版 ひまわり 講習会 山口昌也 ( 国立国語研究所 ) 日常会話コーパス モニター版 ひまわり 講習会資料 ( )

N/A
N/A
Protected

Academic year: 2021

シェア "日常会話コーパス モニター版 ひまわり 講習会 山口昌也 ( 国立国語研究所 ) 日常会話コーパス モニター版 ひまわり 講習会資料 ( )"

Copied!
38
0
0

読み込み中.... (全文を見る)

全文

(1)

「日常会話コーパス」モニター版

『ひまわり』講習会

(2)

本日の内容

全文検索システム『ひまわり』を使った『日本語日常会話コー

パス』の利用方法を紹介

 『日本語日常会話コーパス』(モニタ公開版)  『ひまわり』 (ver.1.6.1)  FishWatchr (ver.0.9.13) 

全体的な流れ

 セットアップの確認  『ひまわり』の紹介と基本的な使い方  検索機能の詳細  コーパスの基礎情報の集計とコーパスの構造  動画の閲覧・アノテーション

(3)

セットアップの確認

配布ハードディスクをお持ちの方

PCに接続するだけです

配布ハードディスクをPCにコピーして利用する場合

 ハードディスクの内容をすべてPCにコピーしてください  ただし,コピーする際は,フォルダの構造を変更しないでくださ い

(4)

『ひまわり』とは

言語研究用の全文検索システム

 指定された文字列を網羅的に検索して,前後文脈付きで結果 を表示します(コンコーダンサ)  『太陽コーパス』(20世紀初頭の総合雑誌『太陽』)用の検索 システムとして構築しました 

特徴

 XMLでタグづけされたコーパスを全文検索できます

Windows, Mac OS, Linux など,多くのOS上で動作します

 無料です

Ver.1.6 ⇒ 統計的な分析に必要なデータの収集支援機能を強化 (例:総文字数,総単語数)

(5)

試験公開版データと

『ひまわり』に搭載されているデータとの関係

配布データを『ひまわり』にインポート

 転記テキスト  末尾が「-morphSUW.csv」のファイルをもとに生成 (例:C001_001-morphSUW)  2種類の単位( 「発話単位」「転記単位」 )のうち,「発話単位」を使用  発話末に,長さ0のダミーの単語(品詞名はhimawari_発話末)を挿入  動画  末尾が「_MIX.mp4」のファイル  メタデータ  話者情報  会話情報

(6)

『ひまわり』の基本的な使い方

(CEJC編)

(7)

『ひまわり』を起動する

tool ⇒ Himawari_CEJC フォルダ

 Windowsの場合 macOSの場合

(8)

検索する

検索文字列 検索結果 検索総数 検索の実行 「検索文字列」欄では 右クリックで履歴表示 途中経過の表示

(9)

転記テキストの閲覧

閲覧したい用例の「キー」列などを ダブルクリック 閲覧用のブラウザの変更 [ツール]⇒[オプション]⇒ [ブラウザ] 検索キーは, 赤い字で表示

(10)

話者,会話情報の閲覧

閲覧したい用例の「会話ID」 「話者ID」列をダブルクリック 会話ID 話者ID 会話一覧: [ツール] ⇒[一覧]⇒[会話DB] 話者一覧: [ツール] ⇒[一覧]⇒[話者DB]

(11)

検索結果のソート

 昇順・降順  列タイトルをクリックで,トグル  シフトを押しながらクリックすると, 降順 列名を左クリック  複数列を考慮したい場合  優先順位の逆順でソートを実行 例:「性別」ごとに「後文脈」でソート → 「後文脈」「性別」の順

(12)

検索結果の絞り込み

検索時に指定

検索後に絞り込み

列名を右クリック 絞り込みたい値を選択 ⇒右クリック⇒フィルタで もOK 「性別」列が「男性」 で始まる結果のみに 絞り込まれる

(13)

検索結果の頻度集計

1.

集計したい列を選択

2.

右クリック⇒「統計」

複数の列を 選択することも可 離れた列の選択 • WindowsはCtrlキー • macOSはcommandキー

(14)

動画の閲覧

閲覧したい用例の 「性別」か「年齢」列のセルを ダブルクリック  当該位置から再生  「番号」列をダブルクリック  動画と転記テキストを連動  「注記連動」をチェック 転記テキスト 注意 • 個別に起動するので閲覧し終わっ たら終了したほうがよい • FishWatchrのデータは,『ひまわ り』やdataフォルダとは独立 観察支援システムFishWatchr

(15)
(16)

本文(正規表現)

A) 「を..する」 B) 雑多な例  私[がは]  です.*$  (..)\1  本文検索に正規表現(Java)が利用可能  検索速度は「全文」検索より低速  マッチングの範囲は,1発話単位 (転記テキスト1行) . (ピリオド) … 任意の1文字 [がをにへ] … 「が」「を」「に」「へ」のいずれか ^ ... 行頭(この場合,発話単位頭) $ ... 行末(この場合,発話単位末) * … 直前要素の0個以上の繰り返し + … 直前要素の1個以上の繰り返し () ... マッチした範囲を記録 \1 ... 1個目の記録した要素 macOSの場合, 「\」は逆スラッシュ(optionキー+「\」)を使用

(17)

単語(短単位)での検索

 マッチングの範囲は単語(短単位)  単位をまたいだ検索はできない  前後2単語の語彙素も表示(例:「語彙素1」 「語彙素-1」 )  「書字形(正規表現)」だけ,検索文字列の指定方法が異なる  詳細は,[ヘルプ]⇒[『ひまわり』マニュアル]参照 書字形(正規表現) 書字形 書字形(タグ付) 語彙素 語彙素読み 品詞  「国」を含む単語  「国」で始まる単語  単語「国」のみ

(18)

検索と本文の関係

「全文」「書字形」などでの検索

 タグを除外した上で検索 

「書字形(タグ付)」での検索

 タグを除外しないで検索 タグあり タグなし 国語。 国語 社会?。 社会 (U の)。 の (W ケッコ|結構) 結構 (W (D な)|なん) なん 注意: • モニター公開版の『ひまわり』には,不具合が あり,「書字形(タグ付)」検索時に,半角のカッ コなど(正規表現のメタ文字)を正しく検索でき ない。 • 現状では,半角のカッコなどは使用しないで検 索してください。その他の対処方法は,マニュ アルページを参照のこと。

(19)

「抽出」オプション

全数の検索が不可能な場合などに利用

「頻度計測のみ(一覧)」

 指定した列(の組み合わせ)で頻度を計測  手順 1. 「全数」などで検索総数の少ない文字列を検索 2. 検索結果(どの行でもよい)で,集計する列を選択 3. 頻度計測のみ(一覧)を選択し,希望の条件で検索を実行 (フィルタも使用可)

(20)

練習問題1

代名詞の「私」を検索

(「語彙素」で検索してみましょう)

発音のバリエーションを集計

(21)

コーパスの基礎情報の集計と

コーパスの構造

(22)

背景

なぜ「構造」が必要?

 コーパスの基礎情報を知るために必要  「コーパス中の単語数」を知りたい  「会話データ中の発話数」を知りたい 

CEJCの構造

 会話データは発話列から構成  発話は単語列から構成 会話データ 発話 『ひまわり』は,構造を考慮した構成要 素の集計が可能

(23)

『ひまわり』用データの全体構造

コーパス : 会話データ cejc (C001_012) 会話データ 会話データ cejc cejc cejc コーパス本体を見たい場合 Corpora/CEJC/corpus.xml ブラウザで閲覧した記事 Corpora/CEJC/xslt/__searched_tmp.xml ※「秀丸」などのテキストエディタを利用のこと コーパス cejc u s いい です か u (IC04_辰嶋,男性,0.108,0.486) s (形容詞) s (助動詞) s (助詞) : 乾杯 u (IC05_玲子,女性, 1.364,2.088) s (名詞)  タグの階層構造 会話データ 発話(utterance) 単語 uタグに話者の情報がついている ことに注意!

(24)

タグの集計

[ツール]⇒ [一覧] ⇒ ユーザ入力

 タグの階層構造を利用しつつ, タグの数や属性を集計する  例1: 発話数  例2: 語彙表  頻度: 指定したタグの頻度  長さ: マークアップされている文字列の長さ (空白やXMLタグは除く)  内容: マークアップされている文字列  文脈: 後続する同種の要素の属性をn個表示 (単語の場合n+1 gramになる)  各会話に含まれる発話数

(25)

タグの集計の例1

 発言者一覧

(26)

タグの集計の例2

 品詞一覧

(27)

タグの集計のフィルタ

タグ集計時にも「フィルタ」タブで制約をかけることが可能

• フィルタの対象は,集計する項目必ず に含めること • 左例の場合,「要素一覧作成」ダイア ログで,sの「品詞」属性を含める フィルタをかけると…

(28)

練習問題2

発話データごとの単語数を求める

(cejcとsタグを使いましょう) ②

発話データごとに,品詞が「himawari_発話末」の語数

を求める

(フィルタで「品詞」が「himawari」で始まるものに限定しましょう)

(29)
(30)

FishWatchr の紹介

協同型実習の観察・振り返り支援システムとして開発

 大学におけるディスカッション練習,プレゼンテーション練習  模擬授業 

特徴

 発話と対応付けて,映像を見ることができること  簡単にアノテーションできること  アノテーション結果の概要を一覧できること ⇒ コーパス研究用のシステムではありません ⇒ 専門的なアノテーションや分析を行う場合は,ELAN,Praatを 利用のこと

(31)

動画の再生

「話者」に変更 クリックした 位置を再生①②③ • 再生速度の変更 ⇒[コントロール]メニュー • 再生開始時の時間補正 5秒前から再生 (デフォルト) [オプション]⇒ [スキップ時間] ① 番号列 ② ③

(32)

アノテーション結果の視覚化

フィルタ • 列名部分を右クリック ⇒[検索文字列の指定] • 正規表現を指定 例1: 「\?」 (疑問上昇調) ※macの場合\を半角の\に 例2: 「L」 (笑い) 統計機能 • セルを右クリック ⇒[分析(頻度・選択項目)]

(33)

アノテーション

• 再生位置に1行(一つのアノテーション)を追加 • 削除したい行で,右クリック⇒[行の削除] コメントは「補助情報」列 に記入 注意 • 「注釈者」「話者」「ラベル」「セット」 「補助情報」列は変更可で,変更 すると自動保存 (『ひまわり』やdataには影響なし)

(34)

ファイルのありか

アノテーション結果ファイル

tool/Himawari_CEJC/resources/FishWatchr/xmlFishWatchrにドラッグ&ドロップすると,直接閲覧できる

バックアップファイル

tool/Himawari_CEJC/resources/FishWatchr/xml/BAK  保存前のファイルはすべてバックアップされる  元に戻したい場合は,一番古いファイルを使えばよい

(35)

おわりに

全文検索システム『ひまわり』を使った『日本語日常

会話コーパス』の利用方法を紹介

検索機能(全文検索・単語検索)

コーパスの構造を利用した基礎データの集計方法

動画の再生・簡単なアノテーション

さらに詳しく知るには

 資料末の参考資料を参照

(36)

参考資料

全文検索システム『ひまわり』

(http://www2.ninjal.ac.jp/lrc/index.php?himawari)

[ヘルプ]⇒[『ひまわり』マニュアル]

観察支援システムFishWatchr

(http://www2.ninjal.ac.jp/lrc/index.php?fw)

正規表現

Java Pattern クラス( 『ひまわり』で利用できる正規表現の仕様) (https://docs.oracle.com/javase/jp/8/docs/api/java/util/regex/Pattern.html)  「Java正規表現の使い方」 (http://www.javadrive.jp/regex/)

(37)

練習問題1の解答例

代名詞の「私」を検索

(「語彙素」で検索してみましょう)

発音のバリエーションを集計

(38)

練習問題2の解答例

発話データごとの単語数を求める

発話データごとに,品詞が「himawari_発話末」の語数

を求める

cejcの属性「会話ID」チェック • cejcの「会話ID」属性チェック • sの「品詞」属性チェック

参照

関連したドキュメント

※ログイン後最初に表示 される申込メニュー画面 の「ユーザ情報変更」ボタ ンより事前にメールアド レスをご登録いただきま

えて リア 会を設 したのです そして、 リア で 会を開 して、そこに 者を 込 ような仕 けをしました そして 会を必 開 して、オブザーバーにも必 の けをし ます

関西学院大学手話言語研究センターの研究員をしております松岡と申します。よろ

検証の実施(第 3 章).. 東京都環境局

(近隣の建物等の扱い) (算定ガイドライン

とりひとりと同じように。 いま とお むかし みなみ うみ おお りくち いこうずい き ふか うみ そこ

SST を活用し、ひとり ひとりの個 性に合 わせた   

手話言語研究センター講話会.