• 検索結果がありません。

『日本語日常会話コーパス』の設計と構築

N/A
N/A
Protected

Academic year: 2021

シェア "『日本語日常会話コーパス』の設計と構築"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)

『日本語日常会話コーパス』の設計と構築

Design and Construction of

the Corpus of Everyday Japanese Conversation

小磯花絵

国立国語研究所

The National Institute for Japanese Language and Linguistics

Abstract: In 2016, we launched a new corpus project, in which we build a large-scale corpus of everyday Japanese conversation in a balanced manner, aiming at exploring characteristics of con-versations in contemporary Japanese through multiple approaches. We will collect more than 200 hours of recordings over six years, publishing the corpus in 2022. In this paper, we first introduce the corpus design, including recording method,conversation variations, corpus size, and annotations to be included in the corpus. Next, we report the current stage of the corpus development.

1

はじめに

国立国語研究所では,平成 28 年度より共同研究プロ ジェクト「大規模日常会話コーパスに基づく話し言葉 の多角的研究」を開始した。このプロジェクトは,さ まざまなタイプの日常会話 200 時間をバランス良く収 録した大規模な日常会話コーパスを構築し,それに基 づく分析を通して,日常会話を含む話し言葉の特性を, 「レジスター」,「経年変化」,「相互行為」の観点から多 角的に解明することを目指すものである。本発表では, プロジェクトで構築する『日本語日常会話コーパス』 (Corpus of Everyday Japanese Conversation, CEJC)

の基本設計および構築状況について報告する。

2

コーパスの基本設計

『日本語日常会話コーパス』の基本的な設計は次の 通りである。

2.1

会話の種類の内訳

言語生活の本質を解明するには日常の言語生活を反 映したコーパス設計が不可欠である。そこで我々が日 常的に交わす会話の実態をとらえてコーパス設計に活 かすために,平成 26 年度に成人 243 人を対象に,起床 から就寝までの間に行った全ての会話について,いつ, どこで,誰と,何をしながら,どのような種類の会話 を行ったか,などを問う会話行動調査を実施した。調 査結果を踏まえ,会話の種類の内訳の目安を,会話の 形式・活動・場所の観点から求めた(調査の詳細は小 磯ほか (2016) を参照)。この値を一つの目安にデータ E-mail:[email protected] を選定することによって,多様な種類の会話を納めた コーパスを構築する。

2.2

会話の収録法

日常会話をバランスよく収録するために,首都圏在 住の協力者約 40 人(男女× 20 代・30 代・40 代・50 代・ 60 代以上×各 4 人)に収録機材等を貸し出し,協力者 自身に 15 時間程度,計約 600 時間の会話を収録しても らう(収録の様子は図 1 を参照のこと)。収録データの 中から,均衡性や倫理的問題,データの質などを考慮 し,コーパスに格納・公開するデータとして,各人約 4∼5 時間分の会話,計 160∼200 時間を選定する。接 客場面の会話など,この手法では収録が難しい種類の 会話もあるため,必要に応じて,調査者が主体となり 収録することで偏りを補正する。収録の詳細について は田中ほか (2017) を参照されたい。

2.3

コーパスの規模

コーパスの規模は,200 時間を目標とする。これまで に収録・転記したデータから,コーパスの総語数は 200 万語,会話数は 400 会話,会話者数は延べ 1200 人・異 なり 600 人程度であると推定している。

2.4

研究用付加情報

会話の映像・音声を収録した上で,次の研究用付加 情報を付与する。なお,コーパスの 1 割に相当する 20 時間をコアデータと定め,人手による高精度な研究用 付加情報を付与する予定であ。 転記テキスト 川端ほか (2017); 臼田ほか (2017) に記 した基準および手続きに基づき,映像・音声を参照し ながら人手で転記テキストを作成する。 - 1 - 人工知能学会研究会資料 SIG-SLUD-B508 - 1 -

(2)

小型カメラを利用

 

360度撮影

俯瞰的に撮影

 

1〜2台配置

図 1: 収録風景 形態論情報(短単位情報・長単位情報) BCCWJ の 単位・品詞設計に準じて短単位情報・長単位情報を自 動で付与した上で,コアについては人手で修正する。 文節間の係り受け情報 発話単位を範囲に文節間の係 り受け関係の情報を自動で付与した上で,コアについ ては人手で修正する。 談話行為情報 国際標準化規格 ISO24617-2 に基づき 日常会話用に整備した基準に基づき,コアを対象に人 手で付与する (居關ほか, 2017)。 韻律情報 コアのうち,録音状態や方言の度合などを 参考に選別した会話を対象に,CSJ の際に整備したラ ベリングスキーム JToBI を簡略化した「簡易版 X-JToBI」(五十嵐, 2015) に準拠して人手で付与する。

3

コーパスの構築状況

2016 年 4 月より収録を開始し,2017 年 9 月 18 日現 在,23 人が調査を終え,5 人が調査中である。協力者 の年齢・性別・職種の内訳を表 1 に示す。調査を終了 した 23 人の協力者によって収録された全データの規模 は,331 時間(平均 14.4 時間/ 1 人),計 419 会話(平 均 18.2 会話/ 1 人)である。

4

おわりに

コーパスの公開は平成 33 年度を予定しているが,そ のうち 50 時間(協力者 20 人,各 2.5 時間)を対象に, 平成 30 年度に試験公開する。 謝辞 本研究は国立国語研究所共同研究プロジェクト「大規模 日常会話コーパスに基づく話し言葉の多角的研究」の研究成 表 1: 協力者の属性(2017 年 9 月 18 日現在) 男性 女性 計 20 代 学生   (終了) 学生   (終了) 学生   (終了) 学生   (終了) 5 人 自営自由業(調査中) 会社員等 (終了) 専業主婦 (終了) 30 代 会社員等 (終了) 会社員等 (終了) 7 人 自営自由業(終了) 会社員等 (終了) 自営自由業(調査中) 自営自由業(終了) 専業主婦 (終了) 40 代 会社員等 (終了) 会社員等 (終了) 6 人 自営自由業(終了) 自営自由業(終了) 50 代 自営自由業(終了) 自営自由業(終了) 会社員等 (終了) 会社員等 (終了) 5 人 自営自由業(調査中) 60 代∼ 無職   (終了) 専業主婦 (終了) 会社員等 (終了) 会社員等 (調査中) 5 人 会社員等 (調査中) 果を報告したものである。コーパスの収録にご協力・ご参加 くださった皆さまに感謝します。

参考文献

五十嵐 (2015).「韻律情報」 小磯花絵 (編) 『話し言葉コーパス  設計と構築』 東京: 朝倉書店 pp. 81–100. 居關ほか (2017).「日常会話コーパスのための談話行為タグの設計」 『言語処理学会年次大会発表論文集』, pp. 104–107. 川端ほか (2017).「『日常会話コーパス』の転記基準と作業工程」 『言 語資源活用ワークショップ 2016 発表論文集』, pp. 296–306. 小磯ほか (2016).「均衡会話コーパス設計のための一日の会話行動に 関する基礎調査」 『国立国語研究所論集』, 10, pp. 85–106. 田中ほか (2017).「『日本語日常会話コーパス』構築における会話収 録方法」 『言語処理学会年次大会発表論文集』, pp. 481–484. 臼田ほか (2017).「『日本語日常会話コーパス』の転記基準と特徴に ついて」 『言語処理学会年次大会発表論文集』, pp. 174–177.

参照

関連したドキュメント

表-4.3.4 設計基準類の比較(その2) 設計基準類 鉄道構造物等設計標準・同解説 鋼・合成構造物(平成4年) 鋼製橋脚

基本計画は、基本構想で定めるめざすまちの姿と 5 つの基本目標を実現するため、12 年間(平 成 28 年度~平成

第3次枚方市環境基本計画では、計画の基本目標と SDGs

第3次枚方市環境基本計画では、計画の基本目標と SDGs

A(会計士):条件付取得対価の会計処理は、日本基準と国際会計基準で異なります。まず、日本基準からご説明し

活用のエキスパート教員による学力向上を意 図した授業設計・学習環境設計,日本教育工

 「時価の算定に関する会計基準」(企業会計基準第30号

今回の調査に限って言うと、日本手話、手話言語学基礎・専門、手話言語条例、手話 通訳士 養成プ ログ ラム 、合理 的配慮 とし ての 手話通 訳、こ れら