大規模日常会話コーパスの構築に向けた取り組み
—
会話収録法を中心に
—
Toward Construction of a Large-Scale Corpus of Conversational Japanese:
On Methodology of Recording Naturally Occurring Conversations
小磯花絵
1∗石本祐一
1菊池英明
2坊農真弓
3坂井田瑠衣
4渡部涼子
1田中弥生
1伝康晴
51
国立国語研究所
1
The National Institute for Japanese Language and Linguistics
2
早稲田大学人間科学学術院
2
Faculty of Human Sciences, Waseda University
3
国立情報学研究所
3
National Institute of Informatics
4
慶應義塾大学大学院政策・メディア研究科
4
Graduate School of Media and Governance, Keio University
5
千葉大学文学部
5
Faculty of Letters, Chiba University
Abstract: In this paper, we report the activity of a preparatory project for building a large-scale corpus of conversational Japanese (NINJAL collaborative research project, 2014/7/1–2015/8/31). The aims of this project are to establish i) a corpus design for collecting various kinds of everyday conversations in a balanced manner, ii) methodology of recording naturally occurring conversations, and iii) a transcription system suitable for efficiently transcribing natural conversations. We first describe the survey of everyday conversational behavior, which was conducted last year for the corpus design. We then discuss how to record naturally occurring conversations, focusing on technological and ethical issues.
1
はじめに
日常会話は社会生活の基盤であり,日常の話し言葉の 特徴や仕組み,日常生活を円滑にするための会話コミュ ニケーションの有様を解明することが求められている。 こうした研究を支えるものとして,実際の日常会話場面 を対象とした大規模な会話コーパスの構築が不可欠であ る。また,言葉や行動様式は常に変化しているため,こ うしたコーパスは,後世の人々が21世紀初頭の日本人 の言語生活を知るための貴重な記録となる。民俗文化的 価値のある日常会話を記録・保存・伝承することは,こ の時代に生きる我々に課された重要な課題である。 国立国語研究所共同研究プロジェクト「均衡性を考慮 した大規模日本語会話コーパス構築に向けた基盤整備」 (代表:小磯,2014年7月∼2015年8月)では,21世 ∗連絡先:国立国語研究所理論・構造研究系 E-mail: [email protected] 紀初頭の日本人の多様な会話行動を納めた大規模な日本 語日常会話コーパスの構築を目指し,その基盤整備とし て,次の三つの策定を進めている。 1. 均衡性を考慮した会話コーパスの設計 2. 種々の日常場面での会話を収録するための方法論 3. 日常会話を適切・効率的に転記するための方法論 言語生活の本質を解明するには,日常の言語生活を反 映したコーパス設計が不可欠である。また,屋外での会 話や携帯電話を介した会話など,種々の日常場面での会 話を収録するための技術的・倫理的な問題を整理・解決 し,日常会話を収録するための方法論を具体的に策定す る必要がある。更には,大量に収録した会話を適切かつ 効率的に転記するための方策を確定することが求められ る。本研究プロジェクトは,コーパス構築に欠かすこと のできない上記3点を具体的に検討・策定することで, 大規模日常会話コーパス構築のための道筋をつけること人工知能学会研究会資料
SIG-SLUD-B501-08
表1 主要な日本語会話コーパス コーパス名 規模 概要 音声 名大会話コーパス 161名100時間 親しい者同士の雑談 無 BTSによる多言語話し言葉コーパス(宇佐美, 2007) 294会話66時間 友人同士の雑談,教師学生面談会話,電 話会話など 一部 Sakuraコーパス 18会話 大学生の会話 有 千葉大学3人会話コーパス(伝・榎本, 2014) 12会話2時間 大学生の友人同士の会話 有 CALL HOME Japanese (伝・フライ, 2000) 120会話20時間 アメリカ在住日本人と国内の家族・友
人との電話会話 有 CallFriend Japanese 31会話 アメリカ在住の日本人同士の電話会話 有 女性のことば・職場編(現代日本語研究会, 1999) 男性のことば・職場編 各21名 職場のフォーマル・インフォーマルな 場面の自然談話 無 を目指すものである。 本稿では,昨年度実施した会話行動調査に基づき, 我々が普段どのような種類の会話を行っているか,その 実態を概観する(2節)。その上で,種々の日常場面での 会話を収録するための方法やその問題点などについて, 技術的・倫理的な面から具体的に議論する(3節)。
2
日常会話の実態
表1に日本語の日常会話を納めた主要なコーパスの一 覧を示す。個々のコーパスを見ると,親近者同士の雑談 や電話会話,職場会話といったように,話者や会話形式, 場面などに偏りが見られる。また,全体として見ても, 親近者同士,中でも若者の雑談が多い。収録のし易さが 一因と考えられるが,日常会話は親近者同士の雑談だけ で構成されるわけではない。また,収録のために人工的 に設定された状況での会話を対象とするものも多い。 日常の言語生活を反映したコーパスを設計するには, 我々が普段どのような場面で会話しているかの実態を知 る必要がある。そこで,20∼70代の男女を対象に,日常 的にどのような種類の会話をどの程度行っているかをア ンケート調査した。本節では,昨年度実施した調査結果 にもとづき日常会話の実態を概観する。調査の詳細は小 磯他(2015,投稿中)を参照されたい。 ■調査方法 首都圏在住の成人日本語母語話者243人 (各世代の男女,20∼25名)を対象に,3日間(平日2 日,休日1日)の起床から就寝までに行った全ての会話 について,(1)いつ(午前,午後,夜),(2)どこで(自 宅,職場,公共商業施設など),(3)誰と(家族,友人・ 知人などの種別と人数),(4)何をしながら(食事,レ ジャー活動など),(5)どのような形式の会話を(雑談, 用談・相談,会議・会合など),(6)どのくらいの長さ (30分∼1時間など)行ったかを調査票によって回答し てもらった(選択式)。調査協力者は調査票を携帯し,一 つの会話が終わるごとに上記項目を記録した。 ■調査結果の概要 調査の結果,日常会話について次の 傾向が見えてきた。 いずれの性別・年代・職業においても,会話の件数で 見た場合,雑談が全体の50%以上を占めており,日常 会話の多くが雑談を中心に構成されていることが分かっ た。ただし,用談・相談も30%前後と高い割合で存在 した。会議・会合や授業・レッスンは高くても10%弱 に留まった。 会話の形式ごとに会話の相手の属性の傾向を見てみ ると,雑談では,家族の場合が約 40%,友人・知人が 30%弱と,親近性の高い相手が多くを占めていた。しか し,仕事学業関係が20%強,公共商業関係(店員や役所 窓口など)が5%と,公的な場での雑談も少なからず見 られた。用談・相談は逆に,仕事学業関係が40%強,公 共商業関係が25%強と,公的な場でのものが多く,家 族が15%弱,友人・知人が10%弱となっていた。 会話の形式ごとに会話を行った場所と会話中に行って いた活動との関係を見てみると(図1),雑談は,自宅で の食事や家事・雑事,休息中のほか,職場・学校での仕 事・学業中や屋外・交通機関(特に交通機関)での移動 中にも多く見られた。一方,用談・相談は,職場・学校 での仕事・学業中や自宅・公共商業施設での家事・雑事 中に多く見られた。 こうした日常会話の傾向を多角的に分析し,また,次 節で述べる収録の技術的・倫理的な問題点なども考慮し ながら,コーパス設計を具体的につめていくことになる。3
日常会話の収録法
3.1 2種類の収録計画 2節で見たような多様な日常場面での会話を収録する ためには,収録場面を人工的に設定するのではなく,日 常場面の中で当事者たち自身の動機や目的によって自然 に生じた会話(naturally occurring conversation)を対象 としなければならない。理想的には,起床してから就寝自 自 自 自 自 自 自 職職職職職職職 施施 内施施施施施 内内内内内内 外外外外外外外 0 25 50 75 100 0.00 0.25 0.50 0.75 1.00 場所 雑談 自 自 自 自 自 自 自 職職職職職職職 施施施施施施施 内外内内内内内内外外外外外外 0 25 50 75 100 0.00 0.25 0.50 0.75 1.00 場所 活動 休息 移動 レジャ 社会 仕事 家事 食事 用談・相談 図1 場所と活動の出現傾向(横軸ラベル 自:自宅,職:職場・学校,施:公共商業施設,内:それ以外の屋内, 外:それ以外の屋外+交通機関) までの,自宅や職場,店舗,屋外,交通機関など,さま ざまな場所で生じる会話が対象となる。このような多様 な日常場面での会話を収録するために,次の収録法を計 画している。 個人密着法: 性別・年代などの点からバランスを考慮 して選別された収録協力者(インフォーマント) に収録機材等を1ヶ月程度貸し出し,協力者自身 に日常会話を収録してもらう方法。調査者は原則 として介在しない。 特定場面法: 職場での会合や店舗での店員とのやりと りなど,個人密着法では技術的・倫理的に収録が 難しいと思われる場面を特定し,調査者が主体と なり収録する方法。調査者は介在するが,日常場 面の中で自然に生じる会話を対象とする。 以下では,個人密着法を中心に述べる。 3.2 収録機器 3.2.1 収録に必要な要件 対面会話では,音声による発話だけでなく,視線や身 振りといった身体動作が重要な役割を果たしている。ま た日常場面では,食事やなんらかの作業に従事しながら 会話したり,複数のグループと異なる話題について並行 して会話したりするといったことも多い。このようなマ ルチモダリティやマルチアクティビティの観点は,近 年の会話研究においてますます重視されている(例えば Streeck et al., 2014; Haddington et al., 2014)。このよう な日常会話を研究する上で,ビデオカメラによる映像の 記録は不可欠である。 その一方で,屋外を含む日常場面の中で収録協力者自 身が会話を収録することを考えると,大掛かりで操作が 複雑な機器は避け,できるだけシンプルな設定にする必 要がある。設営が短時間でできること,録音ボタンを押 す程度の簡単な操作で済むこと,屋外などに気軽に持ち 出せるよう軽量であることなどが求められる。 こうした制約のもとで検討した結果,次のような方法 で収録することを計画している。 3.2.2 映像データ 屋内での会話の収録については,会話を俯瞰的に記 録するカメラ1∼2台(想定機種:GoPro Hero3+*1,重 量:74g,設定:1920×1080, 60fps)を設置すると同時 に,会話者たちの中心に360 度撮影可能なカメラ(想 定機種:Kodak PIXPRO SP360*2,重量:103g,設定: 1440×1440,30fps)を配置する。いずれも必要に応じて 三脚(卓上用の小型三脚を含む)を用いる。録画設定は 調査者が事前に行う。GoProは液晶パネルを取り付け, 収録協力者が現場で設置場所の確認を行う。SP360はス マートフォンやPCにWiFi接続して映像を確認できる が,基本的に人の集まりの中心部に置けば四方八方を撮 影できるため,収録のたびに設置場所を確認することは 求めない予定である。 図2に,飲食店での4人の会話(約2時間)を撮影し た際のサンプル映像を示す。長方形のテーブルに男性2 名と女性2名が向い合って座っている。テーブルの中央 に,5センチほどの高さの台に載せてSP360が設置され ている(右上・右下の映像の中心部に写っている)。図2 の左の映像がSP360で撮影したものである。また,テー ブルの角,対角線上に2台のGoProが配置されている。 *1http://www.tajima-motor.com/gopro/product/ hero3plus/ *2http://www.maspro.co.jp/products/pixpro/sp360/
図2 テスト収録:飲食店における4人の会話のサンプル映像。左はテーブル中央に設置されたSP360で撮影し たもの,右上と右下はテーブルの角,対角線上に配置された2台のGoProで撮影したもの。 図の右上の映像は,右下の映像に写っているGoPro(向 かって右手の女性の横)で,右下の映像は右上の映像に 写っているGoPro(右手の男性の横)で撮影したもので ある。GoProはいずれも卓上用の小型三脚に設置した。 SP360の映像により会話状況の全体像を見ることができ る。また,GoProの映像により会話者間の位置関係をよ り直感的に把握することができる。 SP360の映像は,メーカーから提供されるソフトウェ アを用いて,図2 にある映像をパノラマ展開したもの や,映像の一部を切り出したもの,また,任意の箇所に おいて180度で2分割,あるいは90度で4分割したも のなどを作成できる。仮に何らかの都合でGoProでの 撮影が難しい場合,SP360の映像から各会話者に焦点を 当てた映像を作成することができる。 屋外の撮影についてはウェアラブルカメラの利用を考 えている。GoProのほか,特に歩行中の撮影について は,Panasonic HX-A1H*3も有力な候補である。歩行中 の場合,収録協力者自身を撮影することは難しい。その ため,会話状況を把握することを目的に,収録協力者の 目線で見えているものを撮影する予定である。 図3 に,お祭りイベントに数人で参加した様子を撮 影した際のサンプル映像を示す。画面手前側にいる女 性(映像には写っていない)のバッグの肩紐にHX-A1H を取り付け,歩きながら流し撮りにしている。図の場面 は,立ち止まって,仲間たち(一番手前の背中が写って *3http://panasonic.jp/wearable/a1h/ 図3 テスト収録:祭りイベントでのサンプル映像。 画面手前側にいる会話者の肩部分に固定したHX-A1H で撮影したもの。 いる女性,その左隣の男性,その隣の画面からはみ出て 写っていない女性)と談笑しているところである。 3.2.3 音声データ 会話者ごとにICレコーダー(想定機種:Sony ICD-SX734*4,重量:81g,設定:リニアPCM,44.1kHz,16bit) を装着して録音する。装着時間や重量を考え,6名程度 まで個別に装着する方法で収録し,それ以上の場合には 1∼2台のICレコーダーで会話全体を収録するに留める 予定である*5。会話者は,録音ボタンを押し,首から下 *4http://www.sony.jp/ic-recorder/products/ICD-SX734/ *5会話行動調査の結果から,6 名までの会話が全体の 90% を占めて おり,日常会話の大半をカバーできる。また,大人数の会話は会 議会合などが多く,調査者の介在する特定場面法による収録対象 となることから,収録方法を多少大掛かりにして対応できる。
図4 テスト収録:飲食店における4人の会話のサンプル音声。話者Aの音声波形・スペクトログラムと話者A∼Dの発話内容。 げたフォルダーにICレコーダーを入れる。口元に極力 近い位置(顎下15センチ程度)にマイク部分が来るよ うストラップの長さを調整する。録音レベルを個別に調 整することはせず,事前にさまざまな人・場面での収録 を行い標準値を定めておく。 図4に,上記方法で収録した飲食店での4人の会話の 例を示す。話者Aの音声波形・スペクトログラムと話者 A∼Dの発話内容が記されている。他の話者の音声の移 り込みも見られるが,概してAの音声がよく収録されて いる。雑音低減処理など後処理の可能性については今後 検討する。 3.2.4 データの同期 複数のカメラ・ICレコーダーで収録されたデータを あとから同期させるため,会話の最初(と最後)に何ら かの合図を入れる必要がある。この目的のためにクラッ パーボード(いわゆるカチンコ)の利用を検討している。 先に挙げた4人の会話をテスト収録した際の映像・音 声データを,会話の冒頭と末尾に記録されたクラッパー ボードの映像と音声波形を頼りに切り出し,比較してみ ると,2時間の会話データに対し,SP360がGoProや ICレコーダーよりも9秒弱短くなっていた。SP360で は4GB(約30分に相当)ごとにファイルが分割される が,その切り換え時に3秒前後のタイムラグが生じるよ うである。ファイルを結合する際に調整が必要である。 また,GoProとICレコーダーを比べると最大200ミリ 秒程度の差があった。冒頭・末尾の切出しの誤差を考え てもこの値は大きい。どちらの値がより正確かは分から ないが,民生機を利用することの限界と言える。収録後 のデータ同期操作が不可欠である。 3.3 承諾書・メタ情報の収集 調査者が介在しないため,会話者への収録の主旨説明 やデータ収録・公開に関する承諾書の依頼は,収録協力 者に担当してもらう必要がある。そのため,収録の主旨 やデータの公開方法などを分かりやすく記した冊子や ホームページなどを準備すると同時に,問合せ先を明記 し,不明な点などがあれば電話やメールで対応できる体 制を整えることが必要である。 また,収録協力者に,個々の会話や会話者の属性も記 録してもらう。会話の属性については,会話行動調査を 参考に,会話の形式(雑談など),会話を行った場所,会 話中に行っていた活動などを,会話者の属性について は,性別・年代(5年刻み)・職業・出身地・出生地など を予定している。 3.4 収録に伴う倫理的問題 多様な日常場面での会話を撮影する場合,倫理的な観 点から検討すべき課題も多い。 例えば,屋外や店舗などでの撮影の場合,第三者(収 録・公開の承諾書をとった会話者以外)が写り込むこと も少なからずある。その場合,憲法13条を根拠とする プライバシー権(私生活をみだりに公開されない権利) や肖像権(自身の容貌をみだりに撮影・公表されない権 利),あるいは個人情報保護法(個人情報取扱事業者によ る個人情報(生存する特定の個人を識別できる情報)の 適正な取り扱いを定めた法律)に鑑み,収録や公開の方 法についての妥当性を判断する必要がある*6。一般に, 第三者の映像が,個人の特定が難しいほどに小さい,あ るいは不鮮明である場合,プライバシー権・肖像権への 抵触のリスクは低いとされる。一方,顔が大きく撮影さ れている場合はリスクが高くなる。これは相対的な問題 である。また,例えば公のイベントの場合,参加者本人 は撮影される可能性を十分に認識しており,こうした状 *6本段落の内容は,福井健策弁護士による「資料の研究・公開と個 人情報の利活用ルール」に関するセミナー(2014 年 12 月 18 日開 催)を参考にした。
況での写り込みは抵触のリスクは低いと考えられるのに 対し,個人宅の庭など非公開の場所は最もリスクが高く なる。こうした,サイズや撮影機会の事前認識性などを 総合的に考慮して判断する必要がある。 とはいえ,個別事例の是非を判断することは容易では ない。例えば図2の右上の映像には,飲食店における隣 りの席の客の顔が写り込んでいる。これを個人が特定で きないほどに小さいとみるか,あるいは特定できる可能 性があるとしてぼかし処理等の対象とするか,その判断 は難しい。また,図3のように大衆が大勢集まったイ ベントで撮影する場合,かなり鮮明に顔まで写り込むこ とがある。上述のように,イベントの参加者であれば撮 影される事前認識性は高いと言えるが,たまたま通りか かった通行人などはその限りではないかもしれない。 ほかにも,例えば自宅での収録中に写り込んだテレビ の画面や芸能人のポスターはどうか,喫茶店などで流れ ている音楽はどうかなど,著作権やパブリシティ権など に関わる問題も尽きない。本プロジェクトでは,個人情 報の取り扱いを専門とする弁護士を招きセミナーを開催 したが,今後は我々がテスト収録したデータを見ながら 具体的なアドバイスを求めていく必要がある。 また,映像の写り込みの問題だけでなく,語られた発 話内容に関して公開が望ましくないもの,あるいは会話 者自身が公開を希望しない箇所については,その範囲の 音声と転記テキストを内容が特定できない形式に処理し た上で公開する。 前述のように,収録協力者が収録の一切を取り仕切る ことになるため,収録をするかしないか,どのように機 器を設置するかなどの判断は,収録協力者に依存する。 また,他の会話者にデータ収録・公開に関する承諾も得 てもらう必要があり,その意味でも責任は重い。そのた め,収録を依頼する期間(1ヶ月を予定)のうち最初の 1週間程度は,調査者立合のもとで収録を行い,収録に 伴う技術的・倫理的な問題や会話者等への説明の仕方な どを具体的にアドバイスする必要があると考えている。
4
おわりに
国立国語研究所では,大規模日常会話コーパスの構築 を一つの柱に据えた共同研究プロジェクトを平成28年 度に立ち上げることを検討している。期間は6年間であ る。このプロジェクトが発足した場合,概略,次の計画 で日常会話コーパスの構築を進める予定である • 公開データの規模は200時間を目安とする。 • 性別・年齢・職業などのバランスを考慮して選別 された首都圏在住の成人の収録協力者40∼50人 に,自身を含む種々の日常場面での会話を1ヶ月 に渡り収録してもらう(個人密着法)。収録され たデータの中から,均衡性や倫理的問題,データ の質などを考慮し,コーパスとして整備・公開す るデータを選別する。 • 個人密着法でどの程度の種類の会話がカバーでき るかの予測を立てた上で,特定場面法の規模や対 象,収録方法を決め,収録する。 • 全データを対象に転記テキストを作成し,形態論 情報,係り受け情報,発話単位情報を自動で付与 する。また,1割程度のデータに対し,談話行為 情報や韻律情報,非言語情報などを人手で付与す ることも検討する。 • プロジェクトの3年目を目途に50時間程度のモ ニター公開を,最終年度に全データの一般公開を 行う。オンライン検索システムでの公開も視野に 入れる。 こうした大規模な日常会話コーパス構築プロジェクト を確実に推進するために,準備すべきことや解決しなけ ればならない課題も多い。関連分野の研究者などの協力 も仰ぎながら着実に進めて行きたい。 ■謝辞 本研究は国立国語研究所フィージビリティ型共同研 究プロジェクト「均衡性を考慮した大規模日本語会話コーパス 構築に向けた基盤整備」の助成を受けて行われたものである。参考文献
伝 康晴・榎本 美香(2014).『『千葉大学3人会話コーパス』使 用説明書Release 1』, http://research.nii.ac.jp/src/ Chiba3Party.html. 伝 康晴・ ジョン・フライ(2000). 日本語CallHomeコーパス. 『音声研究』, 4 (2), 24–30. 現代日本語研究会(編) (1999).『女性のことば・職場編』.東京: ひつじ書房.Haddington, P., Keisanen, T., Mondada, L., & Nevile, M. (Eds.) (2014). Multiactivity in social interaction: Beyond
multitask-ing. Amsterdam: John Benjamins Publishing Company.
小磯 花絵・土屋 智行・渡部 涼子・横森 大輔・相澤 正夫・伝 康 晴(2015).均衡会話コーパス設計のための一日の会話行動に 関する調査—中間報告—.『第7回コーパス日本語学ワーク ショップ予稿集』, 27–34. 小磯 花絵・土屋 智行・渡部 涼子・横森 大輔・相澤 正夫・伝 康 晴(投稿中).均衡会話コーパス設計のための一日の会話行動 に関する基礎調査.『国立国語研究所論集』.
Streeck, J., Goodwin, C., & LeBaron, C. (Eds.) (2014).
Em-bodied interaction: Language and body in the material world.
New York: Cambridge University Press.
宇佐美 まゆみ(2007).『改訂版:基本的な文字化の原則( Ba-sic Transcription System for Japanese: BTSJ)2007年3月 31日改訂版』, http://www.tufs.ac.jp/ts/personal/ usamiken/btsj.htm.