• 検索結果がありません。

相槌「うん」と「うーん」の表記の問題と韻律的な特徴

N/A
N/A
Protected

Academic year: 2021

シェア "相槌「うん」と「うーん」の表記の問題と韻律的な特徴"

Copied!
6
0
0

読み込み中.... (全文を見る)

全文

(1)

相槌「うん」と「うーん」の表記の問題と韻律的な特徴

The prosody of ‘un’ and ‘u:n’: a case study in notation for Japanese backchannels

中村

1 *

高梨克也

1

山口貴史

1

ナイジェル

ワード

1, 2

河原達也

1

Shizuka Nakamura

1

Katsuya Takanashi

1

Takashi Yamaguchi

1

Nigel Ward

1, 2

Tatsuya Kawahara

1

1

京都大学

2

テキサス大学エルパソ校

1

Kyoto University

2

University of Texas at El Paso

Abstract: Backchannels, as an exemplary dialog phenomenon, have received much attention, but the

details of their forms and functions are still not well understood. We examined the prosodic properties of 280 backchannel tokens annotated as “un” or “u:n”. In addition to the expected difference in length, there was a difference in pitch: whereas the “un” tokens had falling pitch, the pitch of the “u:n" tokens was closer to flat. One way to describe this difference is to postulate that “un” has a lexical accent but “u-n” does not. We discuss the implications for transcription standards and for modeling.

1. 概要

日本語対話コーパスの転記では,相槌「うん」と 「うーん」を分類するための明確な基準が存在して こなかった.この要因として,表記と音の特徴の関 係が明らかにされていないことが考えられる.表記 と韻律的な特徴の関係を分析すると,「うん」の持続 時間は「うーん」よりも有意に短いこと,「うん」の 基本周波数の傾きは「うーん」よりも有意に大きい ことが判明した.さらに,「うん」の持続時間と基本 周波数の幅には,逆相関の関係があることもわかっ た.これらの結果は,アクセントが「うん」と「う ーん」を差別化している可能性を示唆する.∗

2. 背景と目的

日本語の相槌には,多様な形態がみられる.その 中で,相手の発話の受容を表す「うん」や「うーん」 は代表的なものである.しかし,転記でこれらを書 き分けるための明確な基準は存在しない.例えば, 日本語話し言葉コーパス(以降,CSJ と呼ぶ) [1] で は,相槌の転記の基準は表1 のように書かれている [2].また,アクセント核の関与も示唆されている [3]. しかし,対話ではなく独話を主としているCSJ では, ∗* 連絡先 京都大学大学院情報学研究科 〒606-8501 京都府京都市左京区吉田本町 E-mail: [email protected] 相槌の表記は必ずしも重要視されていない.したが って,コーパスの利用者は,転記者の主観的な分類 を信じざるを得ないのが現状である.この背景には, 表記と音の特徴の関係が明らかにされていないこと が考えられる.より詳細な相槌形態の分析やそれら の間の比較を行うには,転記をより客観的なものに することが必要になるが,そのためには,まずこの 関係を解明することが不可欠である. これまでにも相槌を意味や機能によって分類する 試みは広く行われてきた.機能の客観的な認定が困 難であるという問題に対して,日本語の相槌に関し ては,ある程度客観的に認定可能な手法として,形 態と生起位置に基づく分類が提案されている [4-5]. また,相槌の表記の基準が統一されていない等の問 題は,日本語に限らず指摘されている [6]. これは,表記の問題だけにとどまらず,相槌をど うモデル化するか等の言語学的に奥の深い問題にも 関わる.例えば,相槌の言語学的な位置づけに関し ては,語彙として扱うべきとする主張 [7] も,非語 彙として扱うべきとする主張 [8-9] もある.こうし た議論では,自然対話の音声学的および音韻論的に 詳細な分析に基づく視点が必要とされる. 相槌の表現の形式と韻律的な特徴の関係について は,表現ごとに使用可能な韻律的な特徴に制約があ り,自由に交換して使えるわけではないと論じられ ている [10] .相槌の表現形式毎に特徴的な韻律素 性を考慮する必要がある.実際,相槌の韻律的な特 人工知能学会研究会資料 SIG-SLUD-B503-10

(2)

表1:日本語話し言葉コーパスでの転記の 仕様(Version 1.0)[2]. 転記テキストの仕様 7. 対話の転記について 応答表現の扱い: 「うん」「うーん」「ふーん」「んー」 「ん」の区別は概ね以下のように行う: 下降の音調 平坦 上昇 (F うん)・(F うーん) (F んー)・(F ん) (F ふーん) 徴の分析では,形態によって変化し得る韻律素性に 違いが見られることが報告されている [11]. これらの背景に基づき,本研究では,表記に関す る技術的な提案とより理論的な検討の2 つを行う. 前者としては,相槌の「うん」と「うーん」の転記 の実態を把握して,より客観的な転記の基準を設定 することを目指す.後者としては,表記と韻律的な 特徴の関係を解明して,転記者がこれらの分類に使 用できる特徴を特定することを目指す.

3. 試料

本研究の分析に用いる音声とその転記について説 明する.

3.1. 音声

本研究で分析する音声には,日常の簡単な悩みや 困りごとについて学生がスクールカウンセラー(以 降,カウンセラーと呼ぶ)に相談する二者対話 [12] を用いる.その理由は,この種の対話では,カウン セラーが相談者である学生の話を傾聴し,カウンセ ラーの相槌が頻出することが期待されるためである. 発話者は,カウンセラー2 人(男性 1 人,女性 1 人)と学生4 人(男性 1 人,女性 3 人)である.今 回分析の対象とするのは,1 対話あたり 30 分程度の ものが4 対話分(各カウンセラー2 対話),合計 120 分程度である.

3.2. 転記

転記の基準は,CSJ に基づいて設定された.ただ し,CSJ の転記の基準は,主に独話を対象として設 定されたものであるため,相槌の転記に関しては, 独自に基準が設定された.相槌の転記の基準として 表2:相槌の転記についての転記者への指示 (関連箇所のみ抜粋). ・ 話し手の反応として,聞き手が発しているもの. ・ 原則として以下のような形式 「あー」「うん」「うーん」「えー」「はー」 「はい」「ふん」「ふーん」「へー」 ・ これらのうち,質問に明らかに応答している 「うん」「はい」「ふん」などは除く. ・ 「うん」と「うーん」のように長音記号を 含むか含まないかは,耳で聞いて判断する. 表3:発話者別の「うん」と「うーん」の サンプル数(各話者2 対話). カウンセラー うん うーん 男性 84 91 女性 44 61 転記者に指示された内容を表2 に示す.なお,転記 者の人数や経験の情報は不明である.

3.3. 分析の対象

本研究で分析する音声には,基本形が連続して生 起する「うんうん」といった繰り返し系と呼ばれる 表現が非常に多く含まれることが報告されている [13].このような表現は,基本形「うん」とは異な る特徴を持つ可能性がある.そのため,本研究では, カウンセラーが発話した「うん」および「うーん」 のうち,連続して生起しないものを分析の対象とす る.その理由は,「うん」が連続して生起する「うん うん」等の繰り返し系の表現は,「うん」とは異なる 特徴を持つ可能性があるためである.この条件を満 たすサンプル数は,男性カウンセラーのものが175, 女性カウンセラーのものが105 であった.発話者別 に「うん」と「うーん」のサンプル数を表3 に示す.

4. 計測方法

韻律的な特徴量の計測方法を物理量別に述べる.

4.1. 持続時間

音の長さに関係する持続時間は,転記とともに提 供されている,当該の相槌の開始時刻と終了時刻か ら計算する.

(3)

4.2. 基本周波数

音 の 高 さ に 関 係 す る 基 本 周 波 数 は ,TANDEM- STRAIGHT [14](XSX 法 [15])を用いて推定する. 分析には,人間の聴覚的な特徴に近づけるために, その底を10 とする対数を用いる.高さの変化を表す 近似値としては,基本周波数の傾きと幅の2 種類を 用いる. あ る 発 話 サ ン プ ル n の 基 本 周 波 数 の 傾 き 𝑆𝑙𝑜𝑝𝑒!!,! は次の式で表される. 𝑆𝑙𝑜𝑝𝑒!!,!   =   𝐹0!"#$",!  –  𝐹0!"#,! 𝐷𝑢𝑟! こ こ で ,𝐷𝑢𝑟! は 発 話 サ ン プ ル n の 持 続 時 間 , 𝐹0!"#$",! は発話サンプル n の開始地点の基本周波 数,𝐹0!"#,! は発話サンプル n の終了地点の基本周 波数である. ある発話サンプルn の基本周波数の幅 𝑅𝑎𝑛𝑔𝑒!!,! は次の式で表される. 𝑅𝑎𝑛𝑔𝑒!!,!   =   𝐹0!"#,!  –  𝐹0!"#,! ここで,𝐹0!"#,! は発話サンプル n の基本周波数の 最大値,  𝐹0!"#,! は発話サンプル n の基本周波数の 最小値である.

4.3. 強度

音 の 強 さ に 関 係 す る 強 度 の 計 算 に は , 同 じ く TANDEM-STRAIGHT(XSX 法)を用い,デフォル トの設定で出力された値を用いる.強度に関する測 定値としては,聴覚の印象に影響が大きいと思われ る最大値を用いる.

5. 分析結果

韻律的な各特徴量の分布と,特徴量同士の相関関 係の分析の結果を述べる.

5.1. 各特徴量の分布

各特徴量の分布の平均値に有意差があるかを調べ るために,t 検定を行う.

5.1.1. 持続時間

持続時間の平均値と標準偏差は,群「うん」では 36 と 12,群「うーん」では 87 と 39 であった.持続 時間の分布を図1 に示す.群「うん」と群「うーん」 の分布に有意差(p < 0.001)がみられた.群「うん」 の持続時間は,群「うーん」の持続時間よりも短い ことがわかった.この結果は,3.2 で述べた,長音 を含むか含まないかは耳で聞いて判断するようにと 図1: 群「うん」と「うーん」 の持続時間の分布.縦 軸は持続時間を示す. 図2: 群「うん」と「うーん」 の 基 本 周 波 数 の 傾 き の分布.縦軸は基本周 波数の傾きを示す. いう転記者への指示に直接的に対応しており,少な くともこのコーパスでは,この面での聞き分けがあ る程度できているといえる.

5.1.2. 基本周波数の傾き

基本周波数の傾きの平均値と標準偏差は,群「う ん」では 0.83 と 0.41,群「うーん」では 0.35 と 0.20 であった.基本周波数の傾きの分布を図2 に示す. 群「うん」と群「うーん」の分布に有意差(p < 0.001) がみられた.群「うん」の基本周波数の傾きは,群 「うーん」の基本周波数の傾きよりも大きいことが わかった.この結果は,イントネーションの違いや アクセントの有無の影響である可能性を示唆してい る.

5.1.3. 基本周波数の幅

男性カウンセラーの基本周波数の幅の平均値と標 準偏差は,群「うん」では 97.63 と 30.36,群「う ーん」では 78.03 と 24.40 であった.女性カウンセ ラーの基本周波数の幅の平均値と標準偏差は,群「う ん」では 107.86 と 40.04,群「うーん」では 87.94 と 35.06 であった.基本周波数の幅の分布を発話者 別に図3 と図 4 に示す.群「うん」と群「うーん」 の分布に有意差はみられなかった.ただし,5.1.2 で

(4)

図3: 男性話者の,群「うん」 と「うーん」の基本周 波数の幅の分布.縦軸 は 基 本 周 波 数 の 幅 を 示す. 図4: 女性話者の,群「うん」 と「うーん」の基本周 波数の幅の分布.縦軸 は 基 本 周 波 数 の 幅 を 示す. 有意差が確認されることから,持続時間との組み合 わせを考慮することで違いがみられる可能性がある.

5.1.4. 強度の最大値

強度の最大値の平均値と標準偏差は,群「うん」 では 0.98 と 0.02,群「うーん」では 1.00 と 0.01 で あった.強度の最大値の分布を図5 に示す.群「う ん」と群「うーん」の分布に有意差(p < 0.001)が みられた.群「うん」の強度の最大値は,群「うー ん」の強度の最大値より小さいことがわかった.こ の結果は「うん」と「うーん」の分類に,転記者が 強さの違いを利用している可能性を示す.

5.2. 特徴量の相関関係

特徴量同士の相関関係を調べるために,各特徴量 の標本を順位と見なして,スピアマンの順位相関を 求める.持続時間と基本周波数の幅の関係を図6 に 示す.相関係数は,群「うん」では -0.39(p < 0.01), 群「うーん」では 0.02 (p > 0.05)であった.群「う ん」での負の相関は,「うーん」より有意に持続時間 が短いにもかかわらず,積極的に基本周波数の最大 値と最小値の差を広げようとする労力の存在を示唆 している.また,持続時間と基本周波数の幅の関係 図5: 群「うん」と「うーん」 の 強 度 の 最 大 値 の 幅 の分布.縦軸は強度の 最大値を示す.

6. 考察

分析結果についての言語学的な解釈を行う.また, この解釈に基づいて,転記の表記方法と認定基準を 提案する.

6.1. 言語学的解釈

本研究での分析の結果,出現形「うん」と「うー ん」の韻律的な特徴の違いが示された.具体的には, 「うん」では持続時間が短くて基本周波数の傾きが 大きいのに対し,「うーん」では長くて小さい(5.1.1, 5.1.2).さらに,「うん」では,持続時間が短いほど 基本周波数の幅が広くなるという傾向も観察された (5.2). 「うん」も「うーん」もデフォルトの文イントネ ーションである下降調によるものであるとも考えら れるものの,ここではアクセントが関与している可 能性を検討したい.そこで,例として,本研究の分 析の対象とはしなかった,「うん」の繰り返し系 [13] である「うんうん」の基本周波数と強度の変化を確 認する.図7 に,音声波形とその基本周波数と強度 の変化を示す.この図からも分かるように,「ん」と 「う」の間で,音が高く大きくなることがわかる. 同様の方法で,約20 個のサンプルについて調べたが, を分析することは,基 本周波数の傾きを分析 することと同じような 意味を持つと考えられ るが,結果も同じ傾向 を 示 す こ と が わ か っ た.

(5)

図6: 男性話者(上図)と女性話者(下図)の,群「う ん」と「うーん」の,持続時間と基本周波数の 幅の関係.横軸は持続時間,縦軸は基本周波数 の幅を示す.この表では,視覚的に捉えやすい よう,基本周波数には対数化する前の実測値を 用いている. 図7: 相槌「うんうん」の音声波形(上半分)と,対 応する基本周波数と強度とスペクトログラム (下半分)の例.下半分の縦軸は基本周波数(上 方向ほど高い音)および強度(上方向ほど大き い音)を示す.基本周波数の変化が破線,強度 の変化が点線で近似されている.円で示す「ん」 と「う」の間で,音が高く大きくなることがわ かる. この傾向はおおむね共通して観察された.これは,2 番目の「う」から新たなアクセント句が始まってい る可能性を示している.これらのことから,「うん」 は「う」にアクセント核を持つという可能性を示唆 している.相槌「そう」との比較からは,「うん」の アクセント核が一般的なものであるかは分からない という可能性[16] もあるが,「うん」にアクセント がある可能性も見えてくる. 分析者がコーパスで観察できるものは「トークン」 である.これに対して,「うん」に文アクセントがあ るといえるならば,トークンでなく「タイプ」とし て,これらの種類のものが話し手と聞き手にとって, 心理学的に実在しているといえることになる. タイプとしての「うん」は「繰り返し可能系」,「う ーん」は「引き伸ばし可能系」と呼ぶことができる. なぜなら,前者では,この潜在的な特徴が実際の繰 り返しによって実現した際に,基本周波数や強度に おいてアクセント核の存在が顕在化し,後者では, 持続時間の分布の広がりから観察できるように,実 際のトークンにおいて,持続時間の可変性として現 れるためである.

6.2. 転記の表記方法と認定基準の提案

以上の分析と理論的考察に基づき,転記者に提示 する「うん」と「うーん」の認定基準としては,次

(6)

のような項目が考えられる. ・持続時間が短い場合には「うん」,長い場合には 「うーん」とする. ・アクセント核がある(またはピッチが急下降し ている)と感じる場合には「うん」,そう感じ ない場合には「うーん」とする.

7. 今後の課題

本研究の分析で明らかとなった「うん」と「うー ん」の韻律的な特徴の違いからは,アクセントパタ ン(ないし,イントネーションパタン)の異なりが 示唆された.これを確かめるためには,一般的なア クセント核の認定に関する韻律ラベリングの規則 [17] 等に従った場合に,「うん」と「うーん」で差 があるかを確認する必要がある.また,6.1 で観察し たように,「うん」だけでなく繰り返し系「うんうん」 等の各「うん」の韻律的な特徴の詳細な分析も必要 である. 次に,本研究で提案した転記の認定基準について は,韻律的な特徴量に基づいて「うん」と「うーん」 を機械的に分類し,聴覚実験によってその妥当性を 検証することも必要になる. 最後に,表記に関しては,そもそも「うん」が「う」 と「ん」の2 モーラで構成されているのかという問 題がある.これは,スペクトル情報等を用いて分析 することによって解決できる可能性がある.

謝辞

本研究の一部は,JST ERATO 石黒共生ヒューマン ロボットインタラクションプロジェクトの助成によ る。

参考文献

[1] 日本語話し言葉コーパス,http://pj.ninjal.ac.jp/corpus_ center/csj/, 2016 年 2 月 8 日参照 [2] 小磯花絵, 間淵洋子, 西川賢哉, 斎藤美紀, 前川喜久 雄: 転記テキストの仕様, 『日本語話し言葉コーパス』 DVD 付属マニュアル, 国立国語研究所, (2006) [3] 小磯花絵, 西川賢哉, 間淵洋子: 転記テキスト, 『日本 語話し言葉コーパスの構築法』, 国立国語研究所, pp. 23-132, (2006)

[4] Y. Den, N. Yoshida, K. Takanashi, and H. Koiso: Annotation of Japanese response tokens and preliminary analysis on their distribution in three-party conversations, Proc. O-COCOSDA, pp. 168-173, (2011)

[5] 伝 康晴: 対話への情報付与, 講座日本語コーパス 3:

話し言葉コーパス -設計と構築-, 小磯花絵 (編), pp. 101-130, (2015)

[6] N. Ward: Issues in the transcription of English conversational grunts, Proc. SIGdial, pp. 29-35, (2000) [7] M. Dingemanse, F. Torreira, and N. Enfield: Is “Huh?” a

universal word? Conversational infrastructure and the convergent evolution of linguistic items., PLoS ONE, DOI: 10.1371/journal.pone.0078273, (2013)

[8] N. Ward: The relationship between sound and meaning in

Japanese back-channel grunts, Proc. (Japanese)

Association for Natural Language Processing, pp. 464-467, (1998)

[9] N. Ward: Non-lexical conversational sounds in American English, Pragmatics and Cognition, Vol. 14(1), pp. 113-184, (2006) [10] 田窪行則: 音声言語の言語学的モデルをめざして – 音声対話管理標識を中心に-, 情報処理, Vol. 36, No. 11, pp. 1020-1026, (1995) [11] 常 志強, 高梨克也, 河原達也: ポスター会話におけ るあいづちの形態的・韻律的な特徴分析と会話モード 間 と の 相 関 の 分 析, 人 工 知 能 学 会 資 料 , SIG-SLUD-A802, pp. 7-13, (2008) [12] 上里美樹, 吉野幸一郎, 高梨克也, 河原達也: 傾聴対 話における相槌の韻律的特徴の同調傾向の分析, 人 工知能学会資料, SIG-SLUD-B303, pp. 7-13, (2014) [13] 山口貴史, 吉野幸一郎, 高梨克也, 河原達也: 傾聴対 話における相槌形態と先行発話の統語構造の相関関 係の分析, 人工知能学会研究会資料, SIG-SLUD-B403, pp. 21-26, (2015)

[14] H. Kawahara, M. Morise, T. Takahashi, R. Nisimura, T. Irino, and H. Banno: TANDEM-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, f0, and aperiodicity estimation, Proc. ICASSP, pp. 3933-3936, (2008)

[15] H. Itagaki, M. Morise, R. Nisimura, T. Irino, and H. Kawahara: A bottom-up procedure to extract periodicity structure of voiced sounds and its application to represent and restoration of pathological voices, Proc. MAVEBA, pp. 115–118 (2009) [16] 坊農真弓: プロソディからみた「うん」と「そう」, 「う ん」と「そう」の言語学, 定延利之 (編), pp. 113-126, (2002) [17] 五十嵐陽介, 菊池英明, 前川喜久雄: 韻律情報, 『日本 語話し言葉コーパスの構築法』, 国立国語研究所, pp. 347-454, (2006)

図 3:  男性話者の,群「うん」 と「うーん」の基本周 波数の幅の分布.縦軸 は 基 本 周 波 数 の 幅 を 示す.  図 4:  女性話者の,群「うん」と「うーん」の基本周波数の幅の分布.縦軸は 基 本 周 波 数 の 幅 を示す.  有意差が確認されることから,持続時間との組み合 わせを考慮することで違いがみられる可能性がある. 5.1.4
図 6:  男性話者(上図)と女性話者(下図)の,群「う ん」と「うーん」の,持続時間と基本周波数の 幅の関係.横軸は持続時間,縦軸は基本周波数 の幅を示す.この表では,視覚的に捉えやすい よう,基本周波数には対数化する前の実測値を 用いている.  図 7:  相槌「うんうん」の音声波形(上半分)と,対応する基本周波数と強度とスペクトログラム(下半分)の例.下半分の縦軸は基本周波数(上方向ほど高い音)および強度(上方向ほど大きい音)を示す.基本周波数の変化が破線,強度 の変化が点線で近似されている.円で示す

参照

関連したドキュメント

見た目 無色とう明 あわが出ている 無色とう明 無色とう明 におい なし なし つんとしたにおい つんとしたにおい 蒸発後 白い固体

こうしゅう、 しんせん、 ふぉーしゃん、 とんがん、 けいしゅう、 ちゅうざん、

ドリル教材 教材数:6 問題数:90 ひきざんのけいさん・けいさんれんしゅう ひきざんをつかうもんだいなどの問題を収録..

それで、最後、これはちょっと希望的観念というか、私の意見なんですけども、女性

しかしながら、世の中には相当情報がはんらんしておりまして、中には怪しいような情 報もあります。先ほど芳住先生からお話があったのは

おそらく︑中止未遂の法的性格の問題とかかわるであろう︒すなわち︑中止未遂の

 筆記試験は与えられた課題に対して、時間 内に回答 しなければなりません。時間内に答 え を出すことは働 くことと 同様です。 だから分からな い問題は後回しでもいいので

大村 その場合に、なぜ成り立たなくなったのか ということ、つまりあの図式でいうと基本的には S1 という 場