日本語と中国語感情音声に関する声質と音響の複合的分析―日本語母語話者と中国語を母語とする日本語学習者による発話を対象に―

(1)

研究論文

日本語と中国語感情音声に関する声質と音響の複合的分析

―日本語母語話者と中国語を母語とする日本語学習者による発話を対象に―

李歆玥*・石井カルロス寿憲**・林良子***

Analyses of Voice Quality and Acoustic Features in Japanese and Chinese Emotional Speech: Japanese Native Speakers and Mandarin Chinese Learners

Xinyue LI*, Carlos Toshinori ISHI** and Ryoko HAYASHI***

要旨：本研究では，日本語母語話者による日本語発話および中国語を母語とする日本語学習者による日本語 発話と中国語発話における 8 つの感情表現（「喜び」「激しい怒り」「押し殺した怒り」「悲しみ」「驚き」「恐れ」「嫌悪」「中立」）を対象として，声質の特徴および音響的特徴の相違を検討した。収録した発話のスペクトル特徴分析を行ない，Electroglottography 信号による Oq を抽出し，Oq-valued VRP の解析を行なった結果，発話者の第一言語によって感情表出様式が異なることが示された。中国人学習者が発話した「押し殺した怒り」「喜び」「激しい怒り」と「悲しみ」は日本語母語話者より tense voice として表出されることが観察され，母語である中国語の感情表出様式が，学習した言語である日本語の感情表出に影響を与えた可能性を示唆する結果となった。 キーワード：パラ言語情報，発声様式，EGG，Open quotient，第二言語習得

SUMMARY: The present study utilized Japanese and Mandarin Chinese emotional speech representing eight emotion types (happy, hot anger, cold anger, sad, surprised, afraid, disgusted, neutral) from Japanese native speakers and Man-darin Chinese learners of L2 Japanese, to clarify crosslinguistic differences in emotional speech. Spectral analysis re-vealed different patterns of utterances by Japanese native speakers and Mandarin Chinese learners. Chinese learners tend to use a tenser glottal configuration to express cold anger, happy, hot anger and sad. Furthermore, open quotient-valued voice range profiles based on Electroglottography signals suggest that the emotional speech from Mandarin Chinese learners are affected by their mother tongue.

Key words: paralinguistic information, phonation type, EGG, open quotient, second language acquisition

1. はじめに 1.1 背景と目的 音声によるコミュニケーションには言語情報だけではなく，発話者の性別，年齢，健康状態，感情などの情報も多数含まれており，これらの言語情報以外の情報も話し手の意図を適切に伝えるために重要な役割を果たしていることが知られて

* ATR 石黒博特別研究所（Hiroshi Ishiguro Laboratories, Advanced Telecommunications Research Institute International （ATR）） ** 理化学研究所（RIKEN） *** 神戸大学（Kobe University）いる。音声によって伝達される情報を体系的に分類した研究には Trager (1958) の二分法（言語と周辺言語），Fujisaki (1996) の三分法（言語情報，パラ言語情報と非言語情報），および森・前川・粕谷 (2014) の分類方法がある。特に森・前川・粕谷 (2014)では，感情の位置付けについて指摘し，話し言葉では感情が意図的に伝達されることが確かにあると述べ，メッセージとして意図的に表出さ

(2)

れる感情と不随意的に表出される感情を分け，前者を Fujisaki (1996) のパラ言語情報とまとめ，パラ言語メッセージとしている。感情と音声の結びつきについても議論が積極的に行なわれている（定延 2007）。その中で，感情が音声に与える影響はさまざまな言語を通じてよく見られる共通点があることが知られている。例えば「喜び」と「激しい怒り」発話の F0 平均値とインテンシティ平均値が「中立」発話より大きくなり (Scherer 1986)，心理的活性度の高さと声の高さ，強さは関連するとされる（森・前川・粕谷 2014）。その一方で，発話者の第一言語によって感情の知覚パタンが異なることも指摘されている (Campbell and Erickson 2004)。Pell, Paulmann, Dara, Alasseri and Kotz (2009)では，イギリス英語，ドイツ語，スペイン語およびアラビア語の 4 カ国母語話者による「中立」「怒り」「嫌悪」「恐れ」「悲しみ」「喜び」の無意味語感情音声を収録し，各発話者グループと同じ母語の聴者に聞かせたところ，発話者と聴者の母語が一致している場合の感情同定率は，母語が一致していない場合の感情同定率より高いことを報告し，「内集団優位性（in-group advantage）」があるとし，各文化の社会規則により，同じ母語背景における感情音声の表出と知覚がよりスムーズに成り立つと解釈している。さらに，Chronaki, Wigelsworth, Pell and Kotz (2018) は 8–10歳，11–13 歳および成人を対象に，イギリス英語，スペイン語，中国語およびアラビア語による「中立」「喜び」「怒り」「悲しみ」「恐れ」の感情音声を用いた知覚実験を行なった。その結果，成人だけではなく，児童の感情音声知覚にも「内集団優位性」を観察できたと報告している。上記のような傾向を「感情の方言理論（Dialect theory of emotion）」としてまとめる研究もある (Elfenbein 2013)。すなわち，感情伝達には同じ文化背景の話者間では容易に通じる「方言」があり，それは異なる文化背景の話者には伝わりにくいとする考えである。グローバル化に伴い各国間の人口移動が活発化した中で，異文化間の感情音声伝達について，第二言語学習者の感情伝達という側面から近年議論が行なわれてきた。甲斐・田渕 (2003) では日本語母語話者と韓国人日本語学習者による感情音声を，日本語母語話者と韓国人日本語学習者に聞かせる知覚実験を行なった。その結果，感情同定率が 80％以上の音声の数は，日本語母語話者の発話のほうが韓国人日本語学習者より多いことを示した。中林 (2011) では，「韓国」「毎日」（頭高型），「現金」「片仮名」（中高型），「カラオケ」「温泉」（平板型）の 6 つの 4 拍語をタスク語とし，問い返し疑問文に含まれた「嫌」と「驚き」の感情について，ロシア人日本語学習者を聴者として知覚実験を行なった。その結果，学習者には「嫌」という感情の認識が困難であることが示され，アクセント核の有無によって感情の聴取の難易度が異なる可能性が示唆された。Li, Albin, Ishi and Hayashi (2019)では，日本語母語話者および中国語を母語とする日本語学習者により「喜び」「悲しみ」「怒り」「驚き」「恐れ」「嫌悪」「中立」について日本語で生成した音声を収録し，日本語母語話者および中国語を母語とする日本語学習者を聴者として知覚実験を行なった結果，発話者と聴者の母語が一致している場合の感情同定率は，母語が一致していない場合の感情同定率より高く，「内集団優位性」の考えを支持していることを示した。この研究においてはさらに Electroglottography（EGG）を用いて声質の分析も行なった。その結果中国人学習者による「怒り」と「悲しみ」は日本語母語話者より tense voice（声帯の緊張した声）で発声されることが明らかになった。これらの先行研究は，日本語母語話者による音声のほうが非母語話者のそれよりも意図した感情を正しく聞き取られることを示唆している。つまり，第二言語学習者が日本語音声から感情を知覚する際，同定率が日本人聴者より低く，さらに知覚困難な感情があることを示している。さらに，第二言語学習者が日本語で生成した感情音声は，日本語母語話者に伝わりにくく，生成パタンも日本語母語話者と異なる可能性を示唆していると考えられる。このような背景から，第二言語学習者

(3)

と母語話者の異文化間コミュニケーションにおいては，学習者による感情，態度，発話意図などのパラ言語情報が適切に伝えられないため，鈍感，乱暴などのマイナスの評価を受けたり，コミュニケーション自体を避けられたりすることがあるとの報告もある（木下・中川 2019）。以上のことから，円滑なコミュニケーションを行うには，外国人学習者にとって感情に関する情報の表出と理解が不可欠であると言える。しかし，なぜ第二言語学習者による感情音声が母語話者に伝わりにくいのか，学習者の母語による影響なのかについては未だに多くの課題が残っている。母語話者による感情音声のみならず，これまでの研究ではあまり対象とされていなかった学習者による音声も対象として加え，学習者がどのように目標言語で感情音声を表出しているのか，学習者の母語ではどのように感情音声を表出するのか，母語話者との相違は何かについて検討する必要がある。以上を踏まえ，本研究では，国内の日本語学習者1）_{の中で最も人数の多いとされる中} 国語を母語とする学習者を対象として，日本語母語話者が表出した感情音声と，中国語を母語とする日本語学習者（以下，中国人学習者）が，日本語と中国語で表出した感情音声の声質の特徴および音響的特徴の相違を検討し，中国人日本語学習者による感情表現の実態を捉えることを目的とする。また，中国人日本語学習者の感情表出様式が母語の影響によるものなのかについても検討を行なう。 1.2 感情音声に現れる音響的特徴と声質に関する 情報感情音声の生成については，感情が音声に与える影響を音響的側面から議論する論考が多い (Banse and Scherer 1996)。日本語感情音声について重野 (2001)では，2 名の日本語母語話者が発話した「東京」「河原崎さん」「11 時半」「さようなら」「そうですか」に伴う「幸福」「驚き」「怒り」「嫌悪」「恐れ」「悲しみ」の 6 つの感情発話について分析している。その結果，基本周波数とエネルギーの標準偏差が「怒り」では他の感情より高く，「嫌悪」ではもっとも小さいということが明らかになった。前川・北川 (2002) は，「中立」「疑い」「落胆」「強調」「無関心」の 6 種類のパラ言語情報について，生成実験と同定実験を通して持続時間，ピッチ，振幅，母音の音質などを分析している。その結果，非言語情報においての音響的特徴が発話全体にわたって実現されるのに対し，パラ言語情報に関する音響的特徴は局所的にも実現されうることを示した。また，中国語感情音声の研究では，Yang, Cai and Jiang (2005)は「怒り」「恐れ」「喜び」「悲しみ」「驚き」を対象に，1 名による 4 つのタスク文を分析した結果，「恐れ」の F0 平均値は「悲しみ」より高く，「喜び」の持続時間長は「怒り」より長かったと報告している。Erickson, Zhu, Kawahara and Suemitsu (2016)は「怒り」「悲しみ」「喜び」と「中立」について，中国語母語話者 2 名の発話者が生成した 3 つのタスク文を録音し，音響分析を行なった結果，「喜び」と「怒り」の F0 平均値とインテンシティは「中立」と「悲しみ」より大きかった。感情音声の度合いによる音響的特徴量の差に着目した研究も進められている。ドイツ語感情音声を対象とした Probst and Braun (2019) では，「喜び」「激しい怒り」「押し殺した怒り」「悲しみ」「恐れ」「嫌悪」および「中立」を対象に，6 名のド

イツ語母語話者に感情ごとに 3 段階の度合い (low, medium and extreme)で無意味語を発話したものを分析した。音響分析の結果，感情の度合いによって F0 平均値と F0 レンジが線形に変化することを報告している。これらの日本語，中国語やドイツ語を対象とした研究では共通して，感情によって音響的特徴量が異なることが見られた。感情音声においては，音響的特徴量以外の要因，特に声質が大きく関わっていることも指摘されている (Gordon and Ladefoged 2001)。声帯における発声様式の違いに起因する声質 (Laver 1980) は発話者のパラ言語メッセージを伝える重要な情報である（森 2014）。例えば石井・石黒・萩田 (2006) は，韻律と声質に関連する音響的特徴とパラ言語情報の関連について，演技対話音声と自然対話音

(4)

声の両方を対象に，感動詞発話「え」に着目して音響分析を行なった。その結果，演技対話音声において，韻律パラメータ（F0move，発話持続時間）は聞き返し，肯定的，否定的な表現のような機能的なパラ言語情報を検出するのに貢献している一方，気息性（breathy）や非周期性（non-periodic）などの声質パラメータは「驚き」「嫌悪」など比較的強い感情情報を識別するのに貢献していることを示した。Yuan, Shen and Chen (2002) は中国人母語話者 9 名が発話した中国語の「怒り」「恐れ」「喜び」「悲しみ」「中立」音声（2 タスク文）を録音し，音響分析を行なった。その結果，「怒り」はきしみ発声（creaky），「恐れ」と「悲しみ」は気息性（breathy），「喜び」は通常発声（modal）に近いと述べている。また，スペクトル特性の音響関連量としては，調波成分を用いた H1-H2, H1-A1, H1-A2, H1-A3などが利用されることもある（前川・西川 2019）。Campbell and Marumoto (2000) はこれらの特徴と感情との関係について調べた。その結果，「悲しみ」「喜び」「怒り」の順にスペクトル傾斜が小さくなり，「悲しみ」は声帯が弛緩した発声（lax）に近く，「怒り」は声帯が緊張した発声（tense）に近いことが報告されている。さらに，「恐れ」では囁き声や裏声（whispery, falsetto）を含むことが報告され (Klasmeyer and Sendlmeier 2000)，「悲しみ」には弛緩したきしみ声（lax creaky）が観察された (Gobl and Chasaide 2003)。

声質に影響を与える声帯振動の状態を調べる方法の 1 つに Electroglottography（EGG）がある。 EGGを用いた声質分析の研究として，Ishi, Ishiguro and Hagita (2010)では，りきみ声の特徴は F0 あるいは周期性によらず，全体的に声門の閉鎖区間の時間長が開放区間より著しく長い特徴を持つことを示し，この特徴を利用してりきみ声の区間検出が可能であると報告している。また，言語によってその声質が異なることも示されている。例えば中国語と英語の感情音声を対象とした Wang, Lee and Ma (2018)は，中国語母語話者および英語母語話者各 5 名（男性 2 名と女性 3 名）による有意味文の「怒り」「恐れ」「喜び」「悲しみ」「中立」発話を収録し，音響分析と EGG 分析を行なった。その結果，中国語母語話者および英語母語話者は異なる生成パタンを示し，中国語母語話者が発話した「怒り」は英語母語話者による発話より声帯が緊張した発声（tense）が少なく，中国語母語話者が発話した「悲しみ」は英語母語話者による発話より気息性（breathy）を多く含むことが観察された。上記に挙げた感情音声の研究では，感情音声には基本周波数，持続時間，インテンシティなどの複合的な音響的特徴と声質が関与しており，また，発話者の第一言語によってその感情伝達に誇張や抑制が見られ，音響的特徴と声質が異なることも指摘されている。このため，本研究では先行研究で用いられた音響的特徴の他に，EGG 信号に基づいた声質分析についても同時に行なうことにより，学習者による感情表現の実態を先行研究よりもさらに詳細に検討する。 2. 方法 2.1 音声資料 発話者は，日本語母語話者 10 名（男女各 5 名， 平均年齢 30 歳，S D= 4.92）および中国人学習者 10名（男女各 5 名，全員 N1 合格者，全員北京方 言話者，平均年齢 28 歳，S D= 3.67）である。選定した感情は，「中立（neutral）」「喜び（happy）」「激しい怒り（hot anger）」「押し殺した怒り（cold anger）」「悲しみ（sad）」「驚き（surprised）」「恐れ（afraid）」「嫌悪（disgusted）」の 8 つで，これらの感情が含まれる音声資料の収録を行なった。「怒り」に関しては，先行研究では，音響的な側面，特に F0 と Duration に関する結果は一貫していない（Banse and Scherer 1996，広瀬 2002）ため，本実験では，「怒り」を「激しい怒り」「押し殺した怒り」の 2 つに分けた。さらに，感情の度合いによって，音響的特徴が変化する (Probst and Braun 2019) ため，本実験では各感情を 3 段階で発話してもらった。例えば「喜び」では，「やや喜んで（low）」「喜んで（medium）」「非常に喜んで（extreme）」という 3 段階となる。この中で感情が最もクリアに出

(5)

ていると思われる第 3 段階（extreme）のみを分析の対象とした。タスク文の選定にあたっては，先行研究を踏まえ，感情を表出しやすく，文自体に感情は伝達されない有意味文とし，「え」（石井・石黒・萩田 2006），「そうですか」（前川・北川 2002），ならびに局所の強調の有無・場所およびそれと感情表出の関連性 (Liu 2011) がある「オバマが当選した」の 3 つをタスク文とした。本研究は「中立」をベースラインとして用いたが，「中立」発話は各タスク文の収録に先立って行ない，「教科書を音読するような口調で読み上げてください。ただし，「退屈」な発話にはしないようにしてください。」と指示した。さらに，実験用の感情別のシチュエーションを提案した Liberman, Davis, Grossman, Martey and Bell (2002)を参考にしつつ，発話者の感情をより自然に引き出せるように，収録に用いる会話式の台本を作成した。台本は感情種類とタスク文によって異なる。感情「喜び」「激しい怒り」とタスク文「え」「オバマが当選した」の例を以下に示す。 ①「え」「喜び」あなたの友だちが近況について話しています。 A：2 年かけてやっと志望大学に合格した！ B：（喜び）え！おめでとう！ ②「え」「激しい怒り」あなたの部屋を借りた人がパーティーをして，部屋をめちゃくちゃにしました。あなたの友だちが電話をかけてきました。 A：あの人たちがソファーを汚して，テレビも壊した！ B：（激しい怒り）え！ひどすぎる！ ③「オバマが当選した」「喜び」あなたはオバマ大統領候補者を支持しています。彼の当選を心の底から期待しています。選挙結果を知ったあなたは飛び上がりそうになりました。 A：ニュースを観てください！ B：（喜び）オバマが当選した！素晴ら しい！ ④「オバマが当選した」「激しい怒り」あなたはスミス大統領候補者の最大のスポンサーであり，多大な財産を使いました。しかし，オバマ候補者が当選しました。 A：ニュースを観てください！ B：（激しい怒り）オバマが当選した！ これまでの資金は全部無駄遣いだっ たか！ 収録内容について，発話者には B の発話のみをすべての台本を見て発話してもらった。さらに，中国人学習者が同意味のタスク文を中国語で生成した中国語感情音声も収録した。中国語感情音声タスクは，日本語タスクと同じ意味の「啊（a）」「是吗（shi4 ma）」「奥巴马当选了（ao4 ba1 ma3 dang1 xuan3 le）」である（括弧内はローマ字ピンインと声調の表記を示す）。収録は，DPA Microphones d:fineTM CORE4266無指向性ヘッドセットマイクロホンを用いて唇と一定の距離を保ちつつ，騒音レベル 30 dB 以下の防音室で行なった（オーディオインタフェース： Roland 社 Rubix22，サンプリング周波数：48 kHz，量子化精度：16 bits）。棒読みなど感情が込められていない発話を除外するために，収録した発話を用い，発話者とは別の日本語母語話者および中国人学習者各 3 名を聴取者として，自由記述（指示：何の感情に聞こえましたか？）で評価してもらった。聴取者の日本語母語話者 3 名は，日本語母語話者による日本語感情音声 240 発話（10 名× 3 タスク文× 8 感情）および中国人学習者による日本語感情音声 240 発話を聴取した。一方，聴取者の中国人学習者 3 名は，中国人学習者による中国語感情音声 240 発話を聴取した。発話者が意図した感情と 3 名の聴者が同定した感情が一致した回答を正答とし，それぞれのタスク文ごとに同定率を求めた。そして発話者ごとに全タスク文の平均同定率を求め，50％以下であった 2 名の日本語母語話者（31％,43％）

(6)

と 2 名の中国人学習者（38％,41％）を除外した。上記の手続きにしたがい，最終的に日本語母語話者 8 名（男女各 4 名，全参加者平均同定率 65％）および中国人学習者 8 名（男女各 4 名，全参加者平均同定率 62％），計 16 名の発話者による感情音声をスペクトル特徴分析および声質と音響的特徴の複合的分析の対象とした。なお，各聴取者の答えの一致性を測るために Cronbach’s alpha 係数を計算した。各聴取者グループにおける Cronbach’s alpha 係数がすべての感情において 0.75 以上であったため，信頼できる評価結果とみなした。 2.2 分析方法 本研究では，日本語母語話者と中国人学習者による感情音声について，声質の特徴の違いを明らかにするため，声質の特徴に関連する音響的特徴であるスペクトル特徴ならびに EGG 信号の特性を分析対象とした。スペクトル特徴のうちスペクトル傾斜は，声質の特徴，特に緊張した発声と弛緩した発声を区別するために有効である (Maddieson and Ladefoged 1985)。感情表出によって，声帯の緊張度合いが変化することを考慮し，本研究ではスペクトル傾斜に関連する音響的特徴を分析する。具体的には，基本周波数と第 1 フォルマント周波数帯域の振幅値の差（H1-A1），基本周波数と第 3 フォルマント周波数帯域の振幅値の差（H1-A3）を分析対象とした。さらに，声に含まれる気息性に関連する音響的特徴量として，第 1 と第 3 フォルマント周波数周辺帯域でフィルタリングした信号の同期性 (F1F3syn) を分析対象とし，延べ 3 つのパラメータについて測定を行なった。F1F3syn の測定においては，F1 帯域を 100∼1500 Hz，F3 帯域を 1800∼4500 Hz に指定し，F1 と F3 帯域の波形振幅包絡の相互相関によって求めた。F1F3syn は 0に近いほど気息性が強く，1 に近いほど気息性が弱いことを表す (Ishi, Ishiguro and Hagita 2008)。 H1-A1と H1-A3 は基本周波数成分のエネルギーをより周波数の高い倍音ないし共鳴周波数と比較することで，スペクトル傾斜を定量化したものである（前川・西川 2019）。非周期的な音声信号では，調波成分（倍音）の測定ができないため，周波数帯域を固定して，最も強いスペクトル振幅値を使用した (Ishi and Arai 2018)。

感情音声について，先行研究では声質パラメータと韻律特徴量を複合的に検討している (Gobl and Chasaide 2003)。EGG 信号指標の 1 つである Open Quotient（以下 Oq）は，声帯の緊張，弛緩を示すパラメータとしてよく用いられる (Henrich, d’Alessandro and Doval 2001)。一般的に，りきみ発声（pressed voice）のように声帯の筋肉が緊張するほど Oq が小さく，気息音発声（breathy voice）のように声帯が弛緩するほど Oq が大きくなる。本実験では，EGG 装置（Glottal Enterprises 社 EG2-PCX2）を用いて EGG信号の収録を行なった。得られた EGG 信号は声門波形を微分した dEGG（differentiated EGG）信号へと変換し，dEGG 信号の正と負のピークを声門閉鎖時点および声門開放時点とし，Oq の測定を行なった。EGG 信号は前節に述べた音声資料と同時に収録した。感情ごとおよび発話者グループごとの傾向を把握するために，Oq と F0 の平均値と標準偏差を算出した。F0 の測定に関しては， LPC逆フィルタによる残差波形の自己相関関数の最大ピークに基づいた処理を行なっており，自己相関関数で F0 の sub-harmonic に対応するピークも，ある閾値を満たさなければならないという制約を追加し（石井・石黒・萩田 2006），以下の式に示すように 100 Hz を基底値としてセミトーン単位（st）に換算した。

F0(st)=12 ∗ log(F0(Hz)/F0ref)/ log(2), F0ref=100Hz (1) 3. 結果 3.1 スペクトル特徴分析 図 1 は，基本周波数と第 1 フォルマント周波数帯域の振幅値の差（H1-A1）について，日本語母語話者および中国人学習者による発話の声質を分析した結果である（Japanese: 日本語母語話者発話者による日本語，Chinese–Japanese: 中国人学習者発話者による日本語，Chinese: 中国人学習者発話

(7)

図 1 H1-A1の音響的特徴 者による中国語）。図 1 に基づき，言語 3 水準（日本語母語話者による日本語発話，中国人学習者による日本語発話および中国語発話）×感情 8 水準（中立，喜び，激しい怒り，押し殺した怒り，悲しみ，驚き，恐れ，嫌悪）の 2 要因分散分析を行なったところ，言語と感情の主効果 は有意であり (F(2, 21) = 8.61, p = .002, partial η2₌ .451; F(7, 147) = 10.39, p < .001, partial η2 _{= .331)，} 言語と感情の交互作用は有意であった (F(14, 147) = 2.09, p = .015, partial η2 _{= .266)。言語と感情の交} 互作用も有意であったため，多重比較を行なった。その結果，日本語母語話者による日本語の「押し殺した怒り」「喜び」「激しい怒り」「悲しみ」の H1-A1 は中国人学習者による日本語および中国語より有意に高かった（「押し殺した怒り」： t(21)= 4.23, p < .001; t(21) = 6.31, p < .001;「喜び」： t(21)= 2.62, p = .034; t(21) = 3.43, p = .024;「激しい 怒り」：t(21)= 2.94, p = .008; t(21) = 3.41, p = .002; 「悲しみ」：t(21)= 2.68, p = .014; t(21) = 2.78, p = .011）。図 2 は，基本周波数と第 3 フォルマント周波数帯域の振幅値の差 (H1-A3) の分析結果を示したものである。図 2 について言語 3 水準×感情 8 水準の 2 要因分散分析を行なった結果，言語の主効果は有意で あり（F(2, 21) = 7.33, p = .003, partial η2 _{= .412），} 感情の主効果も有意であり (F(7, 147) = 8.47, p < .001, partial η2 _{= .306)，言語と感情の交互作用} についても有意であった (F(14, 147) = 3.79, p = .044, partial η2 _{= .246)。言語と感情の交互作用} が有意であったため，多重比較を行なったところ，日本語母語話者による日本語の「押し殺した怒り」「喜び」「激しい怒り」「悲しみ」の H1-A3は中国人学習者による日本語および中国語より有意に高かった（「押し殺した怒り」： t(21)= 2.78, p = .011; t(21) = 2.02, p = .046;「喜び」： t(21)= 2.29, p = .032; t(21) = 2.17, p = .041;「激しい 怒り」：t(21)= 3.03, p = .006; t(21) = 3.65, p = .002; 「悲しみ」：t(21)= 2.68, p = .014; t(21) = 2.78, p = .011）。図 1(H1-A1) と図 2(H1-A3) の結果は，日本語母語話者による「押し殺した怒り」「激しい怒り」「悲しみ」「喜び」発話の H1-A1 と H1-A3 が中国人学習者による日本語と中国語より有意に高かったことから，中国人学習者はより声帯が緊張した発声 (tense voice) を用いて感情を表出する傾向を示している。図 3 は，第 1 および第 3 フォルマント周波数周辺帯域でフィルタリングした信号の同期性 (F1F3syn) を分析した結果である。図 3 の結果に基づき，言語 3 水準 × 感情 8水準の 2 要因分散分析を行なった結果，言 語と感情の主効果は有意であった（F(2, 21) = 7.36, p = .004, partial η2_{= .459; F(7, 147) = 6.10, p <} .001, partial η2 _{= .321）。また，言語と感情の交互}

(8)

図 2 H1-A3の音響的特徴 図 3 F1F3synの音響的特徴 作用（F(14, 147) = 4.93, p < .001, partial η2 _{= .319）} も有意であったため，多重比較を行なった。その結果，日本語母語話者による日本語の「恐れ」「押し殺した怒り」「悲しみ」「驚き」の F1F3syn は中国人学習者による日本語および中国語よ り有意に低かった（「恐れ」： t(21) = 4.76, p < .001; t(21) = 4.27, p < .001;「押し殺した怒り」： t(21)= 5.15, p < .001; t(21) = 3.55, p = .002;「悲し み」：t(21)= 7.71, p < .001; t(21) = 6.23, p < .001;「驚 き」：t(21)= 2.82, p = .010; t(21) = 2.08, p = .047）。 この結果は，日本語母語話者による「恐れ」「押し殺した怒り」「悲しみ」「驚き」の F1F3syn が中国人学習者による日本語と中国語より有意に低いことから，日本語母語話者によるこれらの発話では中国人学習者より気息性が強かったことを示している。 3.2 声質と音響的特徴の複合的分析 3.2.1 発話者グループごとの Oq と F0 の傾向

図 4 は，EGG 信号指標の一つである Open Quo-tient (Oq)の測定結果を発話者グループごとに示したものである（J: 日本語母語話者による日本語発話，C_J：中国人学習者による日本語発話，C: 中国人学習者による中国語発話）。図 4 の結果について，言語 3 水準×感情 8 水準の 2 要因分散分析を行なった結果，言語 および感情の主効果は有意であり (F(2, 21) = 59.78, p < .001, partialη2 _{= .822; F(7, 147) =}

(9)

図 4 発話者グループごとの Open Quotient（Oq） 66.25, p < .001, partialη2 _{= .710)，発話者と感情の} 交互作用も有意であった (F(14, 147) = 6.66, p < .001, partial η2_{= .331)。多重比較を行なった結果，} 日本語母語話者による「恐れ」「押し殺した怒り」「激しい怒り」「悲しみ」発話の Oq は中国人学習者が発話した日本語と中国語より有意に高かった（「恐 れ」：t(21)= 6.60, p < .001; t(21) = 7.12, p < .001; 「押し殺した怒り」：t(21)= 10.36, p < .001; t(21) = 11.73, p < .001;「激しい怒り」：t(21) = 6.94, p < .001; t(21) = 7.27, p < .001; 「悲しみ」：t(21) = 4.05, p < .001; t(21) = 3.24, p = .003）。また，F0 について，発話者 2 水準×感情 8 水準の 2 要因分散分析を行なったところ，発話者および感情の主効果 は有意であり (F(2, 21) = 4.12, p = .027, partial η2₌ .245; F(7, 147) = 40.19, p < .001, partial η2 _{= .591)，} 発話者と感情の交互作用は有意ではなかった (F(14, 147) = 1.56, p = .09, partial η2 _{= .112)。Oq} に関する結果により，日本語母語話者による「恐れ」「押し殺した怒り」「激しい怒り」「悲しみ」発話には，中国人学習者による日本語発話と中国語発話より声帯が弛緩した発声傾向のあることが分かった。 3.2.2 Oq-valued VRP 日本語母語話者と中国人学習者の感情表出様式の違いを分析するため，若狭・寺澤・河原・原 (2018)にならい，発話時の Oq の変動を視覚的に捉える Oq-valued VRP(Voice Range Profile) を用いて，同程度の F0 と power における Oq が発話者グループによってどのような違いがあるかについて考察する。F0 は 2st ごとに，power は 5dB ごとに区切り，該当する分析フレームにおける Oq の平均値を色に対応させた。Oq-valued VRP は F0 を横軸，Power を縦軸，Oq をヒートマップにより表示する。色と値の対応は，Oq が小さいほど，つまり声帯が緊張するほど赤くなり，Oq が大きいほど，つまり声帯が弛緩するほど緑になるように指定した。これにより，異なる power と F0 において，それぞれの Oq の平均値を視覚により直感的に理解することが可能になる。図 5，6，7 は，感情が最もよく伝わった日本語母語話者（男性）による日本語発話，中国人学習者（男性）による日本語発話，中国人学習者による中国語発話をそれぞれ 1 名について示したものである。結果として，発話者グループに関係なく，F0 が高く，Power が大きくなるほど，Oq が小さくなっていることが観察された。一方で，発話者によって発声様式が異なる傾向も観察された。例えば中国人学習者による「激しい怒り」（図 6）の特徴は， F0が 230–280 Hz の範囲で，Oq が 0.2–0.3 まで顕著に下がることから声帯を強く緊張させた「りき

(10)

図 5 日本語母語話者（男性）による日本語発話の Oq-valued VRP み声」と考えられる。しかし，この特徴は日本語母語話者による「激しい怒り」では見られなかった。同様の傾向は「喜び」の高音域にも見られた。さらに，図 7 から，中国語感情音声における「悲しみ」「恐れ」「中立」以外の感情に関して，Oq が小さい値（赤色）を取っている部分が広く分布していることが分かる。 4. 考察スペクトル特性の分析により，「押し殺した怒り」「激しい怒り」および「悲しみ」に関しては，日本語母語話者と中国人学習者による 11 個の単語タスクの日本語感情音声を調べた Li, Albin, Ishi and Hayashi (2019)と同様の結果を示した。ただし，Li, Albin, Ishi and Hayashi (2019)は「怒り」を 1 つの感情種類として扱い，中国人学習者が発話した日本語の「怒り」が日本語母語話者より tense voice に近い原因として，中国人学習者は「押し殺した怒り」より「激しい怒り」のほうを多く選んで表出する可能性があるためと考察しているが，「怒り」を 2 つに分けた本研究の結果を見ると，中国人学習者による「押し殺した怒り」と「激しい怒り」ともに日本語母語話者より tense voice に近いことが示された。英語と中国語を対象とした Wang, Lee and Ma (2018)は，英語の「怒り」の tense voice が中国語より顕著であったと述べているが，本研究の日本語と中国語の結果によると，中国語における「怒り」は日本語よりも tense voice で発声されることが観察された。「喜び」について，中国語感情音声を調べた Yuan, Shen and Chen (2002) では「喜び」の発声様式が通常発声に近いと報告しているが，本研究とは異なる結果となっている。その原因は，本研究では感情表出の度合いが最も高い第 3 段階目のもののみを分析対象としたためという可能性がある。日本語母語話者が発話した「恐れ」「押し殺した怒り」「悲しみ」「驚き」については，F1F3syn が中国人学習者による日本語と中国語より有意に低かったことから，これらの感情において日本語母語話者は，中国人学習者より気息性が強い発声様式を用いて感情を表出する可能性を示す結果となった。本研究の日本語母語話者に

(11)

図 6 中国人学習者（男性）による日本語発話の Oq-valued VRP

よる感情音声の「恐れ」に関しては，ドイツ語感情音声を調べた Klasmeyer and Sendlmeier (2000) で報告している「恐れ」における気息性の強い発声と同様の傾向を示したと考えられる。声質と韻律の複合的分析について，中国人学習者による日本語発話と中国語発話の「恐れ」「押し殺した怒り」「激しい怒り」「悲しみ」は日本語母語話者による日本語よりも Oq が顕著に低かった。この結果は，中国人学習者はより声帯が緊張した発声でこれらの感情を表現しており，tense voice に近い発声様式を用いることを示している。また，発話者グループに関係なく，F0 が高く，Power が大きくなるほど，Oq が小さくなっているという結果は，Oq は F0 と Power と負の相関があるとする Henrich, d’Alessandro, Doval and Castellengo (2005)の報告と一致している。さらに，中国人学習者による日本語と中国語の「激しい怒り」がともに高音域で Oq が顕著に下がった特徴は，日本語母語話者による発話では見られなかった。このことは，母語である中国語の感情表出様式が，学習した言語である日本語の感情表出に影響を与えた可能性を示唆する。今回の研究では，三つのタスク文による声質と音響的特徴における顕著な差が確認されなかった。しかし，タスク文による感情表出の違いについて検討することは，タスクの言語情報や句末音調が感情表出に与える影響と，強調された局所の有無・場所およびそれと感情表出の関連性を明らかにするために重要と考えられる。そのため，特に「オバマが当選した」については今後，強調の有無・場所を考慮した音響・声質分析を行ない，さらに考察していく予定である。 5. おわりに 本研究では日本語母語話者による日本語および中国人学習者による日本語と中国語を対象として，音響的特徴とスペクトル傾斜に関する分析（H1-A1, H1-A3, F1F3syn と EGG 信号による Oq）

および声質と韻律特徴の複合的な分析（Oq-valued VRP）を行なった。その結果，発話者の第一言語によってその感情表出様式が異なることが示され

(12)

図 7 中国人学習者（男性）による中国語発話の Oq-valued VRP た。Oq 分析の結果により，中国人学習者が発話した「押し殺した怒り」「喜び」「激しい怒り」と「悲しみ」では日本語母語話者より声帯が緊張した発声（tense voice）が観察された。また，日本語母語話者が発話した「恐れ」「押し殺した怒り」「悲しみ」「驚き」は中国人学習者による日本語と中国語より強い気息性が見られた。さらに，日本語母語話者による発話と異なり，中国人学習者による日本語と中国語の「激しい怒り」はともに高音域で Oq が顕著に下がった。このような発声様式は母語である中国語の感情表出方法に影響されていることが示唆される。感情情報に関わる韻律と声質に関する特徴を検討した本研究の知見は，感情音声表出における言語差を明らかにし，日本語をはじめとした外国語教育においても有益であると考えられる。本研究のさらなる課題として，日本語と中国語感情音声において感情の度合いがどのように音声に表出されるのかについて，さらに考察を行なう必要がある。また，今後は知覚実験を通して局所の強調の有無と場所を調べ，韻律と声質分析を行ない，感情表出の関連性を明らかにしたい。 謝辞 論文執筆にあたり多くの有益なコメントをいただきました査読者の先生方にこの場を借りて感謝いたします。本研究は，JSPS 科研費 17H02352,JSPS 科研費 JP20H05576 の助成を受けたものです。 〔注〕 1）文化庁 (2019) によれば日本国内でもっとも日本語学習者が多いのは，中国語を母語とする日本語学習者が 91,547 人（32.9％），ついでベトナム語を母語とする学習者で 62,117 人（22.4％），ネパール語を母語とする学習者で 14,246（5.1％）人となっている。 参考文献 石井カルロス寿憲・石黒浩・萩田紀博（2006）「韻律および声質を表現した音響特徴と対話音声におけるパラ言語情報の知覚との関連」『情報処理学会論文誌』 47, 1782–1792. 甲斐朋子・田渕咲子（2003）「日本語の感情を含む発話に対する韓国人日本語学習者の聞き取りと発話をめぐって」『ポリグロシア』7, 1–11.

(13)

木下直子・中川千恵子（2019）「気持ちを伝える音声の Web教材「つたえるはつおん」」李在鎬（編）『ICT ×日本語教育』254-268, ひつじ書房．定延利之（2007）「話し手は言語で感情・評価・態度を表して目的を達するか？：日常の音声コミュニケーションから見えてくること」『自然言語処理』14(3), 3–15. 重野純（2001）「音声に含まれた感情の認知」『青山心理学研究』1, 37–43. 中林律子（2011）「日本語音声に表れる感情の知覚―ロシア人日本語学習者の知覚の個人差に着目して―」『音声研究』15, 14–25. 広瀬啓吉（2002）「音声情報処理におけるパラ・非言語情報」『日本音響学会講演論文集』1 (1-10-10), 243–246. 文化庁（2019）『令和元年度国内の日本語教育の概要』 https://www.bunka.go.jp/tokei_hakusho_shuppan/tokeic hosa/nihongokyoiku_jittai/r01/pdf/92394101_01.pdf （2020 年 7 月 14 日最終参照）前川喜久雄・北川智利（2002）「音声はパラ言語情報をいかに使えるか」『認知科学』9, 46–66. 前川喜久雄・西川賢哉（2019）「「日本語話し言葉コーパス」への声質情報付与と予備的分析」『言語資源活用ワークショップ 2019 発表論文集』205–221. 森大毅（2014）「話し言葉が伝えるもの」『国語研プロジェクトレビュー』4, 183–190. 森大毅・前川喜久雄・粕谷英樹（2014）『音声は何を伝えているか―感情・パラ言語情報・個人性の音声科学 ―』コロナ社．若狭健太・寺澤洋子・河原英紀・原健一（2018）「生理・音響的特徴量分析によるオペラ歌唱と合唱歌唱の比較検討」『日本音響学会秋季研究発表会講演論文集』1121–1124.

Banse, R. and K. Scherer (1996) “Acoustic profiles in vocal emotion expression.” Journal of Personality and Social Psychology 70(3), 614–636.

Campbell, N. and T. Marumoto (2000) “Automatic labelling of voice-quality in speech databases for synthesis.” Proceed-ings of Sixth International Conference on Spoken Lan-guage Processing.

Campbell, N. and D. Erickson (2004) “What do people hear? A study of the perception of non-verbal affective infor-mation in conversational speech.” Journal of the Phonetic Society of Japan 8, 9–28.

Chronaki, G., M. Wigelsworth, M. Pell and S. Kotz (2018) “The development of cross-cultural recognition of vo-cal emotion during childhood and adolescence.” Scientific Reports 8(1), 1–17.

Elfenbein, H. A. (2013) “Nonverbal dialects and accents in facial expressions of emotion.” Emotion Review 5(1), 90– 96.

Erickson, D. (2005) “Expressive Speech: Production, percep-tion and applicapercep-tion to speech synthesis.” Acoustic Sci-ence and Technology 26, 317–325.

Erickson, D., C. Zhu, S. Kawahara and A. Suemitsu (2016) “Articulation, acoustics and perception of mandarin Chi-nese emotional speech.” Open Linguistics 2, 620–635.

Fujisaki, H. (1996) “Prosody, Models, and Spontaneous Speech.” In Y. Sagisaka, N. Campbell and N. Higuchi (eds.) Computing Prosody: Computational Models for Processing Spontaneous Speech, 27–42. Berlin: Springer. Gobl, C. and A. N. Chasaide (2003) “The role of voice quality in communicating emotion, mood and attitude.” Speech Communication, 40(1–2), 189–212.

Gordon, M. and P. Ladefoged (2001) “Phonation types: A cross-linguistic overview.” Journal of Phonetics 29, 383– 406.

Henrich, N., C. d’Alessandro and B. Doval (2001) “Spectral correlates of voice open quotient and glottal flow asym-metry: Theory, limits and experimental data.” Proceed-ings of EUROSPEECH 2001, 47–50.

Henrich, N., C. d’Alessandro, B. Doval and M. Castellengo (2005) “Glottal open quotient in singing: Measurements and correlation with laryngeal mechanisms, vocal in-tensity, and fundamental frequency.” The Journal of the Acoustical Society of America 117(3), 1417–1430. Ishi, C. T., H. Ishiguro and N. Hagita (2008) “Automatic

ex-traction of paralinguistic information using prosodic fea-tures related to F0, duration and voice quality.” Speech Communication 50(6), 531–543.

Ishi, C. T., H. Ishiguro and N. Hagita (2010) “Analysis of the roles and the dynamics of breathy and whispery voice qualities in dialogue speech.” EURASIP Journal on Au-dio, Speech, and Music Processing 2010(1), 1–12. Ishi, C. T. and J. Arai (2018) “Periodicity, spectral and

elec-troglottographic analyses of pressed voice in expressive speech.” Acoustical Science and Technology 39(2), 101– 108.

Klasmeyer, G. and W. F. Sendlmeier (2000) “Voice and emo-tional states.” In R. D. Kent and M. J. Ball (eds.) Voice quality measurement, 339–358, Berlin: Springer. Laver, J. (1980) “The Phonetic Description of Voice

Qual-ity.” Cambridge Studies in Linguistics London 31, 1–186, Cambridge University Press.

Li, X., A. Albin, C. Ishi and R. Hayashi (2019) “Japanese Emotional Speech Produced by Chinese Learners and Japanese Native Speakers: Differences in Perception and Voice Quality.” Proceedings of International Congress of Phonetic Sciences 2019, 2183–2187.

Liberman, M., K. Davis, M. Grossman, N. Martey and J. Bell (2002) “Emotional Prosody Speech and Transcripts.” Lin-guistic Data Consortium. https://catalog.ldc.upenn.edu/ LDC2002S28 (accessed June 10, 2019)

Liu, Y. (2011) “A study of emotional speech in Mandarin.” MD Thesis, Nanjing Normal University.

Maddieson, I. and P. Ladefoged (1985) “ ‘Tense’ and ‘lax’ in four minority languages of China.” Journal of Phonetics 13, 433–454.

Pell, M. D., S. Paulmann, C. Dara, A. Alasseri and S. A. Kotz (2009) “Factors in the recognition of vocally expressed emotions: A comparison of four languages.” Journal of Phonetics 37(4), 417–435.

(14)

State on Fundamental Frequency.” Proceedings of Inter-national Congress of Phonetic Sciences 2019, 67–71. Scherer, K. R. (1986) “Vocal affect expression: A review and a

model for future research.” Psychological Bulletin 99(2), 143–165.

Trager, G. L. (1958) “Paralanguage: A first approximation.” Studies in linguistics 13, 1–11.

Wang, T., Y. C. Lee and Q. Ma (2018) “Within and across-language comparison of vocal emotions in Mandarin and English.” Applied Sciences 8(12), 1–18.

Yang, H., L. Cai and D. Jiang (2005) “Analysis on

Expres-sivity and Acoustic Correlation of Speech.” http://hcsi. cs.tsinghua.edu.cn/static/Paper/paper05/200516.pdf (ac-cessed July 30, 2018)

Yuan, J., L. Shen and F. Chen (2002) “The Acoustic Realiza-tion of Anger, Fear, Joy and Sadness in Chinese.” Pro-ceedings of Seventh International Conference on Spoken Language Processing, 2025–2028.

(Received Jul. 31, 2020, Accepted Feb. 10, 2021, e-Published Apr. 30, 2021)