• 検索結果がありません。

日本語と中国語感情音声に関する声質と音響の複合的分析―日本語母語話者と中国語を母語とする日本語学習者による発話を対象に―

N/A
N/A
Protected

Academic year: 2021

シェア "日本語と中国語感情音声に関する声質と音響の複合的分析―日本語母語話者と中国語を母語とする日本語学習者による発話を対象に―"

Copied!
14
0
0

読み込み中.... (全文を見る)

全文

(1)

研究論文

日本語と中国語感情音声に関する声質と音響の複合的分析

―日本語母語話者と中国語を母語とする日本語学習者による発話を対象に―

李  歆玥*・石井カルロス寿憲**・林  良子***

Analyses of Voice Quality and Acoustic Features in Japanese and Chinese Emotional Speech: Japanese Native Speakers and Mandarin Chinese Learners

Xinyue LI*, Carlos Toshinori ISHI** and Ryoko HAYASHI***

要旨:本研究では,日本語母語話者による日本語発話および中国語を母語とする日本語学習者による日本語 発話と中国語発話における 8 つの感情表現(「喜び」「激しい怒り」「押し殺した怒り」「悲しみ」「驚き」「恐 れ」「嫌悪」「中立」)を対象として,声質の特徴および音響的特徴の相違を検討した。収録した発話のスペク トル特徴分析を行ない,Electroglottography 信号による Oq を抽出し,Oq-valued VRP の解析を行なった結果, 発話者の第一言語によって感情表出様式が異なることが示された。中国人学習者が発話した「押し殺した怒 り」「喜び」「激しい怒り」と「悲しみ」は日本語母語話者より tense voice として表出されることが観察され, 母語である中国語の感情表出様式が,学習した言語である日本語の感情表出に影響を与えた可能性を示唆す る結果となった。 キーワード:パラ言語情報,発声様式,EGG,Open quotient,第二言語習得

SUMMARY: The present study utilized Japanese and Mandarin Chinese emotional speech representing eight emotion types (happy, hot anger, cold anger, sad, surprised, afraid, disgusted, neutral) from Japanese native speakers and Man-darin Chinese learners of L2 Japanese, to clarify crosslinguistic differences in emotional speech. Spectral analysis re-vealed different patterns of utterances by Japanese native speakers and Mandarin Chinese learners. Chinese learners tend to use a tenser glottal configuration to express cold anger, happy, hot anger and sad. Furthermore, open quotient-valued voice range profiles based on Electroglottography signals suggest that the emotional speech from Mandarin Chinese learners are affected by their mother tongue.

Key words: paralinguistic information, phonation type, EGG, open quotient, second language acquisition

1. はじめに 1.1 背景と目的 音声によるコミュニケーションには言語情報だ けではなく,発話者の性別,年齢,健康状態,感 情などの情報も多数含まれており,これらの言語 情報以外の情報も話し手の意図を適切に伝えるた めに重要な役割を果たしていることが知られて

* ATR 石黒博特別研究所(Hiroshi Ishiguro Laboratories, Advanced Telecommunications Research Institute International (ATR)) ** 理化学研究所(RIKEN) *** 神戸大学(Kobe University) いる。音声によって伝達される情報を体系的に分 類した研究には Trager (1958) の二分法(言語と周 辺言語),Fujisaki (1996) の三分法(言語情報,パ ラ言語情報と非言語情報),および森・前川・粕 谷 (2014) の分類方法がある。特に森・前川・粕谷 (2014)では,感情の位置付けについて指摘し,話 し言葉では感情が意図的に伝達されることが確か にあると述べ,メッセージとして意図的に表出さ

(2)

れる感情と不随意的に表出される感情を分け,前 者を Fujisaki (1996) のパラ言語情報とまとめ,パ ラ言語メッセージとしている。 感情と音声の結びつきについても議論が積極的 に行なわれている(定延 2007)。その中で,感情 が音声に与える影響はさまざまな言語を通じてよ く見られる共通点があることが知られている。例 えば「喜び」と「激しい怒り」発話の F0 平均値 とインテンシティ平均値が「中立」発話より大き くなり (Scherer 1986),心理的活性度の高さと声の 高さ,強さは関連するとされる(森・前川・粕谷 2014)。その一方で,発話者の第一言語によって 感情の知覚パタンが異なることも指摘されている (Campbell and Erickson 2004)。Pell, Paulmann, Dara, Alasseri and Kotz (2009)では,イギリス英語,ドイ ツ語,スペイン語およびアラビア語の 4 カ国母語 話者による「中立」「怒り」「嫌悪」「恐れ」「悲し み」「喜び」の無意味語感情音声を収録し,各発話 者グループと同じ母語の聴者に聞かせたところ, 発話者と聴者の母語が一致している場合の感情同 定率は,母語が一致していない場合の感情同定率 より高いことを報告し,「内集団優位性(in-group advantage)」があるとし,各文化の社会規則によ り,同じ母語背景における感情音声の表出と知 覚がよりスムーズに成り立つと解釈している。さ らに,Chronaki, Wigelsworth, Pell and Kotz (2018) は 8–10歳,11–13 歳および成人を対象に,イギリス 英語,スペイン語,中国語およびアラビア語によ る「中立」「喜び」「怒り」「悲しみ」「恐れ」の感 情音声を用いた知覚実験を行なった。その結果, 成人だけではなく,児童の感情音声知覚にも「内 集団優位性」を観察できたと報告している。上記 のような傾向を「感情の方言理論(Dialect theory of emotion)」としてまとめる研究もある (Elfenbein 2013)。すなわち,感情伝達には同じ文化背景の話 者間では容易に通じる「方言」があり,それは異 なる文化背景の話者には伝わりにくいとする考え である。 グローバル化に伴い各国間の人口移動が活発化 した中で,異文化間の感情音声伝達について,第 二言語学習者の感情伝達という側面から近年議論 が行なわれてきた。甲斐・田渕 (2003) では日本語 母語話者と韓国人日本語学習者による感情音声 を,日本語母語話者と韓国人日本語学習者に聞か せる知覚実験を行なった。その結果,感情同定率 が 80%以上の音声の数は,日本語母語話者の発話 のほうが韓国人日本語学習者より多いことを示し た。中林 (2011) では,「韓国」「毎日」(頭高型), 「現金」「片仮名」(中高型),「カラオケ」「温泉」 (平板型)の 6 つの 4 拍語をタスク語とし,問い返 し疑問文に含まれた「嫌」と「驚き」の感情につ いて,ロシア人日本語学習者を聴者として知覚実 験を行なった。その結果,学習者には「嫌」とい う感情の認識が困難であることが示され,アクセ ント核の有無によって感情の聴取の難易度が異な る可能性が示唆された。Li, Albin, Ishi and Hayashi (2019)では,日本語母語話者および中国語を母語 とする日本語学習者により「喜び」「悲しみ」「怒 り」「驚き」「恐れ」「嫌悪」「中立」について日本 語で生成した音声を収録し,日本語母語話者およ び中国語を母語とする日本語学習者を聴者として 知覚実験を行なった結果,発話者と聴者の母語が 一致している場合の感情同定率は,母語が一致し ていない場合の感情同定率より高く,「内集団優位 性」の考えを支持していることを示した。この研 究においてはさらに Electroglottography(EGG)を 用いて声質の分析も行なった。その結果中国人学 習者による「怒り」と「悲しみ」は日本語母語話 者より tense voice(声帯の緊張した声)で発声さ れることが明らかになった。 これらの先行研究は,日本語母語話者による音 声のほうが非母語話者のそれよりも意図した感情 を正しく聞き取られることを示唆している。つま り,第二言語学習者が日本語音声から感情を知覚 する際,同定率が日本人聴者より低く,さらに知 覚困難な感情があることを示している。さらに, 第二言語学習者が日本語で生成した感情音声は, 日本語母語話者に伝わりにくく,生成パタンも日 本語母語話者と異なる可能性を示唆していると考 えられる。このような背景から,第二言語学習者

(3)

と母語話者の異文化間コミュニケーションにおい ては,学習者による感情,態度,発話意図などの パラ言語情報が適切に伝えられないため,鈍感, 乱暴などのマイナスの評価を受けたり,コミュニ ケーション自体を避けられたりすることがあると の報告もある(木下・中川 2019)。以上のことか ら,円滑なコミュニケーションを行うには,外国 人学習者にとって感情に関する情報の表出と理解 が不可欠であると言える。 しかし,なぜ第二言語学習者による感情音声が 母語話者に伝わりにくいのか,学習者の母語によ る影響なのかについては未だに多くの課題が残っ ている。母語話者による感情音声のみならず,こ れまでの研究ではあまり対象とされていなかった 学習者による音声も対象として加え,学習者がど のように目標言語で感情音声を表出しているのか, 学習者の母語ではどのように感情音声を表出する のか,母語話者との相違は何かについて検討する 必要がある。以上を踏まえ,本研究では,国内の 日本語学習者1)の中で最も人数の多いとされる中 国語を母語とする学習者を対象として,日本語母 語話者が表出した感情音声と,中国語を母語とす る日本語学習者(以下,中国人学習者)が,日本 語と中国語で表出した感情音声の声質の特徴およ び音響的特徴の相違を検討し,中国人日本語学習 者による感情表現の実態を捉えることを目的とす る。また,中国人日本語学習者の感情表出様式が 母語の影響によるものなのかについても検討を行 なう。 1.2 感情音声に現れる音響的特徴と声質に関する 情報 感情音声の生成については,感情が音声に与える 影響を音響的側面から議論する論考が多い (Banse and Scherer 1996)。日本語感情音声について重野 (2001)では,2 名の日本語母語話者が発話した「東 京」「河原崎さん」「11 時半」「さようなら」「そう ですか」に伴う「幸福」「驚き」「怒り」「嫌悪」「恐 れ」「悲しみ」の 6 つの感情発話について分析して いる。その結果,基本周波数とエネルギーの標準 偏差が「怒り」では他の感情より高く,「嫌悪」で はもっとも小さいということが明らかになった。 前川・北川 (2002) は,「中立」「疑い」「落胆」「強 調」「無関心」の 6 種類のパラ言語情報について, 生成実験と同定実験を通して持続時間,ピッチ, 振幅,母音の音質などを分析している。その結果, 非言語情報においての音響的特徴が発話全体にわ たって実現されるのに対し,パラ言語情報に関す る音響的特徴は局所的にも実現されうることを示 した。また,中国語感情音声の研究では,Yang, Cai and Jiang (2005)は「怒り」「恐れ」「喜び」「悲 しみ」「驚き」を対象に,1 名による 4 つのタスク 文を分析した結果,「恐れ」の F0 平均値は「悲し み」より高く,「喜び」の持続時間長は「怒り」より 長かったと報告している。Erickson, Zhu, Kawahara and Suemitsu (2016)は「怒り」「悲しみ」「喜び」と 「中立」について,中国語母語話者 2 名の発話者 が生成した 3 つのタスク文を録音し,音響分析を 行なった結果,「喜び」と「怒り」の F0 平均値と インテンシティは「中立」と「悲しみ」より大き かった。感情音声の度合いによる音響的特徴量の 差に着目した研究も進められている。ドイツ語感 情音声を対象とした Probst and Braun (2019) では, 「喜び」「激しい怒り」「押し殺した怒り」「悲しみ」 「恐れ」「嫌悪」および「中立」を対象に,6 名のド

イツ語母語話者に感情ごとに 3 段階の度合い (low, medium and extreme)で無意味語を発話したものを 分析した。音響分析の結果,感情の度合いによっ て F0 平均値と F0 レンジが線形に変化することを 報告している。これらの日本語,中国語やドイツ 語を対象とした研究では共通して,感情によって 音響的特徴量が異なることが見られた。 感情音声においては,音響的特徴量以外の要因, 特に声質が大きく関わっていることも指摘されて いる (Gordon and Ladefoged 2001)。声帯における 発声様式の違いに起因する声質 (Laver 1980) は発 話者のパラ言語メッセージを伝える重要な情報で ある(森 2014)。例えば石井・石黒・萩田 (2006) は,韻律と声質に関連する音響的特徴とパラ言語 情報の関連について,演技対話音声と自然対話音

(4)

声の両方を対象に,感動詞発話「え」に着目して 音響分析を行なった。その結果,演技対話音声に おいて,韻律パラメータ(F0move,発話持続時間) は聞き返し,肯定的,否定的な表現のような機能 的なパラ言語情報を検出するのに貢献している一 方,気息性(breathy)や非周期性(non-periodic)な どの声質パラメータは「驚き」「嫌悪」など比較的 強い感情情報を識別するのに貢献していることを 示した。Yuan, Shen and Chen (2002) は中国人母語 話者 9 名が発話した中国語の「怒り」「恐れ」「喜 び」「悲しみ」「中立」音声(2 タスク文)を録音 し,音響分析を行なった。その結果,「怒り」はき しみ発声(creaky),「恐れ」と「悲しみ」は気息性 (breathy),「喜び」は通常発声(modal)に近いと述 べている。また,スペクトル特性の音響関連量と しては,調波成分を用いた H1-H2, H1-A1, H1-A2, H1-A3などが利用されることもある(前川・西川 2019)。Campbell and Marumoto (2000) はこれらの 特徴と感情との関係について調べた。その結果, 「悲しみ」「喜び」「怒り」の順にスペクトル傾斜が 小さくなり,「悲しみ」は声帯が弛緩した発声(lax) に近く,「怒り」は声帯が緊張した発声(tense)に 近いことが報告されている。さらに,「恐れ」では 囁き声や裏声(whispery, falsetto)を含むことが報 告され (Klasmeyer and Sendlmeier 2000),「悲しみ」 には弛緩したきしみ声(lax creaky)が観察された (Gobl and Chasaide 2003)。

声質に影響を与える声帯振動の状態を調べる 方法の 1 つに Electroglottography(EGG)がある。 EGGを用いた声質分析の研究として,Ishi, Ishiguro and Hagita (2010)では,りきみ声の特徴は F0 ある いは周期性によらず,全体的に声門の閉鎖区間の 時間長が開放区間より著しく長い特徴を持つこと を示し,この特徴を利用してりきみ声の区間検出 が可能であると報告している。また,言語によっ てその声質が異なることも示されている。例えば 中国語と英語の感情音声を対象とした Wang, Lee and Ma (2018)は,中国語母語話者および英語母語 話者各 5 名(男性 2 名と女性 3 名)による有意味 文の「怒り」「恐れ」「喜び」「悲しみ」「中立」発話 を収録し,音響分析と EGG 分析を行なった。その 結果,中国語母語話者および英語母語話者は異な る生成パタンを示し,中国語母語話者が発話した 「怒り」は英語母語話者による発話より声帯が緊張 した発声(tense)が少なく,中国語母語話者が発 話した「悲しみ」は英語母語話者による発話より 気息性(breathy)を多く含むことが観察された。 上記に挙げた感情音声の研究では,感情音声に は基本周波数,持続時間,インテンシティなどの 複合的な音響的特徴と声質が関与しており,また, 発話者の第一言語によってその感情伝達に誇張や 抑制が見られ,音響的特徴と声質が異なることも 指摘されている。このため,本研究では先行研究 で用いられた音響的特徴の他に,EGG 信号に基づ いた声質分析についても同時に行なうことにより, 学習者による感情表現の実態を先行研究よりもさ らに詳細に検討する。 2. 方法 2.1 音声資料 発話者は,日本語母語話者 10 名(男女各 5 名, 平均年齢 30 歳,S D= 4.92)および中国人学習者 10名(男女各 5 名,全員 N1 合格者,全員北京方 言話者,平均年齢 28 歳,S D= 3.67)である。選 定した感情は,「中立(neutral)」「喜び(happy)」 「激しい怒り(hot anger)」「押し殺した怒り(cold anger)」「悲しみ(sad)」「驚き(surprised)」「恐れ (afraid)」「嫌悪(disgusted)」の 8 つで,これらの 感情が含まれる音声資料の収録を行なった。「怒 り」に関しては,先行研究では,音響的な側面,特 に F0 と Duration に関する結果は一貫していない (Banse and Scherer 1996,広瀬 2002)ため,本実験 では,「怒り」を「激しい怒り」「押し殺した怒り」 の 2 つに分けた。さらに,感情の度合いによって, 音響的特徴が変化する (Probst and Braun 2019) た め,本実験では各感情を 3 段階で発話してもらっ た。例えば「喜び」では,「やや喜んで(low)」「喜 んで(medium)」「非常に喜んで(extreme)」とい う 3 段階となる。この中で感情が最もクリアに出

(5)

ていると思われる第 3 段階(extreme)のみを分析 の対象とした。 タスク文の選定にあたっては,先行研究を踏ま え,感情を表出しやすく,文自体に感情は伝達され ない有意味文とし,「え」(石井・石黒・萩田 2006), 「そうですか」(前川・北川 2002),ならびに局所 の強調の有無・場所およびそれと感情表出の関連 性 (Liu 2011) がある「オバマが当選した」の 3 つ をタスク文とした。本研究は「中立」をベースラ インとして用いたが,「中立」発話は各タスク文の 収録に先立って行ない,「教科書を音読するような 口調で読み上げてください。ただし,「退屈」な発 話にはしないようにしてください。」と指示した。 さらに,実験用の感情別のシチュエーションを提 案した Liberman, Davis, Grossman, Martey and Bell (2002)を参考にしつつ,発話者の感情をより自然 に引き出せるように,収録に用いる会話式の台本 を作成した。台本は感情種類とタスク文によって 異なる。感情「喜び」「激しい怒り」とタスク文 「え」「オバマが当選した」の例を以下に示す。 ①「え」「喜び」あなたの友だちが近況に ついて話しています。 A:2 年 か け て や っ と 志 望 大 学 に 合 格 した! B:(喜び)え! おめでとう! ②「え」「激しい怒り」あなたの部屋を 借りた人がパーティーをして,部屋をめ ちゃくちゃにしました。あなたの友だち が電話をかけてきました。 A:あの人たちがソファーを汚して,テ レビも壊した! B:(激しい怒り)え! ひどすぎる! ③「オバマが当選した」「喜び」あなたは オバマ大統領候補者を支持しています。 彼の当選を心の底から期待しています。 選挙結果を知ったあなたは飛び上がりそ うになりました。 A:ニュースを観てください! B:(喜び)オバマが当選した! 素晴ら しい! ④「オバマが当選した」「激しい怒り」あ なたはスミス大統領候補者の最大のスポ ンサーであり,多大な財産を使いました。 しかし,オバマ候補者が当選しました。 A:ニュースを観てください! B:(激しい怒り)オバマが当選した! これまでの資金は全部無駄遣いだっ たか! 収録内容について,発話者には B の発話のみを すべての台本を見て発話してもらった。さらに, 中国人学習者が同意味のタスク文を中国語で生成 した中国語感情音声も収録した。中国語感情音声 タスクは,日本語タスクと同じ意味の「啊(a)」「是 吗(shi4 ma)」「奥巴马当选了(ao4 ba1 ma3 dang1 xuan3 le)」である(括弧内はローマ字ピンイン と声調の表記を示す)。収録は,DPA Microphones d:fineTM CORE4266無指向性ヘッドセットマイク ロホンを用いて唇と一定の距離を保ちつつ,騒音 レベル 30 dB 以下の防音室で行なった(オーディ オインタフェース: Roland 社 Rubix22,サンプリ ング周波数:48 kHz,量子化精度:16 bits)。 棒読みなど感情が込められていない発話を除外 するために,収録した発話を用い,発話者とは別 の日本語母語話者および中国人学習者各 3 名を聴 取者として,自由記述(指示:何の感情に聞こえ ましたか?)で評価してもらった。聴取者の日本 語母語話者 3 名は,日本語母語話者による日本語 感情音声 240 発話(10 名× 3 タスク文× 8 感情) および中国人学習者による日本語感情音声 240 発 話を聴取した。一方,聴取者の中国人学習者 3 名 は,中国人学習者による中国語感情音声 240 発話 を聴取した。発話者が意図した感情と 3 名の聴者 が同定した感情が一致した回答を正答とし,それ ぞれのタスク文ごとに同定率を求めた。そして発 話者ごとに全タスク文の平均同定率を求め,50% 以下であった 2 名の日本語母語話者(31%,43%)

(6)

と 2 名の中国人学習者(38%,41%)を除外した。 上記の手続きにしたがい,最終的に日本語母語話 者 8 名(男女各 4 名,全参加者平均同定率 65%) および中国人学習者 8 名(男女各 4 名,全参加者平 均同定率 62%),計 16 名の発話者による感情音声 をスペクトル特徴分析および声質と音響的特徴の 複合的分析の対象とした。なお,各聴取者の答え の一致性を測るために Cronbach’s alpha 係数を計算 した。各聴取者グループにおける Cronbach’s alpha 係数がすべての感情において 0.75 以上であったた め,信頼できる評価結果とみなした。 2.2 分析方法 本研究では,日本語母語話者と中国人学習者に よる感情音声について,声質の特徴の違いを明ら かにするため,声質の特徴に関連する音響的特徴 であるスペクトル特徴ならびに EGG 信号の特性を 分析対象とした。スペクトル特徴のうちスペクト ル傾斜は,声質の特徴,特に緊張した発声と弛緩 した発声を区別するために有効である (Maddieson and Ladefoged 1985)。感情表出によって,声帯の緊 張度合いが変化することを考慮し,本研究ではス ペクトル傾斜に関連する音響的特徴を分析する。 具体的には,基本周波数と第 1 フォルマント周波 数帯域の振幅値の差(H1-A1),基本周波数と第 3 フォルマント周波数帯域の振幅値の差(H1-A3)を 分析対象とした。さらに,声に含まれる気息性に 関連する音響的特徴量として,第 1 と第 3 フォル マント周波数周辺帯域でフィルタリングした信号 の同期性 (F1F3syn) を分析対象とし,延べ 3 つの パラメータについて測定を行なった。F1F3syn の 測定においては,F1 帯域を 100∼1500 Hz,F3 帯域 を 1800∼4500 Hz に指定し,F1 と F3 帯域の波形 振幅包絡の相互相関によって求めた。F1F3syn は 0に近いほど気息性が強く,1 に近いほど気息性 が弱いことを表す (Ishi, Ishiguro and Hagita 2008)。 H1-A1と H1-A3 は基本周波数成分のエネルギーを より周波数の高い倍音ないし共鳴周波数と比較す ることで,スペクトル傾斜を定量化したものであ る(前川・西川 2019)。非周期的な音声信号では, 調波成分(倍音)の測定ができないため,周波数 帯域を固定して,最も強いスペクトル振幅値を使 用した (Ishi and Arai 2018)。

感情音声について,先行研究では声質パラメー タと韻律特徴量を複合的に検討している (Gobl and Chasaide 2003)。EGG 信号指標の 1 つである Open Quotient(以下 Oq)は,声帯の緊張,弛緩を示すパラ メータとしてよく用いられる (Henrich, d’Alessandro and Doval 2001)。一般的に,りきみ発声(pressed voice)のように声帯の筋肉が緊張するほど Oq が小 さく,気息音発声(breathy voice)のように声帯が 弛緩するほど Oq が大きくなる。本実験では,EGG 装置(Glottal Enterprises 社 EG2-PCX2)を用いて EGG信号の収録を行なった。得られた EGG 信号 は声門波形を微分した dEGG(differentiated EGG) 信号へと変換し,dEGG 信号の正と負のピークを 声門閉鎖時点および声門開放時点とし,Oq の測 定を行なった。EGG 信号は前節に述べた音声資料 と同時に収録した。感情ごとおよび発話者グルー プごとの傾向を把握するために,Oq と F0 の平均 値と標準偏差を算出した。F0 の測定に関しては, LPC逆フィルタによる残差波形の自己相関関数の 最大ピークに基づいた処理を行なっており,自己 相関関数で F0 の sub-harmonic に対応するピーク も,ある閾値を満たさなければならないという制 約を追加し(石井・石黒・萩田 2006),以下の式 に示すように 100 Hz を基底値としてセミトーン 単位(st)に換算した。

F0(st)=12 ∗ log(F0(Hz)/F0ref)/ log(2), F0ref=100Hz (1) 3. 結果 3.1 スペクトル特徴分析 図 1 は,基本周波数と第 1 フォルマント周波数 帯域の振幅値の差(H1-A1)について,日本語母 語話者および中国人学習者による発話の声質を分 析した結果である(Japanese: 日本語母語話者発話 者による日本語,Chinese–Japanese: 中国人学習者 発話者による日本語,Chinese: 中国人学習者発話

(7)

図 1 H1-A1の音響的特徴 者による中国語)。 図 1 に基づき,言語 3 水準(日本語母語話者による 日本語発話,中国人学習者による日本語発話および 中国語発話)×感情 8 水準(中立,喜び,激しい怒り, 押し殺した怒り,悲しみ,驚き,恐れ,嫌悪)の 2 要 因分散分析を行なったところ,言語と感情の主効果 は有意であり (F(2, 21) = 8.61, p = .002, partial η2= .451; F(7, 147) = 10.39, p < .001, partial η2 = .331), 言語と感情の交互作用は有意であった (F(14, 147) = 2.09, p = .015, partial η2 = .266)。言語と感情の交 互作用も有意であったため,多重比較を行なっ た。その結果,日本語母語話者による日本語の 「押し殺した怒り」「喜び」「激しい怒り」「悲し み」の H1-A1 は中国人学習者による日本語および 中国語より有意に高かった(「押し殺した怒り」: t(21)= 4.23, p < .001; t(21) = 6.31, p < .001;「喜び」t(21)= 2.62, p = .034; t(21) = 3.43, p = .024;「激しい 怒り」:t(21)= 2.94, p = .008; t(21) = 3.41, p = .002; 「悲しみ」:t(21)= 2.68, p = .014; t(21) = 2.78, p = .011)。 図 2 は,基本周波数と第 3 フォルマント周波数 帯域の振幅値の差 (H1-A3) の分析結果を示したも のである。 図 2 について言語 3 水準×感情 8 水準の 2 要因 分散分析を行なった結果,言語の主効果は有意で あり(F(2, 21) = 7.33, p = .003, partial η2 = .412), 感情の主効果も有意であり (F(7, 147) = 8.47, p < .001, partial η2 = .306),言語と感情の交互作用 についても有意であった (F(14, 147) = 3.79, p = .044, partial η2 = .246)。言語と感情の交互作用 が 有 意 で あ っ た た め ,多 重 比 較 を 行 な っ た と ころ,日本語母語話者による日本語の「押し殺 した怒り」「喜び」「激しい怒り」「悲しみ」の H1-A3は 中 国 人 学 習 者 に よ る 日 本 語 お よ び 中 国語より有意に高かった(「押し殺した怒り」: t(21)= 2.78, p = .011; t(21) = 2.02, p = .046;「喜び」t(21)= 2.29, p = .032; t(21) = 2.17, p = .041;「激しい 怒り」:t(21)= 3.03, p = .006; t(21) = 3.65, p = .002; 「悲しみ」:t(21)= 2.68, p = .014; t(21) = 2.78, p = .011)。図 1(H1-A1) と図 2(H1-A3) の結果は,日本 語母語話者による「押し殺した怒り」「激しい怒 り」「悲しみ」「喜び」発話の H1-A1 と H1-A3 が 中国人学習者による日本語と中国語より有意に高 かったことから,中国人学習者はより声帯が緊張 した発声 (tense voice) を用いて感情を表出する傾 向を示している。 図 3 は,第 1 および第 3 フォルマント周波数周辺 帯域でフィルタリングした信号の同期性 (F1F3syn) を分析した結果である。 図 3 の 結 果 に 基 づ き ,言 語 3 水 準 × 感 情 8水 準 の 2 要 因 分 散 分 析 を 行 な っ た 結 果 ,言 語 と 感 情 の 主 効 果 は 有 意 で あ っ た(F(2, 21) = 7.36, p = .004, partial η2= .459; F(7, 147) = 6.10, p < .001, partial η2 = .321)。また,言語と感情の交互

(8)

図 2 H1-A3の音響的特徴 図 3 F1F3synの音響的特徴 作用(F(14, 147) = 4.93, p < .001, partial η2 = .319) も有意であったため,多重比較を行なった。そ の結果,日本語母語話者による日本語の「恐れ」 「押し殺した怒り」「悲しみ」「驚き」の F1F3syn は 中 国 人 学 習 者 に よ る 日 本 語 お よ び 中 国 語 よ り有意に低かった(「恐れ」: t(21) = 4.76, p < .001; t(21) = 4.27, p < .001;「押し殺した怒り」: t(21)= 5.15, p < .001; t(21) = 3.55, p = .002;「悲し み」:t(21)= 7.71, p < .001; t(21) = 6.23, p < .001;「驚 き」:t(21)= 2.82, p = .010; t(21) = 2.08, p = .047)。 この結果は,日本語母語話者による「恐れ」「押し 殺した怒り」「悲しみ」「驚き」の F1F3syn が中国 人学習者による日本語と中国語より有意に低いこ とから,日本語母語話者によるこれらの発話では 中国人学習者より気息性が強かったことを示して いる。 3.2 声質と音響的特徴の複合的分析 3.2.1 発話者グループごとの Oq と F0 の傾向

図 4 は,EGG 信号指標の一つである Open Quo-tient (Oq)の測定結果を発話者グループごとに示し たものである(J: 日本語母語話者による日本語発 話,C_J:中国人学習者による日本語発話,C: 中 国人学習者による中国語発話)。 図 4 の結果について,言語 3 水準×感情 8 水 準 の 2 要 因 分 散 分 析 を 行 な っ た 結 果 ,言 語 お よ び 感 情 の 主 効 果 は 有 意 で あ り (F(2, 21) = 59.78, p < .001, partialη2 = .822; F(7, 147) =

(9)

図 4 発話者グループごとの Open Quotient(Oq) 66.25, p < .001, partialη2 = .710),発話者と感情の 交互作用も有意であった (F(14, 147) = 6.66, p < .001, partial η2= .331)。多重比較を行なった結果, 日本語母語話者による「恐れ」「押し殺した怒り」「激 しい怒り」「悲しみ」発話の Oq は中国人学習者が 発話した日本語と中国語より有意に高かった(「恐 れ」:t(21)= 6.60, p < .001; t(21) = 7.12, p < .001; 「押し殺した怒り」:t(21)= 10.36, p < .001; t(21) = 11.73, p < .001;「激しい怒り」:t(21) = 6.94, p < .001; t(21) = 7.27, p < .001; 「悲しみ」:t(21) = 4.05, p < .001; t(21) = 3.24, p = .003)。また,F0 に ついて,発話者 2 水準×感情 8 水準の 2 要因分散分 析を行なったところ,発話者および感情の主効果 は有意であり (F(2, 21) = 4.12, p = .027, partial η2= .245; F(7, 147) = 40.19, p < .001, partial η2 = .591), 発 話 者 と 感 情 の 交 互 作 用 は 有 意 で は な か っ た (F(14, 147) = 1.56, p = .09, partial η2 = .112)。Oq に関する結果により,日本語母語話者による「恐 れ」「押し殺した怒り」「激しい怒り」「悲しみ」発 話には,中国人学習者による日本語発話と中国語 発話より声帯が弛緩した発声傾向のあることが分 かった。 3.2.2 Oq-valued VRP 日本語母語話者と中国人学習者の感情表出様式 の違いを分析するため,若狭・寺澤・河原・ 原 (2018)にならい,発話時の Oq の変動を視覚的に 捉える Oq-valued VRP(Voice Range Profile) を用い て,同程度の F0 と power における Oq が発話者グ ループによってどのような違いがあるかについて 考察する。F0 は 2st ごとに,power は 5dB ごとに 区切り,該当する分析フレームにおける Oq の平 均値を色に対応させた。Oq-valued VRP は F0 を横 軸,Power を縦軸,Oq をヒートマップにより表示 する。色と値の対応は,Oq が小さいほど,つま り声帯が緊張するほど赤くなり,Oq が大きいほ ど,つまり声帯が弛緩するほど緑になるように指 定した。これにより,異なる power と F0 におい て,それぞれの Oq の平均値を視覚により直感的 に理解することが可能になる。図 5,6,7 は,感 情が最もよく伝わった日本語母語話者(男性)に よる日本語発話,中国人学習者(男性)による日 本語発話,中国人学習者による中国語発話をそれ ぞれ 1 名について示したものである。 結果として,発話者グループに関係なく,F0 が 高く,Power が大きくなるほど,Oq が小さくなっ ていることが観察された。一方で,発話者によっ て発声様式が異なる傾向も観察された。例えば中 国人学習者による「激しい怒り」(図 6)の特徴は, F0が 230–280 Hz の範囲で,Oq が 0.2–0.3 まで顕 著に下がることから声帯を強く緊張させた「りき

(10)

図 5 日本語母語話者(男性)による日本語発話の Oq-valued VRP み声」と考えられる。しかし,この特徴は日本語 母語話者による「激しい怒り」では見られなかっ た。同様の傾向は「喜び」の高音域にも見られた。 さらに,図 7 から,中国語感情音声における「悲 しみ」「恐れ」「中立」以外の感情に関して,Oq が 小さい値(赤色)を取っている部分が広く分布し ていることが分かる。 4. 考察 スペクトル特性の分析により,「押し殺した怒 り」「激しい怒り」および「悲しみ」に関しては,日 本語母語話者と中国人学習者による 11 個の単語タ スクの日本語感情音声を調べた Li, Albin, Ishi and Hayashi (2019)と同様の結果を示した。ただし,Li, Albin, Ishi and Hayashi (2019)は「怒り」を 1 つの感 情種類として扱い,中国人学習者が発話した日本 語の「怒り」が日本語母語話者より tense voice に 近い原因として,中国人学習者は「押し殺した怒 り」より「激しい怒り」のほうを多く選んで表出 する可能性があるためと考察しているが,「怒り」 を 2 つに分けた本研究の結果を見ると,中国人学 習者による「押し殺した怒り」と「激しい怒り」と もに日本語母語話者より tense voice に近いことが 示された。英語と中国語を対象とした Wang, Lee and Ma (2018)は,英語の「怒り」の tense voice が 中国語より顕著であったと述べているが,本研究 の日本語と中国語の結果によると,中国語におけ る「怒り」は日本語よりも tense voice で発声され ることが観察された。「喜び」について,中国語 感情音声を調べた Yuan, Shen and Chen (2002) では 「喜び」の発声様式が通常発声に近いと報告してい るが,本研究とは異なる結果となっている。その 原因は,本研究では感情表出の度合いが最も高い 第 3 段階目のもののみを分析対象としたためとい う可能性がある。日本語母語話者が発話した「恐 れ」「押し殺した怒り」「悲しみ」「驚き」について は,F1F3syn が中国人学習者による日本語と中国 語より有意に低かったことから,これらの感情に おいて日本語母語話者は,中国人学習者より気息 性が強い発声様式を用いて感情を表出する可能性 を示す結果となった。本研究の日本語母語話者に

(11)

図 6 中国人学習者(男性)による日本語発話の Oq-valued VRP

よる感情音声の「恐れ」に関しては,ドイツ語感 情音声を調べた Klasmeyer and Sendlmeier (2000) で 報告している「恐れ」における気息性の強い発声 と同様の傾向を示したと考えられる。 声質と韻律の複合的分析について,中国人学習 者による日本語発話と中国語発話の「恐れ」「押し 殺した怒り」「激しい怒り」「悲しみ」は日本語母 語話者による日本語よりも Oq が顕著に低かった。 この結果は,中国人学習者はより声帯が緊張した 発声でこれらの感情を表現しており,tense voice に近い発声様式を用いることを示している。ま た,発話者グループに関係なく,F0 が高く,Power が大きくなるほど,Oq が小さくなっているとい う結果は,Oq は F0 と Power と負の相関がある とする Henrich, d’Alessandro, Doval and Castellengo (2005)の報告と一致している。さらに,中国人学 習者による日本語と中国語の「激しい怒り」がと もに高音域で Oq が顕著に下がった特徴は,日本 語母語話者による発話では見られなかった。この ことは,母語である中国語の感情表出様式が,学 習した言語である日本語の感情表出に影響を与え た可能性を示唆する。 今回の研究では,三つのタスク文による声質と 音響的特徴における顕著な差が確認されなかった。 しかし,タスク文による感情表出の違いについて 検討することは,タスクの言語情報や句末音調が 感情表出に与える影響と,強調された局所の有無・ 場所およびそれと感情表出の関連性を明らかにす るために重要と考えられる。そのため,特に「オ バマが当選した」については今後,強調の有無・ 場所を考慮した音響・声質分析を行ない,さらに 考察していく予定である。 5. おわりに 本研究では日本語母語話者による日本語および 中国人学習者による日本語と中国語を対象とし て,音響的特徴とスペクトル傾斜に関する分析 (H1-A1, H1-A3, F1F3syn と EGG 信号による Oq)

および声質と韻律特徴の複合的な分析(Oq-valued VRP)を行なった。その結果,発話者の第一言語 によってその感情表出様式が異なることが示され

(12)

図 7 中国人学習者(男性)による中国語発話の Oq-valued VRP た。Oq 分析の結果により,中国人学習者が発話し た「押し殺した怒り」「喜び」「激しい怒り」と「悲 しみ」では日本語母語話者より声帯が緊張した発 声(tense voice)が観察された。また,日本語母語 話者が発話した「恐れ」「押し殺した怒り」「悲し み」「驚き」は中国人学習者による日本語と中国 語より強い気息性が見られた。さらに,日本語母 語話者による発話と異なり,中国人学習者による 日本語と中国語の「激しい怒り」はともに高音域 で Oq が顕著に下がった。このような発声様式は 母語である中国語の感情表出方法に影響されてい ることが示唆される。 感情情報に関わる韻律と声質に関する特徴を検 討した本研究の知見は,感情音声表出における言 語差を明らかにし,日本語をはじめとした外国語 教育においても有益であると考えられる。本研究 のさらなる課題として,日本語と中国語感情音声 において感情の度合いがどのように音声に表出さ れるのかについて,さらに考察を行なう必要があ る。また,今後は知覚実験を通して局所の強調の 有無と場所を調べ,韻律と声質分析を行ない,感 情表出の関連性を明らかにしたい。 謝 辞 論文執筆にあたり多くの有益なコメントをいた だきました査読者の先生方にこの場を借りて感謝い たします。本研究は,JSPS 科研費 17H02352,JSPS 科研費 JP20H05576 の助成を受けたものです。 〔注〕 1) 文化庁 (2019) によれば日本国内でもっとも日本 語学習者が多いのは,中国語を母語とする日本語学 習者が 91,547 人(32.9%),ついでベトナム語を母 語とする学習者で 62,117 人(22.4%),ネパール語 を母語とする学習者で 14,246(5.1%)人となって いる。 参 考 文 献 石井カルロス寿憲・石黒浩・萩田紀博(2006)「韻律お よび声質を表現した音響特徴と対話音声におけるパ ラ言語情報の知覚との関連」『情報処理学会論文誌』 47, 1782–1792. 甲斐朋子・田渕咲子(2003)「日本語の感情を含む発話 に対する韓国人日本語学習者の聞き取りと発話をめ ぐって」『ポリグロシア』7, 1–11.

(13)

木下直子・中川千恵子(2019)「気持ちを伝える音声の Web教材「つたえるはつおん」」李在鎬(編)『ICT ×日本語教育』254-268, ひつじ書房. 定延利之(2007)「話し手は言語で感情・評価・態度を 表して目的を達するか?:日常の音声コミュニケー ションから見えてくること」『自然言語処理』14(3), 3–15. 重野純(2001)「音声に含まれた感情の認知」『青山心理 学研究』1, 37–43. 中林律子(2011)「日本語音声に表れる感情の知覚―ロ シア人日本語学習者の知覚の個人差に着目して―」 『音声研究』15, 14–25. 広瀬啓吉(2002)「音声情報処理におけるパラ・非言語情 報」『日本音響学会講演論文集』1 (1-10-10), 243–246. 文化庁(2019)『令和元年度国内の日本語教育の概要』 https://www.bunka.go.jp/tokei_hakusho_shuppan/tokeic hosa/nihongokyoiku_jittai/r01/pdf/92394101_01.pdf (2020 年 7 月 14 日最終参照) 前川喜久雄・北川智利(2002)「音声はパラ言語情報を いかに使えるか」『認知科学』9, 46–66. 前川喜久雄・西川賢哉(2019)「「日本語話し言葉コーパ ス」への声質情報付与と予備的分析」『言語資源活 用ワークショップ 2019 発表論文集』205–221. 森大毅(2014)「話し言葉が伝えるもの」『国語研プロ ジェクトレビュー』4, 183–190. 森大毅・前川喜久雄・粕谷英樹(2014)『音声は何を伝え ているか―感情・パラ言語情報・個人性の音声科学 ―』コロナ社. 若狭健太・寺澤洋子・河原英紀・ 原健一(2018)「生 理・音響的特徴量分析によるオペラ歌唱と合唱歌唱 の比較検討」『日本音響学会秋季研究発表会講演論 文集』1121–1124.

Banse, R. and K. Scherer (1996) “Acoustic profiles in vocal emotion expression.” Journal of Personality and Social Psychology 70(3), 614–636.

Campbell, N. and T. Marumoto (2000) “Automatic labelling of voice-quality in speech databases for synthesis.” Proceed-ings of Sixth International Conference on Spoken Lan-guage Processing.

Campbell, N. and D. Erickson (2004) “What do people hear? A study of the perception of non-verbal affective infor-mation in conversational speech.” Journal of the Phonetic Society of Japan 8, 9–28.

Chronaki, G., M. Wigelsworth, M. Pell and S. Kotz (2018) “The development of cross-cultural recognition of vo-cal emotion during childhood and adolescence.” Scientific Reports 8(1), 1–17.

Elfenbein, H. A. (2013) “Nonverbal dialects and accents in facial expressions of emotion.” Emotion Review 5(1), 90– 96.

Erickson, D. (2005) “Expressive Speech: Production, percep-tion and applicapercep-tion to speech synthesis.” Acoustic Sci-ence and Technology 26, 317–325.

Erickson, D., C. Zhu, S. Kawahara and A. Suemitsu (2016) “Articulation, acoustics and perception of mandarin Chi-nese emotional speech.” Open Linguistics 2, 620–635.

Fujisaki, H. (1996) “Prosody, Models, and Spontaneous Speech.” In Y. Sagisaka, N. Campbell and N. Higuchi (eds.) Computing Prosody: Computational Models for Processing Spontaneous Speech, 27–42. Berlin: Springer. Gobl, C. and A. N. Chasaide (2003) “The role of voice quality in communicating emotion, mood and attitude.” Speech Communication, 40(1–2), 189–212.

Gordon, M. and P. Ladefoged (2001) “Phonation types: A cross-linguistic overview.” Journal of Phonetics 29, 383– 406.

Henrich, N., C. d’Alessandro and B. Doval (2001) “Spectral correlates of voice open quotient and glottal flow asym-metry: Theory, limits and experimental data.” Proceed-ings of EUROSPEECH 2001, 47–50.

Henrich, N., C. d’Alessandro, B. Doval and M. Castellengo (2005) “Glottal open quotient in singing: Measurements and correlation with laryngeal mechanisms, vocal in-tensity, and fundamental frequency.” The Journal of the Acoustical Society of America 117(3), 1417–1430. Ishi, C. T., H. Ishiguro and N. Hagita (2008) “Automatic

ex-traction of paralinguistic information using prosodic fea-tures related to F0, duration and voice quality.” Speech Communication 50(6), 531–543.

Ishi, C. T., H. Ishiguro and N. Hagita (2010) “Analysis of the roles and the dynamics of breathy and whispery voice qualities in dialogue speech.” EURASIP Journal on Au-dio, Speech, and Music Processing 2010(1), 1–12. Ishi, C. T. and J. Arai (2018) “Periodicity, spectral and

elec-troglottographic analyses of pressed voice in expressive speech.” Acoustical Science and Technology 39(2), 101– 108.

Klasmeyer, G. and W. F. Sendlmeier (2000) “Voice and emo-tional states.” In R. D. Kent and M. J. Ball (eds.) Voice quality measurement, 339–358, Berlin: Springer. Laver, J. (1980) “The Phonetic Description of Voice

Qual-ity.” Cambridge Studies in Linguistics London 31, 1–186, Cambridge University Press.

Li, X., A. Albin, C. Ishi and R. Hayashi (2019) “Japanese Emotional Speech Produced by Chinese Learners and Japanese Native Speakers: Differences in Perception and Voice Quality.” Proceedings of International Congress of Phonetic Sciences 2019, 2183–2187.

Liberman, M., K. Davis, M. Grossman, N. Martey and J. Bell (2002) “Emotional Prosody Speech and Transcripts.” Lin-guistic Data Consortium. https://catalog.ldc.upenn.edu/ LDC2002S28 (accessed June 10, 2019)

Liu, Y. (2011) “A study of emotional speech in Mandarin.” MD Thesis, Nanjing Normal University.

Maddieson, I. and P. Ladefoged (1985) “ ‘Tense’ and ‘lax’ in four minority languages of China.” Journal of Phonetics 13, 433–454.

Pell, M. D., S. Paulmann, C. Dara, A. Alasseri and S. A. Kotz (2009) “Factors in the recognition of vocally expressed emotions: A comparison of four languages.” Journal of Phonetics 37(4), 417–435.

(14)

State on Fundamental Frequency.” Proceedings of Inter-national Congress of Phonetic Sciences 2019, 67–71. Scherer, K. R. (1986) “Vocal affect expression: A review and a

model for future research.” Psychological Bulletin 99(2), 143–165.

Trager, G. L. (1958) “Paralanguage: A first approximation.” Studies in linguistics 13, 1–11.

Wang, T., Y. C. Lee and Q. Ma (2018) “Within and across-language comparison of vocal emotions in Mandarin and English.” Applied Sciences 8(12), 1–18.

Yang, H., L. Cai and D. Jiang (2005) “Analysis on

Expres-sivity and Acoustic Correlation of Speech.” http://hcsi. cs.tsinghua.edu.cn/static/Paper/paper05/200516.pdf (ac-cessed July 30, 2018)

Yuan, J., L. Shen and F. Chen (2002) “The Acoustic Realiza-tion of Anger, Fear, Joy and Sadness in Chinese.” Pro-ceedings of Seventh International Conference on Spoken Language Processing, 2025–2028.

(Received Jul. 31, 2020, Accepted Feb. 10, 2021, e-Published Apr. 30, 2021)

図 1 H1-A1 の音響的特徴 者による中国語)。 図 1 に基づき,言語 3 水準(日本語母語話者による 日本語発話,中国人学習者による日本語発話および 中国語発話)×感情 8 水準(中立,喜び,激しい怒り, 押し殺した怒り,悲しみ,驚き,恐れ,嫌悪)の 2 要 因分散分析を行なったところ,言語と感情の主効果 は有意であり (F(2, 21) = 8.61, p = .002, partial η 2 =
図 2 H1-A3 の音響的特徴 図 3 F1F3syn の音響的特徴 作用( F(14 , 147) = 4 . 93 , p &lt; . 001 , partial η 2 =
図 4 発話者グループごとの Open Quotient(Oq) 66 . 25 , p &lt; . 001 , partial η 2 = . 710),発話者と感情の 交互作用も有意であった (F(14, 147) = 6.66, p &lt;
図 5 日本語母語話者(男性)による日本語発話の Oq-valued VRP み声」と考えられる。しかし,この特徴は日本語 母語話者による「激しい怒り」では見られなかっ た。同様の傾向は「喜び」の高音域にも見られた。 さらに,図 7 から,中国語感情音声における「悲 しみ」 「恐れ」 「中立」以外の感情に関して, Oq が 小さい値(赤色)を取っている部分が広く分布し ていることが分かる。 4
+3

参照

関連したドキュメント

友人同士による会話での CN と JP との「ダロウ」の使用状況を比較した結果、20 名の JP 全員が全部で 202 例の「ダロウ」文を使用しており、20 名の CN

このように,先行研究において日・中両母語話

従って、こ こでは「嬉 しい」と「 楽しい」の 間にも差が あると考え られる。こ のような差 は語を区別 するために 決しておざ

語基の種類、標準語語幹 a語幹 o語幹 u語幹 si語幹 独立語基(基本形,推量形1) ex ・1 ▼▲ ・1 ▽△

 声調の習得は、外国人が中国語を学習するさいの最初の関門である。 個々 の音節について音の高さが定まっている声調言語( tone

日本語教育に携わる中で、日本語学習者(以下、学習者)から「 A と B

高等教育機関の日本語教育に関しては、まず、その代表となる「ドイツ語圏大学日本語 教育研究会( Japanisch an Hochschulen :以下 JaH ) 」 2 を紹介する。

日本語接触場面における参加者母語話者と非母語話者のインターアクション行動お