九州大学学術情報リポジトリ

(1)

九州大学学術情報リポジトリ

Kyushu University Institutional Repository

演奏音の最適残響レベル : 無響室録音音源と電子残響を用いた、音源信号の特徴量と、残響の最適ミキシングレベルの関係の考察

入交, 英雄

https://doi.org/10.15017/1398377

出版情報：Kyushu University, 2013, 博士（芸術工学）, 課程博士バージョン：

権利関係：Fulltext available.

(2)

2013 年度博士論文

演奏音の最適残響レベル

- 無響室録音音源と電子残響を用いた、

音源信号の特徴量と、残響の最適ミキシングレベルの関係の考察 - The Optimal Reverberation Mixing Level of Several Music Sounds

Recorded in an Anechoic Room

入交英雄 Hideo Irimajiri

九州大学大学院芸術工学府芸術工学専攻コミュニケーションデザインコース

学籍番号：3DS08007P 2013 年 4 月

指導教員：岩宮眞一郎教授

(3)

(4)

3 演奏音の最適残響レベル

4

第4章実験２ E値と残響の最適ミキシングレベルの関係 ... 33

4.1 実験条件 ... 33

4.2 結果 ... 34

4.3 セグメント長の検討 ... 35

4.4 考察 ... 36

4.4.1 呈示音圧レベルの影響 ... 36

4.4.2 振幅エンベロープの影響 ... 37

4.4.3 楽曲構成要素の影響 ... 39

4.4.4 同じ楽曲の異なる場所でのE値と残響の最適ミキシングレベルの関係 ... 39

4.4.5 オーケストラ楽曲とソロ楽曲におけるE値と残響の最適ミキシングレベルの関係 40 4.5 まとめ ... 41

第5章実験３一般実験参加者による楽曲と再生レベルを変えたときの E値と残響の最適ミキシングレベルの関係 ... 42

5.1 実験条件 ... 42

5.2 分析 ... 44

5.3 E値の検討 ... 47

5.4 まとめ ... 50

第6章実験４再生音量の影響の詳細検討 ... 51

6.1 実験条件 ... 51

6.2 分析 ... 52

6.3 まとめ ... 56

第7章実験５残響時間の影響の詳細検討 ... 57

7.1 実験条件 ... 57

7.2 分析 ... 58

7.3 C80値との関係 ... 62

7.4 C05値との関係 ... 64

(6)

5

7.5 まとめ ... 66

第8章実験６ジャンル別楽曲におけるE値と残響の最適ミキシングレベルの検討 ... 68

8.1 実験条件 ... 68

8.2 分析 ... 70

8.2.1 ラウドネス評価実験 ... 70

8.2.2 残響音の最小可聴閾値 ... 72

8.2.3 残響の最適ミキシングレベル ... 74

8.3 残響の最小可聴閾値と残響の最適ミキシングレベルの関係 ... 75

8.4 E値の検討 ... 76

8.5 周波数領域の特徴量－スペクトル成分の標準偏差による楽曲種別の分離 ... 81

8.6 E値とスペクトル標準偏差と残響の最適ミキシングレベルの関係 ... 83

8.7 まとめ ... 84

第9章結論 ... 86

第10章考察 ... 88

第11章終わりに ... 91

第12章謝辞 ... 92

参考文献 ... 93

(7)

要旨

6 要旨

本研究は、最適な残響とは何かというテーマにおいて、録音における残響の最適ミキシングレベルを明らかにすることを目的とした。

録音における、良い残響とは、録音家や演奏家に委ねられた主観的要素だけで決まると考えられていたが、最適な残響の量は、楽曲の特徴と、残響時間、再生音量との間に普遍的な関係があり、それらは残響量の決定に関わる客観的要素であることが判ってきた。

それら要素の関係を調べるため、無響室録音のオーケストラ楽曲、独奏器楽楽曲、小さなアンサンブル楽曲などの音源について、残響時間、音源の再生レベルを変えながら、録音エンジニアと学生中心の一般聴取者の2群の実験参加者に対し、調整法で残響音を最も適していると感じるレベルに調整させる実験によって調査した。

最適と感じる残響音のレベルを「残響の最適ミキシングレベル」と定義したところ、残響時間、

刺激音源の再生レベル、音色要素などの楽曲の特徴に応じて、残響の最適ミキシングレベルも変化することが判った。

残響の最適ミキシングレベルに影響する楽曲の音色要素の特徴を調べたところ、音量変化の激しい楽曲ほど残響を感じやすい傾向が示された。この現象は、D. Griesingerの提唱する、楽曲の演奏中に楽曲自らの音が、自らの楽曲に付帯している残響音をマスクするために大きさが変化する「動的残響のラウドネス」が、楽曲によって異なることで説明できる。すなわち、ある音響信号に残響を附加した場合、残響音のラウドネスは残響時間に応じた一定勾配で減衰するが、信号レベルが急激に小さくなる部分では元信号のラウドネスも急激に小さくなり、その結果、相対的に残響音のラウドネスが大きくり残響音が聴こえやすくなると考えられる。

そこで、楽曲の信号エンベロープと、楽曲の信号へ残響に相当する減衰を適用した仮想残響エンベロープとの差分が、マスキングされずに聴こえる残響成分と考え、楽曲音源の信号エネルギと楽曲音源の信号へ仮想残響エンベロープを適用した仮想残響の信号エネルギとの比を、楽曲音源の特徴量、すなわちエンベロープ指数（E値）として定義した。

その結果、E値と残響の最適ミキシングレベルは、種々の無響室録音楽曲に電子残響を付加する条件で、高い相関関係を持つことが判った。しかし、この関係は同種楽曲の時、例えば同じオーケストラ楽曲間や同じソロ楽器間には高い相関関係が認められるが、異種楽曲間では高い相関関係が認められないことも判った。

(8)

要旨

7

次に、異種楽曲間の特徴はスペクトル構造にあると考え、楽曲信号の1/12oct.バンド毎の平均パワーレベルを求め、その標準偏差をスペクトル標準偏差と定義したところ、この特徴量により楽曲種が分離できることが判った。そこで、E値とスペクトル標準偏差の積の対数を楽曲の特徴量として検討したところ、異種楽曲音源を含む場合でも、残響の最適ミキシングレベルとの間に大きな相関関係のあることが認められた。

一方、残響音の物理的側面を考察すると、異なる残響時間の残響を付加して、残響音を最も好ましいレベルにミキシングするとき、残響時間が2倍になる度に、残響の最適ミキシングレベルが約6dBずつ減少することが判った。

また、再生レベルが、残響の最適ミキシングレベルに影響を与えることが判明した。その影響量は、実験参加者が、録音エンジニアと一般聴取者の場合で若干異なる傾向を示すが、再生レベルの増加1dBあたり、0.1～0.4dBの減少であることが判った。

これらを総合すると、残響の最適ミキシングレベルは、残響時間、再生レベル、E値、スペクトル標準偏差の各々に負の相関を持ち、電子残響プログラムの残響時間、楽曲の無響室録音におけるE値、及びスペクトル標準偏差を知ることができれば、残響の最適ミキシングレベルは次式で推定できるものと考えられる。

Lpm＝α − β ∙ log₁₀(E₂(20) × 𝐬_{𝑠𝑝𝑒𝑐𝑡𝑟𝑢𝑚}) − γ ∙ log₁₀(Tr) + δ ∙ Lrp (dB)

但し Lpm ：残響の最適ミキシングレベル

E2 (20) ：仮想残響時間2秒、算出用セグメント長20msのときのE値

𝐬𝑠𝑝𝑒𝑐𝑡𝑟𝑢𝑚：スペクトル標準偏差 100～12.5kHzの1/12oct.バンド分析によるバンド毎平均パワーレベルの標準偏差

Tr ：残響時間

Lrp ：基準再生レベルに対する再生レベルの差 α, β, γ, δ ：定数

以上より、残響の最適ミキシングレベルは、楽曲の特徴量としてE値とスペクトル標準偏差を導入することにより、楽曲毎に残響時間と再生レベルの関数で表せることが示唆された。

(9)

第1章序論

8 第 1 章序論

1.1 初めに

本論文で扱う録音とは、ホールなどで行われる演奏をマイクロホンで収音し、任意のメディアに記録、そして任意の場所でスピーカによる再生を行って、人々がコンサート会場に行かなくても音楽を楽しめるという目的でなされる音楽録音を指す。

録音には、記録という工程があるため、演奏間違いの修正や、収録時に完結できなかった音楽バランスの修正を行うことが可能で、これら一連の録音・編集行為は、一つの芸術活動と考えられている。この考えに立てば、録音のためにマイクロホンを並べ、音質調整する行為は、単なる技術ではなく芸術活動の一端を担うもので、これら活動を総合して、再生芸術、レコード芸術、

などと呼ぶ人々も存在する。

このような背景により、録音技術は、科学的な側面や聴覚心理学ないし認知学的な側面が、整理されずに説明される場合が多く、技能や職人技という個人能力として捉えられることになる。

さらに、録音現場では、物理的側面を留意しても、例えば、ある録音においてマイクロホンと演奏者の位置関係を計測して次の録音で再現しても、録音された音は同一の印象とならない場合が多い。このような再現性の低さも、録音は、結局、経験と勘に頼らざるを得ない「技能」であるという印象を強める要因となっている。

経験と勘によって成り立つ「技能」に対し、科学的解析を加えることは、はなはだ僭越なことかもしれないが、以下に述べる理由によって録音のための理論を体系化しておく必要を感じたことが、本研究を推し進めた動機である。

さて、古楽研究家であるNikolaus Harnoncourtによれば、音楽は現代において危機的状況にあるという [1]。彼によれば、有史以来、音楽は常に時代と共にあり、親方から弟子に当たり前のように受け継がれ、普段話す言葉と同じように理解された。聴衆もまた音楽と共にあり、音楽の意味を考えるまでもなく理解していた。音楽とは元来、一般教養であり、生活に直結したもので、常にその時々の「現在」の音楽が聴かれていた。

しかし、フランス革命以降、コンセルヴァトワール式の音楽教育が普及すると共に師弟関係は崩壊し、音楽の存在が、その時々の現在、、

と乖離するようになった。ついに、いわゆる現代音楽は、

言葉のようには理解されず、今や我々は、過去の音楽ばかりを楽しむことに逃避している。

しかるに過去の音楽は、言葉で言えば古語であり、その古語を知りその時代の背景を理解して

(10)

第1章序論

9

いないと作品の本質は理解されない。本質が理解されないがゆえに、多くの現代の音楽家は、音楽の表面的な、美と感情ばかりを追求してしまうのである。

一部の音楽家は、作品の本質に迫るためには、音楽の知識と形而上学が必要で、音楽学の体系化は必然であることを知っていたが、音楽学の知識を知っていても、形だけであれば、その音楽学的演奏は歴史的には正しくても、生命を育まない音楽となってしまう。その結果、音楽は博物館的存在になりつつあり、その時代の人に等しく理解される音楽は、急激に影を潜めてしまった。

以上がN. Harnoncourtの主張する音楽の危機的状況であるが、録音も似通った状況に陥って

いると考えられる。録音の歴史は、音楽の歴史に比べ遙かに短いが、その短い年月の間にも、師弟関係を通じて行われていた録音技術の伝承が、風化しつつある。音楽は、それでも教育システムや音楽学として体系化されているが、録音は、歴史も浅く音楽学に相当するものが充分に体系化されているとは言えない。

例えば、録音空間における楽器とマイクロホンの相互関係と、その録音内容物の再生空間でスピーカと聴取者との関係においてなされる主観評価との関係は、付帯する様々な要素が複雑に絡み合うため、ある程度の因果関係は判りつつあるが、解明されるまでには至っていない。

また、録音技能に要求される能力には、音に関すること以外に、音楽家と対等に作品内容について議論できる音楽的能力や、録音現場において円滑に作業を統べる監督的能力が必要である。

これら能力開発メソッドを体系化して教える教育機関は、数えるほどしか存在していない。

そのような中、ドイツのトーンマイスター制度における録音家育成メソッドは、有能な録音家を育てる優れたシステムであり、マギル大学では、録音における教科の実践ばかりでなく、サラウンド音場の解析と主観評価による研究など、科学的アプローチを積極的に行っている [2] 。

様々な技術ごとの課題は、各機関で研究されている。特に音場再現に関する研究は盛んで、IRT

研究所のGunther Theileは、マイクアレンジに関する研究を行い、マイクロホン配置と2つの

スピーカ間に定位する音の虚像の位置関係を子細に検討している [3] 。

一方、再生技術においても、マルチチャンネルスピーカ再生による空間認識や、デジタル放送の普及と共に認識が広まったサラウンド録音の方法が研究され、最近では高臨場感再生や音場合成などへの検討が進んでいる [4]。

ところが、実際の録音は、録音家の主観によって行われる。その主観が、聴取者と同じ価値観に即したものなのかどうか、もっと根本的なところで、良い録音のための条件とは何であるか？

これらについてはあまり検討が進んでいないようである。

(11)

第1章序論

10

録音家は、自身の好みとは別に、演奏家や聴取者の「好み」を推察し、その好みに合致するように、主観的に録音を調節する責務を負っている。しかし、N. Harnoncourtの主張するところの音楽に対する共通価値観の失われた現代において、録音家は、演奏家の好みを推察するとともに、確信を持って、この音が最適であると決断するに充分な、かつては常識であったかも知れない、様々な知識を学ぶ必要がある。それらは、音楽家も学ぶ必要のある音楽学と形而上学に加え、

響きなど、音そのものの受け止め方や美学である。さらに、このような時代の流れにおいて、録音技術の体系化だけではなく、音楽学に相当する録音学とでも言うべき、音に対する価値観までを包含した録音理論の体系化が必要であると考える。

その中でも重要で複雑、且つやっかいなテーマが残響である。音楽の録音において、残響の無い録音は考えられない。筆者は、本研究において残響を研究するため数々の無響室録音を聴いたが、無響室録音は楽しめる代物ではない。筆者の主観ではあるが、その音は、音色の3因子 [5, 6]

で言えば、迫力は無く、美しくなく、金属質であり、そして好ましさは最低の評価と言えるだろう。残響は、食物で言えば瑞々しさであり、香りであり、旨みであって、それらの無い無響室録音は、乾し飯のようなものである。

それほどに重要な要素である残響であるが、録音における残響を正面切ってテーマとした研究は、意外なほど少ない。残響を定量的に扱うにはパラメータが莫大であることも関係するが、何よりも残響は、個人的な嗜好の問題として捉えられるところに原因があるのではないだろうか。

建築音響設計の立場からの残響評価に関する研究は、佐藤らの「残響・騒音の音声聴取に及ぼす影響の評価に関する実験的検討」 [7]、橋本らの「残響音場における残響とエコーが音声聴取に与える影響」 [8]、村田らの「ホール音響がピアノ演奏に与える影響に関する実験的検討」 [9]

等、枚挙にいとまがないが、どちらかといえば明瞭度に関する研究が多い。聴衆のホール残響に関する嗜好調査のような、「好み」の問題について明快に答える研究は少ないようである。

残響は、物理的には、残響時間、直接音対間接音比に始まり、初期反射音の構成、到来方向、

周波数特性、周波数残響時間特性、カラーレーション等、数多くの要素で成り立っている。それら要素と嗜好にどのような相互関係があるのか論ずることができれば、録音技術を録音学へと昇華する足がかりとできるのではないかと期待を抱いている

本研究は、それらに鑑みて、残響の種々の要素のうち、残響時間と残響の量に着目した心理実験を通じて、主観的に論じられる「嗜好」の中に、普遍的な要素や特徴量を考察する目的で行った。本研究は、録音学の体系化への長い道程の僅かな一歩であるが、その礎となれば幸いである。

(12)

第1章序論

11

1.2 録音の研究とは

録音の研究は、ホールなどの空間で行った録音の演奏者とマイクロホンの関係が、録音場所と異なる空間で再生されるとき、聴取者の主観的印象に与える影響を調査し体系づける研究である。

IRT研究所のG.Theileは、録音時におけるマイクロホンの配置と、再生時におけるスピーカ

配置との関係において、収録した音源の定位感について研究を行った [3]。ただし、マイクロホン配置とスピーカ配置が、同時に変化すると際限ない組み合わせができるため、スピーカ配置についてはITU-R（International Telecommunication Union. Radio communication Sector：国際通信連合－無線通信部門）のRec. BS.775 [10]に沿った配置に限定している。

BS.775では5チャンネルまでマルチチャンネル・ステレオフォニック再生のスピーカ配置を

規定していて、多くのスタジオがBS.775を参照して再生環境を構築している。BS.775の概要は、

人の頭蓋を中心とした水平面の、任意半径の円周上にL（左前方）、R（右前方）、C（センタ）、

Ls（左後方）、Rs（右後方）の5つのスピーカを配置する。正中面前方にCを設置し（方向 = 0°）、従来のオーディオ受聴環境との互換性を重視して L、RのスピーカをCから±30°、Ls、RsのスピーカをCから±110°（許容誤差±10°）に位置に、各スピーカの設置高を1.2m（受聴者の耳の高さ、ただし後方スピーカに関しては仰角15°までならば、L、C、Rより高い位置に設置可能）に設置することを推奨する規定である。後方スピーカは、後というよりは横への配置で、

このようなやや後方の横位置からの再生は，人間の聴覚に対して最も多い情報量を与えることができると説明されている。

再生空間における音源の定位や距離感は、音楽の構造を知るために大変重要な情報である。定位については、もともと動物が生きるために備えている機能で、かなり鋭敏に感じ取ることができ、その検知限は水平方向の角度にして1～3度であることが示されている [11]。

ただし、実際の録音において、ステージ上の楽器の位置関係を正確に定位させることが、良い録音の必要条件ではない。もちろん定位の明確な録音を否定するものではないが、音楽によっては実際の音源位置ではなく、デフォルメした方が判りやすい場合がある。例えば、オーケストラ楽曲で時折聴かれる、第1バイオリンのソロは（指揮者の左側のバイオリン群の一番指揮者に近い場所に座るコンサートマスターが演奏する）、観客目線からは、ステージ上の指揮者のすぐ近くで、ほぼ中央の位置で演奏している。しかし、ほとんどの録音では、こういったバイオリンソロは左のスピーカから聴こえてくるもので、我々もそれを自然と感じる。また、もし、バイオリンソロにチェロのソロが対位する場合、チェロも実際には、ステージ上で指揮者のすぐ右に位置し、

(13)

第1章序論

12

ほとんど中央に位置しているはずであるが、多くの録音で右のスピーカから聴こえ、バイオリンと左右の対を成し、聴取者もバランス良く感じる。

実は、指揮者の位置から見ればバイオリンソロとチェロソロは、明らかに左右180度に位置し、

また、通常メインマイクロホンは指揮者の頭上付近に吊り下げられることもあって、録音された音は、指揮者の聴いているバランスや定位に最も近い再現となっている。すなわち、録音は、実際の観客席での音場再現を目的としないのである。では、指揮者位置での音再現を目指す録音が良い録音かといえば、それも異なる。

オーケストラなど、奥行き方向に楽器が存在する場合、前方の楽器と後方の楽器では、マイクロホンとの相対距離が異なるため、後方の楽器ほどぼやけて録音される。聴衆の位置からは、前方の楽器と後方の楽器も、相対的な距離差は大きくないが、マイクロホン位置からの相対距離はかなり異なる。最前列のバイオリンやビオラと最後列の打楽器では数倍の距離となることも珍しくなく、この相対距離を少しでも縮めるために、マイクロホンをかなり上方に設置し、オーケストラを捉える。すなわち、上方からオーケストラを俯瞰する位置にマイクロホンを設置することによって、最前列の楽器と最後列の楽器の距離差を2倍程度に抑えられる。もちろんオーケストラ中央の上方にマイクロホンを設置すれば、距離差はさらに縮むが、同時に遠近感が無くなってしまう。各楽器の自然な遠近感を得るためには、指揮者の頭上から後方3m程度までの間で、高さ3～4mの位置が経験上最も良い位置とされている。

このような「音の方向感制御」に基づく、ステレオフォニック、5.1chサラウンド・サウンド、

22.2chサラウンド・サウンドなどの技術が開発される一方、「聴取点における音圧制御」に基づ

く、バイノーラル、頭部伝達関数合成、トランスオーラル方式などの技術も開発されてきた。

バイノーラルなどは、ヘッドホン受聴が前提であるため、一般的な音楽再生から考えると特殊な技術といえる。ただし、条件が整うと確かにその現場に居合わせたような音場再現性があり、

音の表現手法としては優れている。

しかしながら音楽録音に限っていうならば、先にも述べたように音楽の表現に即した録音演出を加える場合が多く、現場に居合わせたような音場再現性を優先させるような事例は少ない。また、人間の頭は固定されているわけではなく、無意識に頭を動かすことによって音の到来方向などを感じ取っている。ヘッドホン受聴の場合、頭を動かしても、相対的な音場関係は変化せず、

そこに違和感を生むことになる。頭の運動に従って音像をダイナミックに制御する技術も生まれたが、今のところ普及するには至っていない。バイノーラル受聴をスピーカ再生で合成再現する

(14)

第1章序論

13

トランスオーラル方式も、頭を動かすと伝達関数が変化するため、自然な再生音を得ることが困難である。

そこで音場を自然に再現すべく、境界音場制御や波面合成などによる、「空間音場制御」に基づく再生法が台頭してきた。この方法は、受聴者の周りの限られた空間について、できる限り現場に近い音場を物理的に再構成する方法で、正確な音場再現としては、現在考え得る最良の方法といえる。頭の運動も制約がないので聴取者にも不自然感が無い。欠点があるとすれば音場再構成のために、莫大な数のマイクロホンと同数のスピーカ、伝送路が必要となり、コスト的に見合わないことである。この方法はまさに現在進行形で研究が重ねられており [4]、やがては安価に供給できる方法が開発され、一般にも普及することが期待されている。

1.3 残響

残響感について、ホールなどで感ずる残響と、録音再生によって感ずる残響を比較すると、マイクロホンを観客席に設置した録音を聴いた場合、思った以上に残響量が大きいことに驚くことがある。実際に会場の客席で聴いた印象は、カクテルパーティー効果や視覚の影響もあって、残響過多に感じることはほとんど無い。前項での定位感でもそうであったが、実際に現場で聴く印象と、一旦マイクロホンを通して録音再生した音の印象は、異なる場合が多い。

通常の録音の場合、客席位置として最も良いと考えられる会場中央の場所は、アンビエンスマイクロホンという、メインマイクロホンだけでは足りなかった、ホールの広がり感や残響感を補うマイクロホンを置く位置とほぼ同じ位置となる。録音家は、その位置がメインマイクロホンの設置場所として楽器から遠すぎ、残響過多となることを経験的に知っている。

残響の知覚に関する研究は、田原らが行った、残響の長さ感の検知限は実残響時間の6～7％で、

残響の長さ感は、その長さそのものを感じるのではなく、残響によるラウドネスの減衰勾配に決定されるという、残響時間弁別閾の数式モデル化の研究 [12] や、瀬古らの、聴取レベルと残響感には正の相関、両耳間相互相関度と残響感には負の相関があることを示した、聴取音圧レベルと両耳間相互相関度と残響感の研究 [13] など、いくつかの研究が散見されるが、録音における残響感の研究は、あまり多くは発見できない。

数少ない論文の中で、レキシコンのリバーブ装置の開発者として名高いDavid Griesingerの研究が興味深い [14, 15]。彼は、RR（Running Reverberation：動的残響）と呼ばれる「演奏中に聴こえる残響」の概念について述べ、残響音のラウドネスに着目した。楽曲は変化を伴う連続し

(15)

第1章序論

14

た音響信号で、大部分はパルスのように急峻に音が停止する信号ではない。この連続信号に残響を付加した場合、常に楽曲の演奏音と残響が混合しながら存在することになる。これは、パルスのように元の音響信号が無くなって、残響音のみが聴こえる場合とは異なり、楽曲の信号と絶えず相互的に影響し合い、相対的に残響が大きく聴こえたり小さく感じたりする。このような残響を動的残響と名付け、残響の音の大きさを残響音のラウドネスと位置づけている [14, 15] 。

録音家は残響音のラウドネスを頼りに残響成分をコントロールしていること、楽曲信号そのものが残響成分をマスキングするため、曲のタイプによって残響音が異なったラウドネスとして知覚され、その結果、残響成分のコントロール量も変化することを指摘した。これは、見識ある録音家が、楽曲の種類によって残響のミキシングレベルを変えることに符合する。

1.4 本研究の目的

前節の考察から判ることは、家庭などのリスニングルームでの再生を目的とした録音に適する定位感や残響感は、実際にホールの観客席に要求されているものとは異なっているということである。では、アコースティック楽器の録音における最も重要な条件は何であるか考えた場合、再生音において楽器の直接音とホールの響きがバランス良く融合することではないだろうか。

録音家は、ホールにおいてアコースティック音楽の録音を行う場合、ホールの中で直接音と響きが調和している場所を探し、マイクロホンを設置する。また、もうひとつのアプローチとして、

比較的音源に近接して設置するマイクロホン（直接音用マイクロホン）とホール残響の収音用に音源から離れた場所に設置するマイクロホン（アンビエンスマイクロホン）の2種類のマイクロホンを用い、2つの信号を適切なバランスにミキシングする方法がある。

いずれの方法も、良い録音の条件として、直接音と残響音（間接音）の混合比が重要な役割を果たすものと考えられる。そこで、人が最適と感じる直接音と残響音（間接音）の混合比を、「残響の最適ミキシングレベル」と呼ぶことにした。

先にも述べたようにD. Griesingerは動的残響のラウドネスに着目し、楽曲によって最適な残響成分量が異なっていること [14, 15] を指摘したが、すなわち良い残響の条件には、楽曲の音響信号としての要素も含まれることが示唆され、検討する必要が生じた。

D. Griesingerの実験では、楽曲をリコーダ・ソロ、弦楽4重奏、オーケストラとジャンル別

にカテゴライズして検討を加えたが、色々なジャンルの曲想の異なる楽曲については考慮されてはいない [15]。

(16)

第1章序論

15

そこで本研究は、オーケストラ楽曲、小編成楽曲など、曲想の異なる無響室録音の楽曲音源へ電子残響を付加するときに、音楽制作の担い手である録音エンジニア、あるいは一般聴取者が最も好ましいと判断する残響の最適ミキシングレベルを調査し、楽曲の音響信号の特徴との関係を考察することを目的とした。

1.5 本論文の構成

本論文では、1章で本研究の背景と経緯、録音の関する研究の現況と本論文の位置づけを述べ、

2章で残響時間、再生チャンネル数、楽曲の各条件と、残響の最適ミキシングレベルの関係についての大まかな傾向を調査した。

3章では、楽曲の経時構造から導くエンベロープ指数（E値）を提案し、その意味と導出過程について述べ2章の実験データで検証した。

続く4章で実験参加者に現役ミキシングエンジニアを起用し、楽曲数を増やしてE値と残響の最適ミキシングレベルとの関係を検討しE値の適性について述べた。

5章では、実験参加者に一般人を起用し、楽曲と再生レベルを変えてE値と残響の最適ミキシングレベルの関係の調査し、E値の一般性と再生レベルの影響について述べた。

6章では、詳細な再生ラウドネスと残響の最適ミキシングレベルの関係について検討すると共に、7章で詳細な残響時間と残響の最適ミキシングレベルとの関係を検討し、再生音量と残響時間の影響について述べた。

8章では、ラウドネスマッチングを実施した上で、楽曲と残響の最適ミキシングレベルとの関係の調査し、スペクトル標準偏差とE値との積であるES値を導出し、残響の最適ミキシングレベルとの関係を検討し、その妥当性について述べ、9章の結論、10章の考察で総括を述べた。

(17)

第2章実験1 残響の最適ミキシングレベルの傾向調査

16 第 2 章実験 1 残響の最適ミキシングレベルの傾向調査

実験１として、電子残響装置において1、2、3秒の3段階の残響時間、テンポなどが異なる4 種類の楽曲、モノフォニック、ステレオフォニック、4chサラウンドサウンドの3種の再生方法、

の各々を変化させて呈示し、残響の最適ミキシングレベルを調整法によって調査した。実験1は、

残響の感じ方について、おおよその傾向をつかむことを目的とした。

2.1 実験条件

刺激音源に、無響室録音のオーケストラ音源としてDENON制作のCD（70CO-2309） [16]

を用いた。曲想による違いを検討するため、演奏法、テンポなどの異なる4曲を選び、それぞれ約30秒間を抽出した。選定した楽曲は、表－1に示すように、モーツァルト作曲：フィガロの結婚序曲（以下Figaro）、ヨハンシュトラウス作曲：ピチカートポルカ（以下PizzPolka）、グリンカ作曲：ルスランとリュドミラ序曲（以下Ruslan）、ドビュッシー作曲：牧神の午後への前奏曲

（以下Debussy）である。

実験には、Avid社のpro tools HDと呼ばれるDAW（デジタルオーディオワークステーション）

を使用し、電子残響プログラムには、同じAvid社製のReVibeというモデリングリバーブ・プラグイン・プログラムを用いた。また、この電子残響プログラムのプリセット・プログラムから、

ホールタイプのアルゴリズムを選び、初期反射音やプリディレイなどのオプションを無効にした上で、残響時間のパラメータのみ1秒、2秒、3秒の3段階に変化させて用いた。また、インパルス応答による1kHzの残響時間の実測値をRT60で表せば、各々RT60 = 1.01秒、1.98秒、2.89 秒であった。（残響時間の計測の詳細は2章2節を参照のこと。）

表－1 実験1用楽曲音源一覧

1 Figaro フィガロの結婚序曲冒頭 *1 モーツァルト 73 -4.4

2 PizzPolka ピチカートポルカ *1 ＪシュトラウスⅡ 50 -9.1

3 Ruslan ルスランとリュドミラ序曲冒頭 *1 グリンカ 76 -4.3

4 Debussy 牧神の午後への前奏曲　冒頭フルートソロの部分*1ドビュッシー 55 -2.2

*1 　無響室のオーケストラ　Denon　70CO-2300　Anechoic recordings of symphonic music 呈示SPL(音圧レベル）は騒音計による目視計測　ドライソースは原音のみを指す

ドライソース平均呈示SPL

dB(A特性）

残響の最適ミキシング

レベルｄB

略号曲目作曲者

(18)

17

刺激音の再生については、ITU-R BS.775 [10]を満足するスピーカ配置を行い、モノフォニック（センタースピーカーのみ、以下モノ）、2チャンネル・ステレオフォニック（フロントL－R スピーカ、以下ステレオ）、4チャンネル・サラウンドサウンド（フロントL－R、及びリアL－

Rスピーカ、以下クワドラ）の3種類の再生方法を設定した。モノ再生では、原音、残響音ともセンタースピーカーから、ステレオ再生では、原音、残響音ともフロントL－Rスピーカから、

クワドラ再生では、原音はフロントL－R、残響音は全てのスピーカから再生され、残響成分はどの再生法でも、全てのスピーカから同音量、かつ合計音量も同一となるように調整した。

調整法による実験は、東京芸術大学の音響制作スタジオにおいて、録音エンジニア10名（年齢30 ～ 40歳代の男性のみ）を対象に、実験参加者を1名ずつ最適聴取位置に座らせて行った。

使用したスピーカは、GENELEC社8050を使用し、ARIB TR-B30 [17]に記載のスピーカ調整法に準じ、－23dBFSrmsのピンクノイズを規定状態の実験系に接続し、聴取位置に設置した騒音計でチャンネル毎のC特性音圧レベルが79dBとなるように調整した。なお、各楽曲の再生レベルは、楽曲自体に弱奏強奏の差があるため、ラウドネスマッチングは行わず、相対的なレベル関係をCDに収録されているオーディオ信号レベルと同等にした。実験終了後、聴取位置での A特性平均音圧レベルを、騒音計表示をslowにして目視により測定したところ、Figaro：73dB、

PizzPolka：50dB、Ruslan：76dB、Debussy：55dBであった。

2.2 電子残響について

電子残響プログラムは、前項でも触れたようにAvid社製のReVibeというモデリングリバーブ・プラグイン・プログラムを用いている。プラグイン・プログラムを利用した主な理由は、専用のリバーブ･マシンを使用するより、各種パラメータがDAWに作成するプロジェクトファイルに組み込まれるため、パラメータ管理が簡単になると共に、再現性が高いからである。

音質については、実験者の主観であるが、専用マシンに比べ、「きめ細かさ」や「なめらかさ」

について若干劣るが、一般的な使用には問題とならない。また、実際の業務にもよく用いられるプラグインで、5.1chサラウンドまで対応している。

ReVibeは、初期反射音ブロックと、後期残響部ブロックの2つの要素を独立にコントロール

できるプラグイン・プログラムであるが、本研究では初期反射音ブロックを使用せず、後期残響のみ用いた。ReVibeでは、初期反射音を部屋のキャラクターを表現する目的で用いるが、本研究では残響の減衰に着目するため、初期反射音ブロックを省いた。

(19)

18

残響時間を2秒に設定したReVibeのみのインパルス応答を図－1に示す。

残響時間の算出のため、インパルス応答に中心周波数1kHzの1オクターブ・バンドパスフィルターを適用し二乗平均する。図－2に示したフィルタ適用後の二乗平均波形のエンベロープを観察すると、インパルス入力の約0.2秒後より、ほぼ一定の勾配で減衰することが判る。しかし、

40dB程度減衰後はノイズ等の影響で勾配が緩やかとなりS/Nの確保が難しいため、残響時間の定義は、信号パワーレベルの60dB減衰に要する時間であるが、本稿では信号のピークの－2dB から－32dBにかけての30dB減衰に要する時間の2倍として算出し、便宜上RT60で表す。

図－1 ReVibeのインパルス応答（設定残響時間＝2s）

図－2 ReVibeのインパルス入力後の残響減衰特性

（○印はピークから－2dBと－32dBの点、点線はそれを2倍した減衰区間でRT60に相当）

RT60相当の時間

(20)

19

図－3 ReVibe (RT60=2s/1kHz oct.band) の1/3オクターブバンド周波数－残響時間特性

図－4 ReVibe (RT60=2s/1kHz oct.band) の1/3オクターブバンド残響減衰特性

(21)

20

次に、インパルス応答を中心周波数25~16kHzの1/3オクターブバンドでフィルタリングし、

それぞれの残響時間（RT60）とEDT (Early Decay Time) を求めた。ただし、RT60は160Hz 以下における後述のS/Nの影響を避けるため、20dB減衰区間の3倍を残響時間RT60とした。

それら残響時間に関する「周波数－残響時間特性」を図－3に、1/3オクターブバンド毎残響減衰特性を図－4へ示す。残響プログラムの初期反射音ブロックを使用しなかったため、RT60と EDTは、かなり近い値なので、本稿では、以降、残響時間にRT60/1kHz oct.bandの値を用いた。

また、低域から高域に向かって残響時間は、一般的な部屋と同様に減少傾向を示している。

一方、残響減衰特性を検討すると160Hz以下ではS/Nが充分に取れず、減衰が途中から一定となる傾向があり、最低域の25Hzでは、－30dB付近で一定となっていることが判った。ただし、中心周波数160Hz以下の1/3オクターブバンドにおけるS/Nの悪化であり、全体への影響は小さく、実際の聴取でもノイズを確認できなかったので、実験に差しつかえないと判断した。

2.3 実験方法

図－5に示すように、DAW上に、無響室録音音源（Orchestra Anechoic Chamber Recording Source）を配し、その出力に直結した主チャンネル（Main Channel）と、リバーブセンドを通じて結合した電子残響装置（Reverberation Plugin Effector）のリターンを入力する残響チャンネル（Reverberation Channel）からなるミキシング回路を構成する。（図はモノの場合）

DAWのコントローラにおいて主チャンネルのミキシング・フェーダ（Main Channel Fader）

を0dBの規定位置、主チャンネルから電子残響装置へ送るセンドレベル（Reverb Send Volume）

も0dBの規定位置に固定した。一方、残響チャンネルのフェーダ（Reverb Channel Fader）は可変とし、実験参加者は刺激音をモニターしながら官能検査法の一種である調整法に準じた方法でフェーダを操作し、最も好ましいと思う残響となるようにレベルを調整した。

図－5 DAW上の実験回路 Orchestra

Anechoic Chamber Recording

Source

Reverb Channel Fader Main Channel

Reverberation Channel

Mixing Amplifier Reverb Send Volume

Main Channel Fader

Reverb Plugin Effector Digidesign　Revibe

Σ

(22)

21

なお、実験を始める前、残響チャンネルのフェーダは最小値（－∞dB）とし、調整は一方向のみでは無く往復しても良いものとした。調整後のフェーダの値（残響チャンネルの利得として相対dBで表示される）をDAW画面上で少数以下1位まで読み、残響の最適ミキシングレベルとして記録した。電子残響装置は定常音を入力したときに、入出力のレベルが変わらないように調整してあるので、残響の最適ミキシングレベルは、直接音レベルに対する残響音レベルの比をdB で表示したものと考えることができる。楽曲(4種)、再生方法(3種）、残響時間(3段階)、の各因子の組み合わせの36通りについて実験を行った。

2.4 分析

まず楽曲、残響時間、再生法の3因子について一般線型モデルの反復測定手法による分散分析を統計ソフト（SPSS）で行い、被験者内効果について表－2の結果を得た。危険率1%で楽曲因子、残響時間因子の主効果が認められ、再生法因子の主効果は有意でないことが判った。また、

いずれの2因子間にも交互作用がなく、楽曲因子、残響時間因子、再生法因子は、それぞれ独立事象であることが判った。表－3に残響時間別、楽曲別、再生法別に、実験の結果得られた残響の最適ミキシングレベルの平均値を示す。

楽曲因子の主効果を図－6、残響時間因子の主効果を図－7、再生法因子の主効果を図－8に示す。残響時間と残響の最適ミキシングレベルは負の相関があり、残響時間が長いほど残響の最適ミキシングレベルが低下する。その割合は、残響時間が1秒増える毎に、3dB程度であることが読み取れた。

また、残響の最適ミキシングレベルは楽曲によって異なり、FigaroとRuslanの2曲は、ほぼ同値であったが、DebussyとPizzPolkaでは6dB異なることが判った。Debussyは、音量の起伏変化がゆっくりした曲であり、PizzPolkaはピチカートによる音量の起伏がはっきりしている曲であるので、楽曲の特徴と残響の最適ミキシングレベルに何らかの関係があると考えられる。

再生法について、残響の最適ミキシングレベルは、モノ、ステレオ、クワドラのいずれの形態でも、ほぼ－3dB程度で一定となり、再生チャンネル数の影響を受けないことが示唆された。

(23)

22

表－2 実験1の分散分析結果

因子 F値有意確率 p

楽曲因子 F(3,27) = 24.956 p < 0.01 残響時間因子 F(2,18) = 160.392 p < 0.01 再生法因子 F(2,18) = 4.875 p > 0.05 楽曲×残響時間 F(6,54) = 0.904 p > 0.05 残響時間×再生法 F(4,36) = 2.739 p > 0.05 再生法×楽曲 F(6,54) = 3.324 p > 0.05

表－3 残響時間別、楽曲別、再生法別の残響の最適ミキシングレベル平均値

1 2 3 4

曲名 Figaro PizzPolka Ruslan Debussy 平均

再生法残響時間

モノ 1S -0.7 -3.1 -1.9 1.8 -1.0 モノ 2S -4.2 -6.6 -5.0 -2.0 -4.4 モノ 3S -5.4 -8.6 -6.1 -2.6 -5.7 ステレオ 1S 1.1 -2.9 0.6 3.6 0.6 ステレオ 2S -3.3 -6.7 -3.6 -0.1 -3.4 ステレオ 3S -5.0 -8.1 -5.6 -0.5 -4.8 クワドラ 1S -0.1 -3.5 0.4 4.1 0.2 クワドラ 2S -2.4 -7.4 -3.1 0.9 -3.0 クワドラ 3S -5.8 -9.7 -5.2 -1.4 -5.5

1S 0.1 -3.2 -0.3 3.1 -0.1

2S -3.3 -6.9 -3.9 -0.4 -3.6

3S -5.4 -8.8 -5.7 -1.5 -5.3

-2.9 -6.3 -3.3 0.4 -3.0

楽曲平均平均

-3.7

-2.5

-2.8 再生法

平均

-10 -5 0 5

Figaro PizzPolka Ruslan Debbusy

Preferable Reverbration Mixing Level(dB)

Titles of Orchestra Program 95% Confidence interval

-10 -5 0 5

1s 2s 3s

Preferable Reverbrtion Mixing Level(dB)

Reverbration Time 95% Confidence interval

図－6 楽曲因子の主効果図－7 残響時間因子の主効果

(24)

23

図－8 再生法因子の主効果

図－9 合成インパルスの例

2.5 残響時間と残響音の最適ミキシングレベルの関係の検討

残響時間と残響音の最適ミキシングレベルの関係を検討するため、直接音と間接音のエネルギ比に着目した。D. GriesingerはRR160やEDT320などの指標を提案しているが [14]、本検討では、

室内音響で一般的な指標である、初期音エネルギ／後期音エネルギ比のC80を用いた。

C値は室内音響の指標として良く使用され、Cte値（early to late index）としてISO 3382に記述される [18]。添え字のte は、early time limit と呼ぶ直接音区間と間接音区間の境目を表し、

te =80msのC80値を特にclarityと呼ぶ。

-10 -5 0 5

Mono Stereo Quad

Preferable Reverbrtion Mixing Level(dB)

Reproduction 95% Confidence interval

(25)

24

Cteは、系のインパルス応答を

p

imp

(t)

とすれば（2－1）式で表される。



















e e

t imp t

imp

dt t p

) (

) C_t_e (

2 0

2

log

10

dB

… (2－1)

また、本稿ではC80値は、再生音場の実測値ではなく、図－5の回路における電子残響装置について、規定レベルでのインパルス応答を測定し、調整法による実験で得られた残響の最適ミキシングレベルを乗算し、直接音のインパルス応答との和によって得られる合成インパルス応答からC80値をL、R毎に算出し、それらの平均として求めた。実際の算出に当たっては、一般的に室内音響指標と変形されて用いられる、中心周波数500Hz、1kHz、2kHzのオクターブバンド毎のC値の算術平均を求める手法を用いた。

図－9は、音源Debussyにおける残響時間1秒のときの、残響の最適ミキシングレベルとして

求められた＋3.1dBを乗算値として計算した合成インパルスである。演算上の合成のため、直接音のインパルスは振幅1、長さ1サンプルで示される。

残響の最適ミキシングレベルについて、再生法は影響しないことが判ったので、本検討では、

再生法をステレオ再生のみに限定した。各条件のC80値の個人差を検証するために、ステレオ再生における実験参加者各個人の残響の最適ミキシングレベルのデータから、楽曲や残響時間毎の各個人のC80値を求め、そのC80値について分散分析を行い、表－4の結果を得た。

表－4 実験1のC80値における分散分析結果

因子 F値有意確率 p

楽曲因子 F(3,24) = 24.239 p < 0.01 残響時間因子 F(2,16) = 0.623 p > 0.05 楽曲×残響時間 F(6,48) = 2.081 p > 0.05

楽曲因子について、危険率1%でC80値の主効果が認められたが、残響時間因子の主効果や両者の交互作用については、危険率5%で認められなかった。すなわち、残響レベルが最も好ましいレベルに調整されているとき、C80値は、楽曲によって異なる値となるが、残響時間の変化に対しては、ほぼ一定の値となることが示された。図－10に、残響の最適ミキシングレベル時の C80値を曲別、各残響時間別に示す。

(26)

25

図－10 最適ミキシングレベルにおけるC80値

これらの結果より、オーケストラ楽曲に残響を付加するとき、録音エンジニアが最も好ましいと判断する残響レベルに調整した場合において、残響時間と残響の最適ミキシングレベルには、

残響時間とミキシングレベルから求められる残響音（間接音）のエネルギが一定、という関係のあることが示唆された。

しかし、異なる楽曲では、C80値も異なる値をとり、エンジニアが最適な残響と感じる直接音と間接音のエネルギ比は、楽曲によって異なると考えられる。

2.6 考察

以上より、録音エンジニアが最適と感じる残響の最適ミキシングレベルは、残響時間という要素と、楽曲という要素によって、その値が変化するが、再生の方法（再生チャンネル数）には影響を受けない傾向が確かめられた。

また、残響を最適ミキシングレベルに調整した場合、同じ楽曲おいては、残響時間と残響音のミキシングレベルから求められる残響音のエネルギが一定である、すなわちC80値が一定であることが示唆された。しかし、異なる楽曲間では、残響を最適ミキシングレベルに調整したときの残響音のエネルギは異なることが確認され、任意の楽曲の残響の最適ミキシングレベルは、C80

値の算出で単純に求められるものではないことが判明した。

D. Griesingerは、曲のタイプによって動的残響音のラウドネスに相違があり、その原因は楽曲

(27)

26

信号が、自らの残響音をマスクすることに原因があると述べている [14, 15] 。

各楽曲の振幅変化の特徴と残響の最適ミキシングレベルについて検討したところ、ピチカート等の減衰音が多く含まれる楽曲（PizzPolka）と、フルートの吹き伸ばし等の持続音が多く含まれる楽曲（Debussy）では、残響の最適ミキシングレベルが大きく異なっていた。振幅の時間変化の大きい楽曲の方が、振幅起伏の少ない楽曲よりも残響成分を感じやすいため、残響の最適ミキシングレベルが小さくなると考えられる。実験者の主観ではあるが、実際に試聴してみると、

同じ残響レベルとした場合、明らかにPizzPolkaの方がDebussyよりも残響成分を大きく感じた。

すなわち、異なる音響信号エンベロープを持つ楽曲音響信号に、同条件の残響付加を行った場合、元の楽曲の音響信号の経時変化の差異が、それら残響成分へのマスキング量の差異となり、

残響成分の聴こえ方に影響するために、残響の最適ミキシングレベルも楽曲によって異なるものと考えられる。

従って、人が、ある楽曲に対して最適と感じる残響成分の量は、それら楽曲の経時構造に関連した特徴量によって導けるのではないかと考えた。

(28)

第3章楽曲の経時構造と残響の最適ミキシングレベル

27 第3章楽曲の経時構造と残響の最適ミキシングレベル

楽曲の残響成分が楽曲信号自身にマスクされて聴こえにくくなるという現象から、「有効な残響成分」という概念を仮定し、楽曲の音響信号の特徴量として有効残響成分量を音声信号波形のエンベロープから導く方法を考えた。

3.1 仮想残響エンベロープと有効残響成分の概念

波形エンベロープは、音響信号のピーク値をカーブフィッティングして求めた曲線であるが、

人の経時マスキングを考慮すると、音響信号レベルの上昇時はプリマスキングが、音響信号レベルの下降時はポストマスキングが聴こえに影響する。

図－11は、ツビッカーの経時マスキングの時間特性（臨界曲線） [19] であるが、この図のポストマスキングの曲線から、その傾きはおおよそ－400dB/sと読み取れる。プリマスキングよりポストマスキングの方が長時間にわたる現象であることを考慮し、音響信号レベルの上昇時はプリマスキングを適用せず、音響信号レベルの下降時のみポストマスキングに相当する－400dB/s の勾配で信号が減衰すると仮定した。本論文では、これら仮定を適用した曲線を信号エンベロープ（Audio Signal Envelope）と呼ぶ。一方、この音響信号へ残響を付加すると、その残響成分は図－12の太線のように、信号波形のピークから残響時間に対応する勾配（図の場合、残響時間 3 秒＝－20dB/s）で減衰する曲線を描くと仮想できる。ただし、実際に残響を付加した波形を観察しても、図のように単純な減衰曲線を示す訳ではなく、あくまで仮想上の減衰曲線として考えられるため、仮想残響エンベロープ（Hypothetical Reverberation Envelope）と呼ぶことにした。

なお、図－12は、フルートソロ（左）、および弦楽器のピチカート（右）の信号二乗値に対する信号エンベロープと仮想残響エンベロープを示したものである。

図－11 プリマスキング、同時マスキング、ポストマスキングの生じる区間と特徴 E. Zwicker , H. Fastl, “Psychoacoustics. Facts and models. 2nd ed”, p78より引用

(29)

28

図－12 フルートソロ（左）、弦楽器ピチカート（右）の信号二乗値から導いた、

信号エンベロープと仮想残響エンベロープの概念図

図－13セグメント化とセグメントエンベロープ、仮想残響セグメントエンベロープの関係

ここに有効残響成分は仮想残響エンベロープと信号のエンベロープで囲まれた量（面積）に比例すると考えられるので、それらのエネルギ比を残響の聴こえに関する楽曲の音響信号の特徴量として検討した。この特徴量をエンベロープ指数（以下E値：Envelope Index ）と呼ぶことにした。図－12 からも、エンベロープ変化が激しいピチカートの方がE値も大きくなり、残響成分が聴こえやすいものと予想される。

(30)

29

この結果をD. Griesingerの提唱した動的残響とマスキングの考え方に適用すると、E値は、

動的残響のマスキング量に大きな関係がある値と捉えることができる。すなわち、E値が大きい場合、有効残響成分の量が多くなるのでマスキング量が少なく、逆にE値が小さい場合、有効残響量が少なくなるのでマスキング量が大きい。このようにE値は動的残響音のマスキング量に負の相関を持つ特徴量といえる。

3.2 エンベロープ指数（E値）

実際にE値を導出する過程は、ITUが勧告化した、放送番組音声のラウドネス測定アルゴリズ

ムITU-R Rec. BS.1770 [20] にヒントを得て、次のように工夫した。図－13に示すように、信号

波形p (t) を時間方向に δt秒毎に区切ってセグメント化する。ここでδtをセグメント長と呼ぶ。

Pを各セグメント内の信号の二乗平均値（以下セグメントパワー）のエンベロープ（Segment

Power Envelope）とするとき、i 番目のセグメントパワー P ( i ) は (3－1) 式で示される。

  ^p ^t ^dt

i δt

ⁱ ^δt

δt



i ^ ^

 1

⁽ ¹⁾ ²

( )

P

… (3－1)

次に、楽曲のセグメントパワーを時間軸に沿って調べ、極大値となった点より残響時間T秒の残響に相当する仮想残響の減衰線を描くと、残響時間の定義より音のエネルギはT秒で60dB減衰するので、1セグメント長につき－60δt / T dB減少する減衰線となる。従って、減衰期間中のセグメントパワーをPrev ( i ) とすれば、n1番目のセグメントで極大を迎えてからn2番目のセグメントで元信号のセグメントパワーと逆転するまでの間は（3－2）式で示される。

) n T ( 10

60 1

1

) 10

n ( P ) (

P

^ ^ ^









^δt ⁱ

rev

i

… (3－2)

2

1 n

n i

元信号に同様の手順を繰り返し、セグメントエンベロープの減衰部分を順次、仮想残響減衰線に置き換えたセグメントパワーのエンベロープPrevを仮想残響セグメントエンベロープ

（Hypothetical Reverberation Segment Power Envelope）と呼ぶ。

E値は、仮想残響のセグメントパワーの総和と、元信号のセグメントパワーの総和の比を、対数表示したものとして定義する。このとき、仮想残響時間T秒のET値は (3－3) 式で表される。

なお、無音の影響を軽減するため、セグメントパワーが－70dBFS相当以下のセグメントを除去してE値を算出する。

(31)

30























 N i N i

rev

i i

1 10 1 T

) P(

) ( P log

10

E (dB) … (3－3)

ここで、Zwickerが示した経時マスキングの時間特性（臨界曲線）より、ポストマスキングの閾値が－20dB となる点がおよそ20ms程度であること [19]、江川らのポストマスキングの測定結果によると、定常刺激喪失の50ms後のポストマスキング閾値が－10 ～－20dBに分布（個人差が大きい）することが示されている [21] 。

従って、経時マスキングを考慮したセグメント長は20 ～ 50ms程度が適当であると考えられるが、セグメント長δtを変化させてE値を計算し、E値と残響の最適ミキシングレベルの相関係数が高くなる条件を第4章の実験において考察し、検証することとした。

3.3 実験1におけるE値の検証

実験1の各刺激音について、各呈示残響時間に対応する仮想残響時間に基づいたE1、E2、E3

と、残響の最適ミキシングレベルとの関係を図－14に示す。なお、このときのセグメント長は前章で検討した、経時マスキングを考慮したセグメント長の最短ケースである20msを採用し、

E2(20) のように表記する。

図－14 呈示残響時間別ET値と残響の最適ミキシングレベルの関係

(32)

31

図中の3つの直線は、呈示残響時間毎に、その時間と同じ仮想残響時間を使用したET値と残響の最適ミキシングレベルとの回帰直線を示している。また、それぞれ相関係数と有意確率は、

表－5に示したようにいずれも危険率5%で有意と検定された。従って、各残響時間におけるET

値と残響の最適ミキシングレベルは、大きな負の相関があり、良好な一次近似関係から、ETを求めることにより残響の最適ミキシングレベルが推定できると考えられる。

表－5 ET値と残響の最適ミキシングレベルの相関係数と有意確率 E値残響時間相関係数 r 有意確率 p

1 E1 1ｓグループ r =－0.978 p = 0.022 < 0.05

2 E2 2ｓグループ r =－0.984 p = 0.016 < 0.05

3 E3 3ｓグループ r =－0.973 p = 0.027 < 0.05

3.4 E値の拡張

前項によりET値と残響の最適ミキシングレベルの相関関係が大きいことが判ったが、E値は、

残響時間の変数で表されない方が指標として扱いやすい。また、仮想残響を考える上で、実際の残響信号の減衰エンベロープと、仮想残響信号の減衰エンベロープが等しいわけではなく、仮想残響エンベロープと信号エンベロープで囲まれた部分が聴こえに有効に作用する残響成分で、E 値は、信号が残響成分をマスキングする量に負の相関を持つ特徴量と位置づけることができる。

従って、E値は仮想残響時間を変化させた場合に異なる値として算出されるが、仮想残響時間を実際の残響時間とは異なる時間に固定しても、E値の特徴は大きく変化しないはずである。

そこで、仮想残響時間をある値に固定したE値と、実際の各残響時間における残響の最適ミキシングレベルとの関係を検証してみた。図－15の3つの直線は、実際の呈示残響時間毎に、仮想残響時間を2秒に固定したE2値と残響の最適ミキシングレベルとの関係を示したグラフで、各々その相関係数と有意確率は、表－6に示すように、いずれも危険率5%で有意と検定された。

また、ある仮想残響時間で固定して求めたE値と、各楽曲の残響の最適ミキシングレベルの関係は、図－15から判るように、その勾配がほぼ一定となり、残響の最適ミキシングレベルは、係数E値と残響時間との関数として求められることが示唆された。これは、2章4節の検討で、楽曲因子と残響時間因子に交互作用がないことからも納得できる結果であり、E値は、ある固定した仮想残響時間で求めても、指標としての性質は保たれることが判り、E値を仮想残響時間が固定された係数として定義する合理性が見いだせた。

九州大学学術情報リポジトリ