秋吉康晴
不滅の声からサイボーグの声へ
1877 年 12 月 6 日の早朝、トーマス・エジソンは数名の部下とともに一台の機械を囲んでいた。 フォノグラフと名づけられたこの試作品は、最古の録音再生機として知られている。録音用の錫箔 をシリンダーに巻きつけ、その上に針を落とすと、エジソンはクランクを回しはじめた。彼が最初 に録音したのは、よく知られた童謡《メリーさんの羊》だったと言われている。ラッパ型の吹き込 み口に向かって大声で歌い終わると、エジソンはクランクを回す手を止めて、今度は再生用の針を 錫箔の上に置いた。再びクランクを回しはじめると、わずかに甲高いながらも、確かに彼自身の歌 声が鳴り響いたという。エジソンはこの瞬間を後に回想して、「人生であれほど驚天したことはな かった」と述べているが、機械が発する声をはじめて聞いたひとびとの驚きはどれほどのものだっ たろうか。録音技術にすっかり慣れてしまった現代のわたしたちには想像すべくもないが、フォノ グラフの発明が当時のひとびとにとって「驚異」として受け取られたことは確かなようだ。その理 由の一端は、試作品の完成から遡ることおよそ三週間前、エジソンの部下が『サイエンティフィッ ク・アメリカン』誌で発表した声明文からうかがい知ることができる。エドワード・ジョンソンと いう名の技師はそこで、フォノグラフのもたらす可能性を次のように述べている。 フォノグラフの吹き込み口に向けて話したことがあるか、これから話すかもしれないひと、 つまり言葉をフォノグラフによって記録されるひとなら誰でも、彼自身が塵と化してからずっ と後に、音声を再生されることを保証されている。その可能性は単純に驚くべきものである。 ぎざぎざの入った一片の紙が小さな機械を通り抜け、機械の音が増幅されると、わたしたち の孫や数世紀後の子孫はまるでわたしたちがそこにいるかのようにはっきりとわたしたちの 声を聞くのだ。音声はいわば不滅になったのである1。 ジョンソンがエジソンに代わって言うには、フォノグラフがもたらすであろう最大の驚異は、未来 に向けて声を保存できることにあるという。フォノグラフが発明される以前、あらゆる人物の声は 死とともに永遠に失われてしまう定めにあった。故人の声は残されたひとびとの記憶のなかにしか 存在しないものだった。ところが、フォノグラフが発明されるやいなや、ひとの声はその主がたと え亡くなってしまっても、生き生きとした響きをもって保存されるようになる。そうすれば、未来 のひとびとは彼らの声を「まるでわたしたちがそこにいるかのように」聞くことになるだろう。ジョ ンソンいわく、フォノグラフの発明によって声は死を超越し、「不滅」になるのだ。もっとも、人サイボーグの歌声
デジタル音楽をめぐる試論
類ではじめてその恩恵に与ったはずのエジソンの歌声は、現存さえしていない。というのも、その とき録音媒体として用いられた錫箔は、数回の再生にも耐えられないほど脆い代物だったからだ。 エジソンの声は不滅になるどころか、それを刻んだ錫箔もろとも失われてしまったのである。とは いえ、ジョンソンの記事はフォノグラフと最初に遭遇したひとびとが録音技術に何を期待したのか を知るうえで興味深い。いつかは消え去ってしまう声を物体に定着させ、保存するという可能性を、 彼らは夢見たのだろう。録音技術を利用することが日常化した現在、わたしたちはそうした可能性 にもはや驚きを感じないが、ときおりふとそれに気づくこともある。たとえば、古いレコードをか けて、引退して久しい歌手の歌声に耳を傾けるときや、その歌手が故人となってしまったとき、録 音は最大限の効力を発揮するはずだ。歌唱や演奏を老化や死のような、避けがたい時間の暴力から 救い出し、くりかえし何度でも「再生」できること。そうした力はいまでも確かに録音技術がもつ 大きな魅力のひとつであり続けている。 ところが、録音のデジタル化が進行しつつある現在、インターネットを介して無数に増殖してい く「不滅の声」たちのあいだから、それらとは別種の声が漏れ聞こえてくるようになってきた。そ うした声のひとつとして、たとえば「初音ミク」のそれをあげることができるだろう。「初音ミク」 とはヤマハが開発した音声合成技術「VOCALOID2」を応用し、2007 年に発売された DTM(デ スクトップミュージック)用のソフトウェアを指している。周知のように、このソフトウェアでは あらかじめライブラリに登録されている音声データを素材として利用し、歌声そのものを合成でき ることが売りになっている。つまり、「初音ミク」を用いれば、作曲した楽曲を自分で歌ったり、 誰かに歌ったりしてもらうことなく、いわばコンピュータに歌わせることができるのだ。「初音ミク」 を開発したクリプトン・フューチャー・メディアが一種のキャラクター商品として VOCALOID 製 品をパッケージ化し、可愛らしい少女のデザインをあしらったことから、このソフトウェアは「ニ コニコ動画」のような動画共有サイトを媒体とするオタク的な受容の文脈において「架空のアイド ルに歌わせる」という新しい表現方法を生み出した[図1]。発売から 10 年が経過した現在、「ボ カロ系」として定着しつつあるそうした表現方法は、一部に録音技術を利用しているとはいえ、「不 滅の声」のような声の表象からはかけ離れているように思われる。というのも、そこでは録音は誰 かの歌声を記録するのではなく、誰かの歌声を使って、新たに別の歌声を生成するための手段とし て用いられているからだ。そのいささかたどたどしい歌声を耳にするとき、筆者は人間が歌ってい 図1 「初音ミク」パッケージ
るのか、それともコンピュータが歌っているのか、そのいずれとも決定したがいような感覚に襲わ れることがある。わたしは「初音ミク」のライブラリに登録された音声データが藤田咲という実在 の声優に由来することを確かに知っている。だが、人工的な響きをもったその歌声には、彼女自身 の声としてそれを聴くことを拒むような何かがある。その何かを指して、本稿では仮に「サイボーグ」 という言葉を使ってみたい。「初音ミク」の声を聴いていると、人間と機械とが互いに融合してしまっ ているかのような、そんな印象を受けるのだ。 ところで、そうしたサイボーグ的な声の表現は「初音ミク」に限らず、近年ではさまざまなとこ ろで聞こえるようになってきた。この小論では、録音のデジタル化によって可能になった声の表現 をいくつか紹介しつつ、それらの表現の文化史的な背景として人間と機械の脱境界化をめざすよう な傾向があることを確認してみたい。わたしたちの声はデジタル化の進行につれて、いわばサイボー グ化の方向へと必然的に向かっているかのように思われるのだ。まずは、「初音ミク」の合成技術 を例に、録音のデジタル化が声の表現に何をもたらしたのかをみていくしよう。
デジタルな音響処理
「初音ミク」というソフトウェアはどのようにして音声を合成するのか。開発者の剣持秀紀によ れば、そのもとになっている「VOCALOID」の技術は、音声素片を接続するという発想でつくら れたという。たとえば、「朝」という単語の発音は、ローマ字で表現すると [a] + [s] + [a] となるが、 実際の音声に即すなら [ # a] + [a] + [a-s] + [s-a] + [a] + [a # ] という素片によって構成される2。簡単に言ってしまえば、「朝」という音声を合成しようと思えば、これら6つの素片をあらかじめ 録音しておき、順番に再生すればよいのだ。ただし、実際にはそう単純ではない。発音が滑らかに 聞こえるためには、素片のピッチ(音の高さ)を同じに必要があるし、たとえピッチが同じであっ ても、ただ接続するだけでは2つの素片の音色の差がノイズとして表れてしまうからだ3。つまり、 素片同士を滑らかに接続するには、それぞれの素片のピッチと音色の両方を調整する必要があるの だ。そうした処理をおこなうために合成のプロセスに組み込んだ工夫を、剣持は主にふたつ挙げて いる。ひとつは音色の変化を滑らかにするために、素片同士を接続する際、クロスフェードしなが ら接続するという工夫である4。加えて、素片によっては最初もしくは最後の部分の音色をくりか えすなどして、時間的に引き伸ばすこともおこなっているという。もうひとつは素片のピッチを変 えても、音色が変化しないようにするための工夫だ。周波数帯を全体的にずらすと、ピッチを変え ることができるが、このやり方では音色も変化してしまう。単純にピッチを上下させると、音色を 決定するスペクトル(周波数毎の強さの分布)が全体的に変化してしまうからだ。このような音色 の変化を防ぐため、「VOCALOID」の合成エンジンではピッチを変更する際に、もとの素片のスペ クトル特性が維持されるように調整しているという。それによって、素片にメロディを与えても、 もとの音色は保たれるのである5。剣持のグループが開発した最初のヴァージョンは作曲用のソフ トウェアに応用され、2004 年にイギリスの ZERO-G から「LEON」と「LOLA」として、日本の クリプトン・フューチャー・メディアから「MEIKO」として発売された[図2][図3]。これら のソフトウェアは歌詞と音符のデータを入力することで、比較的簡単に歌唱を合成できるようなイ ンターフェースを与えられており、その基本仕様は先に触れた後続の「初音ミク」にも引き継がれ
ている6[図4]。 「初音ミク」をはじめとする「VOCALOID」製品が「ニコニコ動画」を媒体とするオタク系文化 において人気を獲得し、DTM 用のソフトウェアとしては異例の注目を浴びた理由を問うことは、 これまで散々議論されてきたので他に譲るとして7、ここで注目してみたいのは「VOCALOID」に おける録音のあり方である。「VOCALOID」の技術は、録音のデジタル化にともなって、音の扱い 方が大きく変化したことを示している。たとえば、録音の断片を繋ぎ合わせるだけなら、ヴァイナ ル・ディスクでは難しいとしても、磁気テープを用いれば、アナログ・メディアにおいても比較的 容易におこなうことができた。だが、音色を変えずにピッチだけを変えることは、アナログ録音に おいては難しいというより原理的に不可能に近い。アナログ録音でピッチを変える最も簡単な方法 は、再生速度を変えることだが、このやり方ではピッチだけでなくテンポも変わってしまう。それ だけでなく、周波数スペクトルもやはり変わってしまうので、音色にも変化が生じる。ヴァイナル・ ディスクやカセット・テープに触れたことのあるひとの多くは、そうした遊びに興じた覚えがある のではないだろうか。たとえば自分の声をテープに録音して再生速度を変えると、テンポ、ピッ チ、音色といった複数のパラメータが同時に変化し、印象に劇的な変化をもたらすだろう。それに 対して、デジタル的な音の処理では、任意のパラメータを個別に変化させることができる。もとの ピッチや音色を保ったまま、テンポを変えることや、反対にもとのテンポを保ったまま、ピッチを 変えることは、現在のソフトウェア技術においてはそれほど難しいことではない8。同様の技術は 「VOCALOID」においても、ピッチの変更や音色の調整をおこなう際に利用されている。では、ア ナログ録音では不可能だったそうした操作は、なぜデジタル録音の導入によって可能になったのだ 図2(左上):「LEON』『LORA』 図3(上):「MEIKO」パッケージ 図4(左):作曲用インターフェース「VOCALOID Editor」
ろうか。 これまで何度も指摘されてきたように、録音技術において「アナログ」と「デジタル」の最大の 違いのひとつは、記録の性質がその媒体の物質的な条件によって左右されるかどうかにある。たと えば、レコード盤や磁気テープがくりかえしの使用によって摩耗したり、劣化したりすると、再生 音に変化が現れることは周知の事実だ。また、ある媒体から別の媒体に録音を複製しても、音質が 変化することも周知のとおりだろう。ところが、デジタル録音の場合には、たとえば CD に傷がつ いてその部分の音が再生できないということがあっても、音質が劣化するということがない。また、 CD のデータをいくら複製しても、音質が変わることはありえないデータを圧縮したり、再生 ソフトウェアを変えたりする場合、話は別だが。こうした違いはもちろん素材の違いではなく、記 録の原理の違いに起因する。エリック・ローゼンバーグとジョン・ピータースが言うように、「ア ナログ」の録音とは文字どおり、音の「相似物 analogue」を意味し、記録の方式に違いはあれ、音 波のエネルギーを利用してそれに相似した痕跡をつくりだすという特徴をもつ9。最も分かりやす いのは蓄音機の例だが、エジソンが発明したフォノグラフは音波のエネルギーを針に伝え、その針 の振動によって記録媒体の表面を削り取るような仕組みをもっていた。音波のエネルギーを利用し て削られた溝が、ここでは音の痕跡すなわち記録ということになる。磁気録音の場合、記録の仕組 みはより複雑になり、音波のエネルギーを電気エネルギーに変換し、さらにそれを磁気エネルギー に変換するというプロセスをとるが、発想の根幹にあるものは変わらない。蓄音機も磁気録音機も 音波のエネルギーを物理的に利用して、音に相似した痕跡をつくりだすという点では共通するから だ。そのため、アナログな録音では音の「相似物」としての痕跡が劣化したり、変質したりするこ とで、再生音にも変化が生じるのである。これに対し、デジタルな録音技術は音波のエネルギー を電気エネルギーに変換したうえで、さらにそれを計測し、数値として記録するということをお こなう。digital の名詞形である digit はそもそもラテン語で「指」を意味し、指を折って数えるこ とから転じて、「数」を意味するようになった言葉だ。この語源が示唆するように、デジタル録音 の本質とは物理的な痕跡ではなく、数値として表現されたデータにある。CD にも採用されている PCM(パルス符号変調 Pulse Code Modulation)方式を例にとるなら、そうした数値化は次のように おこなわれる。音波のエネルギーはまず電気エネルギーに変換される。この状態でのオーディオ信 号(電気信号)は電圧の波として表される。PCM 方式ではその電圧を一定の頻度で測定し、数値 として記録するのである。このとき測定された数値は、二進数(0 と 1)によって表現されるバイ ナリー・データとして記録される。これらの数値をグラフ化し、線で結ぶと、音の波は階段状の線 によって表現されるだろう。数値化の頻度を増やし、数値化の尺度を細かくすれば、階段状の線は 徐々に滑らかな波のかたちに近づいていくはずだ10。デジタル録音の本質とはこのように、音波を 非連続的に数値によって表現することにある。デジタル録音の音質が、記録媒体の物質的な条件に よって左右されないのはこのためである。たとえば 0 という数字を紙に書いても、道路に書いても、 スクリーンに写しても、その字義的な意味は変わらないように、記録された数値さえ保持されるな ら、どのような記録媒体に保存しても再生音の質は変わらない。また、記録媒体がどれだけ劣化し ても、数値さえ読み取れるなら、同様に音質は変わらないだろう。このようにデジタル録音は「数」 と「計算」にその基礎を置くことで、記録媒体の物質性に左右されることなく、音を処理すること ができるのである。
記録の原理におけるこうした違いは、デジタル化によって録音の耐用年数が向上したとか、音質 の劣化を気にせずに録音をコピーできるようになったということを単純に意味するだけではない。 録音の基礎が「痕跡」から「数値」へと移行したことは、音を操作するあり方に根本的な違いをも たらしたのである。その違いはたとえば、先に述べたように、ピッチを変えるという操作において も明瞭に表れている。アナログ録音においてそうした操作は、再生速度を物理的に変えるというや り方でおこなわれていた。ヴァイナル・ディスクの回転数を下げれば、ピッチは下がり、カセット・ テープを文字どおり「早送り」すれば、ピッチは上がる。こうした特徴は、録音とその媒体となる 物質がまさしく一体であることを意味している。だからこそ、再生速度を変えれば、ピッチだけで なく、テンポや音色といった要素も全体的に変わってしまうのである。それに対して、デジタルな 音の操作は物理的な領域ではなく、「数的な領域」においておこなわれる11。「VOCALOID」を例
にあげるなら、音声素片のピッチ操作は FFT(高速フーリエ変換 Fast Fourier Transform)によ る計算処理を利用している。FFT とはフーリエ変換をおこなうアルゴリズムの一種であり、音の 分析では、複雑な波形をより単純な波形(正弦波)に分解するために用いられる。この処理をおこ なえば、ある波形を複数の周波数成分に分解し、それらの強度の分布(スペクトル)を細かく数値 化できる。「VOCALOID」の合成エンジンでは、このアルゴリズムを利用し、スペクトルを周波数 軸上で動かすことでピッチを変えるのである。先述したように、この方法では音色が変わってしま うが、アナログの場合と違って、テンポが変わることはない。また、「VOCALOID」では音色の調 整にも同じく FFT が利用されており、今度は周波数成分の強度を調整することで声質を変えるの である。このように、デジタルな方式においては、音の操作は数的なデータの計算処理と書き換え によっておこなわれる。そのため、記録媒体の素材や形状その他諸々の物質的な条件にかかわりな く、音を変化させることができるのだ。 このようにデジタル技術に特有の方法で合成された歌声は、まるで誰かが実際に喉を震わせて 歌ったような実在感をともなっている。それもそのはずだ。「VOCALOID」の合成音は、実在する 人物の声にもとづいているのだから。だが、どこかぎこちなさを残したその声は、人間の声として それを聞くことを拒むような人工的な響きをともなっている。実在する人物の声を利用していると はいえ、断片的な素材として格納された彼らの声のデータは書き換えられ、パッチワークのように つなぎ合わされて出力される。そのとき混入する独特の歪みは、どれだけ入念にパラメータを調整 しても、完全に消えることはなく、コンピュータの介在性に気づかずにはいられない12。人間の声 のようでありながら、純粋に人間の声とは言いがたい、独特な印象をその歌声は与える。人間の声 がコンピュータと結合することで生まれた、奇妙な歌声。そうした声を指して、ここでは仮に「サ イボーグ的な声」と呼んでみたいと思う。
サイボーグ的な声
人間の声とコンピュータの結合によって生まれた「サイボーグ的な声」は、実のところ 「VOCALOID」の例に限らず、さまざまなところで聴くことができる。むしろ、そうした声のあり 方は現在のポップ産業ではありふれたものになっているとさえ言えるかもしれない。たとえば、先 にみたようなピッチ操作の方法は、レコーディングの際、音程を補正するために利用されるようになっている。分かりやすく言えば、たとえ音程を外しても、ソフトウェアで「音痴を直す」ことが できるのだ。その種のソフトウェアで有名なものに、Antares Audio Technologies(アンタレス・オー ディオ・テクノロジー)社が販売している「Auto-Tune(オートチューン)」がある。このソフトウェ アには、ユーザが指定したスケールに合わせてピッチのずれを自動補正する「オートマティック・ モード」と、グラフ化されたピッチのデータを手動で調整できる「グラフィカル・モード」があり、「音 痴」の程度によってモードを使い分けることができる[図5、6]。だが、このソフトウェアを有 名にしたのは、そうしたいわば「正当」な用途ではなかった。「Auto-Tune」はピッチのずれを補 正するだけではなく、特殊な効果をボーカルに加えるために使われることもある。米国の女性歌手・ 俳優の Cher(シェール)が 1998 年にリリースした「Believe」は、そうした効果を有名にした楽 曲として知られる。「Auto-Tune」のインターフェースには、ピッチ補正の変化スピードを調整す る「スピード」というパラメータがあるが、その値をゼロにすると、ポルタメント(ある音から別 の音に移る際に音程を滑らかに変化させる技法)がなくなり、音程の変化が直線的になる。すると、 歌声はもとの音色をある程度保ちながらも、人間的な声の滑らかさを失い、ある種の電子楽器の演 奏音のような硬直した音に変化するのである13。こうした効果はその後、「シェール・エフェクト」
として知られるようになり、Daft Punk(ダフト・パンク)、T-Pain(T・ペイン)、Kanye West(カ ニエ・ウェスト) といったクラブミュージック系のミュージシャンによって用いられてきた。日本 の例では中田ヤスタカがプロデュースするアイドル・ユニット、Perfume(パフューム)のボーカ ルに同様の効果が用いられている。その効果は人体の構造から逸脱した、直線的なピッチの変化を 与えることで、ボーカルに人工的な響きを加えることに寄与している。 また、日本では彼らほど知られていないが、音楽産業の外側で活動するミュージシャンのなかに は、音楽的にというだけでなく政治的に興味深いやり方で「Auto-Tune」を利用しているひとびと もいる。マイケル、アンドリュー、エヴァンのグレゴリー三兄弟とエヴァンの妻サラの四人によっ て 2007 年に結成された The Gregory Brothers(ザ・グレゴリー・ブラザーズ)は、動画共有サ イト「YouTube」を作品リリースの主な媒体として活動するグループだが、ほとんど無名であっ た彼らを有名にしたのは、2010年頃から発表を続けている「Auto-Tune the News(オートチューン・ ザ・ニュース)」というシリーズだ14。このシリーズで彼らはニュース番組から切り取った映像の
音声を「Auto-Tune」で加工し、伴奏とコーラスを加えることで、ポップソングのように仕立て上
図5:「オートマティック・モード」インターフェース 図6: 「グラフィカル・モード」インターフェース
げている。そこではニュースキャスター、政治家、評論家などが演説や答弁をしている声は、歌 やラップのように変えられ、The Gregory Brothers のメンバーとセッションしているかのように 編集されている動画のなかで彼らはしばしばニュースキャスターやインタビュアーの役割を演 じている[図7]。政治的なテーマについて歌った楽曲はこれまでも多くあったが、The Gregory Brothers の楽曲はそれらとは一線を画している。彼らは政治的なテーマについて歌うのではなく、 政治家みずからに歌わせることで、政治的な事柄というよりも政治的な行為そのものを音楽的に批 評するという手法をとっているのだ こうした「Auto-Tune」の用法は「音痴を直す」という本来的な用法よりも強力に、サイボーグ 的な効果、つまり人間と機械の境界を溶解させてしまうような効果をもっている。「シェール・エフェ クト」を多用する楽曲において、ボーカルの声質は伴奏に用いられている純粋な電子音とまったく 区別できないところまでとはいかないまでも、きわめて近いところまで接近しており、両者の境界 を聴覚的に曖昧にしている。また「Auto-Tune the News」においては、インタビュアーや政治家 の声はあたかもコンピュータで身体をハッキングされてしまったかのように無理やり操作され、歪 められてしまっている。もちろん事実はそうではないが、少なくとも聴覚的な印象においては、人 間の喉と機械のあいだに境界など存在しないかのようである。 「Auto-Tune」から離れて、ほかの例もみてみよう。プログラミングに長けたミュージシャンの なかには人間の声をコンピュータの電子音に近づけるのではなく、その逆のプロセスをたどって作 曲に利用している作家たちもいる。たとえば、三輪眞弘と左近田展康のふたりによって 2000 年に 結成されたフォルマント兄弟は、「テクノロジーと芸術の今日的問題を《声》を機軸にしながら哲 学的、美学的、音楽的、技術的に探求し、21 世紀の《歌》を機械に歌わせること」を目指し、独 自の手法で合成した音声を創作に活用している15。彼らの活動のなかでも最も興味深いものに、『フ レディーの墓/インターナショナル』(2009 年)という作品がある16。この作品においてフォル マント兄弟は 1991 年に亡くなった Queen(クィーン)のボーカル、フレディー・マーキュリー があたかも亡霊のように墓地に現われ、歌いはじめでもしたかのように、彼の歌声を蘇らせている [図8]。彼らはマーキュリーの歌声がもつ音響的な特徴を解析し、独自に開発したデジタル音響合 成のプログラムによって復元したのだ[図9]。ただし、彼らが亡霊として召喚しようとしたのは、 かつて存在した「フレディー・マーキュリー」そのひととは微妙に異なる。召喚された「フレディー」
図7:「Auto-Tune the News」の一場面 (右の人物はアンドリュー・グレゴリー)
が歌うのは、彼が歌ったはずのない楽曲だからだ。フォルマント兄弟の「フレディー」が歌うのは、 共産主義の革命歌として知られる「インターナショナル」である。彼らは冷戦期に米国の文化産業 を代表するスターとして生き、冷戦の終結とともに死んだフレディー・マーキュリーの声に、その 対極にあるような楽曲を、しかも日本語で歌わせたのだ。作品とともに発表したテキストのなかで、 フォルマント兄弟が『フレディーの墓』を「死者なき亡霊」の歌と呼ぶのはこのためだ17。ロラン・ バルトが写真の本質としてあげた「それは - かつて - あった」という時間性を敷衍して彼らが述べ るように、録音技術がもたらしたのは「かつて生者であった者の痕跡」としての声を「いま - ここ」 に再現することで、過去に生きたひとびとを亡霊のように召喚するという体験であった。フォルマ ント兄弟はそのような録音の体験を逆手にとり、デジタル的に合成された歌声によって、かつて生 きたあの「フレディー」のようでありながら、しかし実のところ誰でもない何者かを聴き手の感覚 のなかに呼びだした。録音という痕跡の効果として事後的に召喚されたその何者かを指して、フォ ルマント兄弟は「死者なき亡霊」と名づけたのである。こうした試みはデジタル技術の発達によっ て、音声情報を詳細に数値化し、その解析データを音響合成に活用することが可能になったことを 意味するだけではない。むしろ、フォルマント兄弟がラディカルに主張するのは、声による「現前」 の感覚はメディア技術によって構成されうるものになりつつあるということだ。 本稿の冒頭でとりあげた「不滅の声」という表現が、死者の亡霊的な現前という事態を録音技術 の偉力として言祝いだものだとすれば、フォルマント兄弟が提唱する「死者なき亡霊」はそうした 効果を最新の技術のもとで読み替えようとする試みだと言うことができる。そして、同様の試みは 彼らほど自覚的ではないかもしれないが、筆者がここでとりあげてきたデジタル的な声の表現にも あてはまるだろう。それらはみな「かつて - あった」者たちのようでありながら、しかし実のとこ ろ「かつて - あった」誰でもない何者かを召喚してしまうような側面をもっていたからだ。だが、 筆者はここでその何者かを「死者なき亡霊」と呼ぶよりも、あえて「サイボーグ」と呼んでみたい。 なぜなら、現在起きつつあるのはメディア技術がもつ亡霊化の作用が新たな段階を迎えつつあると いうだけではなく、人間が機械に、機械が人間に近づいていくような事態だからだ。「VOCALOID」 や「Auto-Tune」を用いた作品において、人間の声はコンピュータによってデータ的に生成され、 図8:《フレディの墓》の音声合成エンジン (作品映像より抜粋)
出力される電子音へと接近していく。他方、フォルマント兄弟の作品では逆に、コンピュータによっ て生成される電子音のほうが人間の声へと接近していく。こうした事態を名指すには亡霊化という 表現よりもむしろ、サイボーグ化という表現のほうが筆者にはしっくりくるのだ。
サイボーグ化する声の系譜
1877 年に蓄音機が発明されたとき、録音技術にはじめて遭遇したひとびとはその魅力を声の不 滅化という言葉で表現した。そうした表現は写真映像の力を時間の「防腐処理」という言葉で言い 表したフランスの映画評論家アンドレ・バザンの主張とどこか似ている。バザンによれば、写真や 映画を生んだのは、人類が古代よりとりつかれてきた「ミイラ・コンプレックス」の衝動であった。 それは永続化しうる人物の似姿をつくることで、死の恐怖を乗り越えようとする衝動であり、その 起源としてバザンは古代エジプトのミイラを挙げ、その末裔あるいは完成として写真と映像を挙げ る。遺体に防腐処理を施すように、写真と映像は時間に防腐処理を施し、「持続のさなかでせき止 められ、死の運命から解き放たれた生命」の姿をわたしたちに与えた18。蓄音機がもたらしたのは ある意味でそうした「防腐処理」の音声版であったと言うことができる。蓄音機は声を死や腐敗と いった時間の暴力から救い出したのみならず、主体の亡霊的な現前という驚くような効果をもたら した。エジソンが蓄音機を発明した当時とは異なり、その効果はすでに日常化し、人間にとって第 二の自然と化していると言っても過言ではない。ひとたび「再生」をはじめれば、往年の歌手たち も、流行りのアイドルたちも当人の生死や老いにかかわりなく、当たり前のようにわたしたちのた めに歌ってくれる。そうしたある意味で奇跡のような体験は、鳴り響くなり消えてしまう声という 儚い現象を物体に刻み込み、痕跡化する技術によって可能になった。 ところが、録音のデジタル化が進んだ現在、スピーカーからは「不滅の声」とは別種の声が聞こ えるようになってきた。あるところでは、ソフトウェアで歌唱データを入力し、電子楽器を自動演 奏するように歌声を操るということがおこなわれ、別のところでは、音声のデータを書き換え、歌 声をシンセサイザーの電子音のように変えたり、話し声を歌声のように変えたりするということが 当たり前のようにおこなわれている。またあるところでは、デジタル処理される音響のデータを人 間の声に近づけ、無から歌声を生成するということさえおこなわれている。つまり一方では、人間 の歌声が機械によって生成される音響に接近していくという状況が生まれており、他方では、機械 によって生成される音響が人間の歌声に接近していくという状況が生まれているのだ。人間と機械 とがあたかも互いに結合するようにして生まれる声。そうした声のあり方を、本稿ではサイボーグ 的な声と呼んできた。 こうした状況はなぜ生まれたのか。その背景をゆっくり考える紙幅の余裕はもはやないが、デジ タル技術の歴史をたどっていくと、そこにはもともと人間と機械の融合を志向するような思想をい くども垣間見ることができることは指摘しておきたい。たとえば、「サイボーグ」という言葉の由 来として知られる「サイバネティクス」は、そうした思想を代表するものとして挙げられるだろう。 1948 年にこの学問を提唱したアメリカの数学者ノーバート・ウィーナーは、動物と機械を通信工 学と制御工学の観点から総合的に扱うことをその目的としたが、彼はそこで動物の神経系を高速計 算機すなわちコンピュータと同列に置くという考えを提示している「われわれに明らかになったことは、つぎつぎにスイッチの操作を行なう超高速計算機が、神経系に生ずる問題をほとんど理 想的にあらわす模型となりうるにちがいないということであった19」。彼いわく、神経系のニュー ロンは発火するか、しないかという二者択一的な性格をもつが、この性格は0と1という二進法に 従って作動するコンピュータと共通するというのだ。また、ノイマン型コンピュータの父として知 られるジョン・フォン・ノイマンは、1957 年に死去するまで脳とコンピュータの類似性を数学的 に証明する試みに従事していた。その遺稿においてノイマンは脳の働きにアナログ的な側面がある ことを認めつつも、ウィーナーと同じく、神経パルスがデジタル的な性格をもつことを主張し、中 枢神経系の働きを記述するためのプログラム言語の可能性を指摘している20。彼らが主張したのは、 人体とコンピュータは類似した働きをもつということだった。だからこそ、コンピュータを人間の ように扱い、人工知能や自動制御の技術に応用することが可能になったのであり、人間をコンピュー タに接続し、人工臓器によって制御するようなことも可能になったのだ。人間の声をコンピュータ 技術と結合させ、両者の境界を曖昧にしてしまうような表現は、人間と機械を同じく「計算」とい うタームでくくるような思想が社会に浸透したことの現われだと言えるかもしれない。 だが、人間と機械との接近をもたらすような技術やそれを用いた表現は、何も今にはじまったこ とではない。メディア研究者のジョナサン・スターンが指摘するように、そもそも蓄音機の発明か らしてすでに、人間と機械の境界を揺るがすような側面をもっていた。その発明は人体をある種の 機械とみなし、実物の機械として再構築しようと目論むようなさまざまな探求の成果としておこな われたのであり、局所的にみれば、電話や蓄音機は鼓膜の模造品に起源をもつ21。また、筆者が別 の論文で書いたように、さらに遡れば、18 世紀にはすでに口や喉といった音声器官を人工的に再 現することで、人間の声を機械化しようとするような試みもおこなわれていた22。ジョンソンが「不 滅の声」について語ったとき、それはすでにかつての人間の声ではなく、フランケンシュタインの 怪物があげた産声のごとく、人間と機械の境界を乗り越えようとするさまざまな実践の積み重ねに よって誕生した声だったのだ。以来、人間の声は機械との結合と融合をくりかえし、美的に洗練さ れ、マイクロフォンを通して聞こえる声こそが自然な歌声として受け容れられるような文化さえ成 立した。そう考えると、本稿で「サイボーグの歌声」と呼んだものは、アナログとデジタルとの断 絶を意味するものというより、録音技術の誕生以来(あるいはそれ以前から)くりかえされてきた 試みの延長にあるものとみなすべきかもしれない。
註
1. Edward Johnson, “A Wonderful Invention.--A Speech Capable of Indefinite Repetition from Automatic Records,” Scientific American, 37, 20, November 17, 1877, 304. 2. 「#」は無音の状態、「_」は音を伸ばすことを表わす記号、「-」は母音と子音の繋がりを表わしている(剣 持秀紀・藤本健『ボーカロイド技術論−−歌声合成の基礎とその仕組み』、ヤマハミュージックメディア、2014 年、38 ページ)。 3. 同書、62 ページ。 4. クロスフェードとは前の音の最後の部分を徐々に小さく、後ろの音の最初の部分を徐々に大きくしながら、ある 音から別の音へ滑らかに移行することを指す。 5. 剣持、前掲書、64-66 ページ。 6. クリプトン・フューチャー・メディアの「VOCALOID」製品は現在、「VOCALOID4」までヴァージョンアップが進 んでおり、表現可能な歌唱の幅は初期よりも拡がっている。なお、初期のヴァージョンでは作曲用のインターフェースと 音声ライブラリが同梱されていたが、2011 年発表の「VOCALOID3」以降は「VOCALOID Editor」と 音声ライブラリが別々に販売されるようになった。同社の製品については、公式ホームページ(https://www. vocaloid.com/)を参照されたい。 7. 先行する優れた議論として、以下の文献をあげておきたい。増田聡「データベース、パクリ、初音ミク」、『思 想地図』Vol.1(特集:日本)、東浩紀・北田暁大編、NHK 出版、2008 年、151-176 ペー ジ。石田美紀「「中の人」になる−−〈声もどき(ボーカロイド)〉が可能にしたもの」、『ユリイカ』40 巻 15 号(総特集:初音ミク−−ネットに舞い降りた天使)、2008 年 12 月、88-94 ページ。遠藤薫『廃墟 で歌う天使−−ベンヤミン『複製技術時代の芸術作品』を読み直す』、現代書館、2013 年。柴那典 『初音ミクはなぜ世界を変えたのか?』、太田出版、2014 年。 8. こうした操作は一定の処理能力をもったパーソナル・コンピュータを用いれば、フリーウェアでも容易におこなうことがで きる。たとえば、The Audacity Team が開発した『Audacity』(初版は 2000 年リリース)は任意のオー ディオファイルに対して「ピッチの変更 Change Pitch」と「テンポの変更 Change Tempo」を個別におこなうこ とができる。現在、Audacity はヴァージョン 2.1.2 がリリースされており、以下のウェブサイトから入手することができる。 「Audacity®」http://www.audacityteam.org/(2017 年3月 15 日最終閲覧)。
9. Eric W.Rothenbuhler and John Durham Peters, “Defining Phonography: An Experiment in Theory” , The Musical Quarterly, Vol.81, No.2, Summer 1997, 246. 10. 「数値化の頻度」は「サンプリング周波数」、「数値化の尺度」は「ビット」で表される。CD のフォーマッ トでは、サンプリング周波数は 44.1kHz、ビット数は 16bit に定められているが、これは一秒間に 44100 回の サンプリング(標本化)すなわち測定を 65536 段階の尺度でおこなうことを意味する。デジタル録音の仕組みの 概要に関しては、以下の文献の第 11 章を参照されたい。谷口文和・中川克志・福田裕大『音響メディ ア史』、ナカニシヤ出版、2015 年。
11. Rothenbuhler and Peters, op.cit., 247.
メータ−−が備わっている−−子音の長さを調整する「VEL(ベロシティ)」、音量を調整する「DYN(ダイナミク ス)」、息の量を調整する「BRE(ブレシネス)」など。ちなみに、これらのパラメータを駆使し、あたかも「人間のよ うに」発音させるテクニックは、ネットスラングで「調教」と呼ばれる。
13. Sasha Frere-Jones, “The Gerbil’ s Revenge: Auto-Tune corrects a singer’ s pitch. It also distorts—a grand tradition in pop,” The New Yorker, June 9, 2008, http:// www.newyorker.com/magazine/2008/06/09/the-gerbils-revenge(2017 年 3 月 25 日). 14. 同シリーズは 2011 年に「Songify the News(ソンギファイ・ザ・ニュース)」と改名された。これらのシリー ズ作品は「YouTube」の動画チャンネル「schmoyoho」で視聴することができる。
“schmoyoho,” https://www.youtube.com/user/schmoyoho/featured(2017 年 3 月 25 日)。彼らの活動をとくに有名にしたのは、同シリーズの第 12 作目にあたる「Bed Intruder Song(ベッ ド・イントゥルーダー・ソング)」であった。この作品で、彼らはケリー・ダドソンという一般人女性が被害にあったレイプ 事件の取材ニュースから、彼女の兄アントワーヌのインタビュー映像を抜粋して作品に用いた。この作品は公開後の 6 ヶ月間で 5000 万動画再生を突破し、2010 年に「YouTube」で最多の再生数を記録した動画となっ た。なお、同作品の再生数は 2017 年3月 25 日の時点で1億 3000 万回を超えている。 15. フォルマント兄弟の公式ウェブサイトより引用。http://formantbros.jp/j/profile.html(2017 年 3 月 25 日)。 16. 同作品の動画映像はフォルマント兄弟の公式ウェブサイトで視聴することができる。http://www. formantbros.jp/j/works/entori/2009/3/25_furedino_mu.html(2017 年3月 25 日)。 17. フォルマント兄弟「「デジタル・ミュージック」における6つのパースペクティブ」、2009 年 2 月 http:// formantbros.jp/j/works/entori/2009/3/25_furedino_mu.html(2017 年 3 月 25 日)。 18. アンドレ・バザン「写真映像の存在論」、『映画とは何か(上)』野崎歓・大原宣久・谷本道昭訳、 岩波文庫、2015 年、18 ページ。 19. ノーバート・ウィーナー『サイバネティクス−−動物と機械における制御と通信』池原止戈夫・彌永昌吉・ 室賀三郎・戸田巌訳、岩波文庫、2011 年、50 ページ。 20. ジョン・フォン・ノイマン『計算機と脳』柴田裕之訳、ちくま学芸文庫、2011 年。 21. ジョナサン・スターン『聞こえくる過去−−音響再生産の文化的起源』中川克志・金子智太郎・谷 口文和訳、インスクリプト、2015 年。 22. 秋吉康晴「声の機械化−−音響再生産の系譜をめぐる一考察」、『京都精華大学紀要』第 49 号、京都精華大学、2016 年9月、49-79 ページ。