サイボーグの歌声

(1)

秋吉康晴

不滅の声からサイボーグの声へ

1877 年 12 月 6 日の早朝、トーマス・エジソンは数名の部下とともに一台の機械を囲んでいた。フォノグラフと名づけられたこの試作品は、最古の録音再生機として知られている。録音用の錫箔をシリンダーに巻きつけ、その上に針を落とすと、エジソンはクランクを回しはじめた。彼が最初に録音したのは、よく知られた童謡《メリーさんの羊》だったと言われている。ラッパ型の吹き込み口に向かって大声で歌い終わると、エジソンはクランクを回す手を止めて、今度は再生用の針を錫箔の上に置いた。再びクランクを回しはじめると、わずかに甲高いながらも、確かに彼自身の歌声が鳴り響いたという。エジソンはこの瞬間を後に回想して、「人生であれほど驚天したことはなかった」と述べているが、機械が発する声をはじめて聞いたひとびとの驚きはどれほどのものだったろうか。録音技術にすっかり慣れてしまった現代のわたしたちには想像すべくもないが、フォノグラフの発明が当時のひとびとにとって「驚異」として受け取られたことは確かなようだ。その理由の一端は、試作品の完成から遡ることおよそ三週間前、エジソンの部下が『サイエンティフィック・アメリカン』誌で発表した声明文からうかがい知ることができる。エドワード・ジョンソンという名の技師はそこで、フォノグラフのもたらす可能性を次のように述べている。フォノグラフの吹き込み口に向けて話したことがあるか、これから話すかもしれないひと、つまり言葉をフォノグラフによって記録されるひとなら誰でも、彼自身が塵と化してからずっと後に、音声を再生されることを保証されている。その可能性は単純に驚くべきものである。ぎざぎざの入った一片の紙が小さな機械を通り抜け、機械の音が増幅されると、わたしたちの孫や数世紀後の子孫はまるでわたしたちがそこにいるかのようにはっきりとわたしたちの声を聞くのだ。音声はいわば不滅になったのである1_。ジョンソンがエジソンに代わって言うには、フォノグラフがもたらすであろう最大の驚異は、未来に向けて声を保存できることにあるという。フォノグラフが発明される以前、あらゆる人物の声は死とともに永遠に失われてしまう定めにあった。故人の声は残されたひとびとの記憶のなかにしか存在しないものだった。ところが、フォノグラフが発明されるやいなや、ひとの声はその主がたとえ亡くなってしまっても、生き生きとした響きをもって保存されるようになる。そうすれば、未来のひとびとは彼らの声を「まるでわたしたちがそこにいるかのように」聞くことになるだろう。ジョンソンいわく、フォノグラフの発明によって声は死を超越し、「不滅」になるのだ。もっとも、人

サイボーグの歌声

デジタル音楽をめぐる試論

(2)

類ではじめてその恩恵に与ったはずのエジソンの歌声は、現存さえしていない。というのも、そのとき録音媒体として用いられた錫箔は、数回の再生にも耐えられないほど脆い代物だったからだ。エジソンの声は不滅になるどころか、それを刻んだ錫箔もろとも失われてしまったのである。とはいえ、ジョンソンの記事はフォノグラフと最初に遭遇したひとびとが録音技術に何を期待したのかを知るうえで興味深い。いつかは消え去ってしまう声を物体に定着させ、保存するという可能性を、彼らは夢見たのだろう。録音技術を利用することが日常化した現在、わたしたちはそうした可能性にもはや驚きを感じないが、ときおりふとそれに気づくこともある。たとえば、古いレコードをかけて、引退して久しい歌手の歌声に耳を傾けるときや、その歌手が故人となってしまったとき、録音は最大限の効力を発揮するはずだ。歌唱や演奏を老化や死のような、避けがたい時間の暴力から救い出し、くりかえし何度でも「再生」できること。そうした力はいまでも確かに録音技術がもつ大きな魅力のひとつであり続けている。ところが、録音のデジタル化が進行しつつある現在、インターネットを介して無数に増殖していく「不滅の声」たちのあいだから、それらとは別種の声が漏れ聞こえてくるようになってきた。そうした声のひとつとして、たとえば「初音ミク」のそれをあげることができるだろう。「初音ミク」とはヤマハが開発した音声合成技術「VOCALOID2」を応用し、2007 年に発売された DTM（デスクトップミュージック）用のソフトウェアを指している。周知のように、このソフトウェアではあらかじめライブラリに登録されている音声データを素材として利用し、歌声そのものを合成できることが売りになっている。つまり、「初音ミク」を用いれば、作曲した楽曲を自分で歌ったり、誰かに歌ったりしてもらうことなく、いわばコンピュータに歌わせることができるのだ。「初音ミク」を開発したクリプトン・フューチャー・メディアが一種のキャラクター商品として VOCALOID 製品をパッケージ化し、可愛らしい少女のデザインをあしらったことから、このソフトウェアは「ニコニコ動画」のような動画共有サイトを媒体とするオタク的な受容の文脈において「架空のアイドルに歌わせる」という新しい表現方法を生み出した［図１］。発売から 10 年が経過した現在、「ボカロ系」として定着しつつあるそうした表現方法は、一部に録音技術を利用しているとはいえ、「不滅の声」のような声の表象からはかけ離れているように思われる。というのも、そこでは録音は誰かの歌声を記録するのではなく、誰かの歌声を使って、新たに別の歌声を生成するための手段として用いられているからだ。そのいささかたどたどしい歌声を耳にするとき、筆者は人間が歌ってい図１「初音ミク」パッケージ

(3)

るのか、それともコンピュータが歌っているのか、そのいずれとも決定したがいような感覚に襲われることがある。わたしは「初音ミク」のライブラリに登録された音声データが藤田咲という実在の声優に由来することを確かに知っている。だが、人工的な響きをもったその歌声には、彼女自身の声としてそれを聴くことを拒むような何かがある。その何かを指して、本稿では仮に「サイボーグ」という言葉を使ってみたい。「初音ミク」の声を聴いていると、人間と機械とが互いに融合してしまっているかのような、そんな印象を受けるのだ。ところで、そうしたサイボーグ的な声の表現は「初音ミク」に限らず、近年ではさまざまなところで聞こえるようになってきた。この小論では、録音のデジタル化によって可能になった声の表現をいくつか紹介しつつ、それらの表現の文化史的な背景として人間と機械の脱境界化をめざすような傾向があることを確認してみたい。わたしたちの声はデジタル化の進行につれて、いわばサイボーグ化の方向へと必然的に向かっているかのように思われるのだ。まずは、「初音ミク」の合成技術を例に、録音のデジタル化が声の表現に何をもたらしたのかをみていくしよう。

デジタルな音響処理

「初音ミク」というソフトウェアはどのようにして音声を合成するのか。開発者の剣持秀紀によれば、そのもとになっている「VOCALOID」の技術は、音声素片を接続するという発想でつくられたという。たとえば、「朝」という単語の発音は、ローマ字で表現すると [a] ＋ [s] ＋ [a] となるが、実際の音声に即すなら [ ＃ a] ＋ [a] ＋ [a-s] ＋ [s-a] ＋ [a] ＋ [a ＃ ] という素片によって構成される2_。

簡単に言ってしまえば、「朝」という音声を合成しようと思えば、これら６つの素片をあらかじめ録音しておき、順番に再生すればよいのだ。ただし、実際にはそう単純ではない。発音が滑らかに聞こえるためには、素片のピッチ（音の高さ）を同じに必要があるし、たとえピッチが同じであっても、ただ接続するだけでは２つの素片の音色の差がノイズとして表れてしまうからだ3_{。つまり、} 素片同士を滑らかに接続するには、それぞれの素片のピッチと音色の両方を調整する必要があるのだ。そうした処理をおこなうために合成のプロセスに組み込んだ工夫を、剣持は主にふたつ挙げている。ひとつは音色の変化を滑らかにするために、素片同士を接続する際、クロスフェードしながら接続するという工夫である4_{。加えて、素片によっては最初もしくは最後の部分の音色をくりか} えすなどして、時間的に引き伸ばすこともおこなっているという。もうひとつは素片のピッチを変えても、音色が変化しないようにするための工夫だ。周波数帯を全体的にずらすと、ピッチを変えることができるが、このやり方では音色も変化してしまう。単純にピッチを上下させると、音色を決定するスペクトル（周波数毎の強さの分布）が全体的に変化してしまうからだ。このような音色の変化を防ぐため、「VOCALOID」の合成エンジンではピッチを変更する際に、もとの素片のスペクトル特性が維持されるように調整しているという。それによって、素片にメロディを与えても、もとの音色は保たれるのである5_{。剣持のグループが開発した最初のヴァージョンは作曲用のソフ} トウェアに応用され、2004 年にイギリスの ZERO-G から「LEON」と「LOLA」として、日本のクリプトン・フューチャー・メディアから「MEIKO」として発売された［図２］［図３］。これらのソフトウェアは歌詞と音符のデータを入力することで、比較的簡単に歌唱を合成できるようなインターフェースを与えられており、その基本仕様は先に触れた後続の「初音ミク」にも引き継がれ

(4)

ている6_{［図４］。} 「初音ミク」をはじめとする「VOCALOID」製品が「ニコニコ動画」を媒体とするオタク系文化において人気を獲得し、DTM 用のソフトウェアとしては異例の注目を浴びた理由を問うことは、これまで散々議論されてきたので他に譲るとして7_{、ここで注目してみたいのは「VOCALOID」に} おける録音のあり方である。「VOCALOID」の技術は、録音のデジタル化にともなって、音の扱い方が大きく変化したことを示している。たとえば、録音の断片を繋ぎ合わせるだけなら、ヴァイナル・ディスクでは難しいとしても、磁気テープを用いれば、アナログ・メディアにおいても比較的容易におこなうことができた。だが、音色を変えずにピッチだけを変えることは、アナログ録音においては難しいというより原理的に不可能に近い。アナログ録音でピッチを変える最も簡単な方法は、再生速度を変えることだが、このやり方ではピッチだけでなくテンポも変わってしまう。それだけでなく、周波数スペクトルもやはり変わってしまうので、音色にも変化が生じる。ヴァイナル・ディスクやカセット・テープに触れたことのあるひとの多くは、そうした遊びに興じた覚えがあるのではないだろうか。たとえば自分の声をテープに録音して再生速度を変えると、テンポ、ピッチ、音色といった複数のパラメータが同時に変化し、印象に劇的な変化をもたらすだろう。それに対して、デジタル的な音の処理では、任意のパラメータを個別に変化させることができる。もとのピッチや音色を保ったまま、テンポを変えることや、反対にもとのテンポを保ったまま、ピッチを変えることは、現在のソフトウェア技術においてはそれほど難しいことではない8_{。同様の技術は} 「VOCALOID」においても、ピッチの変更や音色の調整をおこなう際に利用されている。では、アナログ録音では不可能だったそうした操作は、なぜデジタル録音の導入によって可能になったのだ図２（左上）：「LEON』『LORA』図３（上）：「MEIKO」パッケージ図４（左）：作曲用インターフェース「VOCALOID Editor」

(5)

ろうか。これまで何度も指摘されてきたように、録音技術において「アナログ」と「デジタル」の最大の違いのひとつは、記録の性質がその媒体の物質的な条件によって左右されるかどうかにある。たとえば、レコード盤や磁気テープがくりかえしの使用によって摩耗したり、劣化したりすると、再生音に変化が現れることは周知の事実だ。また、ある媒体から別の媒体に録音を複製しても、音質が変化することも周知のとおりだろう。ところが、デジタル録音の場合には、たとえば CD に傷がついてその部分の音が再生できないということがあっても、音質が劣化するということがない。また、 CD のデータをいくら複製しても、音質が変わることはありえないデータを圧縮したり、再生ソフトウェアを変えたりする場合、話は別だが。こうした違いはもちろん素材の違いではなく、記録の原理の違いに起因する。エリック・ローゼンバーグとジョン・ピータースが言うように、「アナログ」の録音とは文字どおり、音の「相似物 analogue」を意味し、記録の方式に違いはあれ、音波のエネルギーを利用してそれに相似した痕跡をつくりだすという特徴をもつ9_{。最も分かりやす} いのは蓄音機の例だが、エジソンが発明したフォノグラフは音波のエネルギーを針に伝え、その針の振動によって記録媒体の表面を削り取るような仕組みをもっていた。音波のエネルギーを利用して削られた溝が、ここでは音の痕跡すなわち記録ということになる。磁気録音の場合、記録の仕組みはより複雑になり、音波のエネルギーを電気エネルギーに変換し、さらにそれを磁気エネルギーに変換するというプロセスをとるが、発想の根幹にあるものは変わらない。蓄音機も磁気録音機も音波のエネルギーを物理的に利用して、音に相似した痕跡をつくりだすという点では共通するからだ。そのため、アナログな録音では音の「相似物」としての痕跡が劣化したり、変質したりすることで、再生音にも変化が生じるのである。これに対し、デジタルな録音技術は音波のエネルギーを電気エネルギーに変換したうえで、さらにそれを計測し、数値として記録するということをおこなう。digital の名詞形である digit はそもそもラテン語で「指」を意味し、指を折って数えることから転じて、「数」を意味するようになった言葉だ。この語源が示唆するように、デジタル録音の本質とは物理的な痕跡ではなく、数値として表現されたデータにある。CD にも採用されている PCM（パルス符号変調 Pulse Code Modulation）方式を例にとるなら、そうした数値化は次のようにおこなわれる。音波のエネルギーはまず電気エネルギーに変換される。この状態でのオーディオ信号（電気信号）は電圧の波として表される。PCM 方式ではその電圧を一定の頻度で測定し、数値として記録するのである。このとき測定された数値は、二進数（0 と 1）によって表現されるバイナリー・データとして記録される。これらの数値をグラフ化し、線で結ぶと、音の波は階段状の線によって表現されるだろう。数値化の頻度を増やし、数値化の尺度を細かくすれば、階段状の線は徐々に滑らかな波のかたちに近づいていくはずだ10_{。デジタル録音の本質とはこのように、音波を} 非連続的に数値によって表現することにある。デジタル録音の音質が、記録媒体の物質的な条件によって左右されないのはこのためである。たとえば 0 という数字を紙に書いても、道路に書いても、スクリーンに写しても、その字義的な意味は変わらないように、記録された数値さえ保持されるなら、どのような記録媒体に保存しても再生音の質は変わらない。また、記録媒体がどれだけ劣化しても、数値さえ読み取れるなら、同様に音質は変わらないだろう。このようにデジタル録音は「数」と「計算」にその基礎を置くことで、記録媒体の物質性に左右されることなく、音を処理することができるのである。

(6)

記録の原理におけるこうした違いは、デジタル化によって録音の耐用年数が向上したとか、音質の劣化を気にせずに録音をコピーできるようになったということを単純に意味するだけではない。録音の基礎が「痕跡」から「数値」へと移行したことは、音を操作するあり方に根本的な違いをもたらしたのである。その違いはたとえば、先に述べたように、ピッチを変えるという操作においても明瞭に表れている。アナログ録音においてそうした操作は、再生速度を物理的に変えるというやり方でおこなわれていた。ヴァイナル・ディスクの回転数を下げれば、ピッチは下がり、カセット・テープを文字どおり「早送り」すれば、ピッチは上がる。こうした特徴は、録音とその媒体となる物質がまさしく一体であることを意味している。だからこそ、再生速度を変えれば、ピッチだけでなく、テンポや音色といった要素も全体的に変わってしまうのである。それに対して、デジタルな音の操作は物理的な領域ではなく、「数的な領域」においておこなわれる11_{。「VOCALOID」を例}

にあげるなら、音声素片のピッチ操作は FFT（高速フーリエ変換 Fast Fourier Transform）による計算処理を利用している。FFT とはフーリエ変換をおこなうアルゴリズムの一種であり、音の分析では、複雑な波形をより単純な波形（正弦波）に分解するために用いられる。この処理をおこなえば、ある波形を複数の周波数成分に分解し、それらの強度の分布（スペクトル）を細かく数値化できる。「VOCALOID」の合成エンジンでは、このアルゴリズムを利用し、スペクトルを周波数軸上で動かすことでピッチを変えるのである。先述したように、この方法では音色が変わってしまうが、アナログの場合と違って、テンポが変わることはない。また、「VOCALOID」では音色の調整にも同じく FFT が利用されており、今度は周波数成分の強度を調整することで声質を変えるのである。このように、デジタルな方式においては、音の操作は数的なデータの計算処理と書き換えによっておこなわれる。そのため、記録媒体の素材や形状その他諸々の物質的な条件にかかわりなく、音を変化させることができるのだ。このようにデジタル技術に特有の方法で合成された歌声は、まるで誰かが実際に喉を震わせて歌ったような実在感をともなっている。それもそのはずだ。「VOCALOID」の合成音は、実在する人物の声にもとづいているのだから。だが、どこかぎこちなさを残したその声は、人間の声としてそれを聞くことを拒むような人工的な響きをともなっている。実在する人物の声を利用しているとはいえ、断片的な素材として格納された彼らの声のデータは書き換えられ、パッチワークのようにつなぎ合わされて出力される。そのとき混入する独特の歪みは、どれだけ入念にパラメータを調整しても、完全に消えることはなく、コンピュータの介在性に気づかずにはいられない12_{。人間の声} のようでありながら、純粋に人間の声とは言いがたい、独特な印象をその歌声は与える。人間の声がコンピュータと結合することで生まれた、奇妙な歌声。そうした声を指して、ここでは仮に「サイボーグ的な声」と呼んでみたいと思う。

サイボーグ的な声

人間の声とコンピュータの結合によって生まれた「サイボーグ的な声」は、実のところ「VOCALOID」の例に限らず、さまざまなところで聴くことができる。むしろ、そうした声のあり方は現在のポップ産業ではありふれたものになっているとさえ言えるかもしれない。たとえば、先にみたようなピッチ操作の方法は、レコーディングの際、音程を補正するために利用されるように

(7)

なっている。分かりやすく言えば、たとえ音程を外しても、ソフトウェアで「音痴を直す」ことができるのだ。その種のソフトウェアで有名なものに、Antares Audio Technologies（アンタレス・オーディオ・テクノロジー）社が販売している「Auto-Tune（オートチューン）」がある。このソフトウェアには、ユーザが指定したスケールに合わせてピッチのずれを自動補正する「オートマティック・モード」と、グラフ化されたピッチのデータを手動で調整できる「グラフィカル・モード」があり、「音痴」の程度によってモードを使い分けることができる［図５、６］。だが、このソフトウェアを有名にしたのは、そうしたいわば「正当」な用途ではなかった。「Auto-Tune」はピッチのずれを補正するだけではなく、特殊な効果をボーカルに加えるために使われることもある。米国の女性歌手・俳優の Cher（シェール）が 1998 年にリリースした「Believe」は、そうした効果を有名にした楽曲として知られる。「Auto-Tune」のインターフェースには、ピッチ補正の変化スピードを調整する「スピード」というパラメータがあるが、その値をゼロにすると、ポルタメント（ある音から別の音に移る際に音程を滑らかに変化させる技法）がなくなり、音程の変化が直線的になる。すると、歌声はもとの音色をある程度保ちながらも、人間的な声の滑らかさを失い、ある種の電子楽器の演奏音のような硬直した音に変化するのである13_{。こうした効果はその後、「シェール・エフェクト」}

として知られるようになり、Daft Punk（ダフト・パンク）、T-Pain（T・ペイン）、Kanye West（カニエ・ウェスト）といったクラブミュージック系のミュージシャンによって用いられてきた。日本の例では中田ヤスタカがプロデュースするアイドル・ユニット、Perfume（パフューム）のボーカルに同様の効果が用いられている。その効果は人体の構造から逸脱した、直線的なピッチの変化を与えることで、ボーカルに人工的な響きを加えることに寄与している。また、日本では彼らほど知られていないが、音楽産業の外側で活動するミュージシャンのなかには、音楽的にというだけでなく政治的に興味深いやり方で「Auto-Tune」を利用しているひとびともいる。マイケル、アンドリュー、エヴァンのグレゴリー三兄弟とエヴァンの妻サラの四人によって 2007 年に結成された The Gregory Brothers（ザ・グレゴリー・ブラザーズ）は、動画共有サイト「YouTube」を作品リリースの主な媒体として活動するグループだが、ほとんど無名であった彼らを有名にしたのは、2010年頃から発表を続けている「Auto-Tune the News（オートチューン・ザ・ニュース）」というシリーズだ14_{。このシリーズで彼らはニュース番組から切り取った映像の}

音声を「Auto-Tune」で加工し、伴奏とコーラスを加えることで、ポップソングのように仕立て上

図５：「オートマティック・モード」インターフェース図６：「グラフィカル・モード」インターフェース

(8)

げている。そこではニュースキャスター、政治家、評論家などが演説や答弁をしている声は、歌やラップのように変えられ、The Gregory Brothers のメンバーとセッションしているかのように編集されている動画のなかで彼らはしばしばニュースキャスターやインタビュアーの役割を演じている［図７］。政治的なテーマについて歌った楽曲はこれまでも多くあったが、The Gregory Brothers の楽曲はそれらとは一線を画している。彼らは政治的なテーマについて歌うのではなく、政治家みずからに歌わせることで、政治的な事柄というよりも政治的な行為そのものを音楽的に批評するという手法をとっているのだこうした「Auto-Tune」の用法は「音痴を直す」という本来的な用法よりも強力に、サイボーグ的な効果、つまり人間と機械の境界を溶解させてしまうような効果をもっている。「シェール・エフェクト」を多用する楽曲において、ボーカルの声質は伴奏に用いられている純粋な電子音とまったく区別できないところまでとはいかないまでも、きわめて近いところまで接近しており、両者の境界を聴覚的に曖昧にしている。また「Auto-Tune the News」においては、インタビュアーや政治家の声はあたかもコンピュータで身体をハッキングされてしまったかのように無理やり操作され、歪められてしまっている。もちろん事実はそうではないが、少なくとも聴覚的な印象においては、人間の喉と機械のあいだに境界など存在しないかのようである。「Auto-Tune」から離れて、ほかの例もみてみよう。プログラミングに長けたミュージシャンのなかには人間の声をコンピュータの電子音に近づけるのではなく、その逆のプロセスをたどって作曲に利用している作家たちもいる。たとえば、三輪眞弘と左近田展康のふたりによって 2000 年に結成されたフォルマント兄弟は、「テクノロジーと芸術の今日的問題を《声》を機軸にしながら哲学的、美学的、音楽的、技術的に探求し、21 世紀の《歌》を機械に歌わせること」を目指し、独自の手法で合成した音声を創作に活用している15_{。彼らの活動のなかでも最も興味深いものに、}_『フレディーの墓／インターナショナル』（2009 年）という作品がある16_{。この作品においてフォル} マント兄弟は 1991 年に亡くなった Queen（クィーン）のボーカル、フレディー・マーキュリーがあたかも亡霊のように墓地に現われ、歌いはじめでもしたかのように、彼の歌声を蘇らせている［図８］。彼らはマーキュリーの歌声がもつ音響的な特徴を解析し、独自に開発したデジタル音響合成のプログラムによって復元したのだ［図９］。ただし、彼らが亡霊として召喚しようとしたのは、かつて存在した「フレディー・マーキュリー」そのひととは微妙に異なる。召喚された「フレディー」

図７：「Auto-Tune the News」の一場面　　　（右の人物はアンドリュー・グレゴリー）

(9)

が歌うのは、彼が歌ったはずのない楽曲だからだ。フォルマント兄弟の「フレディー」が歌うのは、共産主義の革命歌として知られる「インターナショナル」である。彼らは冷戦期に米国の文化産業を代表するスターとして生き、冷戦の終結とともに死んだフレディー・マーキュリーの声に、その対極にあるような楽曲を、しかも日本語で歌わせたのだ。作品とともに発表したテキストのなかで、フォルマント兄弟が『フレディーの墓』を「死者なき亡霊」の歌と呼ぶのはこのためだ17_{。ロラン・} バルトが写真の本質としてあげた「それは - かつて - あった」という時間性を敷衍して彼らが述べるように、録音技術がもたらしたのは「かつて生者であった者の痕跡」としての声を「いま - ここ」に再現することで、過去に生きたひとびとを亡霊のように召喚するという体験であった。フォルマント兄弟はそのような録音の体験を逆手にとり、デジタル的に合成された歌声によって、かつて生きたあの「フレディー」のようでありながら、しかし実のところ誰でもない何者かを聴き手の感覚のなかに呼びだした。録音という痕跡の効果として事後的に召喚されたその何者かを指して、フォルマント兄弟は「死者なき亡霊」と名づけたのである。こうした試みはデジタル技術の発達によって、音声情報を詳細に数値化し、その解析データを音響合成に活用することが可能になったことを意味するだけではない。むしろ、フォルマント兄弟がラディカルに主張するのは、声による「現前」の感覚はメディア技術によって構成されうるものになりつつあるということだ。本稿の冒頭でとりあげた「不滅の声」という表現が、死者の亡霊的な現前という事態を録音技術の偉力として言祝いだものだとすれば、フォルマント兄弟が提唱する「死者なき亡霊」はそうした効果を最新の技術のもとで読み替えようとする試みだと言うことができる。そして、同様の試みは彼らほど自覚的ではないかもしれないが、筆者がここでとりあげてきたデジタル的な声の表現にもあてはまるだろう。それらはみな「かつて - あった」者たちのようでありながら、しかし実のところ「かつて - あった」誰でもない何者かを召喚してしまうような側面をもっていたからだ。だが、筆者はここでその何者かを「死者なき亡霊」と呼ぶよりも、あえて「サイボーグ」と呼んでみたい。なぜなら、現在起きつつあるのはメディア技術がもつ亡霊化の作用が新たな段階を迎えつつあるというだけではなく、人間が機械に、機械が人間に近づいていくような事態だからだ。「VOCALOID」や「Auto-Tune」を用いた作品において、人間の声はコンピュータによってデータ的に生成され、図８：《フレディの墓》の音声合成エンジン　　　（作品映像より抜粋）

(10)

出力される電子音へと接近していく。他方、フォルマント兄弟の作品では逆に、コンピュータによって生成される電子音のほうが人間の声へと接近していく。こうした事態を名指すには亡霊化という表現よりもむしろ、サイボーグ化という表現のほうが筆者にはしっくりくるのだ。

サイボーグ化する声の系譜

1877 年に蓄音機が発明されたとき、録音技術にはじめて遭遇したひとびとはその魅力を声の不滅化という言葉で表現した。そうした表現は写真映像の力を時間の「防腐処理」という言葉で言い表したフランスの映画評論家アンドレ・バザンの主張とどこか似ている。バザンによれば、写真や映画を生んだのは、人類が古代よりとりつかれてきた「ミイラ・コンプレックス」の衝動であった。それは永続化しうる人物の似姿をつくることで、死の恐怖を乗り越えようとする衝動であり、その起源としてバザンは古代エジプトのミイラを挙げ、その末裔あるいは完成として写真と映像を挙げる。遺体に防腐処理を施すように、写真と映像は時間に防腐処理を施し、「持続のさなかでせき止められ、死の運命から解き放たれた生命」の姿をわたしたちに与えた18_{。蓄音機がもたらしたのは} ある意味でそうした「防腐処理」の音声版であったと言うことができる。蓄音機は声を死や腐敗といった時間の暴力から救い出したのみならず、主体の亡霊的な現前という驚くような効果をもたらした。エジソンが蓄音機を発明した当時とは異なり、その効果はすでに日常化し、人間にとって第二の自然と化していると言っても過言ではない。ひとたび「再生」をはじめれば、往年の歌手たちも、流行りのアイドルたちも当人の生死や老いにかかわりなく、当たり前のようにわたしたちのために歌ってくれる。そうしたある意味で奇跡のような体験は、鳴り響くなり消えてしまう声という儚い現象を物体に刻み込み、痕跡化する技術によって可能になった。ところが、録音のデジタル化が進んだ現在、スピーカーからは「不滅の声」とは別種の声が聞こえるようになってきた。あるところでは、ソフトウェアで歌唱データを入力し、電子楽器を自動演奏するように歌声を操るということがおこなわれ、別のところでは、音声のデータを書き換え、歌声をシンセサイザーの電子音のように変えたり、話し声を歌声のように変えたりするということが当たり前のようにおこなわれている。またあるところでは、デジタル処理される音響のデータを人間の声に近づけ、無から歌声を生成するということさえおこなわれている。つまり一方では、人間の歌声が機械によって生成される音響に接近していくという状況が生まれており、他方では、機械によって生成される音響が人間の歌声に接近していくという状況が生まれているのだ。人間と機械とがあたかも互いに結合するようにして生まれる声。そうした声のあり方を、本稿ではサイボーグ的な声と呼んできた。こうした状況はなぜ生まれたのか。その背景をゆっくり考える紙幅の余裕はもはやないが、デジタル技術の歴史をたどっていくと、そこにはもともと人間と機械の融合を志向するような思想をいくども垣間見ることができることは指摘しておきたい。たとえば、「サイボーグ」という言葉の由来として知られる「サイバネティクス」は、そうした思想を代表するものとして挙げられるだろう。 1948 年にこの学問を提唱したアメリカの数学者ノーバート・ウィーナーは、動物と機械を通信工学と制御工学の観点から総合的に扱うことをその目的としたが、彼はそこで動物の神経系を高速計算機すなわちコンピュータと同列に置くという考えを提示している「われわれに明らかになっ

(11)

たことは、つぎつぎにスイッチの操作を行なう超高速計算機が、神経系に生ずる問題をほとんど理想的にあらわす模型となりうるにちがいないということであった19_{」。彼いわく、神経系のニュー} ロンは発火するか、しないかという二者択一的な性格をもつが、この性格は０と１という二進法に従って作動するコンピュータと共通するというのだ。また、ノイマン型コンピュータの父として知られるジョン・フォン・ノイマンは、1957 年に死去するまで脳とコンピュータの類似性を数学的に証明する試みに従事していた。その遺稿においてノイマンは脳の働きにアナログ的な側面があることを認めつつも、ウィーナーと同じく、神経パルスがデジタル的な性格をもつことを主張し、中枢神経系の働きを記述するためのプログラム言語の可能性を指摘している20_{。彼らが主張したのは、} 人体とコンピュータは類似した働きをもつということだった。だからこそ、コンピュータを人間のように扱い、人工知能や自動制御の技術に応用することが可能になったのであり、人間をコンピュータに接続し、人工臓器によって制御するようなことも可能になったのだ。人間の声をコンピュータ技術と結合させ、両者の境界を曖昧にしてしまうような表現は、人間と機械を同じく「計算」というタームでくくるような思想が社会に浸透したことの現われだと言えるかもしれない。だが、人間と機械との接近をもたらすような技術やそれを用いた表現は、何も今にはじまったことではない。メディア研究者のジョナサン・スターンが指摘するように、そもそも蓄音機の発明からしてすでに、人間と機械の境界を揺るがすような側面をもっていた。その発明は人体をある種の機械とみなし、実物の機械として再構築しようと目論むようなさまざまな探求の成果としておこなわれたのであり、局所的にみれば、電話や蓄音機は鼓膜の模造品に起源をもつ21_{。また、筆者が別} の論文で書いたように、さらに遡れば、18 世紀にはすでに口や喉といった音声器官を人工的に再現することで、人間の声を機械化しようとするような試みもおこなわれていた22_{。ジョンソンが「不} 滅の声」について語ったとき、それはすでにかつての人間の声ではなく、フランケンシュタインの怪物があげた産声のごとく、人間と機械の境界を乗り越えようとするさまざまな実践の積み重ねによって誕生した声だったのだ。以来、人間の声は機械との結合と融合をくりかえし、美的に洗練され、マイクロフォンを通して聞こえる声こそが自然な歌声として受け容れられるような文化さえ成立した。そう考えると、本稿で「サイボーグの歌声」と呼んだものは、アナログとデジタルとの断絶を意味するものというより、録音技術の誕生以来（あるいはそれ以前から）くりかえされてきた試みの延長にあるものとみなすべきかもしれない。

(12)

註

1. Edward Johnson, “A Wonderful Invention.--A Speech Capable of Indefinite Repetition from Automatic Records,” Scientific American, 37, 20, November 17, 1877, 304. 2. 「＃」は無音の状態、「_」は音を伸ばすことを表わす記号、「-」は母音と子音の繋がりを表わしている（剣持秀紀・藤本健『ボーカロイド技術論−−歌声合成の基礎とその仕組み』、ヤマハミュージックメディア、2014 年、38 ページ）。 3. 同書、62 ページ。 4. クロスフェードとは前の音の最後の部分を徐々に小さく、後ろの音の最初の部分を徐々に大きくしながら、ある音から別の音へ滑らかに移行することを指す。 5. 剣持、前掲書、64-66 ページ。 6. クリプトン・フューチャー・メディアの「VOCALOID」製品は現在、「VOCALOID4」までヴァージョンアップが進んでおり、表現可能な歌唱の幅は初期よりも拡がっている。なお、初期のヴァージョンでは作曲用のインターフェースと音声ライブラリが同梱されていたが、2011 年発表の「VOCALOID3」以降は「VOCALOID Editor」と音声ライブラリが別々に販売されるようになった。同社の製品については、公式ホームページ（https://www. vocaloid.com/）を参照されたい。 7. 先行する優れた議論として、以下の文献をあげておきたい。増田聡「データベース、パクリ、初音ミク」、『思想地図』Vol.1（特集：日本）、東浩紀・北田暁大編、NHK 出版、2008 年、151-176 ページ。石田美紀「「中の人」になる−−〈声もどき（ボーカロイド）〉が可能にしたもの」、『ユリイカ』40 巻 15 号（総特集：初音ミク−−ネットに舞い降りた天使）、2008 年 12 月、88-94 ページ。遠藤薫『廃墟で歌う天使−−ベンヤミン『複製技術時代の芸術作品』を読み直す』、現代書館、2013 年。柴那典『初音ミクはなぜ世界を変えたのか？』、太田出版、2014 年。 8. こうした操作は一定の処理能力をもったパーソナル・コンピュータを用いれば、フリーウェアでも容易におこなうことができる。たとえば、The Audacity Team が開発した『Audacity』（初版は 2000 年リリース）は任意のオーディオファイルに対して「ピッチの変更 Change Pitch」と「テンポの変更 Change Tempo」を個別におこなうことができる。現在、Audacity はヴァージョン 2.1.2 がリリースされており、以下のウェブサイトから入手することができる。「Audacity®」http://www.audacityteam.org/（2017 年３月 15 日最終閲覧）。

9. Eric W.Rothenbuhler and John Durham Peters, “Defining Phonography: An Experiment in Theory” , The Musical Quarterly, Vol.81, No.2, Summer 1997, 246. 10. 「数値化の頻度」は「サンプリング周波数」、「数値化の尺度」は「ビット」で表される。CD のフォーマットでは、サンプリング周波数は 44.1kHz、ビット数は 16bit に定められているが、これは一秒間に 44100 回のサンプリング（標本化）すなわち測定を 65536 段階の尺度でおこなうことを意味する。デジタル録音の仕組みの概要に関しては、以下の文献の第 11 章を参照されたい。谷口文和・中川克志・福田裕大『音響メディア史』、ナカニシヤ出版、2015 年。

11. Rothenbuhler and Peters, op.cit., 247.

(13)

メータ−−が備わっている−−子音の長さを調整する「VEL（ベロシティ）」、音量を調整する「DYN（ダイナミクス）」、息の量を調整する「BRE（ブレシネス）」など。ちなみに、これらのパラメータを駆使し、あたかも「人間のように」発音させるテクニックは、ネットスラングで「調教」と呼ばれる。

13. Sasha Frere-Jones, “The Gerbil’ s Revenge: Auto-Tune corrects a singer’ s pitch. It also distorts—a grand tradition in pop,” The New Yorker, June 9, 2008, http:// www.newyorker.com/magazine/2008/06/09/the-gerbils-revenge（2017 年 3 月 25 日）. 14. 同シリーズは 2011 年に「Songify the News（ソンギファイ・ザ・ニュース）」と改名された。これらのシリーズ作品は「YouTube」の動画チャンネル「schmoyoho」で視聴することができる。

　“schmoyoho,” https://www.youtube.com/user/schmoyoho/featured（2017 年 3 月 25 日）。彼らの活動をとくに有名にしたのは、同シリーズの第 12 作目にあたる「Bed Intruder Song（ベッド・イントゥルーダー・ソング）」であった。この作品で、彼らはケリー・ダドソンという一般人女性が被害にあったレイプ事件の取材ニュースから、彼女の兄アントワーヌのインタビュー映像を抜粋して作品に用いた。この作品は公開後の 6 ヶ月間で 5000 万動画再生を突破し、2010 年に「YouTube」で最多の再生数を記録した動画となった。なお、同作品の再生数は 2017 年３月 25 日の時点で１億 3000 万回を超えている。 15. フォルマント兄弟の公式ウェブサイトより引用。http://formantbros.jp/j/profile.html（2017 年 3 月 25 日）。 16. 同作品の動画映像はフォルマント兄弟の公式ウェブサイトで視聴することができる。http://www. formantbros.jp/j/works/entori/2009/3/25_furedino_mu.html（2017 年３月 25 日）。 17. フォルマント兄弟「「デジタル・ミュージック」における６つのパースペクティブ」、2009 年 2 月 http:// formantbros.jp/j/works/entori/2009/3/25_furedino_mu.html（2017 年 3 月 25 日）。 18. アンドレ・バザン「写真映像の存在論」、『映画とは何か（上）』野崎歓・大原宣久・谷本道昭訳、岩波文庫、2015 年、18 ページ。 19. ノーバート・ウィーナー『サイバネティクス−−動物と機械における制御と通信』池原止戈夫・彌永昌吉・室賀三郎・戸田巌訳、岩波文庫、2011 年、50 ページ。 20. ジョン・フォン・ノイマン『計算機と脳』柴田裕之訳、ちくま学芸文庫、2011 年。 21. ジョナサン・スターン『聞こえくる過去−−音響再生産の文化的起源』中川克志・金子智太郎・谷口文和訳、インスクリプト、2015 年。 22. 秋吉康晴「声の機械化−−音響再生産の系譜をめぐる一考察」、『京都精華大学紀要』第 49 号、京都精華大学、2016 年９月、49-79 ページ。