Microsoft Word - p44-wang.doc

(1)

The Shazam Music Recognition Service

Shazam 音楽認識サービス

他でも，音楽識別（identification）の配信の試みがなされてきた．例えば，1999 年に初期の先駆者StarCD が携帯電話ユーザを使って，あるラジオ局で流れている歌の識別を可能にするサービスを導入した[1]．識別には，ユーザは未知の歌が流れている時に StarCD サービスを電話で呼び出す．次に，ラジオ局のコールサイン（call letter，例えば NHK）を電話のキーパッドで入力する． StarCD はサードパーティのプレイリストデータベース提供会社に自動的に問い合わせ，呼び出しのあった時刻に指定されたラジオ局で流された歌を確認する．その音楽の身元を知ると，ユーザはそのCD を買う機会を与えられたことになる．この結果， StarCD システムは，サードパーティのプレイリスト提供会社がモニターしているラジオ局の歌だけに限られていた． QBE は，StarCD で提供されていたものよりも柔軟な音楽認識用入力モダリティを有しており，ユーザにラジオ局情報を入力させる代わりに録音されたサンプルから認識する．QBE 音楽認識研究は，世界中の複数のグループが推進してきた．例えば，1980 年代初期に Broadcast Data Systems （www.bdsonline.com/）は，初期の先駆者であり，多様な波形相関法を用いていた[4]．1996 年，Musclefish（www.musclefish.com/）が多

Avery Wang

ユーザが与えた query-by-example の音楽サンプルに導かれて，

そのユーザに直接興味があるマッチする歌を配信してくれる．

図：Shazam インターフェース：(a) 10 秒間の音響サンプルの録音，(b) クエリ結果の表示．人々は，毎日の環境―車，家，レストラン，ムービーシアター，ショッピングモール―において，日常的に音楽にさらされているのに，聞こえてきたものについてもっと知ることができないことに，フラストレーションを感じている．例えば，ある特定の楽曲に興味を持っていて，そのタイトルやそれを作ったアーティストの名前を知りたいと思っているかもしれないし，その歌のディジタルダウンロードや着メロを購入したいと思うかもしれない．これらの限界を取り組むため，Shazam Entertainment で，私と同僚は，query-by-example（QBE）の音楽検索サービスを開発した．これにより，ユーザは携帯電話を録音機器として用いて数秒間の音をサンプリングすることで，録音済み音楽の身元（identitiy）を知ることができる．

(2)

次元特徴解析とユークリッド距離測度に基づく手法を開発した[6]．しかし，これらの方法はすべて，かなりクリーンな音響サンプルに対して最も適しており，重大な雑音や歪みが存在する下では十分に機能しなかった．我々が 2000 年にロンドンで Shazam Entertainment を設立した時，携帯電話を通じて提供する商用 QBE 音楽認識サービスの開発を目指した[5]．ユーザは，短縮ダイヤルコードでサービスに電話をかけ，音響サンプルを録音する．サンプリング後，サーバは電話を切って，認識結果を SMS テキストメッセージ経由で返す．2004 年には， Song Identity と呼ぶ新バージョンを導入した．もっとインタラクティブなインターフェースを提供するもので，最初はアメリカの Verizon Wireless を通じて利用できた．以降，このアプリケーションを様々な受話器（handset）プラットフォームに移植している． Song Identity を用いる前に，ユーザはまずアプレットをダウンロードして受話器にインストールする．認識したい音楽が聞こえたら，アプレットを開始し，周囲の音響信号を約10 秒間録音して，音響ファイルをShazam に送るか電話機上で特徴抽出を行って小さな署名（signature）ファイルを生成する．この署名ファイルは中央サーバに送られ，中央サーバが検索をし，マッチするメタデータ―タイトル，アーティスト，アルバム―をアプレットにもどす（図を参照のこと）．次に，ユーザにタイトル，アーティスト，アルバムの情報が提示され，さらに，対応する着メロ（ringtone）をダウンロードするオプションも―マッチするものがあれば―示される．数種のプラットフォーム上の将来のバージョンでは，フルトラックのダウンロード，CD，コンサートチケット，歌詞，さらにその音楽に関連する追加情報やイベントを購入できるようになろう． Song Identity を含む商業的 QBE 音楽認識システムが克服しなければならない数々の手強い技術的チャレンジを以下に示す：雑音（noise）．雑音はある種の環境では対象の音楽と張り合うほど大きい．例えば，音楽は一般に騒々しいカフェやショッピングモールの背景となっている．車の中にいれば，交通やエンジン雑音といったやっかいごとが加わる．雑音のパワーは実に信号のパワーより著しく大きい可能性があり，そのため認識アルゴリズムは顕著な雑音を扱えるほどにロバストである必要がある．歪み（distortion）．システムは，不完全な再生・録音機器だけでなく環境的要因（残響（reverberation）や吸収）を含むさまざまな原因から来る歪みを扱えなければならない．電話機器を通じてサンプリングすると，周波数応答は約300Hz～3,400Hz までに縮退してしまう．歪みは，携帯電話における低ビットレートの音声圧縮に起因する音響サンプルからも生ずる可能性もある．受話器や携帯電話会社のネットワークに組み込まれた非線形雑音抑制（nonlinear noise suppression）や音声圧縮と音声品質強調（voice-quality- enhancement）アルゴリズムは，背景音楽のサンプリングがほとんど無音しか含まない録音という結果に終わってしまうので，さらなるチャレンジの代表格となろう．データベース管理．システムは，過度な台数のサーバを要求することなく，オンラインデータベースにおける数百万もの歌の「フィンガープリント」をインデックス付けできなければならない．そのため，各歌のフィンガープリント，つまり一意的な特徴表現が，高々数キロバイトのオーダと言う，十分に小さくなければならない．さらに，システムは1 秒間に数百から数千のクエリをさばく必要があると思われるので，数百万曲まで規模が拡大した時に，バックエンド検索エンジンに重大な処理負荷を招いてはならない．システムは量的な規模拡大ができなければならない．つまり，数百万曲をデータベースに追加しても，正解マッチングを見つける確率が著しく低下してはならないし，誤った結果（false

数百万曲をデータベースに追加しても

正解マッチングを見つける確率が著しく低下してはならないし，

誤った結果を報告する確率が著しく上昇してもならない

(3)

positive）を報告する確率が著しく上昇してもならない．我々は，携帯電話を通して集めた初期の音響サンプルに落胆した．音楽の歪みがとても激しく，我々の耳をもってしても音楽の存在がかろうじて認識できるほどのことが数多くあった．我々は，数百万の録音まで規模拡大するどころか，電話を通した音響サンプルをその既知のマスター録音にマッチさせることにすらしばしば四苦八苦した．我々の努力を断念せざるを得なくなるという危機にすらさらされていた．幸いにも，2000 年に 3 ヶ月にわたる作業の後，これらのチャレンジを一般的に克服する，時間伸縮のする組み合わせハッシュ法（temporally aligned combinatorial hashing）を用いた解決策にたどり着いた．我々が何とか解決しようとしたもう1 つのチャレンジは，技術的というより物流上のものである．つまり，数百万もの歌から成るデータベースをどうやってコストを効果的に（cost-effectively）まとめ上げるかということである．Shazam は，大規模な音楽カタログを持つコンテンツパートナーからフィンガープリントを抽出するだけでなく，音楽資産を購入している．実際には，こうした制約に直面したことは，我々の音楽認識アルゴリズムの開発を単純化する手助けとなった．特に信号より大きい雑音が存在する中で，大量の録音へと規模拡大できないようなアプローチは，我々は無視せざるを得なかった．こうした考えは数々のひらめきをもたらした[5]．まず初めに，顕著な雑音や歪みがあっても再現可能なロバストな特徴量を見つけなければならない．我々は数々の候補となる特徴量（例えばパワー包絡（power envelop）やメル周波数ケプストラム係数（mel-frequency cepstral coefficients））を検討したが，大部分は我々の要求に十分なほどロバストではなかった．我々は，線形に重ね合わせが可能で（透過的（transparently）），雑音が存在しても復元できる特徴量が必要であった．そこで我々は，スペクトログラムピークに転じた[1]．これは，時間および周波数の項でのエネルギーの分布のマップを提供するものである1_．ピークの位置は，非線形処理の結果ではあるものの，実質的に線形重ね合わせが可能である．つまり，音楽と雑音の混合音に対するスペクトログラムのピーク解析は，各々を別々に解析した場合の（音楽と雑音それぞれの）ピークを含んでいる．雑音ありと雑音なしの音楽信号それぞれに対応するスペクトログラムピークが存在すれば，音響サンプルがデータベース中の録音とマッチするかどうかを高い確率で決定することができる．ロバストではあるものの，フィンガープリント特徴量として使用される個々のスペクトログラムピークの集合は，効率的な検索を可能にするには，特に大規模なデータベースに対しては，十分なエントロピーを提供できない（一意的特徴量の数が少なすぎる）．透過性を維持したままエントロピーを上げるため，「組み合わせハッシュ法」（computational hashing）と呼ぶ方法を我々は見つけるに至った．この方法では，解析している信号に存在するすべてのスペクトログラムピークの集合から選ばれたスペクトログラムピーク対を使用してフィンガープリントハッシュトークンを構築する．フィンガープリント形成処理では，スペクトログラムピークの部分集合を「アンカー点」（anchor point）として用いる．各アンカー点には，そのアンカーの座標から時間・周波数値のオフセットで指定される範囲によって定義される対象区域が与えられている．また，各アンカー点は，対象区域中のいくつかの対象点と対にされる．周波数情報と各点対から相対的な時間オフセットを使って，32 バイトのフィンガープリントハッシュトークンを構築される．この組み合わせ的展開の結果，元のスペクトログラムピーク数に対して，データベース中で検索されるトークン数がおそらく 10 倍増加することになろう．しかし，ハッシュトークンのエントロピーが増加することによ 1_{重なりのある短時間フーリエ変換（Short-Time} Fourier Transform）が，音響データ上の決まった間隔で計算され，その結果得られる時間周波数ビン（bin）のそれぞれに対してパワーレベルを計算する．あるビンのパワーレベルが，そのビンの周りの有界領域における他のすべてのビンのパワーレベルよりも大きければ，そのビン

(4)

り，インデックス検索が100 万倍以上の高速化するのに役立ち，この結果，特定の歌を識別する時に著しい処理速度の改善をもたらす．この高速化は，情報中に意味あるビットが増えるほど，曖昧性の高い乱雑からもっと効率的に切り抜けられるという事実による．この組み合わせハッシュ法の音楽と雑音の混合音に対する効果により，生成されたフィンガープリントトークンは３つのクラスに分かれる： z 両方のスペクトログラムピークが対象信号に属する． z 1 つのピークが対象信号に属し，１つが雑音信号に属する． z 両方のピークが雑音に属する．対象信号からのピークを含むトークンだけが検索処理に重要である．Shazam アプリケーションでよく遭遇するSN 比が低い状況では，音響サンプルから生成されたトークンの大部分は，ごみである．しかし，数％しかないがよくマッチするトークンが存在すれば，歌の大規模データベースにおいて正しい歌を見つける統計的に有意な確率を示すのに十分である．我々は，フィンガープリント特徴量が時間的に対応付けられていなければならないことにも気がついた．すなわち，特徴量集合がデータベース中の元々の録音とサンプルクエリの両方に出現していれば，各録音中の各特徴量の相対位置は同じでなければならない．音声認識では，話す速度が時間的に変化し非決定的であり，対応がルーズになってしまう特徴量とのマッチングをうまく行うために動的時間ワープ（dynamic time warping）が用いるのに対して，Shazam 技術では，そのような対応が正に線形であることを仮定する．つまり，時間対時間の相関図に各トークンの相対的発生時刻をプロットすると，妥当なマッチとなる点は，対角線上に集積するはずである．このような直線は，相対的時間差のヒストグラム中のピークを探すことで素早く検出することができる．時間的対応付けに関するこの仮定は，マッチング処理を大きく加速し，所与のフィンガープリント特徴量が妥当かどうかを決めるアクセプト／リジェクトの基準を強固なものにすることができ，その結果，組み合わせハッシュ法の段階で生成された大量のごみトークンを排除する高速かつ効果的な方法を提供することになる．我々は，この認識アルゴリズムをC++で実装し，速度が決定的意味を持つ箇所はアセンブリで最適化した．認識サーバは，数十台の市販の 64 ビット x86 ベースのサーバのクラスタとして実装した．各サーバは，8GB の RAM を持ち，最適化された Linux カーネルが走っている． 2006 年 6 月現在で，Shazam データベースには300 万以上のトラックを含まれている．個々の入ってくる要求はマスタープロセスが受け取り，クエリをスレーブプロセッサの集合（farm）にブロードキャストする．個々のスレーブプロセッサは，メモリにデータベースインデックスの1 部を保持している．各スレーブは，フィンガープリントトークンの世界の内それが有する1 塊りを独立に検索し，識別結果をマスターに報告する．マスターはこの結果を集め，（認識に関する）報告をリモートのクライアントに返す．認識アルゴリズムの性能特性の議論に関しては，[5]を参照されたい． Shazam 音楽認識サービス（www.shazam.com）は 2002 年以来イギリスで，携帯電話上で一般に利用可能になっている．その後，アメリカのVerizon Wireless や Cingular を含むさまざまなサービスブランド名でさまざまな地域パートナーを通じてサービス提供国は20 カ国以上に広がっている． 2006 年 6 月現在，世界中で 600 万人近くの有料顧客がこのサービスを利用している．

雑音ありと雑音なしの音楽信号それぞれに対応する

スペクトログラムピークが存在すれば，

音響サンプルがデータベース中の録音とマッチするかどうかを

高い確率で決定することができる．

(5)

その間，Philips Electronics は 2001 年に自社の「ロバストハッシュ」音響フィンガープリントアルゴリズムを発表した．これは，時間・周波数格子中の微分エネルギー束（differential energy flux）からハッシュを構成しているものの，Shazam と同様に，自由場（free-field）音響識別（QBE）が可能である[2]．この技術は 2005 年にカリフォルニア州エメリービル市の音楽データベース会社 Gracenote が買収した．同様に 2001 年には，ドイツ・エルランゲン市の Fraunhofer Institut（www.iis.fraunhofer.de）が「スペクトルフラットネス（spectral flatness）」に基づく技術のデモを行った[3]． QBE 音楽認識は，商業的に現実性のあるものである．次の数年のうちには，より多くの携帯電話会社と電話機メーカーが関連サービスを提供し，QBE は，ちょうどカメラ付き携帯が今日的であるように，携帯電話の標準的な特徴群の1 つとなっていく可能性が大である．クエリあたりのコストは下げていくべきであり，後続の販売や発見サービスへとさらなる統合も可能とすべきである．他の検索入力モダリティ（例えば鼻歌検索（query-by- hamming ）や類似楽曲検索（ query-by- similarity）など）も追加できよう．文献

1. Bond, P. StarCD: A star is born nationally seeking stellar CD sales. Hollywood Reporter CCCLX, 13 (Nov. 1, 1999), 3. 2. Haitsma, J., Kalker, T., and Oostveen, J.

Robust audio hashing for content identification. In Proceedings of the International Workshop on Content-based Multimedia Indexing (Brescia, Italy, Sept. 19-21, 2001). 3. Herre, J., Allamanche, E., and Helmuth, O. Robust matching of audio signals using spectral flatness features. In Proceedings of the 2001 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (Mohonk, NY, 2001), 127-130.

4. Kenyon, S., Simkins, L., Brown, L., and Sebastian, R. U.S. Patent 4,450,531: Broadcast Signal Recognition System and Method. U.S. Patent and Trademark Office,

5. Wang, A. An industrial-strength audio search algorithm. In Proceedings of the Fourth International Conference on Music Information Retrieval (Baltimore, Oct. 26-30, 2003); www.ismir.net.

6. Wold, E., Blum, T., Keislar, D., and Wheaton, J. Content-based classification, search, and retrieval of audio. IEEE Multimedia 3, 3 (Fall 1996), 27-36. Avery Wang mailto:[email protected] （[email protected]）は，イギリス・ロンドンのShazam Entertainment, Ltd. のチーフサイエンティストである．訳：北原鉄朗（京都大学・情報学研究科）