スマートフォン操作下におけるGocenシステムの基礎的操作設計

全文

(1)情報処理学会研究報告. Vol.2013-MUS-101 No.11 2013/12/24. IPSJ SIG Technical Report. スマートフォン操作下における Gocen システムの基礎的操作設計馬場哲晃1,a). 菊川裕也1. 串山久美子1. 概要：著者らはこれまで，簡易な手書き譜面演奏システム「Gocen」の開発を継続してきた．本システムを基に，現在いくつかのアプリケーション開発を実践している．特に本稿では，Gocen システムをスマートフォンアプリケーションとして実装を行った際の基礎的な対話設計に関して述べる．これまではハンドヘルド型デバイスに CMOS センサとマイコンを内蔵させ，譜面上を滑らせるように演奏を行っていた．一. 方でこれら機能をスマートフォン上で代替する場合，カメラの固定や光量，演奏方法等の再検討が必要と. なる．これら問題を解決することで，これまでの比較的小さな紙面以外に，白板や黒板等といった，協調作業可能な手書きメディアへの応用が可能なアプリケーションを開発した他，画像処理と加速度センサを組み合わせた基礎的操作設計に関しても報告する．. 1. はじめに著者らはこれまで，手書きオフライン記号認識を用いた. 簡易な楽譜演奏システム「Gocen」を開発してきた．本シ. ステムは，符幹や符鉤を利用せず，符頭と五線による簡易な手書き譜面を利用することで，実時間においてユーザに. 譜面をインタフェースとした対話的操作演奏を提供する．著者らが提案する画像処理手法によって，ユーサテストにおいて，97% の精度で初学ユーザが任意の音高を再生可能. であることを示した．現在は臨時記号や和音などの認識処. 理にも対応し，さらなる実装を進めているが，これらに関しては今後の研究発表を参照されたい．. 本稿では主に，文献 [1] における実装内容の携帯端末（以. 下アプリ）へ移植について報告する．これまで著者らは国内外にて展示活動を行っており，様々なユーザフィード. バックを得てきた．特にその中でアプリへの対応要望が多. くあげられた．アプリ対応することで，より手軽且つ多くのユーザに本システムを提供でき，UX デザインの視点か. らも加味すべき設計指針として重要である．本システムを. アプリへ移植する際，いくつかの実装方法が考えられる．. これまでのシステムと同様にスキャンデバイスを作成し，携帯端末と接続することで本システムは実現できるが，別途デバイスを提供する市場提供手段が必要となる．これで. はソフトウェア・アプリケーションとしての利便性が大き 1. a). 首都大学東京大学院 Tokyo Metropolitan Univeristy, 6-6, Asahigaoka, Hino, Tokyo 191–0065, Japan [email protected]. ⓒ 2013 Information Processing Society of Japan. 図 1. 利用時の紙面上での操作スケッチイメージ. く損なわれてしまう．そこで，携帯端末が持つカメラ及び. 画像処理能力のみを使い実装を行うこととした．この場合，スマートフォン実時間操作の為の最適化処理が必要である他，内蔵カメラを利用した際における，撮影環境についても再考察・設計が必要となる．結果として従来のスキャンデバイス型とは異なる演奏方法が必要となる為，その演奏方法に関する基礎的設計を本稿では主にまとめる．. アプリへの移植を行うことで，白板や黒板等の協調作業. において利用される手書きメディアにも本システムを適応可能となる．これにより記述した五線譜情報を複数人で読み取って演奏をすることで，合奏や教育用途における展開. が望める．これに関しては実装したアプリを基に今後の展望として論じる．. 2. 関連研究スキャンデバイス型 Gocen システムにに関しては文献 [1]. 1.

(2) 情報処理学会研究報告. Vol.2013-MUS-101 No.11 2013/12/24. IPSJ SIG Technical Report. を参照されたい．楽譜認識において，これまで最も活発に. することで，従来のデバイスでは実現していない操作設計. 譜認識 (OMR: Optical Music Recognition) に関する研究. める．. 研究されてきた領域は，オフライン印刷入力による光学楽である．1963 年に Kassler[2]，1966 年に Pruslin[3]，1970. が可能となる．以下，各制御項目に関して設計指針をまと. 年に Prerau[4] らが自動認識システムに関する論文を発表. 3.1 音長. なっている．国内では，1980 年代以降，青山ら [5] や，大. 長は再生ラインが符頭に重畳している間とそうでない場合. が活発に行われてきた．楽譜認識の試みは数多く行われて. デバイスでは再生ライン操作を紙面と設置させることで安. して以来，現在に至るまで依然として活発な研究領域と照 [6]，松島 [7] らを皮切りに，楽譜認識技術に関する研究. いるが，画像画質，記号重なりや多様性等の理由から，全ての楽譜を完全に自動認識することは容易ではない．しかしながら認識精度はすでに実用レベルにあり，幾つか. の市販ソフトでは自動認識機能を有している．また，市販ソフトに限らず，Audiveris[8] や OpenOMR[9]，Gamera. Framework[10] 等，開発者や一般ユーザが利用できる OMR. ソフトウェア（ライブラリ）も提供されてきた．. 楽譜や手書きをモチーフとした電子楽器には Yamamoto. ら [11] や George ら [12] による事例が報告されている．特. に本節ではアプリにおける楽器演奏設計をまとめる．ス. 音長に関してはデバイスの操作性が高い必要がある．音. とで Note ON/OFF 制御を行っており，これはスキャン. 定して操作可能としていた．一方で内蔵カメラを利用する場合，カメラ位置は不安定であり，従来のように安定した. Note ON/OFF 制御が困難であると考えられる．これにつ. いては音長制御用ボタンを別途画面上に作成する等の方法が考えられるが，今回のプロトタイプでは，比較的減衰時間の短いサンプリング音源を利用し，Note OFF を利用し. ないシステムとした．本稿では扱わないが，加速度センサ. と組み合わせることで音長制御も可能になる手法を現在検討中であり，今後の課題としたい．. マートフォンの普及によって，今日では非常に多くの楽器. 3.2 音量. 手法に関する特徴をまとめると，主に，1. タッチパネル操. 音量制御を行っている．これは携帯端末アプリにおいても. に大別できる．本研究ではカメラ取得画像を更に画像処理. mp や f f といった音楽記号を適時読み取ることで，各符. チパネルや加速度を利用した操作インタフェースに関して. での演奏が可能となるが，ユーザがその場で任意の音量を. 演奏アプリが市場で手に入るようになった．これらの演奏作，2. 加速度操作，3. カメラ取得画像による操作，の３種類. し，その結果を操作インタフェースとして利用する．タッはこれまで数多くの研究発表が為されてきた．一方で，近年画像処理領域の研究分野が国内外において非常に活発化. しており，多くのインタフェースにおいて画像処理を利用した事例が報告されている．. カメラ取得画像による演奏操作には，楽譜カメラ [13] や. Tunetrace[14] などのアプリがあるが，これらはカメラ画像. を一旦静止画として撮影後，その画像処理結果を基にタッチパネル操作で演奏を可能としている．静止画にすることでユーザが携帯端末を把持している際の不安定さの解決. や対話設計における実時間処理問題を解決している．一方. で，動画像の実時間処理と比較して操作時の偶発性や時間感覚を喪失しているとも言える．著者らは実時間画像処理. をインタフェースに利用した研究や作品をこれまで実践し. てきており，本研究はその一連の成果物として位置づけて. これまでの Gocen システムにおいて，符頭サイズによる. そのまま利用可能である．この他に，OCR 機能によって. 頭音量を固定可能である．これらの操作では安定した音量即座に発音可能とすることで，演奏表現の向上につなげることが可能である．そこで従来のシステムでは，オプティ. カルフローや輪郭線追跡によるラベリングによって，対話. 的な音量制御を実現している．これをそのまま携帯端末で利用すれば良いが，実時間対話設計において，これらの処理も同時に行うことはスマートフォン環境下では処理リ. ソースの観点から好ましくない．そこで，本システムでは. 対話的な音量制御にはスマートフォン内蔵の加速度センサを利用した．加速度センサを利用するにあたり，本インタ. フェースで考えうる操作を行った際のサンプルデータを取得した．サンプルデータ取得の為，別途カメラ動画像のみを表示するアプリを作成し，そこから加速度データを取得した．. 図 1 に示すような静姿勢で取得した角加速度センサ. いる．画像処理だけでなく，特に本稿では加速度センサと. の値を図 3 に示す．なお横軸が時間 [ms], 縦軸が重力. 3. 操作設計. 量に割り当てる為，各加速度センサ値 x(t), y(t), z(t) の. 組み合わせた設計に関する報告である．. 演奏方法として，まず考慮すべき制御項目は，音高，音. 長，音量の 3 種類であるが，これらに関しては Gocen シ. ステムを基本とする．一方，携帯端末での操作を考慮した場合，タッチパネルや加速度センサとの組み合わせを利用 ⓒ 2013 Information Processing Society of Japan. 加速度 [G] となっている．ユーザの操作時の移動量を音. Vx (t) =. d dt. · x(t), Vy (t) =. d dt. · y(t), Vz =. d dt. · z(t) を取得後，. 音量の基準となるユーザのデバイス運動量を計算する．デ. バイス運動量を W とし，任意の時間範囲 ta − tb において，次のように定義できる．. 2.

(3) 情報処理学会研究報告. Vol.2013-MUS-101 No.11 2013/12/24. IPSJ SIG Technical Report. 図 2 把持状態における x,y,z 軸の加速度. 図4. 発音操作時の把持状態における，各加速度値微分の絶対値和グラフ. 3.3 音高. 音高は記述されて譜面上にてすでに決定されている．こ. の他ヘ音記号やト音記号，オクターブ記号を OCR 処理し. 読み込むことで 5 オクターブの音域を演奏することができる．これらについては PC アプリケーションにて実装済み. の内容となる．この他，ベンドメッセージを利用することも可能であり，従来のシステムでは，音高発音後，デバイ. スを上下に操作することで上下に全音域でのベンド効果を負荷できる．この操作についてはこれまでのスキャナ型とは異なり，カメラの固定箇所が無い本システムの場合は安図3. 定してベンド効果を与えることが難しい．これに関しても静止時の把持状態における，各加速度値微分の絶対値和グラフ. ∫. 音量と同様に加速度センサを用いることで微妙なベンド効果をいれることが可能になる．ただし本機能に関しては本. tn. W =. (|Vx (t)| + |Vy (t)| + |Vz (t)|) · dt. (1). t0. 今回のプロトタイプではデバイスは Apple 社の iPhone5. を利用しているが，様々なデバイスでの利用を考慮した場. 稿では未実装であり，今後の課題としている．. 4. 実装と考察携帯アプリへの実装にあたり，これまでのアルゴリズム. 合，将来的にはデバイス重量を運動量計算に加味すること. をそのまま利用した場合，対話操作可能な 30fpt 程度を維. 実際に音量に割り当てる場合，一定時間間隔での W を基. つかの簡略化や最適化を行うことでこれら問題を解決し. おける加速度サンプルデータを取得した．ユーザに対して. ロトタイプを利用している様子を図 5 に示す．ユーザが紙. を演奏しているサンプルデータである．本データを図 4 に. て，ト音記号や符頭位置を示す CG が付加されている様子. でより精確なユーザ操作を検知できる可能性がある．次に. 持することが困難であった．そこで，各処理に関していく. に計算すれば良い．そこで本システムの仮想的な操作時に. た．主な仕様比較は表 4 に示すとおりである．制作したプ. おおよそ 6 秒間ほど，携帯端末を用いて Gocen システム. 面に対してカメラをかざし，取得された画像データに基い. 示す．ユーザは携帯端末カメラを紙面上にかざし，右／左. がわかる．. に携帯端末を操作することでノート発音を行っている．音. を鳴らす際にユーザがカメラを左から右へ動かすことで，徐々に値が増加し，発音後，徐々に値が下がる様子が確認できる．以上から，発音時の時間 ta を発音時間, tb を ta. の１フレーム前の値を用いることで音量割り当てを実装し. た．ここでは加速度センサの値に着目しているが，実装後において，画像処理による発音時間と加速度センサによるグラフ位置を検討する必要がある．これについては次節に. 表 1 これまでの PC アプリケーションとの主な仕様比較 PC. アプリ. 入力画像解像度. 480x360[px]. 192x144[px]. 30[fps]. 30[fps]. CV ライブラリ. OpenCV. OpenCV. 画像更新速度. OCR ライブラリ. 音源. ピッチベンド. OCRAD. OCRAD. 市販品 (MIDI 対応）. 簡易（アプリ内に実装）. 可. 不可. て述べる．. ⓒ 2013 Information Processing Society of Japan. 3.

(4) 情報処理学会研究報告. Vol.2013-MUS-101 No.11 2013/12/24. IPSJ SIG Technical Report. 図 6. 制作したプロトタイプのスクリーンショット． A:五線認識時の画面，B:２値化表示した際，C:OCR による調性設定時，D:設定後の認識画面. 図 7 図 5 制作したプロトタイプの利用風景. LED を点灯し，中心部と周辺部において誤った２値化処理と. なった場合の場面. 4.1 画面操作 UI. る．しかし，これまで述べてきたようにスマートフォン単. 左から順に，手書き記譜認識時の画面，その際の２値化処. り付けることは利便性や UX デザインの観点から好ましく. 制作したプロトタイプにおける画面 UI を図 6 に示す．. 理時の画面，OCR 機能により調性を DbM ajor に変更し. た際の画面，その結果による記譜認識時の画面を示している．これまでのスキャナ型ではデバイス上に４種類のボタ. ンを配していた．それらは演奏ボタン，録音演奏ボタン，. 体での動作環境を目指しており，このような外部機構を取ない．. スマートフォン単体での動作を考慮した場合，内蔵 LED. を利用することが考えられる．実際に制作した Gocen シ. ステムにおいて，LED を発光させ，記述部分を読み取って. 録音リセットボタン，レガート機能選択ボタンであった．. いる画像を図 7 に示す．この図から周辺減光によって 2 値. る．ユーザは演奏を行う際，画面上の「Play」ボタンを押. カメラ露出及び 2 値化処理を一般的な室内光環境下で適切. 今回はプロトタイプとして，演奏ボタンのみを実装していしながら演奏を行う．その他スクリーン上のボタンはシステムデバッグ用途である．. 4.2 2 値化処理. 本システムの認識処理を行う上で，もっとも重要な箇所. が２値化処理である．ここで記述部分と紙面部分を分離できなければ以降の処理に不具合が生じる．従来のスキャナ型では 4 つの白色 LED と砲弾型の傘を用いて取得画像範. 化処理が困難になっていることがわかる．このことから，に設定することで，記述部分の分離を行うこととした．ただしこの場合，室内天井からの照明光によってカメラ内にスマートフォン自体の影が映り込むことがあり，注意する必要がある．現時点ではこの映り込みについて，システム側から改善ができない為，ユーザが適時操作中に注意する他ない．なお 2 値化処理におけるしきい値の自動設定には大津ら [15] による手法を用いた．. 囲に十分かつ均等な光量を提供していた．これによりほぼ. 4.3 音量制御. きていた．今回のシステムにおいてもカメラ周辺に LED. 用いて実装を行った．ただし加速度センサから得られた情. どのような紙面上においても記述部分との 2 値化分離がで及び砲弾型傘を取り付けることで同様の効果を期待でき ⓒ 2013 Information Processing Society of Japan. 加速度センサ情報から，本稿で提案する音量調整手法を. 報と，画像処理結果から取得したデータに遅延やズレが生. 4.

(5) 情報処理学会研究報告. Vol.2013-MUS-101 No.11 2013/12/24. IPSJ SIG Technical Report. 図 8 ユーザに強弱をつけて符頭を発音してもらった際のデータ．青色が加速度値による運動量，赤色が画像処理結果から符頭は発音した時における加速度の運動量を示す. じている場合，ユーザが意図する音量制御が困難になる．そこで画像処理結果からノートオン情報を送信する時間と. 加速度センサデータを同時に計測し，考察を行うこととし. [3]. 示したグラフを図 8 に示す．青色で示されたグラフは計測. [4]. た．実際の発音タイミングとその時の運動量 W の様子を. 時間における単位時間運動量を示している．青色で示され. たデータは，画像処理結果から得られた発音タイミング及. びその時の運動量データを示す．ユーザに対しては，弱・強を繰り返して発音するように教示した．ただし具体的な. [5]. 弱・強の決まりは示さず，ユーザには「ゆっくり動かして. [6]. 図 8 において，ユーザが交互に強弱を繰り返しながら発音. [7]. 発音」と「早く動かして発音」の 2 種類を口頭で伝えた．している様子がわかる．図 8 に示す通り，加速度センサか. ら得られる各極値の時間と発音時間には僅かながらズレが. [8]. の運動量だけでなく，その周辺値や加速度運動量における. [9]. 生じている．よって，精確な音量表現を行う場合，発音時極大値を算出すればよいことがわかる．ただしその分発音タイミングに遅れが生じることに注意をし設計を行う．. [10]. 5. 今後の展望本稿では著者らが開発している Gocen システムをスマー. トフォンへ移行した際の基礎的な演奏設計に関して述べ. [11]. が，特に音量制御に関して加速度センサと組み合わせるこ. [12]. た．多くの操作設計は従来システムを引き継ぐものである. とで，対話的な音量制御手法を提案した．今後は音量制御に関してユーザ評価を行い，音量表現に関する本手法の有効性を探る．参考文献 [1]. [2]. 馬場哲晃, 菊川裕也, 串山久美子, 青木允. 簡易な手書き譜面を利用した演奏システム gocen の設計. 情報処理学会論文誌, Vol. 54, No. 4, pp. 1327–1337, apr 2013. M. Kassler and Princeton University. Dept. of Mu-. ⓒ 2013 Information Processing Society of Japan. [13] [14] [15]. sic. An Essay Toward Specification of a Music-reading Machine... Princeton University, Department of Music, 1963. D.H.PRUSLIN. Automatic Recognition of Sheet Music. PhD thesis, Doctoral Thesis MIT Cambridge MA January 1967, 1967. David S. Prerau. Computer pattern recognition of printed music. In Proceedings of the November 16-18, 1971, fall joint computer conference, AFIPS ’71 (Fall), pp. 153–162, New York, NY, USA, 1971. ACM. 青山宏, 棟上昭男. 印刷楽譜の自動読取り. 画像電子学会誌, Vol. 11, No. 5, pp. p427–435, 1982. 大照完, 松島俊明, 金森克洋. 楽譜の自動認識 (小特集自動演奏). 日本音響学会誌, Vol. 41, No. 6, pp. 412–415, 1985-06-01. 松島俊明. 楽譜の自動認識システム (wabot-2 の視覚系). 日本ロボット学会誌, Vol. 3, pp. 354–361, 1985. Herv Bitteur. Audiveris: Open music scanner, 2000 – 2012. http://audiveris.kenai.com/(last accessed, Jun, 2012). Arnaud Desaedeleer. Openomr. http://sourceforge. net/projects/openomr/(last accessed, Jun, 2012). Michael Droettboom, Ichiro Fujinaga, Karl MacMillan, G. Sayeed Chouhury, Tim DiLauro, Mark Patton, and Teal Anderson. Using the gamera framework for the recognition of cultural heritage materials. In Proceedings of the 2nd ACM/IEEE-CS joint conference on Digital libraries, JCDL ’02, pp. 11–17, New York, NY, USA, 2002. ACM. 山本祐介, 内山英昭, 筧康明. 紙楽譜を用いた演奏メディア onnote のためのマーカレス楽譜認識の提案. No. EC20, 2011-3. Susan E. George. Clustering on-line dynamically constructed handwritten music notation with the selforganising feature map. In Proceedings of the 16th international conference on Developments in applied artificial intelligence, IEA/AIE’2003, pp. 93–103. Springer Springer Verlag Inc, 2003. 河合楽器製作所. 楽譜カメラ, 2011. Queen Mary University of London. Tunetrace, 2013. 大津. 判別および最小 2 乗基準に基づく自動しきい値選定法. 電子通信学会論文誌, D, Vol. 63, No. 4, pp. 349–356, 1989.. 5.

(6)