スマートフォン操作下におけるGocenシステムの基礎的操作設計
5
0
0
全文
(2) 情報処理学会研究報告. Vol.2013-MUS-101 No.11 2013/12/24. IPSJ SIG Technical Report. を参照されたい.楽譜認識において,これまで最も活発に. することで,従来のデバイスでは実現していない操作設計. 譜認識 (OMR: Optical Music Recognition) に関する研究. める.. 研究されてきた領域は,オフライン印刷入力による光学楽 である.1963 年に Kassler[2],1966 年に Pruslin[3],1970. が可能となる.以下,各制御項目に関して設計指針をまと. 年に Prerau[4] らが自動認識システムに関する論文を発表. 3.1 音長. なっている.国内では,1980 年代以降,青山ら [5] や,大. 長は再生ラインが符頭に重畳している間とそうでない場合. が活発に行われてきた.楽譜認識の試みは数多く行われて. デバイスでは再生ライン操作を紙面と設置させることで安. して以来,現在に至るまで依然として活発な研究領域と 照 [6],松島 [7] らを皮切りに,楽譜認識技術に関する研究. いるが,画像画質,記号重なりや多様性等の理由から,全 ての楽譜を完全に自動認識することは容易ではない.し かしながら認識精度はすでに実用レベルにあり,幾つか. の市販ソフトでは自動認識機能を有している.また,市販 ソフトに限らず,Audiveris[8] や OpenOMR[9],Gamera. Framework[10] 等,開発者や一般ユーザが利用できる OMR. ソフトウェア(ライブラリ)も提供されてきた.. 楽譜や手書きをモチーフとした電子楽器には Yamamoto. ら [11] や George ら [12] による事例が報告されている.特. に本節ではアプリにおける楽器演奏設計をまとめる.ス. 音長に関してはデバイスの操作性が高い必要がある.音. とで Note ON/OFF 制御を行っており,これはスキャン. 定して操作可能としていた.一方で内蔵カメラを利用する 場合,カメラ位置は不安定であり,従来のように安定した. Note ON/OFF 制御が困難であると考えられる.これにつ. いては音長制御用ボタンを別途画面上に作成する等の方法 が考えられるが,今回のプロトタイプでは,比較的減衰時 間の短いサンプリング音源を利用し,Note OFF を利用し. ないシステムとした.本稿では扱わないが,加速度センサ. と組み合わせることで音長制御も可能になる手法を現在検 討中であり,今後の課題としたい.. マートフォンの普及によって,今日では非常に多くの楽器. 3.2 音量. 手法に関する特徴をまとめると,主に,1. タッチパネル操. 音量制御を行っている.これは携帯端末アプリにおいても. に大別できる.本研究ではカメラ取得画像を更に画像処理. mp や f f といった音楽記号を適時読み取ることで,各符. チパネルや加速度を利用した操作インタフェースに関して. での演奏が可能となるが,ユーザがその場で任意の音量を. 演奏アプリが市場で手に入るようになった.これらの演奏 作,2. 加速度操作,3. カメラ取得画像による操作,の3種類. し,その結果を操作インタフェースとして利用する.タッ はこれまで数多くの研究発表が為されてきた.一方で,近 年画像処理領域の研究分野が国内外において非常に活発化. しており,多くのインタフェースにおいて画像処理を利用 した事例が報告されている.. カメラ取得画像による演奏操作には,楽譜カメラ [13] や. Tunetrace[14] などのアプリがあるが,これらはカメラ画像. を一旦静止画として撮影後,その画像処理結果を基にタッ チパネル操作で演奏を可能としている.静止画にすること でユーザが携帯端末を把持している際の不安定さの解決. や対話設計における実時間処理問題を解決している.一方. で,動画像の実時間処理と比較して操作時の偶発性や時間 感覚を喪失しているとも言える.著者らは実時間画像処理. をインタフェースに利用した研究や作品をこれまで実践し. てきており,本研究はその一連の成果物として位置づけて. これまでの Gocen システムにおいて,符頭サイズによる. そのまま利用可能である.この他に,OCR 機能によって. 頭音量を固定可能である.これらの操作では安定した音量 即座に発音可能とすることで,演奏表現の向上につなげる ことが可能である.そこで従来のシステムでは,オプティ. カルフローや輪郭線追跡によるラベリングによって,対話. 的な音量制御を実現している.これをそのまま携帯端末で 利用すれば良いが,実時間対話設計において,これらの処 理も同時に行うことはスマートフォン環境下では処理リ. ソースの観点から好ましくない.そこで,本システムでは. 対話的な音量制御にはスマートフォン内蔵の加速度センサ を利用した.加速度センサを利用するにあたり,本インタ. フェースで考えうる操作を行った際のサンプルデータを取 得した.サンプルデータ取得の為,別途カメラ動画像のみ を表示するアプリを作成し,そこから加速度データを取得 した.. 図 1 に示すような静姿勢で取得した角加速度センサ. いる.画像処理だけでなく,特に本稿では加速度センサと. の値を図 3 に示す.なお横軸が時間 [ms], 縦軸が重力. 3. 操作設計. 量に割り当てる為,各加速度センサ値 x(t), y(t), z(t) の. 組み合わせた設計に関する報告である.. 演奏方法として,まず考慮すべき制御項目は,音高,音. 長,音量の 3 種類であるが,これらに関しては Gocen シ. ステムを基本とする.一方,携帯端末での操作を考慮した 場合,タッチパネルや加速度センサとの組み合わせを利用 ⓒ 2013 Information Processing Society of Japan. 加速度 [G] となっている.ユーザの操作時の移動量を音. Vx (t) =. d dt. · x(t), Vy (t) =. d dt. · y(t), Vz =. d dt. · z(t) を取得後,. 音量の基準となるユーザのデバイス運動量を計算する.デ. バイス運動量を W とし,任意の時間範囲 ta − tb において, 次のように定義できる.. 2.
(3) 情報処理学会研究報告. Vol.2013-MUS-101 No.11 2013/12/24. IPSJ SIG Technical Report. 図 2 把持状態における x,y,z 軸の加速度. 図4. 発音操作時の把持状態における,各加速度値微分の絶対値和グ ラフ. 3.3 音高. 音高は記述されて譜面上にてすでに決定されている.こ. の他ヘ音記号やト音記号,オクターブ記号を OCR 処理し. 読み込むことで 5 オクターブの音域を演奏することができ る.これらについては PC アプリケーションにて実装済み. の内容となる.この他,ベンドメッセージを利用すること も可能であり,従来のシステムでは,音高発音後,デバイ. スを上下に操作することで上下に全音域でのベンド効果を 負荷できる.この操作についてはこれまでのスキャナ型と は異なり,カメラの固定箇所が無い本システムの場合は安 図3. 定してベンド効果を与えることが難しい.これに関しても 静止時の把持状態における,各加速度値微分の絶対値和グラフ. ∫. 音量と同様に加速度センサを用いることで微妙なベンド効 果をいれることが可能になる.ただし本機能に関しては本. tn. W =. (|Vx (t)| + |Vy (t)| + |Vz (t)|) · dt. (1). t0. 今回のプロトタイプではデバイスは Apple 社の iPhone5. を利用しているが,様々なデバイスでの利用を考慮した場. 稿では未実装であり,今後の課題としている.. 4. 実装と考察 携帯アプリへの実装にあたり,これまでのアルゴリズム. 合,将来的にはデバイス重量を運動量計算に加味すること. をそのまま利用した場合,対話操作可能な 30fpt 程度を維. 実際に音量に割り当てる場合,一定時間間隔での W を基. つかの簡略化や最適化を行うことでこれら問題を解決し. おける加速度サンプルデータを取得した.ユーザに対して. ロトタイプを利用している様子を図 5 に示す.ユーザが紙. を演奏しているサンプルデータである.本データを図 4 に. て,ト音記号や符頭位置を示す CG が付加されている様子. でより精確なユーザ操作を検知できる可能性がある.次に. 持することが困難であった.そこで,各処理に関していく. に計算すれば良い.そこで本システムの仮想的な操作時に. た.主な仕様比較は表 4 に示すとおりである.制作したプ. おおよそ 6 秒間ほど,携帯端末を用いて Gocen システム. 面に対してカメラをかざし,取得された画像データに基い. 示す.ユーザは携帯端末カメラを紙面上にかざし,右/左. がわかる.. に携帯端末を操作することでノート発音を行っている.音. を鳴らす際にユーザがカメラを左から右へ動かすことで, 徐々に値が増加し,発音後,徐々に値が下がる様子が確認 できる.以上から,発音時の時間 ta を発音時間, tb を ta. の1フレーム前の値を用いることで音量割り当てを実装し. た.ここでは加速度センサの値に着目しているが,実装後 において,画像処理による発音時間と加速度センサによる グラフ位置を検討する必要がある.これについては次節に. 表 1 これまでの PC アプリケーションとの主な仕様比較 PC. アプリ. 入力画像解像度. 480x360[px]. 192x144[px]. 30[fps]. 30[fps]. CV ライブラリ. OpenCV. OpenCV. 画像更新速度. OCR ライブラリ. 音源. ピッチベンド. OCRAD. OCRAD. 市販品 (MIDI 対応). 簡易(アプリ内に実装). 可. 不可. て述べる.. ⓒ 2013 Information Processing Society of Japan. 3.
(4) 情報処理学会研究報告. Vol.2013-MUS-101 No.11 2013/12/24. IPSJ SIG Technical Report. 図 6. 制作したプロトタイプのスクリーンショット. A:五線認識時の画面,B:2値化表示した 際,C:OCR による調性設定時,D:設定後の認識画面. 図 7 図 5 制作したプロトタイプの利用風景. LED を点灯し,中心部と周辺部において誤った2値化処理と. なった場合の場面. 4.1 画面操作 UI. る.しかし,これまで述べてきたようにスマートフォン単. 左から順に,手書き記譜認識時の画面,その際の2値化処. り付けることは利便性や UX デザインの観点から好ましく. 制作したプロトタイプにおける画面 UI を図 6 に示す.. 理時の画面,OCR 機能により調性を DbM ajor に変更し. た際の画面,その結果による記譜認識時の画面を示してい る.これまでのスキャナ型ではデバイス上に4種類のボタ. ンを配していた.それらは演奏ボタン,録音演奏ボタン,. 体での動作環境を目指しており,このような外部機構を取 ない.. スマートフォン単体での動作を考慮した場合,内蔵 LED. を利用することが考えられる.実際に制作した Gocen シ. ステムにおいて,LED を発光させ,記述部分を読み取って. 録音リセットボタン,レガート機能選択ボタンであった.. いる画像を図 7 に示す.この図から周辺減光によって 2 値. る.ユーザは演奏を行う際,画面上の「Play」ボタンを押. カメラ露出及び 2 値化処理を一般的な室内光環境下で適切. 今回はプロトタイプとして,演奏ボタンのみを実装してい しながら演奏を行う.その他スクリーン上のボタンはシス テムデバッグ用途である.. 4.2 2 値化処理. 本システムの認識処理を行う上で,もっとも重要な箇所. が2値化処理である.ここで記述部分と紙面部分を分離で きなければ以降の処理に不具合が生じる.従来のスキャナ 型では 4 つの白色 LED と砲弾型の傘を用いて取得画像範. 化処理が困難になっていることがわかる.このことから, に設定することで,記述部分の分離を行うこととした.た だしこの場合,室内天井からの照明光によってカメラ内に スマートフォン自体の影が映り込むことがあり,注意する 必要がある.現時点ではこの映り込みについて,システム 側から改善ができない為,ユーザが適時操作中に注意する 他ない.なお 2 値化処理におけるしきい値の自動設定には 大津ら [15] による手法を用いた.. 囲に十分かつ均等な光量を提供していた.これによりほぼ. 4.3 音量制御. きていた.今回のシステムにおいてもカメラ周辺に LED. 用いて実装を行った.ただし加速度センサから得られた情. どのような紙面上においても記述部分との 2 値化分離がで 及び砲弾型傘を取り付けることで同様の効果を期待でき ⓒ 2013 Information Processing Society of Japan. 加速度センサ情報から,本稿で提案する音量調整手法を. 報と,画像処理結果から取得したデータに遅延やズレが生. 4.
(5) 情報処理学会研究報告. Vol.2013-MUS-101 No.11 2013/12/24. IPSJ SIG Technical Report. 図 8 ユーザに強弱をつけて符頭を発音してもらった際のデータ.青色が加速度値による運動 量,赤色が画像処理結果から符頭は発音した時における加速度の運動量を示す. じている場合,ユーザが意図する音量制御が困難になる. そこで画像処理結果からノートオン情報を送信する時間と. 加速度センサデータを同時に計測し,考察を行うこととし. [3]. 示したグラフを図 8 に示す.青色で示されたグラフは計測. [4]. た.実際の発音タイミングとその時の運動量 W の様子を. 時間における単位時間運動量を示している.青色で示され. たデータは,画像処理結果から得られた発音タイミング及. びその時の運動量データを示す.ユーザに対しては,弱・ 強を繰り返して発音するように教示した.ただし具体的な. [5]. 弱・強の決まりは示さず,ユーザには「ゆっくり動かして. [6]. 図 8 において,ユーザが交互に強弱を繰り返しながら発音. [7]. 発音」と「早く動かして発音」の 2 種類を口頭で伝えた. している様子がわかる.図 8 に示す通り,加速度センサか. ら得られる各極値の時間と発音時間には僅かながらズレが. [8]. の運動量だけでなく,その周辺値や加速度運動量における. [9]. 生じている.よって,精確な音量表現を行う場合,発音時 極大値を算出すればよいことがわかる.ただしその分発音 タイミングに遅れが生じることに注意をし設計を行う.. [10]. 5. 今後の展望 本稿では著者らが開発している Gocen システムをスマー. トフォンへ移行した際の基礎的な演奏設計に関して述べ. [11]. が,特に音量制御に関して加速度センサと組み合わせるこ. [12]. た.多くの操作設計は従来システムを引き継ぐものである. とで,対話的な音量制御手法を提案した.今後は音量制御 に関してユーザ評価を行い,音量表現に関する本手法の有 効性を探る. 参考文献 [1]. [2]. 馬場哲晃, 菊川裕也, 串山久美子, 青木允. 簡易な手書き譜 面を利用した演奏システム gocen の設計. 情報処理学会論 文誌, Vol. 54, No. 4, pp. 1327–1337, apr 2013. M. Kassler and Princeton University. Dept. of Mu-. ⓒ 2013 Information Processing Society of Japan. [13] [14] [15]. sic. An Essay Toward Specification of a Music-reading Machine... Princeton University, Department of Music, 1963. D.H.PRUSLIN. Automatic Recognition of Sheet Music. PhD thesis, Doctoral Thesis MIT Cambridge MA January 1967, 1967. David S. Prerau. Computer pattern recognition of printed music. In Proceedings of the November 16-18, 1971, fall joint computer conference, AFIPS ’71 (Fall), pp. 153–162, New York, NY, USA, 1971. ACM. 青山宏, 棟上昭男. 印刷楽譜の自動読取り. 画像電子学会 誌, Vol. 11, No. 5, pp. p427–435, 1982. 大照完, 松島俊明, 金森克洋. 楽譜の自動認識 (小特集自 動演奏). 日本音響学会誌, Vol. 41, No. 6, pp. 412–415, 1985-06-01. 松島俊明. 楽譜の自動認識システム (wabot-2 の視覚系). 日本ロボット学会誌, Vol. 3, pp. 354–361, 1985. Herv Bitteur. Audiveris: Open music scanner, 2000 – 2012. http://audiveris.kenai.com/(last accessed, Jun, 2012). Arnaud Desaedeleer. Openomr. http://sourceforge. net/projects/openomr/(last accessed, Jun, 2012). Michael Droettboom, Ichiro Fujinaga, Karl MacMillan, G. Sayeed Chouhury, Tim DiLauro, Mark Patton, and Teal Anderson. Using the gamera framework for the recognition of cultural heritage materials. In Proceedings of the 2nd ACM/IEEE-CS joint conference on Digital libraries, JCDL ’02, pp. 11–17, New York, NY, USA, 2002. ACM. 山本祐介, 内山英昭, 筧康明. 紙楽譜を用いた演奏メディア onnote のためのマーカレス楽譜認識の提案. No. EC20, 2011-3. Susan E. George. Clustering on-line dynamically constructed handwritten music notation with the selforganising feature map. In Proceedings of the 16th international conference on Developments in applied artificial intelligence, IEA/AIE’2003, pp. 93–103. Springer Springer Verlag Inc, 2003. 河合楽器製作所. 楽譜カメラ, 2011. Queen Mary University of London. Tunetrace, 2013. 大津. 判別および最小 2 乗基準に基づく自動しきい値選定 法. 電子通信学会論文誌, D, Vol. 63, No. 4, pp. 349–356, 1989.. 5.
(6)
図
関連したドキュメント
SVF Migration Tool の動作を制御するための設定を設定ファイルに記述します。Windows 環境 の場合は「SVF Migration Tool の動作設定 (p. 20)」を、UNIX/Linux
ホーム > マニュアル > ユーザーマニュアル > 事前知識> 「サイボウズ デヂエ」の画面構成..
腐植含量と土壌図や地形図を組み合わせた大縮尺土壌 図の作成 8) も試みられている。また,作土の情報に限 らず,ランドサット TM
ZoomのHP https://zoom.us にアクセスし、画面右上の「サインアップは無料です」をクリッ
目的 これから重機を導入して自伐型林業 を始めていく方を対象に、基本的な 重機操作から作業道を開設して行け
申込共通① 申込共通② 申込共通③ 申込共通④ 申込完了
72 Officeシリーズ Excel 2016 Learning(入門編) Excel の基本操作を覚える ・Excel 2016 の最新機能を理解する ・ブックの保存方法を習得する 73
操作は前章と同じです。但し中継子機の ACSH は、親機では無く中継器が送信する電波を受信します。本機を 前章①の操作で