拡張現実型情報端末 uScope の提案
渡邊 徹志
†施
可為
††石井健太郎
†††湧田 雄基
†††小林 真輔
†††越塚
登
†††坂村
健
††††
東京大学大学院学際情報学府
†††
東京大学大学院情報学環
††
YRP ユビキタスネットワーキング研究所
E-mail:
†
[email protected]
あらまし 本研究では画像認識と AR(Augmented Reality:拡張現実感) を組み合わせたシステム、uScope
を提案する。本システムは、カメラを通して見た現実映像とあらかじめ登録したリファレンス画像とのマッ
チングを取る。その対応から得られる座標変換行列(ホモグラフィ行例)を用いて、登録された POI(Point
Of Interest) を利用者が見ている風景映像にオーバーレイ表示を行う。この方式で毎日の運用を想定した
際、時間変化、日照条件変化が影響をおよぼし、特徴点間のマッチングがうまく得られない。そこで本シ
ステムではこの影響を吸収するために日照変化の影響を評価し、手法の提案・実装を行うことで、全時間
帯で使用可能なシステムを構築した。
キーワード
拡張現実感、画像認識、自然特徴点
1.
は じ め に
AR(Augmented Reality)/MR(Mixed Reality)は我々 に新たな直接的・直感的な情報提示を可能にする技術で ある。近い将来、初めての旅行先で何も分からないとき おもむろに携帯電話のカメラを通して風景を見ると、そ の周辺の情報が自由自在に取得できるようになるであろ う。現在、このようなサービスとして、セカイカメラ[1]、 Layer [2]といったサービスが展開されている。これらは 新たな情報提示手法の一つとして大いに注目を集めてい る。これらのサービスはGPSによる現在位置座標、方 位センサによる方位角検出の二つを合わせ、ユーザー が向いている方向に見えると思われるPOI(Point Of Interest)の抽出、表示を行うことで、カメラから取得 した現実の風景にマッチする情報の表示を行っている。 しかし、このような緯度経度と方位によるPOIの絞 り込みのみでは、人が実際にみている風景に対してずれ たオーバーレイ表示となる。例えば図2(a)のように目 の前には建物が見えているにも関わらず、その後方に存 在する公園のPOIが表示される、といったことが起こり 得る。これはPOIの絞り込みを現在位置、向いている 方向、有効距離という三つのパラメータで行っているた め、このような見た目に合わないPOI情報の表示が起 こる。また図2(b)のように、三つのピラミッドをモバ イルデバイスを通して見ている時、POIのオーバーレイ 表示は実際のピラミッドの位置からずれて表示される、 といったことが起こる。モバイルデバイスなどで用いら れているGPSレシーバは一般的に5∼10mは実際の位 (a) 利用風景 (b) スクリーン 図 1 uScope 置・高さからずれることが知られ、方位センサもさまざ まな外乱に影響され正確な方位角検出は非常に難しい。 このような要因により、現実の画像の正確な位置に情報
公園 駅
ロータリー
?
(a) 不正確なオーバーレイ:公園は駅舎に隠れて実際は見えない
Khufu's Pyramid Menkaure's Pyramid Khafre's Pyramid
?
(b) 不正確なオーバーレイ:見た目のピラミッドの位置からずれてピン(POI) が表示されてしまう 図 2 緯度経度と方位角を用いた AR における問題点 をオーバーレイを行うことは困難と言える。 本論文で提案するシステム、uScope(図1(a),1(b)) は屋外に向けた毎日の定常運用を前提とし、このような 見た目のずれを解消することで実際に見えている風景に マッチした情報提示を可能にすることを目的としている。 具体的には、ビデオカメラからキャプチャした画像から 自然特徴点抽出を行い、あらかじめ登録されたリファレ ンス画像の自然特徴点から同定を行い、一致したリファ レンス画像に紐付けられたPOI情報をオーバーレイ表 示することで、見た目に正確なPOIのオーバーレイ表 示を実現する。GPS・方位センサを用いない、見た目に 依存した情報付加であるため正確な位置に情報表示を行 うことが可能となる。 このようなシステムとして、Castleら[4]は自然特徴 点のトラッキングとマッチングを組み合わせPTAMM というシステムを提案しているが、屋外での使用、特に 日照変化時における影響について言及されていない。ま た、このシステムの基となっているPTAM [3]とよばれ るトラッキング手法はカメラパラメータに強く依存した トラッキングとなっており、提案システムではズームを 用いるためカメラパラメータが不定となりトラッキング ができない。 本システムでは実際に運用を開始する前の動作試験時、 朝の時間帯に撮影した写真をリファレンスとしてマッチ ングを行うようにしたが、時間が経つと同じフレーミ ングのカメラ画像でも朝に撮影したリファレンス画像と マッチングが行えないケースが続発した。このミスマッ チングが発生することにより、POIのオーバーレイがず れる、又は全く表示されないという問題が生じてしまっ た。これでは毎日、日中全時間帯に動作可能なシステム にはならず、定常運用サービスとして致命的であった。 そこで、本研究では屋外に向けた日中全時間帯に使用可 能な手法、OmniDBの提案を行った。これは、時間変 化、日照変化を吸収するために、複数時間帯に観測され たリファレンス写真の自然特徴点データを一つのデータ ベース(OmniDB)としてまとめ、それを使用すること で全時間帯使用可能なマッチングを実現した。 本論文は2.章で関連したシステム、アルゴリズムにつ いて調べ、屋外での定常的な使用を想定したシステムに ついて言及されたものが無いことを確認した。3.章では 手法の提案を行い、4.章にて各地点で定点観測と分析を 行い、提案手法の評価を行った。最後に5.章にて考察を 述べ、今後の展望について述べた。2.
関 連 研 究
ここでは近年の注目すべきARシステム、加えて自然 特徴点を用いた画像マッチングを屋外で行うことを想定 したシステムを挙げる。Klein [3]らはPTAM(Parallel Tracking And Mapping)と呼ばれる手法を提案してい る。これは自然特徴点をマッチングではなく、トラッキ ングを行うことで実空間の単眼三次元認識を行い、そ れを基に精度の高い位置合わせが可能な情報表示を実 現している。このシステムは特徴点抽出とトラッキング を効率的に行うことで、今まで難しかったリアルタイム な自然特徴点トラッキングを可能にしている。近年では iPhoneでの動作も報告され15fps程度でのトラッキン グが可能[13]となっている。このシステムは高精度な位 置合わせが可能となっているが、位置合わせのデータは リアルタイムに生成される三次元特徴点配置マップを用 いるので、あらかじめ情報を付与することができない。 これを拡張し解決を図ったものがCastleら[4]による3.見つかった最も近い画像につけられた アノテーション、POIを二画像間のホモグラフィ行列を用いて カメラ画像座標系に変換し、カメラ映像にオーバーレイ表示を行う ディスプレイ カメラ PC ID:0x0A 猿島ID:0x0B 富津工場群 ID:0x0C スーパー リファレンス画像群 カメラ映像 1.カメラの映像を キャプチャ 2.キャプチャ画像から自然特徴点抽出を行い、 更に予め登録されている画像の自然特徴点DBと マッチングを行い、最もそれらしい画像を求める 自然特徴点抽出結果 自然特徴点抽出 マッチング 図 3 システム概要 いう手法である。これはあらかじめ取得した三次元特徴 点配置マップと現在のマップとマッチングを行い、現在 位置を特定することが出来る。しかしながら屋外での使 用、加えて天候変化などの環境光変化に対しての言及が なされていない。 Yazawaら[5]は、パノラマ写真をリファレンスデータ として使い、現在カメラに写っている映像がパノラマの どの方向に対応するかをSURF特徴量を用いた画像マッ チングで求めている。この手法は提案システムとほぼ同 様の手法を採用しているが、この研究では昼のパノラマ 写真で夜に撮影した画像のマッチングが実現されていな い。また日中の画像もパノラマ撮影時に同じ時間帯で撮 影されたと考えられ、日中でも異なった時間帯で正確に 検出することが示されていない。 天候の変化、季節の変化を考慮した手法としてValgren ら[6]の手法が挙げられる。これは屋外でのロボット用 ビジョンの研究の一つで、季節をまたいだ画像マッチン グが行えるかを検証したものである。具体的には7月の 曇りの日の画像をリファレンスとして、季節が変化して も正しく画像マッチングが行えるかを検証したものであ る。ここではSURF特徴量[7]のほかにSIFT特徴量[8] も用いて、それぞれを同一条件で比較し、ロバストなア ルゴリズムの検討も行っている。彼らは季節の変化によ る誤検知を低減するためにエピポーラ拘束を用いた特徴 点対応付けを提案し、それによって誤った特徴点マッチ ングを低減することで、約15%の検出成功率向上を実現 している。しかしこのシステムの目的はロボットのため のトポロジー位置検出のための手法であり、提案システ ムのようにずれの少ないARを実現するものとは要求が 異なる。 このように、利用者がディスプレイを通して見る映像 の位置にマッチした情報提示、更に毎日の定常運用に耐 えうるシステムという二つの要求を同時に満たすものは ないといえる。本システムはこの二つを同時に充たすた めに新たな手法を提案し、定常的な運用が可能なシステ ムの構築を行う。
3.
手
法
3. 1 システム概略 本システムは自然特徴点を用いた画像マッチングを行 い、あらかじめ登録したリファレンス画像に紐付けされ たPOIを現実画像にオーバーレイ表示する。一連の流 れを図3に示す。 まず、ビデオカメラより現在の風景をキャプチャする。 次にキャプチャされた写真から自然特徴点抽出を行う。 今回、この自然特徴点抽出にはSURF [7]を使用した。 抽出されたSURF特徴量を用いて、あらかじめ登録され ている複数枚のリファレンス画像より、自然特徴点が最 もマッチするものを探索する。もしマッチするリファレ ンス画像が見つかったら、そのリファレンス画像とキャ プチャ画像における座標変換行列、ホモグラフィ行列を 求める。最後にリファレンス画像に紐付けられている POI情報をホモグラフィ行列を用いて現在のカメラ映像 にオーバーレイ表示を行う。詳細は付録1.にて述べる。+
=
12:15 SURFPoints = X個 14:30 SURFPoints = Y個 OmniDB SURFPoints = X+Y個
SURF特徴点抽出 SURF特徴点抽出 図 4 OmniDB の生成 : 12:15 に撮影された写真から検出された自然特徴点が X 個、 14:30 に撮影された写真から検出された自然特徴点が Y 個であった場合、この 2枚の写真から作成される OmniDB は自然特徴点 X+Y 個の情報を持ったもの となる このマッチングを行う際、リファレンス画像が不適切 であるとPOIのオーバーレイが行えない。具体的には 朝撮影した写真をリファレンス画像として使用すると、 夕方ではうまくマッチングが行えず、日中全時間帯使用 可能なシステムとならなかった。 3. 2 提 案 手 法 本研究では、提案システムを定常運用サービスとする ために、時間・日照変化の吸収を行う手法OminDBを提 案する。これは本システムのコアである写真のマッチン グをロバストに行うために、マッチングしづらいリファ レンス写真同士を一つのDBにマージすることで、日照 変化にロバストなリファレンスデータを生成する手法で ある。図4にて例を挙げる。 2枚の写真は定点観測写真であり、解析の結果マッチ ングし難いペアであることが分かった写真である。この 例では実際に12:15から14:30の間に日差しが変化し、 左側の柱に日が当たることで特徴点が数多く出現するよ うに変化している。また右下に日陰ができることで特徴 点の出現に変化が見られる。 OmniDBはマッチングし難い写真から得られる自然特 徴点情報をひとつにマージすることで、幅広い時間帯に マッチング可能なデータとする手法である。例えば、図 4では12:15に撮影されたものからX個のSURF特徴 量、14:30に撮影されたものからY個のSURF特徴量が 得られ、この2つから計X+Y個のSURF特徴量を持っ たOmniDBが作成できる。OmniDBの内部は自然特徴 点が現れた座標とそのベクトルが記述されており、画像 合成を行った結果から得られるものではない。こうする ことにより、ここから得られたOmniDBはこの2つの 時間帯にマッチすることのできる自然特徴点データとな る。この2枚は定点観測写真であるため、写真における 座標空間は同一とみなすことができる。従って定点観測 写真から得られた自然特徴点情報をストアしたOmniDB は図3にあるリファレンス画像から得られる特徴点情報 の代わりとして用いることが可能となる。
4.
評
価
OmniDBの有効性を確認するために、本研究では三 箇所のサービス実施場所にて定点観測を行い、日中の画 像を取得した。その結果からマッチしにくい時間帯の写 真を求め、そこからOmniDBを作成しその有効性を検 証した。 4. 1 観 測 場 所 日照変化の影響を調べるため、システム稼働箇所にて 定点観測を行い、一日の日照変化を観測した。表1に説 明を、図5にそれぞれの写真を示す。 表 1 観測場所説明 観測場所名 説明 博物館 街並みを俯瞰することができる 美術館 付近に人工建造物があるが、それ以外は木々と海 レストラン 柱などの人工建造物はあるが概して海 このように、特徴点の出やすい街並みから、特徴点が 出にくい海といったパターンにて、日照条件の影響を調 べた。 4. 2 分 析 手 法 本システムに対する時間変化の影響を評価するために、 それぞれの箇所ごとにて5分間隔で定点観測画像を取得 した。これらの観測結果から場所ごとに検出結果のずれ を算出した。(a) 博物館 (b) 美術館 (c) レストラン 図 5 観測場所写真 4. 3 定点観測画像全数マッチング:検出ずれ 各地点の定点観測データより、各地点ごとに観測画像 間のマッチング結果のずれを算出した。これは5分間隔 取得した観測画像対観測画像で全数マッチングを行い、 マッチングした結果が何px分ずれていたかを求めたも のである。前程として定点観測画像間のマッチングであ る為、ずれが0pxであることが理想である。これを行う ことで、何時に撮影した画像をリファレンスとして用い ると日中の全時間帯でマッチングが可能になるかを求め ることができる。 図6(a),6(b),6(c)に観測時間を軸とした観測地点毎の 結果を示す。色が暗いほどずれが小さく、明るいほどず れが大きいことを示している。 この結果から言えることは、まず美術館においては全 般的に色が暗く、マッチングを行なった際のずれがどの 時間においても非常に小さいと言える。これは筐体設置 場所前のガラスに円形のマークが貼られており、これが 目印となって外の日照条件が変わったとしてもその円形 マークを観測することで正確なマッチングが行えたと考 えられる。また博物館においてはずれが各所で発生して いる。これは市街地にむけた観測であったため、人工物 が多数存在することで日照条件が変わると特徴点の出 現が大きく変わったことが要因であると考えられる。し かし細かく見ていくと16:15周辺の写真を用いた際にず れの少ないマッチングが一日を通して行えている。この 時間帯は夕方であったため、強い日差しが他と比べて弱 く、特徴点が安定して出現したことが要因であると考え られる。 一方でレストランにおいてマッチングが100%成功す る時間帯は無かった。これは先に上げたような目印が近 くに無かったことが大きな原因であると考えられる。こ の条件の違いによって日照変化が影響して安定したマッ チングが行えなかったものと考えられる。 4. 4 OmniDBを用いたマッチング ここで4. 3章にて算出した検出ずれが5px以内であっ た場合にマッチングが成功したとみなし、一日を通して 何%マッチングに成功したかを求めた。これをマッチン グ成功率とする。このマッチング成功率を求めることで、 一日を通して最もマッチングしやすい写真と最もマッ (a) 博物館:検出ずれ (b) 美術館:検出ずれ (c) レストラン:検出ずれ 図 6 分析:定点観測データ 色が暗いほどマッチングした結果 のずれが小さく、明るいほどずれが大きい チングしにくい写真を求め、そこから提案手法である OmniDBを作成した。ここではレストランを例に挙げ る。レストランにてマッチング成功率が低かった時間帯、 12:15と14:30の観測結果からSURF特徴量を求め、そ れをマージしてOmniDBを作成した。表2にてマッチ ング成功率の最低、最高、そしてOmniDBを適用した
10:25 10:45 11:05 11:25 11:45 12:05 12:25 12:45 13:05 13:25 13:45 14:05 14:25 14:45 15:05 15:25 15:45 16:05 16:25 16:45 30 0 5 10 15 20 25 Observed Time Slippage(px) 12:10 14:40 OmniDB Correct Border Reference 図 7 全時間帯マッチング率比較 12:10・14:40・OmniDB 際の結果を示す。 表 2 OmniDB 利用時のマッチング成功率:レストラン 最低 最高 提案手法 リファレンス画像取得時間 14:40 12:15 OmniDB マッチング成功率 43.20% 95.06% 100.00% このようにOmniDBでは100%、つまり全時間帯で マッチング可能なデータであることがわかった。図7に それぞれの時間帯におけるマッチング率をグラフにした ものを示す。このグラフの緑で示されているラインはず れが5pxのラインであり、これ以下であればマッチング 成功、超えてしまったらマッチング失敗と判別している。 ここで12:10に観測した写真をリファレンスとした場合、 全般的にマッチングは成功しているが、14時台が失敗 するパターンが生じる。これに14:40の観測データを加 え、OmniDBとすることで、当該時間帯も安定してマッ チングが行えるようになったことがわかる。
5.
ま
と
め
本論文では、自然特徴点による画像マッチングを用い た情報提示システム、uScopeを提案した。本システム は毎日の運用を想定し、自然特徴点を用いた画像マッチ ングをロバストに行うために定点観測を行い、その観測 画像を解析することでどの時間帯でもマッチング可能な リファレンス画像の抽出を行なった。さらに理想的な画 像が取得できなかった場合でも、マッチングし難い画像 の特徴点情報をマージすることで全ての時間帯でマッチ ング可能な特徴点DB、OmniDBを提案した。 今後は手動で作成しているOmniDBを自動的に生成 するアルゴリズムを作成しマッチング精度のさらなる向 上、更にトラッキングを組み合わせることで計算処理の 低減をはかり、モバイルデバイスでの実現を目指したい と考えている。 謝辞 本研究開発は総務省平成21年度地域情報通信 技術利活用推進交付金事業「複合現実型情報サービス ─横須賀リサーチパーク─」における成果の一部である。 文 献[1] TonchidotCorporation: sekaicamera.com , SekaiCam-era.
[2] Layer: www.layar.com , Layar.
[3] G. Klein and D. Murray: Parallel tracking and map-ping for small ar workspaces , Proceedings of the 2007 6th IEEE and ACM International Symposium on Mixed and Augmented Reality, pp. 1 10 (2007). [4] R. Castle and D. Murray: Object recognition and
localization while tracking and mapping , Proceed-ings of the 2009 8th IEEE . . . (2009).
[5] N. Yazawa, H. Uchiyama, H. Saito, M. Servieres, G. Moreau and E. IRSTV: Image based view local-ization system retrieving from a panorama database by surf , IAPR Conference on Machine Vision Ap-plication, Yokohama, Japan (2009).
[6] C. Valgren and A. Lilienthal: Sift, surf & seasons: Appearance-based long-term localization in outdoor environments , Robotics and Autonomous Systems,
58, 2, pp. 149 156 (2010).
[7] H. Bay, T. Tuytelaars and L. V. Gool: Surf: Speeded up robust features , Lecture Notes in Com-puter Science (2006).
[8] D. Lowe: Object recognition from local scale-invariant features , iccv (1999).
[9] M. Muja and D. Lowe: Fast approximate nearest neighbors with automatic algorithm con guration , International Conference on Computer Vision The-ory . . . (2009).
[10] D. Gossow, P. Decker and D. Paulus: An evaluation of open source surf implementations , pp. 1 9. [11] D. Ta, W. Chen, N. Gelfand and K. Pulli: Surftrac:
E cient tracking and continuous object recognition using local feature descriptors , Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2009).
[12] E. Chu, E. Hsu and S. Yu: Image-guided tours: Fast-approximated sift with u-surf features . [13] G. Klein and D. Murray: Parallel tracking and
map-ping on a camera phone , Proceedings of the Interna-tional Symposium on Mixed and Augmented Reality (ISMAR) (2009).
[14] A. Ascani, E. Frontoni and A. Mancini: Robot lo-calization using omnidirectional vision in large and dynamic outdoor environments , . . . on Mechtronic and . . . (2008).
[15] N. Snavely, S. Seitz and R. Szeliski: “Photo tourism: exploring photo collections in 3d”, ACM SIG-GRAPH 2006 Papers (2006).
[16] C. Evans: “Notes on the opensurf library”, Technical Report CSTR-09-001 (2009).
[17] A. Murillo and J. Guerrero: “Surf features for ef-ficient robot localization with omnidirectional im-ages”, . . . Conference on Robotics . . . (2007). [18] K. NOGUCHI, T. NAKAI and K. KISE:
“Experi-mental investigation of relation between near neigh-bor search methods for feature vectors and effi-ciency of object recognition”, IPSJ SIG Technical . . . (2006).
[19] N. Zhang: “Computing parallel speeded-up robust features (p-surf) via posix threads”, Proceedings of the 5th international conference on Emerging intel-ligent computing technology and applications, pp. 287–296 (2009).
[20] S. Sinha, J. Frahm, M. Pollefeys and Y. Genc: “Gpu-based video feature tracking and matching”, EDGE (2006).
[21] NokiaCorporation: “qt.nokia.com”, Qt-A cross-platform application and UI framework.
[22] V. Paelke and C. Brenner: “Development of a mixed reality device for interactive on-site geo-visualization”, Proceedings of 18th Simulation and Visualization Conference (2007).
[23] M. ¨Ozuysal, M. Calonder, V. Lepetit and P. Fua: “Fast keypoint recognition using random ferns”, IEEE transactions on pattern analysis and machine intelligence (2009).
[24] W. Zhang and J. Kosecka: “Localization based on building recognition”, . . . Vision and Pattern Recognition- . . . (2005).
[25] G. Bradski and A. Kaehler: “Learning OpenCV: Computer Vision with the OpenCV Library” (2008). [26] W. Thompson, T. Henderson, T. Colvin, L. Dick and C. Valiquette: “Vision-based localization”, DARPA Image Understanding Workshop, pp. 491– 498 (1993).
[27] M. Shapshak: “New approaches for mixed reality in urban environments: The cinespace project”, 5th In-ternational Conference–Virtual City and Territory. Spain (2009).
付
録
1. uScope 本研究の成果を踏まえ、拡張現実型情報端末uScope を実装した。本システムの目的は観光ガイドである。例 えば展望台で風景を見た時に山や建物などのランドマー クの説明を表示することで、利用者へ直感的な情報提示 を行う。言い換えれば、展望台にある双眼鏡のデジタル 版である。以下に大まかな処理の流れとアルゴリズムを 示す。 1. 1 前 処 理 本システムは、あらかじめ対象となる風景の写真(リ ファレンス画像)の登録が必要となる。まずリファレン ス画像のSURF特徴量を算出し、SURF特徴点情報を 保存する。次にリファレンス画像中の注目点(POI)に アノテーションを振り、注目点(POI)DBとして保存 する。例えば、ピラミッドが写っている写真のピクセル 座標値に「ピラミッド」という文字列を紐付ける。これ らの処理をPOIごとに行う必要がある。 1. 2 特徴点抽出 本システムではSURF [7]を用いて画像間のマッチン グを取っている。このSURFは特徴点抽出と特徴量記 述の二つの処理を組み合わせたものである。特徴点抽出 はHarr Waveletと呼ばれる輝度差の積分値が閾値以上 の場合その点(座標)を特徴点として抽出を行う。続い て特徴量記述として先に抽出した特徴点周辺を走査して 輝度変化を多次元ベクトルで表現する。このSURF特 徴量は回転、スケール変化にロバストであることが知ら れている。同じようなアルゴリズムとしてSIFT [8]が知 られている。内部のアルゴリズムが違うが特徴点抽出を 行い、それらに特徴量を記述するという処理は同一であ る。一般的にSIFTの方がスケール変化、回転、光源変 化にロバストであると言われるが、アルゴリズム的にと ても重く処理時間が無視できないものであったため、今 回はSURFを用いた。先にも述べたとおり処理の大枠 は同一であるので、本システムでSIFTを使用すること も可能である。 特徴点抽出に言えることは、概して処理が重く、SURF を用いたとしてもリアルタイムな処理が難しいというこ とである。本システムではカメラからの入力画像を半分 のサイズにすることで処理の低減を図っている。またマ ルチスレッド処理を行うことでこの問題に当たっている が、リアルタイム処理を行うにはまだ至っていない。近 年ではGPGPUを使用した処理系[20]が提案されてお り、このような問題も近い将来解消されると考えられる。 1. 3 特徴点マッチング 次に特徴点のマッチングを行う。これはビデオ画像か ら得られる現在の画像の特徴点ベクトルとリファレンス 画像の特徴点ベクトルの類似度から対応を求める。こ のマッチング処理を行う際、最も確実な方法はすべての 特徴点を総当りでマッチングを行い、それぞれの距離が 閾値以下であることを用いて近傍探索を行うことであ る。しかしこの処理は自然特徴点数、リファレンス写真 が増えるごとに計算量が線形増加してしまう。そこで本 システムではFLANN(Fast Library for Approximate Nearest Neighbors) [9]を使用した。これは近似最近傍 探索と呼ばれるもので、多次元ベクトル間の最近傍探索 を近似して行うことで計算量を大幅に低減したもので ある。 1. 4 座 標 変 換 特徴点マッチングにより、リファレンス画像とビデオ 映像の座標対応が取れる。この座標の対応関係を用いて ホモグラフィ行列を求める。これは異なる座標系への写 像を行う座標変換行列であり、二つの異なる座標系間の 4組の対応点をから求めることができる。しかし、このマッチングは誤りを含んでいる。この誤り
(ノイズ)を除去するために、本システムではRANSAC
(RANdom SAmple Consensus)と呼ばれるロバスト推 定を行っている。これはランダムに観測値をサンプリン グし、そのサンプリング値を最小二乗法に当てはめるこ とを繰り返し、最も確からしい値を算出する手法である。 このようにして求められたホモグラフィ行列でもまだ 誤りを含んでいる可能性がある。具体的に観測できるも のとして、変換後の座標が三次元的にねじれてしまうも のである。前程として、本システムは写真と写真の座標 変換であるため、あくまで平面座標の変換かつ長方形同 士の座標変換であるので、変換後の座標も必ず平面かつ 長方形内に収まるものになる。本システムではリファレ ンス画像の各頂点座標をビデオ画像の座標系に変換した 際にこの条件を充たすものが有効なホモグラフィ行列で あると判別してる。具体的にはリファレンス画像の四つ の頂点座標をビデオ画像座標系に変換した際、各頂点の 内角が90度±5%に収まっているもののみ有効なホモグ ラフィ行列であると判別している。 1. 5 コンテンツ表示 求められたホモグラフィ行列を用いて、リファレンス 画像の注目座標に振られたアノテーションをカメラ映像 の座標系に変換してオーバーレイ表示を行う。それぞれ のアノテーションには固有IDが振られており、データ ベースで一元管理されている。この固有IDに紐付けた コンテンツを作成することで、POIの詳しい情報を参照 できるようになる。 1. 6 ハードウェア構成 以下に本システムで用いた構成を示す。 表 A· 1 システム構成 PC MacPro MB535J/A Video Camera SONY HDR-CX550V
HDMI Capture BlackMagicDesign Intensity Pro LCD 22inc FullHD Display
今回使用したMacProはXeon 2.26GHz QuadCore
X 2という構成で物理8コア構成である。現在では4コ アのマシンでも動作することを確認している。ビデオ映 像は720pにてHDMIキャプチャを行い、数フレームご とに画像マッチングを行っている。本来であれば1080p でキャプチャを行うべきであるが、カメラ側の出力と HDMIキャプチャボードの制約で実現できなかった。こ れらは筐体に収められており、利用者が自由に使うこと のできるシステムとなっている。この筐体はモニタとカ メラを同時に左右180度首振りが可能となっており、広 範囲に向けた使用が可能となっている(図1(a))。 1. 7 ソフトウェア構成 本システムはQtを使用して作成されており、画像処
理にはOpenCV、SURFの実装としてOpenSURFを
使用した。コンテンツ表示にはQtに付属するWebKit を利用したHTMLを用いている。これにより、コンテ ンツ表示にビデオ、音声、CSS、JavaScriptが使用可能 となっている。現在はOSX上での動作を行っているが、 Qtを使用しているのでWindows、Linuxでの利用も可 能であることを確認している。