首都大学東京 令和元年度 修士論文
CNN
による文化情報に特化した 観光アプリケーションの開発首都大学東京大学院 システムデザイン研究科
情報科学域 学修番号:
18860643
氏名:廣津 卓磨
指導教員:石川 博 教授
令和
2
年2
月21
日i
論文要旨
近年,日本では外国人観光客の数が増加し,オーバーツーリズムが顕在化している.例え ば,観光地では混雑やマナー違反が問題となっている.これまで,観光は
Group Inclusive
Tour(GIT)
が主流であったが,近年ではインターネットによって情報が入手しやすくなったことで,
Foreign Independent Tour(FIT)
の割合が増加した.GIT
観光客と異なり,FIT
観光客 はガイド等を介さないために,観光地の文化や規則を知らないまま観光地へ向かい,地域特有 の文化や規則を知る機会が少ない.その結果,文化の違いによるマナー違反や誤った観光を 行うなどの原因となっている.日本においては,“
桜の木の枝を折る”
,“
お参りの仕方がわか らない”
などが例として挙げられる.そのため,観光客に観光地の正しい文化を伝えて,観光 をより楽しめるためのシステムが求められている.しかし,従来の観光研究では隠れた観光 地の発見や観光ルートの推薦など,目的地選定に焦点を置いたものが多く,実際に観光地に 行った際の楽しみ方や規則等の有益情報まで提示するものは少ない.近年では,Information and Communication Technology(ICT)
の急速な発展に伴い,観光分野においてもモバイル 端末を利用したアプリケーションでの情報提供が主流となっている.そこで,本研究ではConvolutional Neural Network(CNN)
によって,画像から地域特有の文化等の有益情報を提 示するシステムを提案する.観光客は画像を閲覧しながら有益情報を見ることで,有益情報の 内容と実世界の情報を対応付けながら文化情報を理解することができる.また,ガイドブック 等の事前学習に加えて,観光客はオンデマンドで情報を得ることができる.提案するシステムの情報提供の流れは,まず,観光客は観光地において未知のモノや感銘を 受けたモノを撮影して本システムへ入力する.次に,システムが入力された画像と対応した有 益情報を出力する.提案するシステムは,画像から得られる実世界の情報とシステムが出力す る有益情報を組み合わせることで,従来のシステムよりも補助的な情報を理解した上での文化 体験が期待できる.
本システムを実現する手法として,
CNN
の代表的なモデルであるVGG16
を転用し,新たな 分類器を生成した.分類器によって,画像を事前に定めたクラスに分類して,対応する有益情 報を出力させる.クラスは全て本論文の実験対象地域である日本特有のモノである.各クラス論文要旨
ii
に関連するキーワードでウェブスクレイピングを行い,有益情報ごとに画像を収集した.シス テムの試作品として,
30
種類の有益情報を英文で提示するシステムを構築した.また,従来に ないシステムを提案しているために,調べた限りでは利用可能なデータセットが得られなかっ たので有益情報は全て人手によって作成した.予備実験としてシステムの定量評価を行い,
VGG16
を転移学習して新たな分類器を生成す る際の適切なハイパーパラメータを検証した.また,本システムではシステムが対応していな い画像が入力された際には“There is no informative text.”
と出力する.これは,システムの 実際の使用を想定した場合に,観光客の入力する画像全てに対して対応する有益情報を準備す るのが難しいこと,また,ユーザーがシステムの意図しない画像を入力することが想定される ためである.予備実験ではこの処理を実現するための適切な閾値も検証した.定量実験として 画像をシステムに入力し,入力された画像と出力された有益情報が適切に対応しているのかを 評価した.本システムの評価として,日本人と外国人に対してそれぞれ異なるアンケートによ る定性評価を行なった.
結果をもとに本システムの有効性を検討した.本論文による貢献は以下の通りである.
• CNN
を用いて,観光客の入力した画像から地域特有の文化や規則などの有益情報を提 示するシステムを開発した.•
定量的・定性的観点から,写真に対応する有益情報を提示することの有効性を示した.本研究の将来の展望としては,分類器の性能を向上させて有益情報の出力をより正確なもの にする,また,有益情報を自動生成する手法を確立させ,実際の使用で想定される膨大な入力 にも対応することが求められる.そして,実際に観光中の外国人旅行者を対象に,旅行中に使 用してもらうことでアンケート評価を行う.
また,本論文は以下のように構成されている.第
1
章では本論文の背景について述べる.第2
章では本研究分野における関連研究を述べる.第3
章では提案システムのCNN
を用いた有益文 の出力手法について述べる.第4
章では日本人と外国人を対象としたアンケート結果をそれぞ れ示す.第5
章は本研究の要約を述べる.iii
目次
論文要旨
i
第
1
章 はじめに1
第
2
章 関連研究4
2.1 Convolutional Neural Network(CNN)
に関する研究. . . . 4 2.2
観光システムに関する研究. . . . 4
第
3
章 提案システム6
3.1 CNN
を用いた有益文の出力手法. . . . 6 3.2
予備実験. . . . 9
第
4
章 本実験13
4.1
目的. . . . 13 4.2
結果と考察. . . . 14
第
5
章 まとめと将来の展望18
5.1
まとめ. . . . 18 5.2
将来の展望. . . . 18
謝辞
20
参考文献
21
発表論文
25
1
第 1 章
はじめに
近年,日本では訪日外国人観光客の増加により,オーバーツーリズムが顕在化してい る*1.観光地では混雑やマナー違反が問題となっている.これまで,観光は
Group Inclusive
Tour(GIT)
が主流であったが,インターネットによって情報が入手しやすくなったことで,Foreign Independent Tour(FIT)
の割合が増加した.GIT
観光客と異なり,FIT
観光客はガイ ド等を介さないことで,文化や規則を知らないまま観光地へ向かい,地域特有の文化や規則を 知る機会が少ない.その結果,文化の違いによるマナー違反や地域特有の観光を楽しめない原 因となっている.日本においては,“
桜の木の枝を折る”
,“
お参りの仕方がわからない”
などが 例として挙げられる.そのため,観光客に観光地の正しい文化を伝えて,観光をより楽しめる ためのシステムが求められている.従来の観光研究では,観光地の推薦や,観光地を最適に巡る観光ルートの推薦
[1, 2, 3, 4, 5,
6, 7, 8]
といった目的地選定に貢献するものが多い.観光地推薦の関連研究として,豊島らは旅行者がブログに投稿した写真の数から
“
思い出に残る”
旅行先を発見する手法を提案した[7]
. また,観光ルートを推薦する研究としては,Yuan
らが,ロケーションベースのソーシャルネットワーク
(LBSN)
と時間情報を用いて,1
日の特定の時刻に特定のユーザーのポイントオブインタレスト
(POI)
を推奨する手法を提案した[8]
.このように,従来の観光研究では実際に観光地に行った際の地域特有の楽しみ方や規則等の有益情報まで提示するものは我々の調べた限り無 い.近年では,
Information and Communication Technology(ICT)
の急速な発展に伴い,観 光分野においてもモバイル端末を利用したアプリケーションでの情報提供が主流となってい る.そこで,本研究ではConvolutional Neural Network(CNN)
によって,観光客が撮影した 画像から観光地の文化等の有益情報を出力できるシステムを提案する.図1.1
に提案システム の概要を示す.観光客は画像を閲覧しながら有益情報を見ることで,情報の内容と実世界を対 応付けながら文化情報を理解できる.また,ガイドブック等の事前学習に加えて,観光客はオ*1https://www.mlit.go.jp/kankocho/shisaku/kokusai/vjc.html
第
1
章 はじめに2
図
1.1
提案システムの概要ンデマンドで情報を得ることができる.
次に,提案システムの使用例について述べる.まず,観光客が観光地において未知のモノや 感銘を受けたモノを撮影して本システムに入力する.次に,システムが入力された画像と対応 した有益文を出力する.観光客は,画像の情報と有益文の情報を組み合わせて,地域特有の文 化を知ることができる.
従来の観光分野におけるモバイルアプリケーションとしては,スマートフォンで撮影した画 像を利用して,現地体験や記憶の共有を促すものがある
[9, 10]
.他にも,位置情報の履歴を利 用して旅行履歴を再構築するものや,地域の旅行需要分析を行うものなどがある[11, 12]
.提 案するシステムは,画像から得られる実世界の情報とシステムが出力する有益情報を組み合わ せることで,従来のシステムよりも,補助的な情報を理解した上での文化体験が期待できる.本研究では,構築したシステムに対してテストデータを入力することで定量評価を行なっ た.また,システムの実験対象地域を日本に設定したため,日本人と外国人にそれぞれ異なる アンケートを実施して定性評価を行なった.これらのアンケート結果を元にシステムの有効性 を検討した.本論文による貢献は以下の通りである.
• CNN
を用いて,観光客の入力した画像から地域特有の文化や規則などの有益情報を提 示するシステムを開発した.•
定量的・定性的観点から,写真に対応する有益情報を提示することの有効性を示した.第
1
章 はじめに3
また,本論文は次のように構成されている.2
章では本研究分野における関連研究をCNN
と 観光アプリケーションの分野についてそれぞれ述べる.3
章では提案システムのCNN
を用いた 有益文の出力手法について述べる.4
章では日本人と外国人を対象としたアンケート結果を示 し,それぞれの結果に対する考察を行う.5
章では本研究の要約を述べる.4
第 2 章
関連研究
2.1 Convolutional Neural Network(CNN)
に関する研究本章では,本研究の
Convolutional Neural Network(CNN)
についての関連研究を述べる.DeepLearning
の一種であるCNN
を使用することで,提案するモバイルシステムが高性能に画像内容を分類可能になる.本研究では,分類した画像内容を観光情報に応用するための,画像 のトピック抽出に
CNN
を使用する.モバイルシステムにおいて
CNN
を用いた関連研究としては,Yugopuspito
らのCNN
を用い たインドネシア語の手話認識システムがある[13]
.CNN
を用いて,インドネシアの手話をリ アルタイムで識別するシステムを開発した.モバイルアプリケーションに
CNN
を導入する際の問題点として,処理速度の低下が挙げら れる.そこで,モバイルアプリケーションにおいて畳み込み層を高速に計算するため,柳生ら はCNN
ベースの物体認識システムの効率的なモバイル実装を行なった[14]
.他にも,Xie
らは モバイルSystem on a chip(SoC)
上での,CNN
を基にしたアプリケーションの完全接続層を加 速させるための希薄性の利用手法を提案した[15]
.NVIDIA TK1
プラットフォーム上でCNN
の速度を向上させるために,2
つの行列乗算アルゴリズムを利用している.2.2
観光システムに関する研究観光に特化したモバイルシステムの開発も報告されている
[16, 17, 18, 19, 20]
.観光地にお いてユーザーをサポートするシステムとして,Schaefer
は複数の旅行関連情報を提示する多目 的旅行アプリケーションを開発した[21]
.ユーザーに対してオンライン調査を行ない,アプリ ケーションデザインの効果的な評価を行なった.Kim
らは撮影した写真から観光地への興味・関心を引き出す研究を提案した[9]
.観光客に,写真撮影を行いながら観光地を散策させることで現地体験を促した.
第
2
章 関連研究5
また,観光地でのナビゲーションシステムとして,Parulian
らは複数の情報を用いた,ユー ザーの位置から目的位置までの屋内ナビゲーションを提案した[22]
.屋内ナビゲーションの性 能に影響を与える要因は,ユーザーの身長,歩数の計算,およびアプリケーションで使用され る閾値であり,これらを用いて最適な屋内走行経路を示した.観光後にユーザーをサポートするシステムとして,
Santana
らはソーシャルネットワーク,Global Positioning Satellite(GPS)
データ,位置履歴データ,デジタルフットプリントを使用 して旅行履歴を再編成する手法を提案した[12]
.従来の観光研究では,多様な観点から観光促進を促している.本研究では,ユーザーが実際 に観光地に行った際の楽しみ方や規則などの文化について提示する.従来研究と比較して,旅 行中に焦点を当てた国際的な観光促進を目指す.このシステムを実現するために,画像から人 手によって作成した有益文を出力するシステムを開発する.
6
第 3 章
提案システム
図
3.1
システムの有益文出力の流れ3.1 CNN
を用いた有益文の出力手法本章では,
CNN
を用いた有益文の出力手法について述べる.本システムはユーザーが 画像を入力すると,文化情報に特化した有益文を出力する.この機能を実現するために,DeepLearning
の一種であるCNN
を利用する.CNN
によって画像を事前に定めたクラスに分類し,それに対応する有益文を出力させる.提案システムの有益文出力の流れを図
3.1
に示す.CNN
は,画像認識分野において非常に汎用性が高く,特徴抽出機として関連する他の用途に転 用可能であることが従来研究より知られている[23, 24, 25]
.そこで,CNN
の代表的なモデルである
VGG16
を特徴抽出機として用いることで,新たな分類器を生成した.図3.2
にVGG16
を構成する出力層を示す.本研究では従来研究の傾向に則り,識別層の
1
つ手前の全結合層の み用いた.システムの試作品として,対応した画像を入力すると
30
種類の有益情報を英文で提示するシ第
3
章 提案システム7
図
3.2 VGG16
を構成する出力層ステムを構築した.出力する有益文を表
3.1
と表3.2
に示す.本システムが対応している検出対 象は,本実験の対象地域である日本特有のモノである.また,従来にないシステムを提案して おり,我々の調べた限り利用可能なデータセットが得られなかったため,有益文は全て人手に よって作成した.第
3
章 提案システム8
表
3.1
本システムが出力する有益文I
検出対象 有益文
原爆ドーム In the atomic bomb dome, you can find out the reality of the damage caused by the atomic bomb. Trolley and circulation bus are recommended from here to visit other tourist desti- nations. Every 30 minutes via A-bomb Dome and Peace Memorial Park.
番傘 It is a kind of Japanese umbrella and it is called a “Ban gasa (Kasa)”. After getting wet, wipe off the moisture with a towel with a soft cloth, and be sure to shade and dry. If left wet, it can cause bone rust and discoloration.
盆栽 Bonsai is a traditional Japanese art that seeks the beauty of plants while growing them in pots. Trees are sized by the number of roots. In bonsai, adjust the number of bowl roots and grow trees smaller.
さくらんぼ Don’t sit at the root of the cherry blossoms that jumped out of the ground. Please do not break the branches.
富士山 Mt. Fuji, which boasts 3,776 meters above sea level and the highest height in Japan, is a World Cultural Heritage. In Lake Yamanaka and Lake Honjo, you can see ’Diamond Fuji’
where Sun and Mount Fuji overlap.
ガンダム The main attraction the Unicorn Gundam is the four transformations performance that takes place at 11:00, 13:00, 15:00, and 17:00. In the night section, the show will be held in three stories every half hour from 19: 30 to 21:00.
忠犬ハチ公 It is a famous spot not only as a meeting place in Shibuya but also as a tourist attraction.
To take a photo with Hachiko, you have to wait in line.
神社 When you enter a shrine, you need to purify your hands and mouth before you worship.
Remove hats and sunglasses in shrines and temples.
歌舞伎町 In Kabukicho there are frequent occurrences of unfair overcharging. Let’s not go about malicious barker.
かき氷 There are different types of syrup, such as strawberries, melons, lemons, sweet plums, man- gos, oranges, and condensed milk, but matcha is the most popular. You can buy not only shops but also mobile sales of rear car stalls.
雷門 The official name is Furaijin-mon written in Chinese characters on the back of the large lantern. You can buy various kinds of Japanese gifts at Nakadori-Dori ahead of the Kami- narimon.
金閣寺 The only way to get to Kinkakuji is by bus, and most other transportation is not available.
It is good to use the tour bus K’LOOP for visiting 17 tourist spots in Kyoto.
舞子 These women dancing with such elegance are maiko entertainers who perform traditional Japanese music and dances at exclusive parties. Please refrain from stopping them and coercing them into taking pictures with you.
招き猫 It is believed to draw happiness and customers. Each color shows different meanings and fortune. The blue one is good for academic development and traffic safety. The pink one is good for lovers and the black one is to attack evils. The cat with red is good for keeping good health.
紅葉 It is a violation of manners to tear the leaves of the maple from the branches. In addition, Please do not enter the restricted area as the cleaned moss will peel off.
第
3
章 提案システム9
表
3.2
本システムが出力する有益文II
検出対象 有益文
奈良の大仏 There is a hole in the pillar located in the northeast of the Great Buddha Hall, and it is said that going through the hole will benefit from no illness.
賽銭箱 Throw some coins into the wooden box called “Saisen-Bako” in front of the main hall. Next, Ring the bell two or three times using the rope. Bow deeply twice, clap your hands twice and pray. Finally, bow deeply once again.
石庭 There are 15 stones in the stone garden, and from any direction, one stone is hidden behind other stones. Open all year round, the admission fee for high school students and above is 500 yen, Small and middle school students are 300 yen.
スカイツリー Tokyo Skytree is the world s tallest free-standing broadcasting tower. With the two obser- vation decks at 350 meters and 450 meters, Tokyo Skytree lets you enjoy the landscape of Tokyo.
蕎麦 Soba is a traditional kind of Japanese noodle. Please add green onions and wasabi to the sauce and then dip a little in the sauce and enjoy.
土表 Sumo is the national sport in Japan. It is a kind of martial art where two sumo wrestlers, fight in a dohyo. A wrestler loses the bout if he is forced out of the dohyo, or if any part of his body other than the soles of his feet touches the ground.
寿司 Wasabi is used in sushi. Wasabi is spicy. If you do not like spicy food, sushi without wasabi can be ordered. In Japanese culture, sushi can be eaten by hand.
将棋 Shogi is a board game like chess. The object of the game is to checkmate the opponent s King. The main difference with chess is that you can use the pieces that you capture.
たこ焼き Usually, eat takoyaki with sauce and mayonnaise, using a toothpick. Please note that the inside is very hot.
天ぷら Tempura can be enjoyed two-ways, with Tempura sauce, or just with salt. Shrimp tempura is very popular with visitors from overseas. Please be careful because it is hot.
東京駅 If you turn around at the Marunouchi South Exit ticket gate and the Marunouchi North Exit ticket gate, you can see Tokyo Station Red Brick Station Building closely. Inside Tokyo Station, there are sweets and shops limited to Tokyo Station, perfect for souvenir selection.
東京タワー Tokyo Tower is available free of charge except in some paid areas. It is lighted up from sunset to dawn, and there are various types depending on the summer version, winter version, events, and occasional promotions.
鳥居 Bow once before entering the torii or Buddhist temple gate and walk on the side of the path as it is considered disrespectful to the deities to walk in the middle.
うどん Udon is a traditional kind of Japanese noodle. You can eat it as it is, but it is delicious if you add a small number of spices.
風鈴 Furin is a kind of small bell that is hung under the eaves in summer in Japan. When the wind blew, they ring. Some of the famous Japanese Furies are “Edo-Furin” from Tokyo and
“Nambu-Furin” from Iwate prefecture.
3.2
予備実験本システムを評価するための予備実験として、
VGG16
を転用して新たな分類器を生成する 際のepochs
,batch size
を検証した.一般に,CNN
ではいずれかのラベルに分類するが,提案 するシステムはユーザーが入力する全ての入力画像に対応できるわけではないため,入力画像 に対して適切な有益文を出力できない場合がある.よって,システムが対応していない画像を第
3
章 提案システム10
図
3.3
システムが対応していない画像が入力された際の処理ユーザーが入力すると、
CNN
による全てのラベルの分類確率が,入力画像をラベルとして分類 するための閾値よりも低くなることがある.その際には,本システムは“No label”
として分類 し,“There is no informative text.”
を出力する.提案システムが対応していない画像が入力 された際の処理を図3.3
に示す.これは,システムの実際の使用を想定した場合には,観光客の 入力した全て画像に対して対応する有益文を準備するのが難しいこと,また,ユーザーが本シ ステムの意図しない画像を入力することが想定されるためである.予備実験では,この分類手 順を実装するための適切な閾値も決定した.まず,
epochs
,batch size
をそれぞれ変化させながら分類器を生成し,これらのパラメーター に基づいて分類器を生成した.次に,システムが対応していない画像を判断するための閾値を 決定する.生成する分類器の閾値を変化させて,入力画像に対するaverage accuracy
とシステ ムが対応していない画像のrecall
の双方が高くなる閾値を本システムの閾値とした.これは,低い閾値を設定すると
average accuracy
は向上するが,システムが対応していない画像に対す るrecall
は減少し,逆に,高い閾値を設定するとaverage accuracy
が減少し,システムが対応し ていない画像に対するrecall
が向上するためである.予備実験に用いたデータセットについて説明する.各有益文に関連するキーワードを使用し て,ウェブスクレイピングを行い,各ラベルごとに画像を
140
枚ずつ収集した.このうち100
枚 を訓練データ,20
枚を検証データ,20
枚をテストデータとして使用した.さらに,システムが 互換性のない画像に対応しないことを確認するために,システムが対応していない画像を人手 によって20
枚収集した.この画像はすべてテストデータとして使用した.予備実験の結果,本 研究では分類器を生成する際のepochs
を300
,batch size
を32
,閾値を80%
に設定した.これら のハイパーパラメータを本システムに使用する.このハイパーパラメータを設定した際の正答 率の学習曲線を図3.4
,損失関数の学習曲線を図3.5
に示す.図3.4
と図3.5
の学習結果から,生成 した分類器に,検証データに対する十分な分類性能と汎化性能があることが確認できる.第
3
章 提案システム11
図
3.4
正答率の学習曲線図
3.5
損失関数の学習曲線第
3
章 提案システム12
また,定量実験としてシステムにテストデータを入力し,入力された画像とシステムが出力 した有益文が適切に対応しているかを評価した.実験の結果,テストデータに対する
average accuracy
は90.2%
,システムが対応していない画像に対するrecall
は70.0%
であった.予備実験の結果から,最も分類性能の低いラベルは
“
舞子”
と“No label”
であった.“
舞子”
に 関しては,入力画像が舞子でない場合にも、システムは“
舞子”
として分類する場合があったた めである.VGG16
を特徴抽出機として利用していたために舞子の身なりまで学習させるには 不十分であった.分類器は舞子を人としてのみ認識しており,舞子以外の人物に対しても舞子 として判断した.以上の理由から,“
舞子”
のrecall
は低い値となった.“No label”
に関しては,未知の入力画像に対して適切に
“There is no informative text.”
を出力しなければならないた めに,学習済みのラベルのみの分類より性能が低下しやすいことが原因である.定量実験の結 果は,分類器に設定した閾値の影響を大きく受けるため,分類器生成段階で最も適正な値を検 討する必要がある.13
第 4 章
本実験
図
4.1
被験者に提示する画面例4.1
目的本章では,提案システムを評価する本実験の内容について述べる.本システムの評価とし て,アンケートによる定性評価を行なった.定性評価では日本人
30
名と外国人17
名(
アメリカ 人:1
人 ドイツ人:1
人 フランス人:1
人 イタリア人:1
人 インドネシア人:1
人 イスラエル人:1
人 パ キスタン人:1
人 中国人:10
人)
に対して,それぞれ異なるアンケートを実施して,次の項目を評 価した.•
日本人アンケート:有益文が検出対象の物体に対する有益文として適しているかどうか第
4
章 本実験14
表
4.1
画像と有益文が適切に対応しているかどうかに関する各回答の割合(
日本人)
回答 割合
当てはまる
55.8%
どちらかといえば当てはまる
31.3%
どちらとも言えない
4.9%
どちらかといえば当てはまらない
4.8%
当てはまらない
3.0%
•
外国人アンケート:画像に対応した有益文は有益であったか,また,このシステムが実 際に有効であるか日本人アンケートを実施する理由として,提案システムが出力する有益文は我々が人手によっ て作成したものであり,画像と有益文の対応が本当にふさわしいかを客観的に評価する必要が あるためである.また,外国人アンケートを実施することによって,提案システムの有効性を 検討した.
次に,アンケートの手順に関して述べる.被験者には事前に本システムが対応している検出 対象を示し, 同じ有益文が出力された画像をまとめて閲覧させる.被験者に閲覧させる画面例 を図
4.1
に示す.そして,出力された有益文と画像に対しての回答を行わせた.アンケートの 回答は“
当てはまる(5
点)”,“
どちらかといえば当てはまる(4
点)”,“
どちらとも言えない(3
点)”,“
どちらかといえば当てはまらない
(2
点)”,“
当てはまらない(1
点)”
の5
段階評価で行った.各回 答の得点は回答者には示さず,平均点の評価に用いた.また,外国人アンケートでは提案シス テムの良い点と悪い点,日本において文化的に困った事についての記述式アンケートも行なっ た.記述式アンケートは,提案システムの外国人の視点に着目した問題点を改善するために活 用する.4.2
結果と考察次に,本実験の結果とその考察について述べる.日本人を対象とした画像と有益文が適切 に対応しているかどうかに関する各回答の割合を表
4.1
に示す.表4.1
から,システムが出力し た有益文と画像に関して,“
当てはまる”
,“
どちらかといえば当てはまる”
を選択した割合は87.1%
であった.また,日本人被験者を対象とした画像と有益文が適切に対応しているかどうかに関する検出対象ごとの平均スコアを表
4.2
に示す.表4.2
の結果から,有益文全体の平均点第
4
章 本実験15
表
4.2
画像と有益文が適切に対応しているかどうかに関する検出対象ごとの平均スコア(
日本人)
検出対象 平均スコア 検出対象 平均スコア 原爆ドーム
4.7
番傘4.6
盆栽4.6
さくらんぼ4.1
富士山4.6
ガンダム3.9
忠犬ハチ公4.3
神社3.8
歌舞伎町4.0
かき氷4.2
雷門
4.4
金閣寺4.3
舞子
3.9
招き猫4.0
紅葉
4.1
奈良の大仏4.3
賽銭箱
4.2
石庭4.3
スカイツリー
4.4
蕎麦4.7
土表
4.6
寿司4.2
将棋
4.5
たこ焼き4.9
天ぷら4.5
東京駅4.5
東京タワー4.8
鳥居4.4
うどん
4.3
風鈴4.6
No label 3.2
表
4.3
有益文が実際に有益であったかに関する各回答の割合(
外国人)
回答 割合
当てはまる
47.6%
どちらかといえば当てはまる
22.4%
どちらとも言えない
14.2%
どちらかといえば当てはまらない
11.4%
当てはまらない
4.4%
は
4.3
であった.以上の日本人アンケートの結果から,我々が人手によって作成した有益文は検 出対象の画像の物体に対する有益文として適していることが示された.有益文別の評価では,“There is no informative text.”
に対する評価が3.2
で最も低くなった.これは,有益文の出力 がシステムの分類性能に依存するため,本来有益文が出力されるべき画像に対しても“There is no informative text.”
と出力されてしまったことが原因である.外国人被験者を対象とした有益文が実際に有益であったかに関する各回答の割合を表
4.3
に第
4
章 本実験16
表
4.4
有益文が実際に有益であったかに関する検出対象ごとの平均スコア(
外国人)
検出対象 平均スコア 検出対象 平均スコア 原爆ドーム
3.9
番傘4.1
盆栽3.9
さくらんぼ3.6
富士山4.5
ガンダム4.1
忠犬ハチ公4.1
神社3.8
歌舞伎町3.8
かき氷3.2
雷門
3.8
金閣寺4.4
舞子
4.2
招き猫4.2
紅葉
3.6
奈良の大仏3.8
賽銭箱
4.1
石庭3.6
スカイツリー
4.2
蕎麦4.0
土表
4.2
寿司3.4
将棋
4.1
たこ焼き4.4
天ぷら4.2
東京駅4.0
東京タワー3.7
鳥居3.9
うどん
3.9
風鈴4.3
No label 4.4
示す.表
4.3
の結果から,有益文が有益であったことを示す,“
当てはまる”,“
どちらかといえば 当てはまる”
を選択した割合は70.0%
であった.また,外国人被験者を対象とした有益文が実際 に有益であったかに関する検出対象ごとの平均スコアを表4.4
に示す.表4.4
の結果から有益文 全体の平均点は4.0
であった.以上の外国人アンケートの結果から,提案するシステムは外国人 旅行者にとって実際に有効性があることが示された.有益文別の評価では,かき氷に対する評 価が3.2
で最も低くなった.これは,予備実験の結果からかき氷の画像に対するrecall
が100%
であった点を考慮すると,システムの分類性能が低いことによるものではなく,人手によって 作成した有益文が外国人被験者にとって有益性に欠けていたと考えられる.
表
4.5
に外国人被験者を対象としたシステムの良い点と悪い点についての回答を示す.外国 人の視点から見て,提案システムの良い点としては,通常,外国人観光客が困ることに関する 情報を提供できている点が評価された.提案システムの悪い点としては,画像に対する有益文 の出力が誤っているものが含まれる点や,有益文に理解しづらいものが含まれる点が指摘され た.悪い点が指摘された原因として,本実験において有益文が手動で作成されたため、英語で 十分な品質の文章を作成できなかったからである.しかし,表4.4
に示す各回答のスコアは,外第
4
章 本実験17
表
4.5
提案システムの良い点と悪い点に関する回答システムの良い点 システムの悪い点
Most sentences are explaining exactly the points that Some sentences are quite difficult to understand.
foreign tourists usually ask. Every label provides
many pictures. Some label contents are not sufficient or clear.
Sometimes the webpage shows irrelevant pictures.
Based on my own experience, it covers most of the
content that foreign tourists will encounter when Some photographs were irrelevant.
they first come to Japan.
The answer is difficult to choose.
Many pictures conveyed much information for me.
It would be better if you told how many questions are left Some photographs were irrelevant.
I sometimes get lost because I have some photographs that do not matter. If there is a depiction, will it be
“Strongly agree”, For me, it was a bit off
“Strongly agree” if I could understand what the description would give me. I got a little lost.
表
4.6
日本において文化的に困った事Real intention and stated reason.
At the same time and the same level of congestion, why are some trams very noisy, and some trams are quiet?
I did not understand “tacit consent” well.
Separating trash is too complicated.
In Japan, many people who have breakfast of a single type such as bread and rice.
Diverse breakfast menus are rare.
I can not express an opinion to superiors.
国人被験者が有益文の意味を理解できたことを示しているため,これは致命的な問題ではない と考えられる.
表
4.6
に,外国人被験者が日本において文化的に困った事に関する回答を示す.表4.6
の結果 から,暗黙の了解・建前といった日本独特の雰囲気を汲み取ることの難しさが挙げられた.ま た,ゴミの分別方法など,訪日外国人にとって母国の文化と異なるライフスタイルに戸惑いを 感じることが多い事がわかった.以上のアンケート結果を踏まえて,より有益な英文をシステ ム開発段階で検討する必要がある.18
第 5 章
まとめと将来の展望
5.1
まとめ本章では,本論文のまとめを述べる.本研究では,ユーザーが入力した画像から日本文化や 規則等の有益情報を提示するシステムを提案した.
1
章では本研究の背景について,2
章では本 研究の関連研究をCNN
と観光アプリケーションの分野についてそれぞれ述べた.3.1
章では,提案システムを実現する分類器の生成手法を提案し,分類器の最適なハイパーパラメータを決 定した.
3.2
章でテストデータをシステムに入力する定量実験を行なった.実験結果から,生 成した分類器が適切に入力画像を分類可能であることが示された.4
章ではハイパーパラメー タを元に,提案システムの試作品として30
種類の有益文を英文で提示可能なシステムを構築 し,日本人と外国人の被験者に対してアンケートによる定性評価を行なった.それぞれのアン ケート結果から,人手によって作成した有益文の妥当性と,提案するシステムが外国人旅行者 にとって実際に有効性があることが示された.5.2
将来の展望本章では,本研究の将来の展望及び提案システムの課題を述べる.本研究の将来の展望とし て,分類器の
average accuracy
とシステムが対応していない画像に対するrecall
の双方を向上 させることで,出力される有益文をより適切なものにする.また,外国人被験者へのアンケー トの結果から得られた文化的問題点を考慮して,より外国人使用者の視点に着目したシステム に改善することが求められる.4
章の結果から,分類器の性能と有益文の質が,実際に外国人 に使用してもらった際のシステムの有効性に大きく影響していることが判明している.そのた め,以上の点を見直すことで,外国人使用者にとってのシステムの有効性を向上させることが できる.加えて,本研究では有益文を自動生成する手法を確立する必要もある.本システムを実際に
第
5
章 まとめと将来の展望19
観光地で使用する際には,実際の使用で想定される膨大な種類の画像入力にも対応できるよう にする必要がある.人手によって,これら全ての有益文を作成することは難しいため,自動化 して対応する.また,ユーザーが画像から現実世界の情報を得るシステムの特徴に着目し,入 力画像内の検出対象を抽出・強調表示させることもシステムの有効性を高めるのに適している.
そして,実際に観光中の外国人旅行者を対象に,旅行中に利用してもらうことでアンケート 評価を行う.
20
謝辞
本論文の執筆では,多くの方からのご支援とご協力をいただきました.本研究を進めるにあ たり,指導教員である,首都大学東京システムデザイン学部 石川博教授には,貴重な時間を割 いて,時に厳しく時に優しく様々なご指導を頂きました.また,本論文の主査を務めて下さい ました.心から感謝いたします.
本論文の副査となっていただくことを快く承諾していただき,副査を務めてくださいました,
首都大学東京システムデザイン学部 片山薫教授,同 横山昌平准教授に心から感謝いたします.
本研究を進めるにあたり,様々な面で議論し,支えていただいた群馬大学 理工学部 電子情 報理工学科 荒木徹也助教,岡山理科大学 総合情報学部 情報科学科 廣田 雅春講師に心から感 謝いたします.ゼミなどを通じて,有益な議論やご指摘を多数いただきました首都大学東京シ ステムデザイン学部石川研究室の皆様,および友人・知人の皆様に心から感謝いたします.
皆様のお力添えがあり,ここに修士論文を完成させることができたことに深く感謝いたし ます.
令和
2
年2
月21
日21
参考文献
[1] L. Cao, J. Luo, A. Gallagher, X. Jin, J. Han, and T. S. Huang. Aworldwide tourism recommendation system based on geotaggedweb photos. In 2010 IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 2274–2277, 2010.
[2] Brian Ferris, Kari Watkins, and Alan Borning. Onebusaway: Results from providing real-time arrival information for public transit. In Proceedings of the SIGCHI Con- ference on Human Factors in Computing Systems, CHI ’10, pp. 1807–1816. ACM, 2010.
[3] Lei Guo, Ziru Li, and Wenjun Sun. Understanding travel destination from structured tourism blogs. In Proceedings of 2015 Wuhan International Conference on e-Business, pp. 144–151, 2015.
[4] Rongrong Ji, Xing Xie, Hongxun Yao, and Wei-Ying Ma. Mining city landmarks from blogs by graph modeling. In Proceedings of the 17th ACM International Conference on Multimedia, MM ’09, pp. 105–114. ACM, 2009.
[5] Keisuke Mitomi, Masaki Endo, Masaharu Hirota, Shohei Yokoyama, Yoshiyuki Shoji, and Hiroshi Ishikawa. How to find accessible free wi-fi at tourist spots in japan. In International Conference on Social Informatics, pp. 389–403. Springer, 2016.
[6] Kohya Okuyama and Keiji Yanai. A travel planning system based on travel trajec- tories extracted from a large number of geotagged photos on the web. In The era of interactive media, pp. 657–670. Springer, 2013.
[7] Miho Toyoshima, Masaharu Hirota, Daiju Kato, Tetsuya Araki, and Hiroshi Ishikawa.
Where is the memorable travel destinations? In Steffen Staab, Olessia Koltsova, and Dmitry I. Ignatov, editors, Social Informatics, pp. 291–298. Springer International Publishing, 2018.
[8] Quan Yuan, Gao Cong, Zongyang Ma, Aixin Sun, and Nadia Magnenat Thalmann.
Time-aware point-of-interest recommendation. In Proceedings of the 36th Interna-
参考文献
22
tional ACM SIGIR Conference on Research and Development in Information Re- trieval, SIGIR ’13, pp. 363–372. ACM, 2013.
[9] Yoojung Kim, Changhoon Oh, Taeyoung Lee, Donghun Lee, Joongseek Lee, and Bongwon Suh. Travel q: Questifying micro activities using travel photos to enhance travel experience. In Proceedings of the 33rd Annual ACM Conference Extended Abstracts on Human Factors in Computing Systems, CHI EA ’15, pp. 1507–1512.
ACM, 2015.
[10] Elisa Rubegni, Sandro Gerardi, and Maurizio Caporali. Mobile applications for help- ing users to keep track of their travel experience. In Proceedings of the 14th European Conference on Cognitive Ergonomics: Invent! Explore!, ECCE ’07, pp. 311–312.
ACM, 2007.
[11] Ming Li, Jing Dai, Sambit Sahu, and Milind Naphade. Trip analyzer through smart- phone apps. In Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems, GIS ’11, pp. 537–540. ACM, 2011.
[12] Amon Veiga Santana and Jorge Campos. Travel history: Reconstructing semantic trajectories based on heterogeneous social tracks sources. In Proceedings of the 22Nd Brazilian Symposium on Multimedia and the Web, Webmedia ’16, pp. 311–318. ACM, 2016.
[13] Pujianto Yugopuspito, I. Made Murwantara, and Jessica Sean. Mobile sign language recognition for bahasa indonesia using convolutional neural network. In Proceedings of the 16th International Conference on Advances in Mobile Computing and Multimedia, MoMM2018, pp. 84–91. ACM, 2018.
[14] Keiji Yanai, Ryosuke Tanno, and Koichi Okamoto. Efficient mobile implementation of a cnn-based object recognition system. In Proceedings of the 24th ACM International Conference on Multimedia, MM ’16, pp. 362–366. ACM, 2016.
[15] Xinfeng Xie, Dayou Du, Qian Li, Yun Liang, Wai Teng Tang, Zhong Liang Ong, Mian Lu, Huynh Phung Huynh, and Rick Siow Mong Goh. Exploiting sparsity to accelerate fully connected layers of cnn-based applications on mobile socs. ACM Trans. Embed.
Comput. Syst., Vol. 17, No. 2, pp. 37:1–37:25, December 2017.
[16] Anna Maria Al Zubaidi-Polli and Gabriele Anderst-Kotsis. Conceptual design of a hybrid participatory it supporting in-situ and ex-situ collaborative text authoring.
In Proceedings of the 20th International Conference on Information Integration and
参考文献
23
Web-based Applications & Services, iiWAS2018, pp. 243–252. ACM, 2018.
[17] Keith Cheverst, Nigel Davies, Keith Mitchell, and Adrian Friday. Experiences of developing and deploying a context-aware tourist guide: The guide project. In Pro- ceedings of the 6th Annual International Conference on Mobile Computing and Net- working, MobiCom ’00, pp. 20–31. ACM, 2000.
[18] Wu Wei, Shuai He, DongLiang Wang, and Yao Yeboah. Multi-objective deep cnn for outdoor auto-navigation. In Proceedings of the 2018 2Nd International Conference on Deep Learning Technologies, ICDLT ’18, pp. 81–85. ACM, 2018.
[19] Anna Maria Al Zubaidi-Polli, Nervo Verdezoto, Nawfal Al Zubaidi R-Smith, and Gabriele Anderst-Kotsis. Ex-situ technology appropriation of an e-deliberation plat- form in an art gallery. In Proceedings of the 19th International Conference on Infor- mation Integration and Web-based Applications & Services, iiWAS ’17, pp. 343–352.
ACM, 2017.
[20] Seungbum Koo, Jinyoung Kim, Changhyuk Kim, Jeeyeop Kim, and Hee Sung Cha.
Development of an augmented reality tour guide for a cultural heritage site. J. Com- put. Cult. Herit., Vol. 12, No. 4, November 2019.
[21] Chad Schaefer. Toward building a mobile app experience to support users’ mobile travel needs. In Proceedings of the 2016 ACM SIGMIS Conference on Computers and People Research, SIGMIS-CPR ’16, pp. 17–18. ACM, 2016.
[22] Jonathan Marihot Parulian, Kiki Maulana Adhinugraha, and Sultan Alamri. In- door navigation guidance for mobile device. In Proceedings of the 20th International Conference on Information Integration and Web-based Applications & Services, ii- WAS2018, pp. 345–349. ACM, 2018.
[23] Gota Gando, Taiga Yamada, Haruhiko Sato, Satoshi Oyama, and Masahito Kurihara.
Fine-tuning deep convolutional neural networks for distinguishing illustrations from photographs. Expert Syst. Appl., Vol. 66, No. C, pp. 295–301, December 2016.
[24] Na Liu, Ye Yuan, Lihong Wan, Hong Huo, and Tao Fang. A comparative study for contour detection using deep convolutional neural networks. In Proceedings of the 2018 10th International Conference on Machine Learning and Computing, ICMLC 2018, pp. 203–208. ACM, 2018.
[25] Hiroki Nakahara, Akira Jinguji, Masayuki Shimoda, and Shimpei Sato. An fpga-based
fine tuning accelerator for a sparse cnn. In Proceedings of the 2019 ACM/SIGDA
参考文献
24
International Symposium on Field-Programmable Gate Arrays, FPGA ’19, pp. 186–
186. ACM, 2019.
25
発表論文
国際会議