画像特徴量に基づく文化差検出

全文

(1)Vol.23 No.2, 2020. 原著論文. 画像特徴量に基づく文化差検出西村一球 ∗1村上陽平 ∗1Mondheera Pituxcoosuvarn∗1 Cultural Differences Detection Based on Image Feature Vectors Ikkyu Nishimura∗1, Yohei Murakami∗1, and Mondheera Pituxcoosuvarn∗1. Abstract – In machine translation-mediated communication, when each party has different cultural and language backgrounds, a particular word could be related to different meanings and different images. This could cause failures to establish mutual understanding. To solve this problem, we have proposed an image feature-based method to automatically determine words that could cause misunderstanding. This method calculates and determines the optimal threshold by comparing the result from the automated method to human judgment. We applied this method to 500 concepts and compared the judgments using 400 concepts for threshold optimization and 100 concepts for testing our proposed method. We found that 0.55 was the optimal threshold with 76 percent accuracy. Moreover, we conducted the chi-square test to determine whether the accuracy is significantly different among hypernyms of the concepts and the result statistically did not recognize any significant difference.. Keywords. : Intercultural collaboration, Multilingual communication, Machine translation, Image feature. 1.. れ文化差の検出を誤る可能性があるため, 訳語と同じ. はじめに. 語義を表す画像を収集し, その画像間の特徴の差に基. 国際的な諸問題に対して社会の多様性を考慮しなが. づいて文化差検出を行う. また, 画像特徴量をもとに. ら取り組むために, 言語や文化の違いを超えた異文化. 文化差を検出するには, 言語間で画像特徴量の類似度. コラボレーションが求められている. こうした能力を. を計算し, その類似度により文化差の有無を判定する.. 育む地球市民教育の実現が SDGs 1 (Sustainable De-. 類似度は連続値であるため, 文化差判定の基準となる. velopment Goals) の一つとして規定されている. 例えば, NPO Pangaea は地球市民教育の実現をテーマに, 異なる言語・文化を持つ児童を集めて, 協働で世界の問題の解決策をデザインするサマースクール (KISSY 2 ) を開催している. このような異文化コラボレーションでは, 近年, 機械翻訳の品質改善により言語の差は解消されつつあるが, 依然文化差による誤解が生じている. 例えば, KISSY では独自の機械翻訳ツールを用いて会話が行われるが, 日本語話者の児童が “あんこ” を翻訳しクメール語話者の児童に説明したとき想起されるイメージが違い, 誤解を生じさせることがあった [1], [2] . そこで, こうした問題を解決するために, 我々は Web 上の画像を用いた文化差検出方法を提案する. 本手法では, 多義語の場合, その単語の訳語と異なる語義の画像が収集さ. 閾値を適切に定める手法を考案する.. *1：立命館大学大学院情報理工学研究科 *1：Faculty of Information Science and Engineering, Ritsumeikan University, Kusatsu, Shiga, Japan 1：https://sustainabledevelopment.un.org/?menu=1300 2：https://www.pangaean.org/web/japanese/general/ aboutpangaeaact_jp.html. ((11 1 )). 以下本項では, 2 章において多言語間コミュニケーションで生じる文化差を説明し, 既存の文化差へのアプローチを説明する. 続いて, 3 章において, 画像特徴量に基づく文化差検出手法を提案し, 4 章において, 文化差の閾値の最適化手法について述べる. そして, 5 章では提案手法を評価するための実験手順の説明と評価を行い, 6 章では実験で得られた結果をもとに提案手法について考察を行う.. 2.. 多言語コミュニケーションにおける文化差. 2. 1 文化差機械翻訳の精度向上によって, 多言語コミュニケーションが可能になりつつあるが, 会話がうまく成り立たない場合がある. その一つの理由は文化差である. 人は文化的背景によってイメージするものや考え方が異なる. これにより, 話し手と聞き手が想起しているイメージが異なりコミュニケーションの齟齬が生じる [3] . 例えば, 日本でよく食べられる “ゴボウ” が挙げられる. 機械翻訳で “ゴボウ” を翻訳すると “burdock” と 135 145.

(2) ヒューマンインタフェース学会論文誌 Vol.23, No.2, 2020. 表 1: 日本語 WordNet の例言語. 図 1: 文化差の例いう翻訳結果が得られる. 日本人の多くは “ゴボウ” と聞くと根っこの見た目（図 1 の左）の食べ物を想起する. しかし, 日本以外の多くの国では “burdock” からは図 1 の右のような草木を想起することが多い. これらの想起されたイメージはどちらも間違っていない. どちらも同じ種類の植物であり, 日本でいう “ゴボウ” は “burdock” の根っこの部分である. 日本では, “ゴボウ” を食べる文化を持っているため, 左側の根っこのような見た目を想起し, 食材と認識されている. しかし, 海外では “ゴボウ” を食べる文化がないため, 右側のようなイメージがより想起される.. 2. 2. 関連研究. 多言語コミュニケーションの文化差に関する既存の研究は, 知識に基づく文化差と, イメージに基づく文化差の 2 種類に大きく分けられる.. 2. 2. 1. 知識に基づく文化差. 吉野らは, 文化差理解を支援するために, Web 上にある人の体験談をもとに作られた「文化差の理解を促す事例」を文化差データとして収集する手法を提案している [4] . また, 他にも吉野らは Wikipedia を用いた. Synset . 日本語. ゴボウ, 牛蒡. 英語. burdock, clotbur. 説明ユーラシアの温帯地域の直立性の 2 年生草本の総称で, しっかりした主根を持ち, いがをつける any of several erect biennial herbs of temperate Eurasia having stout taproots and producing burs. 2. 2. 2 イメージに基づく文化差柳井らは写真共有サイト上のタグ付き画像を利用する文化差検出手法を提案している. 概念の代表的な写真をタグの地域ごとに分類している. これによって, 同一概念の対象物が地域ごとにどのような文化差があるのかを視覚的に明らかにしている [9] . 石田らは絵文字を用いて文化差の検出を試みている [10] . 絵文字はネットワークを介して異文化の話者が会話するときに言語を使わない意思伝達のツールとして用いられており, 絵文字は文化によって解釈のされ方が違うことが明らかにされている [11] . 神田らはネットワークコミュニケーションでよく利用されるアバタに着目して, アバタの表情の解釈において文化差が存在するかを分析している. アジアと欧米 8 カ国間のアバタの表情の解釈内容を比較して分析したところ否定的な内容の解釈には文化差がなかったが, 肯定的な内容の解釈には文化差が存在することを発見している [12] . これらの研究は本研究と同様にイメージをもとに文化差を判定する研究であるが，判定自体は人手で行っている. 一方で, 本研究は文化差を画像特徴量を用いて自動的に検出する手法を提案する. 3.. 画像類似度に基づく文化差検出. 文化差検出手法を提案している [5] . この研究は, 事前アンケートによって文化差が存在すると人手で判断さ. 文化差によって, 単語から想起されるイメージの違. れた言葉に対して, Wikipedia のカテゴリなどを用い. いを検出するために, 単語に関連する画像から抽出さ. て文化差を検出できるかを確認するものである. さら. れる特徴ベクトルを用いる [13] . 具体的には, 概念辞. に, 語句の重要度を計算することで文化差検出精度が. 書である WordNet で同一概念に紐づけられている日. 向上することが示されている [6] . これらは, Wikipedia. 英のそれぞれの単語群を用いて画像検索を行い, 取得. の文章から対象語句を抽出することで文化差を検出す. された画像の特徴ベクトルを合成し, 言語ごとの対象. るもので, 文字レベルでの文化差検出手法である.. 概念の特徴ベクトルを生成する. 生成されたベクトル. 同じく, Wikipedia を利用した文化差に関する研究がある. Ulrike らは, フランス, ドイツ, 日本, オランダの文化的多様性を Wikipedia に適用し, それぞれの. Wikipedia の編集操作から国の文化とコンピューターを介したコミュニケーションの関係を調査している [7] . 研究の結果, Hofstede が明らかにした文化的影響の 4 つの次元と相関していることがわかった [8] . 本研究では想起されるものの違いなど文字レベルではわからない文化差を考慮して, 文化差判定のために画像特徴量に基づく文化差検出手法を提案している. 136 146. ((12 2 )). 間の類似度を計算し, その類似度に基づいて文化差の有無を判定する.. 文化差検出の具体的な手順を図 2 に示す. まず, WordNet 3 から対象概念を選び, 対応づいた日英の単語を WordNet と日本語 WordNet 4 から取得する [14] [15] . WordNet は各概念を同義語の集合である Synset で定義するため, 一つの概念に複数の単語が割り当てられる. 表 1 の日本語 WordNet の場合, “ゴボウ, 牛蒡” と “burdock, clotbur” が牛蒡の概 3：https://wordnet.princeton.edu 4：http://compling.hss.ntu.edu.sg/wnja/.

(3) 画像特徴量に基づく文化差検出. 表 2: 判定結果の比較. 文化差有り (提案手法) 文化差無し (提案手法). 文化差有り (人手). 文化差無し (人手). True. False. False. True. 図 2: 文化差検出手法念を表す日英の単語である. これらの取得された単語をキーワードにして, 画像検索を行い, 各言語につき上位 10 件の画像を取得する. 牛蒡のように Synset が複数の単語で構成される場合は, AND 検索を行うことで対象概念を表す画像群を収集する. 次に, Keras の VGG16 3 を使って各画像の特徴ベクトルを生成する [16] . この時, 4 × 4 × 512 次元から 1 行 8192 次元のベクトルに整形する. 各言語ごとに画像 10 枚から生成された特徴ベクトルを合成するために, 特徴ベクトルの平均ベクトルを算出し, 言語ごとの対象概念の特徴ベクトルとする. その後, 平均特徴ベクトル同士で cos 類似度を計算する. 得られた類似度と閾値を比較して文化差の有無を判定する. 類似度が閾値を下回った場合は文化差が存在し, 閾値を上回った場合は文化差は存在しないと判定する.. 4.. 図 3: 閾値の最適化の手順閾値の最適化. 閾値の最適化. 本章では提案手法により正確に文化差の有無を検出するための閾値の最適化手法について述べる.. 4. 1. 文化差検出の正確さ. 文化差の判定基準の閾値を最適化するために, 文化差の検出精度の指標を定義する. 検出精度の指標には正確さ (Accuracy) を用いる. 正確さとは, 提案手法の判定結果が人手による判定結果と一致した割合である. 表 2 で True と表記している箇所が人手での判定と提案手法の判定が一致するパターンである. これをもとに提案手法の Accuracy の算式を以下に示す.. Accuracy =. True に該当した synset の数 (1) True と False に該当した synset の数. 3：https://arxiv.org/abs/1409.1556. ((13 3 )). 4. 2 できる限り正確に文化差を判定できるように類似度の閾値を適切に設定する必要がある. 図 3 に具体的な閾値の最適化手順を示す. まず, 5 分割交差検証のために 500 個の概念を 100 個ずつの 5 つのグループに分け, その中から 4 つのグループを選びバリデーションデータとする. まずは, このバリデーションデータを用いて, 提案手法によって各概念からそれぞれ類似度を算出する. 次に, 閾値を 0.0 から 0.05 ずつ 1.0 まで増やし, 閾値と比較して文化差の有無を判定し, Accuracy を求める. データグループの組み合わせを変えながら 5 回繰り返し, それぞれ Accuracy を求める. 5 回分の各閾値の Accuracy を平均し, 平均された閾値ごとの Accuracy を比較し, 最も Accuracy が高くなる閾値を文化差判定に最適な閾値とする. 137 147.

(4) ヒューマンインタフェース学会論文誌 Vol.23, No.2, 2020. また, 回答者には伝えていないが A の画像群は日本語の単語から検索された画像で, B の画像群が英語の単語から検索された画像である. 多数決で “両方” が選ばれた場合は日英の単語から画像検索した結果に差がないため文化差無しと判断している. 一方で, “A” もしくは “B” が選ばれた場合はどちらかの単語で検索された画像しか想起できなかったということなので文化差有りと判断している. もし,. “該当無し” が最も多かった場合は, 画像検索の結果が良くないことが考えれるため評価データから除外した. 5. 2 5. 2. 1. 評価最適値の検証. 人手での判定結果を用いて, 閾値の最適化手法を評価する. 今回, 人手での判定で文化差の有無を判定した概念 1000 個のうち, “文化差なし” の概念は 713 個,. 図 4: 人手による文化差判定用インタフェース. 5.. 評価実験. 5. 1 実験手順 5. 1. 1 人手による文化差評価人手で文化差を判定した場合, 人によって, 文化差の感じ方が異なるため, 本研究では, アンケートにより一つの概念につき, 20 代の男性 4 人と女性 1 人の計 5 人で文化差の有無を判定し, 多数決によって人の判定を一つに定めている. 図 4 は人手で文化差を判断するときに用いたアンケートである. アンケートの質問は次のとおりである. キーワードを見て,“A” と “B” のどちらの画像群がより連想できるか選んでください。もし, 両方とも連想できた場合は “両方” を選. “文化差あり” の概念は 255 個, “該当なし” の概念は 32 個であった. 以降, “該当なし” の概念 32 個を除いた 968 個の概念を用いて評価を行う. なお, このデータは文化差の有無に偏りのある不均衡データであるため, それぞれ 250 個ずつの合計 500 個をサンプリングする. サンプリングした 500 個のデータを 100 個ずつの５グループに分け, ５分割交差検証を行う. バリデーションデータ:テストデータ=4:1 になるように分割する. そして, それぞれ 5 回分のバリデーションとテストの結果を平均する. バリデーションデータの結果から最適な閾値を見つけ, テストデータで見つけた閾値の評価を行う. バリデーションデータで提案手法の検出精度を求めた結果を図 5 に示す. グラフの横軸は閾値, 縦軸は正確さ (Accuracy) を表している. 評価の結果, 図 5 のように閾値が 0.55 の時, Accuracy は 76 ％と最も高く, 文化差検出のための最適な閾値は 0.55 である. 表 3 は 5 分割交差検証の結果とその平均を示したものである. 表 3 の閾値はバリデーションによって求められた最適な閾値で, Accuracy は求めた閾値によってテストデータを文化差判定した結果である. それぞれ, 文化差なしに対する Accuracy, 文化差ありに対する Accuracy, 全体での. び, どちらも連想できない場合は “該当なし” を選んでください. ※ () 内の数字は質問番号ですアンケートでは, WordNet からランダムに選択された 1000 個の Synset を用いた. アンケートでは, キーワードと画像群 A と画像群 B の三つの情報を回答者に与えている. 図 4 のようにアンケートの選択肢には, “A”,“B”,“両方”,“該当なし” の 4 つを用意し, 択一としている. キーワードには日本語の単語を用いているが, 単語が複数の場合はそれらの単語に共通するイメージを連想できる画像群を選ぶよう指示している. 138 148. ((14 4 )). 図 5: バリデーション結果.

(5) 画像特徴量に基づく文化差検出. 表 3: ５分割交差検証による最適な閾値の検証回数 1 2 3 4 5. 閾値 0.55 0.55 0.55 0.55 0.55. 平均 @. @ @. 文化差なし 78.0(39/50) 80.0(40/50) 72.0(36/50) 78.0(39/50) 76.0(38/50). Accuracy(％) 文化差あり 74.0(37/50) 78.0(39/50) 76.0(38/50) 72.0(36/50) 76.0(38/50). 全体 76.0(76/100) 79.0(79/100) 74.0(74/100) 75.0(75/100) 76.0(76/100). 76.8(38.4/50). 75.2(37.6/50). 76.0(76/100). 表 5: 二層目の Hypernym ごとの Accuracy 概念 physical entity abstraction. entity. physical entity. abstraction. 誤り 86 23. Accuracy(％) 77.9 75.5. 精度の差を分析する. 図 6 に示すように, entity の下位概念には physical entity と abstraction がある (表. 説明 (生命がある, あるいは生命がないに関わらずそれ自身の明確な存在を持つと感知される, 知られている, あるいは推定される何か that which is perceived or known or inferred to have its own distinct existence(living or nonliving) 物理的な存在がある実体 an entity that has physical existence 特定の例から共通点を抽出することによって形成された一般概念 a general concept formed by extracting common features from specific examples. Accuracy である. 平均した結果, 文化差なしの概念に対する Accuracy は 76.8 ％，文化差ありの概念に対する Accuracy は 75.2 ％, 全体での Accuracy は 76 ％である. 5. 2. 2. 正解 304 71. 多数の entity に属する概念に限定して概念間の検出. 表 4: 最上位の Hypernym 概念. 個数 390 94. 概念の種類ごとの文化差検出精度. 対象概念を分類し, 提案手法がどのような概念に効果的なのかを検証する. WordNet では概念間の関係として上位概念 (Hypernym) が提供されている. これを用いて対象概念から上位概念を辿り, 各対象概念の. Hypernym を調査する. Hypernym をもとに各概念を分類し, 種類ごとの文化差検出精度を調べる. 該当なしを除いた 968 個の概念の Hypernym を調査した結果, 949 個の概念の最上位概念が entity で, 残りの 15 個が固有名詞, 4 個が動詞であった. 本研究では大. 図 6: 上位 3 層の Hypernym ((15 5 )). 4). 今回用いた 949 個の概念のうち 831 個は“ physical entity ”に, 118 個は“ abstraction ”に属している. “physical entity” は 831 個のうち “文化差あり” は 195 個であった. 一方, “abstraction” は 118 個のうち 47 個が “文化差あり” であった. “physical entity” と “abstraction” はそれぞれ “文化差あり” と “ 文化差なし” が同数になるようにアンダーサンプリングし, 閾値 0.55 で Accuracy を算出した. その結果, 表 5 に示すように, “abstraction” に比べて “physical entity” の方が僅かに Accuracy が高い. これは, 提案手法では画像から特徴量を抽出しているため, “physical entity” のような物理的に形を持ったもののほうが類似した特徴量を抽出でき, 文化差の検出精度が高まったと考えられる. 一方で, “abstraction” のように抽象的な概念では具体的な形が定まっていないため, 多様な特徴ベクトルが抽出され, 提案手法の検出精度が低くなったと考えられる. 次に, “physical entity” と “abstraction” の下位概念を分類する. 概念ごとの個数は “object” が 639 個, “matter” が 160 個, “process” が 5 個, “causal agent” が 16 個, “thing” が 11 個, “psychological feature” が 49 個, “attribute” が 23 個, “group” が 28 個, “communication” が 12 個, “measure” が 5 個, “relation” が 1 個であった. 各概念ごとに “文化差あり” と” 文化差なし” の数が同数になるようにアンダーサンプリングし, Accuracy を算出した. 表 6 の個数の部分がそれぞれサンプリング後のデータ数である. また, “relation” はデータ数が一つであったため, 一つのデータの判定結果を参考値として載せている. Accuracy を確認した結果, “physical entity” の下位概念では, “process” や “thing” の Accuracy が低かった. 一方で, “abstraction” の下位概念では, “attribute”, “group” の Accuracy が高いが, “psychological feature” や “communication” の Accuracy は低かった. 上位概念ごとに分類したとき, 各層ごとにそれぞれの概念によって Accuracy の差が多少見受けられた. そのため, 概念の種類によって提案手法の性能の差があるかを調べるために, χ 2 乗検定を行った (表 7). 2 層目の検定結果は p=0.297965247, 3 層目の検定結果は p=0.445922655 であり, どちらも有意な差 (有意水準 5 ％) が認められなかった. このことから, 提案手法では, 今回のデータ数で検出できるような大きな性能差は概念の種類によって生じなかっ. 139 149.

(6) ヒューマンインタフェース学会論文誌 Vol.23, No.2, 2020. し判定になったと考えられる. 同様に “waterfall” はア. 表 6: 三層目の Hypernym ごとの Accuracy 概念 object matter process causal agent thing psychological feature attribute group communication measure relation. 個数 296 68 2 4 8. 正解 229 48 1 3 5. 誤り 67 20 1 1 3. Accuracy(％) 77.4 70.6 50 75 62.5. 48. 33. 15. 68.8. 12 18 8 4 1. 10 16 5 3 0. 2 2 3 1 1. 83.3 88.9 62.5 75 0. ジアでは美しい滝を想起するが, 南アメリカでは力強い滝を想起するため, 文化差があると述べられている. このように感じ方は異なるがどちらも同じ滝が想起されているため, 提案手法では文化差なし判定になったと考えられる.. 6.. 表 7: 各層の検出精度の検定結果層数 2 層目 3 層目. 自由度 1 10. 確率 (p) 0.297965247 0.445922655. χ2値 1.083278689 9.938304464. 表 8: 既知の文化差と提案手法での判定結果日本語 “リフォーム” “忍者, 忍の者, 忍びの者” “ヌードル, 麺” “瀧, 落水, 垂水, 飛瀑, 飛泉, 滝, 瀑布, 水簾”. 英語 “makeover” “ninja” “noodle” “waterfall, falls”. 類似度 0.195 0.351 0.585. 0.779. たと言える.. 5. 3 既知の文化差への適用既存研究で報告されている文化差のある”リフォーム”, ”忍者”, ”noodle”, ”waterfall”という言葉 [4], [9], [13] に, 提案手法を適用し, 文化差の判定を行う. 表 8 に示すように “リフォーム”, “忍者” は提案手法によって文化差検出に成功したのに対して, “noodle”, “waterfall” は文化差の検出に失敗した. “リフォーム” の日本語では家の内装の画像が得られていたが, 英語では人の見た目の変化を表す画像が取得されていた. 石田らの研究で報告されているように “リフォーム” は家の改築や模様替えの意味合いが強いが, ”makeover” は化粧やダイエット後の変化を意味するため, 文化差判定が成功したと考えられる. “忍者” は既存研究において具体的にどのような違いがあるのか説明がないため, 取得された画像をもとに考察をする. 日本語から取得された画像では忍者の絵や本などの画像が多いが, 英語から取得された画像では忍者のコスプレをした人の画像が多かった. 特に海外では, オリジナルの青い格好の忍者キャラの人気があり, そのコスプレなどが流行っているため, 取得された画像に差があり, 判定に成功したのではないかと考えられる. “noodle” や “waterfall” は柳井らの研究で発見されている文化差である. “noodle” はヨーロッパではスパゲッティが最も想起されるのに対して, 日本ではラーメンが最も多く想起されると明らかにしている. どちらも同じ麺類であるため, 提案手法では類似度が高くなり, 文化差な 140 150. ((16 6 )). 考察. 6. 1 検出誤りのパターン検出を誤った 4 つの特徴的なパターンを紹介する. • （パターン 1）提案手法が文化差有り, 人手の評価が文化差無し • （パターン 2）提案手法が文化差無し, 人での評価が文化差有り • （パターン 3）アンケートで “B” が多数であった場合 • （パターン 4）アンケートで “該当無し” が多数であった場合 6. 1. 1 パターン１:提案手法が文化差有り, 人手の評価が文化差無し実際にこのようなパターンになった概念の一つに, 日本語が “ウオーターウォーター水” で英語が “water” というものがある. それらの画像検索の結果が表 9 のパターン 1 である. “water” の画像検索の結果は水そのものの画像が多いのに対して, “ウオーターウォーター水” の画像検索の結果はミネラルウォーターのような飲料水の画像が多かった. 画像検索の結果がこれほど異なる理由として考えられるのが, 日本語のキーワードの “ウォーター” によって, ミネラルウォーターの画像が取得されたと考えられる. “ウォーター” のような言葉を借用語といい, 別の言語から取り入れられた単語である. 日本語の場合, カタカナ語の多くが借用語であるが, 借用語は元言語とは異なる意味で使われている場合がある. また, 画像検索の結果が違ってくる理由として, 片方または両方の単語に同音異義語がある場合が考えられる. ある文化では様々な意味を持つ単語が, 別の文化では同じ単語が一つの意味しか持たない場合, 画像検索の結果も違ってくる可能性がある. 例えば, “ゴシキドリ亜科” は鳥の一種であるが直訳の “Barbet” は鳥の一種だけではなく, 犬の一種でもある. “Barbet” で画像検索した場合, 犬の方が有名なため鳥よりも検索結果によく出てくる. 6. 1. 2 パターン２:提案手法が文化差無し, 人手の評価が文化差有りこのようなパターンが見受けられた概念の一つに “ タピオカ” と “tapioca” がある. それらの画像検索の結果が表 9 のパターン 2 である. “タピオカ” の画像検索の結果は, 飲み物の中にタピオカを入れたものの画像が多かった. 一方で, “tapioca” の画像検索の結果.

(7) 画像特徴量に基づく文化差検出. 表 9: 4 つパターンの事例例. 日本語. 日本語の画像. 英語. 英語の画像. 類似度. 1. ウオーター, ウォーター, 水. water. 0.27. 2. タピオカ. tapioca. 0.69. 3. 舞踏会. ball, formal. 0.37. 4. 進化, 進歩, プログレス, 発展, 成長, 発達, 発育. growth. 0.25. はタピオカを飲み物の中に入れたものも存在するが,. 回答した人が多かった.. 多くはゼリー状のものであった. 類似度が高くなった. 6. 1. 5 改善方針本研究の手法では, 画像を利用することにより言葉だけでは伝わらない情報やイメージ, 概念が示す領域の広さといった情報を踏まえて文化差が存在することを判断できる. 一方で, 借用語のように概念が指す意味とはかけ離れた画像が取得され, 正確に文化差を判定することができない場合がある. また, パターン 3 のように, 形のないものを表す概念では正確に判定できない場合がある. 以上のことから, パターン 1 で述べたように, カタカナ語は外来語をもとにした固有名詞に使われることが多い. 加えて, パターン 3 の事例のように形のないものを表す概念は抽象的な画像が出てきやすい. よって, 英語表記に由来するカタカナ語を除去してから画像検索するなど, 検索語を画像に特徴が現れやすい単語に限定するといった改善が必要である. また, 提案手法では各言語ごとに画像 10 枚から生成された特徴ベクトルを合成するために, 特徴ベクトルの平均ベクトルを算出し, 言語ごとの対象概念の特徴ベクトルとしている. ベクトルを平均することは画像 10 枚の特徴を平坦化する可能性が考えられる. よって, 平均ベクトルを算出する以外の合成方法を考える必要がある.. 要因として考えられるのが, 容器の形などが考えられる. それに対して, アンケートでは 5 人のうち 4 人が. “タピオカ” の画像の方がより想起されるという結果であった. 近年, 日本では飲み物に入れたタピオカが流行したことから, タピオカは飲み物の中に入れることが多い. そのため, “tapioca” の画像検索の結果のようにゼリー状の中にタピオカを入れることはあまりメジャーな食べ方ではないため, アンケートでは文化差有りと判断されたと考えられる. このように, 画像から特徴量を抽出する際に, 必ずしも対象となるものだけから特徴量を抽出できるわけではないため, 正しく判定できない場合がある.. 6. 1. 3. パターン３:アンケートで “B” が多数であった場合. アンケートの回答者は全て日本人であったため, 英語の単語から画像検索された画像がアンケートで選ばれたパターンを考察していく. このパターンでよく見受けられたのがパターン 1 と同様に借用語がよく見受けられた. キーワードが固有名詞や特定のものに該当し, 画像検索の結果がそれらのものになった. 例えば,. “舞踏会ボール” というキーワードでは, 英語から画像検索された結果では舞踏会の画像が正しく取得されているが, 日本語から画像検索された画像では, ボールガウンという舞踏会用のドレスの画像が多く取得された. このようにキーワードにした単語が特定のものに該当したため, 画像検索の結果が元の概念と異なる画像が取得されている場合が多かった. 6. 1. 4. 7.. おわりに. 多言語コミュニケーションにおける文化差を検出するために, 本研究では画像から得られる特徴ベクトルを用いるアプローチを提案した. 概念辞書で同一概念に紐づけられている日英のそれぞれの単語から画像検索を行い, 取得された画像の特徴量を抽出する. それ. パターン４:アンケートで “該当無し” が多. らのベクトル間の類似度を計算し, その類似度に基づ. 数であった場合. いて文化差を検出した. また, 概念 1000 個から “該. “該当無し” は文化差ありにも文化差なしにも加え. 当なし” を除いた 968 個の中から, 文化差なしの概念. ていない. 表 9 のパターン 3 のように感情や形のない. と文化差ありの概念が同数になるようにサンプリング. ものであったため, どちらも想起できず “該当無し” と. した 500 個の均等データを用いて, 5 分割交差検証を. ((17 7 )). 141 151.

(8) ヒューマンインタフェース学会論文誌. 行なった. バリデーションでは閾値を 0.0∼1.0 の間で. 0.05 ごとに閾値を変化させ, 最も検出精度が最大化する閾値を見つけた. この結果, 閾値 0.55 の時に 76 ％と最も検出精度が最大化するため, 最適な閾値は 0.55 であるとわかった. 謝辞本研究は, 日本学術振興会科学研究費若手研究. (A)(17H04706, 平成 29 年度 32 年度) および日本学術振興会科学研究費基盤研究 (B)(18H03341, 平成 30 年度 32 年度) の支援を受けた.. 参考文献 [1] Mondheera Pituxcoosuvarn, Toru Ishida, Naomi Yamashita, Toshiyuki Takasaki, and Yumiko Mori. Machine translation usage in a children’s workshop. In Proceedings of the International Conference on Collaboration Technologies, pages 59–73. Springer, 2018. [2] Mondheera Pituxcoosuvarn, Yohei Murakami, Donghui Lin, and Toru Ishida. Effect of cultural misunderstanding warning in mt-mediated communication. In Proceedings of the International Conference on Collaboration Technologies and Social Computing, pages 112–127. Springer, 2020. [3] Guy Deutscher. Through the language glass: Why the world looks different in other languages. Metropolitan books, 2010. [4] 吉野孝, 宮部真衣, et al. 文化差データの収集サービスの提案. 第 75 回全国大会講演論文集, 2013(1):515– 516, 2013. [5] Takashi Yoshino, Mai Miyabe, and Tomohiro Suwa. A proposed cultural difference detection method using data from japanese and chinese wikipedia. In Proceeding of 2015 International Conference on Culture and Computing (Culture Computing), pages 159–166. IEEE, 2015. [6] 諏訪智大, 宮部真衣, 吉野孝, et al. 異文化間コミュニケーションにおける重要度を考慮した文化差検出手法の提案. 2014 年度情報処理学会関西支部支部大会講演論文集, 2014, 2014.. [7] Ulrike Pfeil, Panayiotis Zaphiris, and Chee Siang Ang. Cultural differences in collaborative authoring of wikipedia. Journal of Computer-Mediated Communication, 12(1):88–113, 2006. [8] Geert H Hofstede, Gert Jan Hofstede, and Michael Minkov. Cultures and organizations: Software of the mind, volume 2. Mcgraw-hill New York, 2005. [9] Keiji Yanai, Keita Yaegashi, and Bingyu Qiu. Detecting cultural differences using consumergenerated geotagged photos. In Proceedings of the 2nd International Workshop on Location and the Web, pages 1–4, 2009. [10] 石田亨, 山下直美, 稲葉利江子, 高崎俊之, and 神田智子. 絵文字解釈における人間の文化差判定. ヒューマンインタフェース学会論文誌, 10(4):427–434, 2008. [11] Heeryon Cho, Toru Ishida, Naomi Yamashita, Rieko Inaba, Yumiko Mori, and Tomoko Koda. Culturally-situated pictogram retrieval. In International Collaboration, pages 221–235. Springer, 2007. 142 152. ((18 8 )). Vol.23, No.2, 2020. [12] Tomoko Koda. Cross-cultural comparison of interpretation of avatars’ facial expressions. In Proceedings of the IEEE/IPSJ Symposium on Applications and the Internet (SAINT-06), 2006. [13] Mondheera Pituxcoosuvarn, Donghui Lin, and Toru Ishida. A method for automated detection of cultural difference based on image similarity. In Proceedings of the International Conference on Collaboration and Technology, pages 129–143. Springer, 2019. [14] F Bond, H Isahara, S Fujita, K Uchimoto, T Kuribayashi, and K Kanzaki. Enhancing the japanese wordnet in the 7th workshop on asian language resources, in conjunction with acl-ijcnlp, 2009. [15] Christiane Fellbaum. Wordnet. The encyclopedia of applied linguistics, 2012. [16] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014. （2020 年 11 月 10 日受付，2021 年 2 月 16 日再受付）. 著者紹介西村. 一球 2020 年立命館大学情報理工学部情報コミュニケーション学科卒業. 現在, 同大学院修士課程在学中. 文化差検出に関する研究に従事.. 村上. 陽平. （正会員） 2006 年京都大学大学院社会情報学専攻博士課程了. 博士 (情報学). 現在, 立命館大学情報理工学研究科准教授. 電子情報通信学会サービスコンピューティング研究専門委員会を立ち上げるなどサービスコンピューティングの研究に従事. 異文化コラボレーションのための多言語サービス基盤「言語グリッド」の研究開発を推進.. Mondheera Pituxcoosuvarn 2020 年, 京都大学大学院社会情報学専攻博士課程修了. 現在は立命館大学情報理工学研究科助教. 異文化コラボレーション及び協働学習のためのヒューマンコンピューターインタラクション (HCI) の研究に従事.. （C）NPO法人ヒューマンインタフェース学会.

(9)