画像データベースの対話的検索

全文

(1)電子科学研究科. 0002513968. R. 静岡大学博士論文. 感性語句を用いた自然言語文による画像データベースの対話的検索. 平成10年2月静岡大学大学院電子科学研究科電子応用工学専攻. 原田将治.

(2) 論文概要近年の計算機の著しい技術の進歩に伴い専門的知識を持たない利用者も計算機上で文書・画像・音声などに触れる機会が増え、画像データベース検索システムにおいても、そのような利用者を対象としたシステムの実現が望まれている。そこで本論文ではそのようなユーザにとって使い易い画像データベース検索手法について考察を行った。従来の言語・言語型の画像検索システムにおいては、画像ごとにその内容を表すキーワードを予め付与しておき、検索はそれらを用いて行うという方法が主流であった。この方法は、実用的手法ではあるが、キーワードとしてどんなものが付与されているかをある程度知っていなければ使えない、情報付与の手間といった間邁点がある。画像をキーとし画像間の類似度による検索を行う画像・画像型は、直観的には分りやすいが、検索条件たる画像の入力方法に難がある。言語・画像型は言語をキーとしそれに対応付けられた画像特徴により検索を行うものであるが、現状では検索条件として用いられる表現に制約のあるものが多い。そこで本論文では気軽に自由な表現が可能な自然言語を検索キーとした言語・画像型のシステムを目標とした。また特に、対象物の直観的な印象を表すような感性語句を用いた唆昧検索、検索が失敗しても比較表硯を用いて対話的な検索を行うことで絞り込む検索を可能とするシステムを目標とした。本論文では、まず、言語情報と画像情報のマッチング手法の基礎的な枠組みについての考察を行った。それに基づいて、言語の意味を表す意味表現、画像を指定するため中間表現といった2つの媒介表現を用いるマッチング手法を提案した。意味表現を用いることで自然言語における同義文に対し文体によらずに一定の処理を施すことができる。また、中間表現は画像特徴を構成要素として画像と同じ階層構造からなるため、画像から得られる情報と直接マッチングすることができる。ついで、画像検索の手掛かりとして有効と思われる色特徴の解釈手法についての検討を行った0画像特徴としては心理的印象を反映した連続値を取り、画像解析により抽出可能な色相・彩度・明度で構成されるHSV色空間を用いることにした0色特徴の解釈は、各々の感性属性概念ごとに対応するHSV空間上での領域・ピーク点を定義し、それらに基づく解釈ルールを利用して検索条件を生成するという手順で実行することにした。この手法は単純なルールを基にしており、各々の感性語句の定義・修正が容易にできるため、解釈の仕方の修正や変更に対して柔軟に対応することが可能である。さらに実際に構築したシステムに対しGUIとの比較評価を行った。被験者の感想から、提案する自.

(3) ●. ●. 11. 然言語インタフェースが、検索成功率・検索回数・質問検討時間について、ほぼGUlと同等の能力をもつインタフェースであることが確認された。また、画像データベースの検索に自然言語を用いたとき、利用方法を学習する手間がないこと、感性語句を用いたイメージ検索による発見的検索が行えること、比較表現を用いることにより高い成功率で検索可能なことなど、木手法の有効性を確認できた。さらに形状特徴による検索についての考察を行った0色特徴では人間の直観を反映した連続的な値を取り、かつ、画像解析により抽出可能な特徴で構成されるHSV空間が存在した0しかし、形状特徴においてはそのような特徴空間が存在しない。このため、そのような性質を持っ形状特徴空間の構築を行った。具体的には、まず、SD法を用いて形状特徴に対する人間のイメージの測定を行い、心理的印象を反映した形状特徴空間を構成した。次に重回帰分析を用い画像特徴からその心理的特徴空間への対応付けを行うことで形状特徴空間を構築した0構築した特徴空間の評価を、重回帰分析で用いなかった未知データを用いて行った0その結果の値とSD法で得られた心理的特徴空間との間には高い相関が得られ、構築した特徴空間が心理的特徴を反映した空間であることが確認された0この空間を用いることで、色特徴と同様な手法で感性語句の解釈が可能となった。. 画像データベースの検索に専門的な知識を持たないユーザを対象とし、自然言語文により画像の検索か可能なインタフェースの構築についての考察を行った0色特徴ならびに形状特徴を指定する表現の解釈は、各々の感性的属性概念に対し心理的印象を反映した特徴空間卜での領域・ピーク点を対応づけるルールを定義し、それらを基に定めた解釈アルゴリズムに従って行われ、感件語句やその比較表現の解釈が可能となっている0本論文では、各画像の特徴空間における座標は画像解析により自動的に同定可能なものを用いているため、人手による情報付与といった手間がかからないという特徴ももっている。また、椅子画像の検索を題材として試作したシステムによる検索実験により、本論文で提案したインタフェースにおける感性語句による曖昧検索、ならびに、比較表現による対話的検索が有効なものであることを確認した。ここでは、色特徴もしくは形状特徴のみを対象としたが、ここで用いた手法はそれ以外の特徴に対しても適用・拡張可能であり、木論文は感性語句を含む自然言語文を受理するインタフェースシステムの新しい構築手法の提案、ならびに、その有効性について考察したものである。.

(4) 目次. 1序論. 1. 1．1. はじめに. ‥．. 1. 背景．‥‥. 1. 1．3 本論文の目的．. 3. 1．4 本論文の構成．. 4. 1．2. 2 関連研究. 7. 2．1画像データベース検索手法 2．1．1. 言語・言語型. 7. ‥．．. ．‥‥. 2．1．2 画像・画像型 2．1．3 言語・画像型. 11 15. 2．1．4 従来の方法のまとめ 2・2. 17. 画像データベース検索に望まれること. …………. 2．3 本論文の手法．. はじめに．‥. 25. ．．. 25. 3．2 言語と画像のマッチング．. 3．2．1言語からの考察 3・2．2 画像からの考察. 25. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. ●. 3．2．3 2層構造によるマッチング 3．3. 22 23. 3 基礎的考察 3．1. 8. ●. ●. ●. ●. ●. ●. ●. 25. ●. ●. ●. ●. 29 31. 解釈方法‥．‥．‥．‥‥．. 32. 3．3．1検索に用いられる表現‥．. 32. 3．3．2 抽出すべき画像特徴‥‥. 35. 3．3．3 解釈ルールに基づく解釈方法. 36. 3．4 解釈アルゴリズム. 37. 111.

(5) 目次. lV. 3．5. 3．4．1 感性語句の解釈 ‥. 37. 3．4．2 比較表現の解釈 ‥. 37. 3．4．3 複数修飾語句の解釈. 37. システム設計‥．．．‥．. 41. 3．5．1 システム構成. 41. 3．5．2 システムの実装 ‥. 41. 4 感性語句を用いた色特徴指定による検索. 45. 4．1 色特徴における特徴空間‥ ‥. 45. 4．1．1 特徴空間の選択．. 45. 4．1．2 対応関係の妥当性 ‥．. 46. 4．1．3 感性的属性概念の見積り. 49. 4．2. 実装．. ‥. ‥. ‥．. 50. 4．2．1 自然言語インタフェース. 50. 4．2．2 ルールの定義. 50. 4．3. 検索例. 4．4. 評価実験 4．4．1 4．4．2. ‥. ‥ ‥. ‥．‥ ‥. ‥. ‥．‥. 評価方法‥ 評価結果‥. ‥. ‥． ‥. ‥. 53. ‥. 56. ‥．. 56. ‥. 59. ‥．‥. 4．4．3 順番の影響に対する考察. 63. 4．4．4. 65. 総括．．‥. ‥. ‥. 4．4．5 他の検索システムとの比較. 66. 4．5 まとめ．．．．．．．．．．．．．．. 68. 5 感性語句を用いた形状特徴指定による検索. 71. 5．1. ‥. 71. 5．1．1 必要とする特徴空間．‥ ‥ ‥．. 71. 5．1．2 特徴空間の構成法．‥ ‥ ‥ ‥. 72. 5．1．3 Sl）法によるイメージ空間の測定．. 73. 5．1．4 重回帰分析‥．．．．‥. 79. 5．1．5 特徴空間の評価 ‥‥. 80. 特徴窄間の構築. 5．2 実装. ‥. ‥. ‥. ‥. ‥. ‥. 91. 5．2．1 実装方法. 91. 5．2．2 検索例. 91. 5．3 まとめ. 95.

(6) Ⅴ. 目次. 97. 6 結論参考文献. 105. 論文目録. 109. 付銀. 111. A収集、分類した単語、概念. 111. A．1色を修飾する語句とその分類 A．1．1色を修飾する語句 A．1．2 A．2. ………………・111 …………………11l. 色を修飾する語句の分類. ……………‥113. 形状を修飾する概念……………………115.

(7) 第1章序論. 1．1 はじめに近年、ハードウェア技術の向上、ならびに、パーソナルコンピュータ、インターネットの普及に伴い、文字・数値といった情報だけでなく、画像・音声などといった多種多様な情報を計算機上で比較的容易に取り扱えるようになってきた。そのため、利用者がそれらのメディアに触れる機会が増え、また、それらを扱うユーザ層も幅広くなってきている。このような背景から、それらのマルチメディア情報を誰もが簡単に取り扱うための技術・枠組みが必要となってきている。画像情報を保持する画像データベースの検索システムに対する重要性も増してきており、画像や検索システムに対する知識を持たないユーザを対象としたシステムの研究も活発に行われるようになってきた。. 1．2 背景これまでの画像データベース検索システムでは、画像一枚ごとに、「花」・「人の顔」・「空」といったその内容を表すキーワード（記号列）を予め与えておき、検索するときには引き出したい画像のキーワードを指定する方法が主流であった。しかし、それらのシステムでは、キーワードを付与するデータベース構築者とその画像の検索を行うユーザが同一の人物であるか、もしくは、ユーザにキーワードに対する知識があることを前提としている。そのため、画像内容の知識やキーワードに対する知識を持たないユーザにとっては、どのようなキーワードが用いられるのか、どのキーワードを用いればいいのかといったこ 1.

(8) 2. 第1章序論. とが分りにくい。また、画像ごとに付与されるキーワードと検索時に用いられるキーワードは、データベース構築者（キーワード付与者）とユーザにおける観点や主観の違いから必ずしも一致するとは限らない。このため、この種のシステムは必ずしも使い勝手のいいシステムであるとは言い難い。利用者が用いるキーワードとデータベース構築者によるキーワードとの違いを克服するために、キーワード間の新たな対応付けを試みる研究が行われている0これらの研究では画像に付与されたキーワード群を単なるキーワードではなくその画像の特徴としてとらえ、画像に付与されていないあらゆるキーワードに対してもそれらの特徴（付与されたキーワード群による特徴）へ対応付けることによって幅広い検索キーワードの利用を実現している。さらに主観の違いに対しては検索のキーワードが対応付けられる特徴を各ユーザごとに修正することによって対応している。しかし、データベースの画像が多量に存在するような場合には、それぞれの画像ごとに人手でキーワードを付与するための労力が必要となり、キーワードの追加・修正に関しても非常に手間がかかる。また、画像情報を言語情報にすることで検索対象としての情報が減少していることも問題点として挙げられる。また、ユーザに直観的に対応関係を分りやすくするため、直接画像を検索キーとして検索を行うシステムも研究がなされている。予め用意した複数の類型的画像を提示しその中から適当なものを選択させたり、なんらかの方法でユーザにスケッチを描かせたりすることにより検索キーとなる画像が入力されると、その検索キーとなる画像に類似した画像が提示されるといった類似検索を行うシステムである0ここで類似している程度を表す類似度は画像解析により自動的に抽出される特徴量を用いて定義しているため、この種のシステムではキーワードを付与する必要がない0 しかし、この類似度というのは客観的・普遍的な定義がなく、各々のユーザの主観によって異なるといった問題点がある。また、画像の入力に関しても、例示画では検索条件として自由度が少なく、スケッチ画では自由度はあるもののユーザに描画能力を必要とするため、有効な入力手段であるとは言い難い。また、画像解析により抽出された特徴量と言語情報とを対応付け、「暖かい」「地味な」といった人間の直観的心理的な印象やイメージを表す表現を用いて暖味な条件により検索を行う暖昧検索の手法も提案がなされている。これらは検索対象がはっきりしていない場合やユーザに画像や画像内の対象物に対する知識がない場合であっても、希望する画像をイメージで検索することができるため検索条件を提示しやすいといった利点が挙げられる。しかし、類似度と同.

(9) 1．3．本論文の目的. 3. 様に言語と画像特徴との対応付けも各々のユーザの主観によって異なるため必ずしも適切な画像が検索されるとは限らないといった問題点がある。また、これまでの研究では、限られた単語や、特徴の記述の中から選択して入力を行うというタイプのものしかなく、ユーザが検索条件を十分に表現できるだけの自由度が欠けている。これまでの画像検索手法においては、ユーザにより検索条件を1度提示されたら即座にシステムは希望する画像を検索するための努力がなされている。使い易いシステムの条件としては当然そのことも考慮する必要があるが、それだけでは十分ではない。むしろ、検索には失敗が伴うものとして、徐々に検索対象を絞り込んでいくことのできる手法が必要である。また、そうすることでユーザも十分に必要な検索条件を1回で入力する必要がなくなり気軽に検索が行うことが可能である。これまでの考察からこれまでの画像データベースの検索手法にはいくつかの問題点が残存している。そのため、画像データベースの検索において画像や画像内容に対する知識を持たないような素人をユーザの対象としたより使い易いインタフェースの構築が望まれている。. 1．3 本論文の目的このような背景から本論文では画像データベースの検索に自然言語文が用いられるように言語情報と画像情報とを対応付けるマッチング手法について検討を行い、構築した自然言語インタフェースの有効性についての考察を行う。画像データベースの検索システムのインタフェースのユーザに一般の素人を考えた場合、次のようなことが望まれる。. ●気軽で自由な条件入力 ●唆昧検索 ●対話的検索ユーザの意図を表す検索条件の入力手段としては様々な意図・意志を十分に表せるだけの高い表現力が必要である。特に、素人をユーザとして考えた場合、さらにその入力手段は容易に行えることが望ましい。また、ユーザが検索対象の画像内容に対する知識を持っていないことを想定した場合、正確かつ詳細な検索条件を入力させるのは不可能である。このため、暖味な条件でも検索が行.

(10) 4. 第1章序論. えることが望ましい0さらに、このことからも1回の検索でユーザが希望する画像を検索できるとは限らないと推測され、対話的に検索を進めることで徐々に検索対象を絞り込めることが必要となる。そこで本論文では、次のような特徴を持っ画像データベース検索システムを目標とし、「椅子の電子化カタログ」を題材としてシステムの構築を行う。 ●できるだけ制約のない自然言語文による検索が行える ●感性語句を用いた曖昧検索が行える ●比較表現を用いて対話的に検索が行える検索条件の人力手段としてできるだけ制約のない自然言語文を用いるのは、画像ほどの表現能力はないものの、ある程度検索条件の幅のある指定や、部分的な指定などもユーザがあまり意識せずに気軽に表現することができるといったように、表現の自由度が高く、かつ、容易に表明することのできる方法だからである。感性語句とは、「かわいい」・「地味な」といったように人間の主観的直観的な印象を表現する語句のことを指す0これらの語句は、専門知識を持たないユーザや、検索対象がはっきりしていないユーザに用いられる。逆に客観的基準が存在する表現だけを用いて正確に検索条件を述べるのは非常に難しい。そのため、これらの感性語句を用いた曖昧検索が行えることは有効である。しかし、これらの感性語句だけでは1回の検索で希望する画像が得られるとは限らず、そもそも素人のユーザによる検索が必ずしも1回で成功するとは思われない0そこで、検索条件の人力に自然言語文が用いられることを利用し、「もっと赤い」・「もう少し地味な」といった比較表現を用いて対話的に検索対象を絞り込んでいく検索が行えることが必要である。. 1．4 本論文の構成本論文は、全6章からなる0第1章では序論であり、研究の背景と問題点、ならびに、木研究の目的、ならびに、そのための目標について述べた。第2章では画像データベースの検索手法に関する従来の研究における手法、ならびに、その問題点についてまとめ、望まれる検索手法について考察する。第3音では、言語と画像をマッチングするための基礎的考察を行い、実装するシステムの概要を説明する0第4章では色特徴を表す表現の解釈方法について考察を行い、.

(11) 1．4．本論文の構成実装したシステムに対して評価を行い、本手法の有効性について考察する。第 5章では形状特徴を表す表現についての解釈方法を考察を行い、その解釈に用いる形状特徴空間について評価を行い、実際の検索例を示す。最後に第6章で本論文のまとめと評価を行う。.

(12) 第2章関連研究. 2．1 画像データベース検索手法これまでの画像データベース検索システムにおけるマッチングの手法は、検索要求たる入力媒体と最終的に検索の対象となる媒体の種類に基づき、表2．1のように大きく3つのタイプに分類することができる。入力媒体とは、検索時におけるユーザの検索要求、もしくは、検索の意図をシステムに表明するための手段として用いられる媒体である。入力媒体における言語とは、キーワードや画像内容を表す単語・文、なんらかの形式言語ならびに記号レベルでの意味表現を指す。それに対し画像とは、ユーザが描いたスケッチ画、予め用意した例示画、概略が描かれたアブストラクト画像、一部の属性だけを表現したインデックス画像といったように直接画像を用いて検索要求を示すものを指す。検索の対象となる媒体とは、検索時において実際にシステムがユーザの検索要求とマッチングを行う際に用いられる媒体である。ここでの言語とは予め画像に対して主に人手により付与された言語レベルの情報を用いる手法を指し、画像とは画像から画像解析などにより自動的に得られる直接的な画像レベルの入力媒体. 検索の対象となる媒体. 言語・言語型. 一書壬丘ロ Pロ. 貴重丘 Fコロロ. 画像・画像型. 画像. 画像. 言語・画像型. 含量E l＝ 1 Pロ. 画像. 表2．1：画像検索の枠組み. 7.

(13) 第2章関連研究. 8. 情報を用いる手法を指す。このような分類は現在、一般的に計算機を用いて画像解析により概念的・記号的な情報を抽出することが困難であること基づいている。そのため、検索の対象となる媒体の違いが、マッチング手法の方向性に大きく影響している。検索の対象となる媒体として言語を用いた研究では、入力媒体も言語となるため言語レベルでのマッチングに帰着することができる。その際、ユーザから入力される検索要求と予め画像に付与された言語的情報とは必ずしも・致するとは限らないため、これらをどう結び付けるかというのが主な論点となってきている。また、この手法では直接画像情報を用いていないため、当然ながら各々の画像に対しどういった情報を付力けべきかということも重要となってくる。 ▲方、検索の対象となる媒体として画像を用いた研究では、入力媒体として画像を用いたものと言語を用いたものとが挙げられる。人力媒体として画像を用いた研究では、画像間の類似性に基づいてマッチングを行うため、画像からどのような特徴を抽出しどのように類似性を判定するかということが主な論点となっている。また、入力媒体として言語を利用している研究においては、その言語で表される概念に対し、どのような画像特徴を抽出し、どのように結び付けるかが主な論点となっている。. 2．1．1 言語・言語型言語・言語型は、入力媒体も検索の対象となる媒体も言語レベルであるものを指す。従来の画像データベース・システムにおいて主流であった、キーワードを用いた手法はそれにあたる。それらのシステムでは、画像には1枚ごとに内容を表すキーワード（記号なども含む）が予め与えられる。そして、検索するときには引き出したい画像のキーワードを指定することにより検索を実現している。具体的には、全画像の1枚1枚に対し「花子（名前）／歌／横顔／舞台／花／…」といったように内容を示すキーワードをいくつか与えておき、検索するときには「花子」・「歌」などとをいったキーワード用いて取り出したい画像を指定することで画像の検索を実現している。長所と短所これらのシステムでは、キーワード・記号・内容記述表現などのように画像内容が言語レベルで付与されているので画像内容の意味、概念レベルでの検索が可能である。しかし、これらのシステムはキーワードを人手により付与しなければならず手間が掛かる、キーワードだけでは画像情報を十分に表現しきれ.

(14) 2．1．画像データベース検索手法. 9. ないといった短所が挙げられる。また、データベース構築者（キーワード付与者）とユーザが異なる場合、有効なキーワードを正確に用いることが困難なだけでなく、「さわやか」といったような主観的な基準に基づくキーワードがユーザの判断と必ずしとも一致するとは限らないといったことも挙げられる。前述の通り、これらのシステムでは検索対象の全画像に対して事前にキーワードなどの言語情報を与えておくことが必要になる。しかし、キーワードなどの言語情報を画像から自動抽出・自動作成するといったことは困難であるため、人手によって行われるのが普通である。そのため、多量の画像データが存在する場合、言語情報の付与には非常に手間が掛かってしまう。色特徴や形状特徴といった特徴をキーワードで表現してしまうと、かなりの画像情報を損失することになる。例えば、「青」や「四角」といっても、水色に近い青のものもあれば、少し丸っぽい四角のものもある。言語情報だけではそれらの情報を表現するのは難しく、たとえ詳細に記述するとしても限度があり、キーワードを不可する手間も増加することになる。特に形状特徴はキーワードでは表現しきれないことは明白である。また、付与するキーワードを減らしてしまうと検索の対象画像の特定が難しくなるといった問題もある。先の例を挙げると、「青」といったキーワードだけでは「薄い青」のものを特定することができない。また、予め画像に与えるキーワードなどの付与方法はデータベースの管理者などの画像を提供する側の人に依存するものがほとんどである。したがって、画像と画像に付与される言語情報との対応付けも画像を提供する側の判断に依存する。例えば、ある画像の色の特徴に対し「赤」と付与したとする。しかし、色には客観的な定義が存在しないため、「赤」と判断したのは画像を提供する側の判断である。ところが、ある画像に対する色特徴（例えば朱色など）を「赤」とするかしないかは個人個人の主観的な判断により左右される。したがって、画像を提供する側（画像に言語情報を付与する側）の判断と画像を検索する側（ユーザ）の判断が一致しない場合にはうまく検索を行うことはできない。逆に、画像を検索する側（ユーザ）は、画像を提供する側の判断によってどのような画像に対しどのようなキーワードなどの情報が付与されているかといった知識がないと正確な検索は行えない。ユーザの主観の違いへの対応そのため、これらの欠点を克服するための研究がなされている。一つは、各ユーザの主観の違いを、キーワードを直接マッチングするのではなく検索対象.

(15) 10. 第2章関連研究. となるキーワードと検索に用いられるキーワードとの間に新たに対応付けを行うことで吸収しようとする試みが挙げられる。例えば、清木らはメタデータ空間と呼ぶ正規直交空間を形成し、その空間上に画像に付与されたキーワードに基づく画像データ群、検索に用いるキーワード群を配置することで対応付けを行い、各ユーザの主観の違いは検索語側のデータを変更することで行っている同0また、芥子らは百科事典に基づき各単語を意味ベクトルで定義し、検索時にはそのベクトル空間上でマッチングを行うことでユーザに用いられる様々なキーワードに対応している【21。また、このシステムでも各ユーザの主観の違いは単語の意味ベクトルを変更することで行っている。これらのシステムではユーザの主観の違いは当てはまるか当てはまらないかを各々のユーザに指定してもらうことで学習しているが、このような学習は検索システムを何度も利用するようなユーザに対しては有効であるかもしれないが、数回しか利用することのないユーザにとってはその学習自体が手間となる。また、ユーザの主観をより正確に学習するためには、より多くのデータが必要になる0そのため、学習を行うのであれば、検索時になるべくユーザに尋ねたり、指定してもらったりせずに何らかの手法で学びとることのできる技術が必要となるが、それらについての検討はなされていない。また、これらのシステムでは各々の画像に対するキーワードの付与の基準に一貫性があることを前提としているように思われるが人手によりキーワードを付与する場合、一貫性を保つのは非常に難しい0しかし、基準に一貫性がなければ、キーワード間（検索対象のキーワードと検索語としてのキーワード）の対応付けをいくら修正したところで適切な検索を行うことはできず、検索洩れや過剰適合してしまうといったことも考えられる。. キーワードの自動抽出への試みまた、もう一つの方向性としてキーワードを自動抽出することでキーワード付与の手間を克服しようとする試みがなされている【31。小野らは画像解析により分割された領域に対しシーン記述と呼ぶ領域の位置・大きさ・色といった特徴を表すキーワード列を付与し、さらに卜偉レベルの概念キーワードとしてそれらのキーワードから類推されるキーワードを付与する。例えば、画像の上部に水平方向に広く青い領域があれば「空」といったように付与される。当然ながら誤認識されることもあるが、このシステムではシーン記述のキーワードも用いることで対応している。しかし、検索条件として概念キーワードから汎用的なシーン記述に展開してしまうと逆に検索条件が緩和してしまい、大まか.

(16) 2．1．画像データベース検索手法. 11. な特徴だけで検索対象が限定できる場合には向いているが、多量の似たような画像の中から小数の検索対象を特定するといった場合には向いていない。また、これまでのシステムと同様に画像情報をシーン記述に変換することで画像の詳細な情報を失っていることに変わりはない。. 2．1．2 画像・画像型画像・画像型に分類されるシステムというのは、入力となる媒体が画像であり、検索の対象となる媒体も画像であるものを指す。計算機において画像情報、つまり、連続的な二次元情報は、主に標本化と量子化がなされ二次元配列に格納されたようなデータとして扱われる。当然ながら画像検索時にこれらのデータがそのままマッチングされることはなく、画像解析によりそれらのデータから得られる画像特徴が用いられる。そのため、ここでいう検索の対象となる媒体が画像とは、厳密にはその画像から得られる特徴量のことを指す。画像・画像型のシステムでは、ユーザに何らかの形で検索したい画像と似ている画像を入力してもらう。すると、システムはその入力された画像の特徴量とデータベース中の画像の特徴量から予め設けられた評価基準をもとにそれぞれの画像の類似度を算出する。最終的にシステムは算出された類似度の高いもの、つまり、入力された画像と似ているとシステムにより判断されたものが順に表示されるといった類似検索を行うものが主流である。. 長所と短所入力媒体としては画像を用いているため、直観的に分かりやすく、画像の高い表現力をそのまま使うことが可能である。つまり、画像情報であれば、位置・色・形状といった様々な情報を表現できるが、言語情報だけではこれらの情報を正確に表現することは困難である。特に形状特徴はバラエティに富んでおり、とても言語だけでは表現しきれない。しかし、そのために画像の入力方法も間穎となっている0例示画や検索結果画像を用いた場合、ユーザがそれらの画像から選択するするだけで入力が可能であるが、画面上に表示できる検索キーの数は限られ、検索キーにない特徴を持っ画像を指定することもできず、画像の豊富な情報量を活用することができない。例示画などを多く取り入れば自由度は増すが、逆に選択の幅が広すぎても使い勝手がいいとは限らない。また、なんらかのエディタを用いてユーザに描かせたスケッチ画などを用いた場合、自由に表現することが可能であるが、それを活かすためにはユーザに描画技能が必要とされ、ユーザが記憶している画像を描く場合でも形状や位置などの細部.

(17) 12. 第2章関連研究. を正確に描くことは難しく、さらに、見たこともない画像を検索する場合には高い描画能力を持っユーザでなければ簡単に描くことはできない。また、実際に描くとなるとそれに掛かる時間といった手間も考えられる。また、検索対象の媒体として画像を用いることで、実際の検索対象となる特徴量は計算機により自動的に抽出が可能であるため、人手による言語的情報の付与といった手間が省けるばかりでなく、新たに特徴量を抽出したり抽出方法を変更したりすることで画像に含まれる様々な情報を検索対象の情報としてすぐに活用することが可能である0例えば、これまで色特徴に対する検索条件での検索を実現していなくても、色特徴に関する特徴量を抽出する画像解析を行いそれらの特徴から類似度を定義すれば検索を実現できる。それに対し、キーワードによる検索で実現するためには色特徴に関するキーワードをすべての画像に対して新たに付与しなければならない。ただし、画像から得られる特徴は画像処理技術に依存するため、画像処理により十分かつ適切な特徴の抽出がなされなければならない。また、これらのシステムでは画像特徴から各画像間の類似度を算出しなければならないが、画像が類似しているしていない、もしくは、どの程度似ているのかというのは主観的な評価であるため、客観的に画像特徴から類似度を定義することはできず、個人によっても異なる。そのため、これらのシステムでは心理的な尺度である類似度を適切に定義しなければ、検索洩れや過剰検索といった問題が生じる0また、基本的に類似検索であるため検索対象たる画像に多様件がない場合や似たような画像が豊富に存在している場合には正確な条件を検索キーとして与えなければならないが、前述の通り、入力媒体として画像を用いて正確かつ詳細に入力することは難しいため、そのような検索が行えるとは限らない。. 典型的な検索手法画像・画像型のシステムとしては、Jainらのシステムが挙げられる［4］。検索対象としては商標を用い、その色と形状から類似度を算出している。検索キーとしては例示画を用いており、対象画像そのもの、それに回転を加えた画像、大きさを変更した画像、雑音を加えた画像をキーとして検索実験を行っている。結果としては色特徴、形状特徴のそれぞれの属性だけの類似度による再現率よりも、両方の属性の類似度による再現率の方が高く上位3候補以内に挙げられていることを確認している0しかし、例示両を用いても色特徴と形状特徴を検索キーとして与えなければ正確な検索が行えないことも同時に示しており、類.

(18) 2．1．画像データベース検索手法. 13. 似度の定義の甘さ、もしくは、類似度の定義の難しさを示している。加藤らの商標の検索を行うシステムでは、階層的クラスタリングによる視覚心理実験を行い人間の類似性の判断基準を分析し、それらに基いてパターン全体の濃淡・文様の周期性・概略形状・部分構成要素の形状ならびにその配置といった特徴を表す特徴パラメータを抽出し、それらを用いて類似度を算出している【51。類似度の評価としては、前述の心理実験によるクラスタリングに基づく類似デザインの再現率で評価がなされているが約60％にとどまっており、類似度の定義の難しさが示されている。検索キーとしては例示画もしくはスケッチ画を想定しており、それぞれの再現率の評価としては、例示画や見本を見ながらの描画したものに対しては高い再現率を得ていたものの、記憶に基づくラフスケッチを用いた場合はやや劣っていた。このことから的確に検索を行うためには検索キーには正確性が必要とされることが分かる。また、このシステムでは評価は行っていないが部分スケッチ画による検索も実現しており曖昧な検索条件指定も可能としているが、前述の通り的確な検索は行えないと推測される。部分的な特徴指定による検索また、画像全体の特徴や属性を指定するのではなく、部分的な特徴、属性による検索システムも研究がなされている。美濃らの研究では、山の風景画を題材として、山の形状・位置・大きさ・色といった画像内の部分的な対象の属性を指定することで検索を行うシステムを構築している［6】。検索キーとしては例示画を用いており、各属性の代表パターンが提示される。この代表パターンは検索対象のクラスタリングに基づき動的に提示することができるため、一度に検索対象を指定しなくても消去法的に徐々に検索対象を絞り込むことができる。当然ながら、このシステムにおけるクラスタリングと類似度がユーザ、もしくは、人間の主観と異なっているとうまく検索が行えない。特に対象が幅広く、種類が多いとクラスタリングは個人によってかなり異なるといったことが考えられる。また、例示画を用いているため検索に自由度に欠けているといった点も変わりはない。平田らの研究では類似度を、それぞれの画像に対して領域分割を施し、領域の対応関係、画像内の対象（領域）の形状・色・位置関係に基づいて算出している【7】。また、Leeらの研究でも画像内の対象の色・テキスチヤ・形状・位置関係に基づき類似度を算出している［8］。そのため、これらのシステムでは画像内の部分的な対象の形状・色・位置関係といった部分的な対象の部分的な.

(19) 14. 第2章関連研究. 特徴だけを用いた検索を可能にしている。検索条件たる検索キーとしては双方ともエディタなどにより描画されたスケッチ両を想定しているが、ユーザが画像全体を詳細に記憶、もしくは、想像できなくても部分的な情報だけでの曖昧検索が可能である0また、描画も部分的な特徴を記述するだけで済みユーザの負担を軽くしている0 しかし、このシステムでは検索対象たる画像は多様性があることを前提としているためそれらの画像データベースでは有効ではあるが、人物画像のように画像間の違いが少ないものに対してはこのシステムでの類似度では判別が難しく、検索条件を正確に入力しなければならないといった問題点も解決されていない。. 新しい入力手法の試みまた、画像の入力に工夫を行ったシステムとしては堀越らのシステムが挙げられる［9］0検索対象画像はカップ画像を対象とし、立体形状の検索について検討を行っている0このシステムでは立体形状は超二次関数を用いて記述される0この超二次関数は数個のパラメータで多様な形状を表現することが可能で、言語的・心理的な属性とも相関があり言葉と結び付けやすいといった特徴を持っている0検索キーとしては超二次関数のパラメータで示される立体形状が用いられており、検索キーの入力は、上面図と側面図の概略形状のスケッチ画や「球」「円筒形」といった単語で行われる0さらにこの手法ではそうして得られた検索キーを超二次関数のパラメータや「角張る」・「先細る」といったそれに対応させた単語を用いて変形させることを可能にしており、具体的で正確な検索条件の入力が比較的簡単に行えるようになっている。ユーザの主観の違いへの対応また、票田らの研究では、さらに各ユーザの主観的な画像の類似度を反映させる試みがなされている［10】。主観的な類似度はまず始めにユーザにサンプル画像を分類させ、それに基づき画像特徴で構成されるGF空間（GraphicalFba＿ tureSpace）からSF空間（SubjectiveFbatureSpace）と呼ぶ主観的類似空間の定義を判別分析により行っている○検索キーとしては、例示画とスケッチ画を用いている0例示画としては対象そのもののサンプル画像、もしくは、再入力したものを用いているため、GF空間の検索でもSF空間の検索でも第1候補として高い再現率が得られている0第2候補に候補に先のユーザによる分類に基づく同一グループの適合率は、GF空間での検索が10％以下なのに対し、 SF空間での検索ではサンプル画像で約40％、再入力画像で約30％と向上.

(20) 2．1．画像データベース検索手法. 15. しているが、あまり高い適合率ではない。また、スケッチ画による検索においては例示画ほどいい結果が得られておらず、この原因としては学習時にスケッチ画が考慮されていないことが挙げられている。これらのことから各ユーザの主観的な類似度の学習の困難さが示されていると言える。学習は学習データを多くすれば、例えばここでは、スケッチ画やより多くのサンプル画像も含めて学習を行えば学習精度も向上するが、それでは各ユーザにより学習という負担を課すことになる。. 2．1．3 言語・画像型言語・画像型に分類されるシステムというのは、入力となる媒体が言語であり、検索の対象となる媒体が画像であるものを指す。入力媒体の言語としては、キーワードレベルの単語だけでなく、なんらかの形式言語・自然言語文といったものも考えられる。また、検索対象としての画像とは、前述の画像・画像型と同様に画像解析により画像から得られる画像特徴量のことを指す。言語・画像型システムでは言語情報と画像情報を付き合わせなければならないため、それらのマッチングするための手法が必要となる。画像処理技術の現状では画像を概念レベルで認識を行うことが困難であるため、とりわけ画像処理で得られる画像特徴量と言語情報との間でのマッチングが試みられている。長所と短所入力媒体としては言語を用いているため、画像の入力とは違い比較的簡単に幅広く自由度の高い検索条件の入力をすることが可能である。画像の場合、自由度を高くするためにはスケッチ画の描画能力が必要となり描画能力に欠けるユーザにとって入力は非常に困難であり負担を与えることになる。また、画像の類似検索と異なり検索条件として比較的正確に表現／選択しなくても、例えば、「暖かい」・「派手な」といったイメージでの唆味な表現も可能である。さらに画像ほどの表現力は持ち合わせていないものの、例えば、画像では「○ ○の真上」・「赤」といった厳密な指定になってしまうものだけでなく、「○ ○の上」・「鮮やかな色」といったような幅広い範囲の条件指定も可能であり、「赤か黄色」・「上や右」といったような画像だけでは表現しにくい複雑な条件の組み合わせにより指定することもできる。当然ながら、「人の顔」・「花」といった概念レベルでの指定も可能である。しかし、画像の詳細で正確な条件の指定は行いにくく、言語では表現しにくい場合がある。.

(21) 16. 第2章関連研究. 検索対象の媒体として画像を用いることで、画像・画像型システムと同様に計算機により自動的に抽出が可能で人手による言語的情報の付与といった手間が省け、新たに特徴量を抽出したり抽出方法を変更したりすることで画像に含まれる様々な情報を検索対象の情報としてすぐに活用できるといった利点が挙げられる0前述の通り、画像から得られる特徴は画像処理技術に依存するため、画像処理により十分かつ適切な特徴の抽出がなされなければうまく機能しない。また、現在の画像処理技術では十分な画像認識が行うことができないため、概念レベルでの情報を抽出することができない0そのため、特に概念レベルでの言語情報とマッチングを行う際にはドメインや対象画像を限定しなければならこれらのことから言語・画像型のシステムでは、概念や客観的記述による表現からの検索ではなく、言語の主観的な表現と画像特徴量との対応付けの試みがなされている。言語で画像の特徴を指定することを考えた場合、客観的な表現だけを用いて記述することは困難であり、逆に主観的な表現を用いた方が暖味な指定も可能であり画像に対する知識がないユーザにとっても表現しやすい。しかし、主観的で暖昧であるがゆえにシステム構築者による画像特徴量との対応付けが必ずしもユーザと一致しないといった問題点が挙げられる。. 言語・画像型の検索システムとしては、中山らのシステムが挙げられる叫。検索対象画像としては画像認識の研究が進んでいる人間の顔画像を対象としている0検索キーとしては、「目」・「U」・「鼻」など顔の各部位の大きさや形状、各部イ絹の長さなどを表す具体的印象語と呼ぶものと、「知的度」・「活動度」・「繊細度」を用い顔全体の印象を表現する全体印象語と呼ばれるものが用いられている0対象画像に顔画像を用いているのでシステムが各部位の認識ができ、それらの特徴を抽出することが可能であるため、画像対象全体（顔）の特徴だけでなく各部位の特徴を指定することが可能になっている。そのため、ユーザは検索したい顔画像の全体の印象による曖昧検索だけでなく、一部分の特徴もより具体的に同時に指定することができ、言語の表現能力が活かされている0しかし、用いることのできる言語表現は限られており、特に全体の印象は3軸卜の15個の語句と少なく自由度にはやや欠けている。また、画像との対応付けはファジールールに基づいて行っており、予め設定された基準に基づいている0そのため、ユーザの主観が反映されていないといった問題点も挙げられる。.

(22) 2．1．画像データベース検索手法. 17. ユーザの主観を反映させた画像検索の試みとしては、加藤らの研究が挙げられる【12，13，14，15】。画像対象としては絵画を用い、画像特徴としては画像全体から色彩特徴を抽出している。絵画は申像として複雑なものが多く形状抽出や画像常識も困難であるが、人間もそれらの特徴を具体的に詳細に指定することは難しく、特に検索したい画像を描画するといったことは極めて難しい。逆にこのシステムで用いられているように唆味ではあるが、「ロマンチック」・「ソフト」といった言語的心理的な印象を表す単語により指定することは容易である。また、画像特徴との対応付けはユーザの主観を反映させるため、予めユーザにいくつかのサンプル画像を与え印象を評価してもらい、そのデータを基に多変数解析を用いて画像特徴との結び付けを行っている。また、この多変数と多変数を結び付ける手法は、他の画像だけなく、例えば、音声特徴と言語的印象といった他の媒体間の対応付けにも応用することができるため高く評価できる。印象語による検索の評価は、学習データとして50枚の画像を用い、それらに50枚の画像を加えた100枚の画像を持つデータベースで行われている【13】。結果としては、ほとんどの画像に対して受けた印象からもとの絵画が第3候補までに90％以上の割合で再現されており、適切に学習が行われていることが示されている。しかし、未知の画像に対する客観的な評価がなく、どの程度有効なのかは不明である。また、ユーザの主観をより正確に反映させるためにはより多くの学習データを必要とすると考えられるが、それではユーザの負担を増すことになる。また、学習に用いられた限られた印象語による指定しか行えないため自由度がなく、細かな画像特徴を指定することができないといった問題点が挙げられる。 2．1．4 従来の方法のまとめ従来の画像データベース検索システムについて大きく3つの種類に分類し、それぞれの特徴・システム例・問題点について述べた。検索キー・検索条件を提示するための媒体としての言語と画像について表2．2にまとめる。言語を用いる場合には概念レベルでの指定が可能であり、また、複数の条件の論理積・論理和といった複雑な条件での指定も可能であるが、当然ながら画像を具体的詳細に表現する能力は画像に劣る。一方、画像を用いる場合には高い画像の表現能力を活かし具体的詳細な指定が可能であり、また、ユーザに直接画像が検索キーとして提示されるので分かりやすい。しかし、画像だけでは概念レベルの指定や複雑な条件を指定することが困難である。また、例示画などによる入力は簡単であるが、ユーザに自由に検索条件を入力させるに.

(23) 18. 第2章関連研究入力媒体長所. 短所. 青書五「コロロ概念レベルでの指定が可能. 画像. 複雑な条件指定が可能. 分かりやすい. 高い表現能力. 具体的詳細な表現能力が画複雑な条件指定が困難像に劣る. 概念レベルでの指定が困難自由な人力が困難. 表2・2‥人力媒体の比較. 検索媒体長所. 一きまE 口nlコ概念レベルでの情報が用い. 画像. ることが可能. とが可能. 自動的に情報を付与するこ. 画像情報を直接利用できる短所. 自動的に情報を付与するこ. 現状では概念レベルの情報. とが困難. を用いることが困難. 情報が減ってしまう. 表2・3：検索対象媒体の比較はスケッチ画などを用いるしかなく、描画能力の無いユーザにとっては自由な入力が困難であるといった問題点がある。検索対象となる媒体としての言語と画像について表2・3にまとめる。言語を用いる場合には各画像に人手などにより言語情報が付与されるため、概念レベルでの情報を検索対象とすることができるが、画像に対し自動的にそれらの情報を付与することができないため手間がかかる0また、画像情報から言語情報に変換することで検索対象の情報を減らしてしまっているといった問題点も挙げられる0画像を用いた場合には画像情報を直接利用することができ、画像解析による自動的な情報の抽出が可能であるため人手により情報を付与するといった手間も省くことができる0ただ、現状の画像処理技術では十分な画像認識が行えないため、概念レベルの情報を用いることができないといった問題がある。人力となる媒体と検索対象となる媒体に対するそれぞれの考察をもとに、こ.

(24) 2．1．画像データベース検索手法. 長所官 Fコ雪E Plコ. 概念レベルでの検索が可能・キーワード方式の実装は簡単. ● 短所亨 l＝コ静. 画像から言語情報の自動付与が困難. 型. 主観の違いによる画像に与えられる言語情報の違い. 画長所. 画像の具体的詳細な条件での検索が可能. 像. 画像情報を自動的に抽出し利用できる. ● ■ 画短所像型青. 画像の具体的詳細な条件での検索が困難. 比較的対応関係が分かりやすい検索条件を自由に入力させるのが困難類似度検索しかできず、概念レベルでの検索は困難主観の違いによる類似度の違い. 長所. 複雑な条件による検索が可能. 謄. 画像情報を自動的に抽出し利用できる. ● 画短所. 現状では概念レベルでの検索は困難. 像. 主観の違いによる言語・画像対応関係の違い. 型. 表2．4：各検索タイプの比較. 19.

(25) 20. 第2章関連研究. れまで行われてきた画像検索手法の3つのタイプの特徴は表2．4のようにまと. 言語・言語型では、言語情報同士でマッチングを行うため、概念レベルの検索キー・条件を用いての検索が可能である。また、小規模な画像データベースにおいては従来のキーワード方式で簡単に実装が可能である。しかし、画像に言語情報を自動的に付与することは困難であるため、画像データが多くなるにつれデータ構築の手間も増大する0また、検索対象を言語情報に変換しているため情報が減少してしまい、画像の具体的詳細な条件での検索も困難なものとなってしまう。画像に付与される言語情報が人手により付与されるが、・旦その人の主観により言語情報に変換してしまうと、いくら言語情報間の対応付けを変更したところでそこでの主観による違いをユーザの主観に合わすことは難. 画像・画像型では、直接画像同士を付き合わせることができるため、言語での指定に比べ比較的対応関係が分かりやすく、検索キーに画像を用いるため具体的で詳細な条件の指定が可能である0また、画像解析により自動的に抽出される画像情報を直接検索対象としているため、様々な画像情報を利用でき、新たな特徴の抽出といったことも容易に行える0しかし、画像だけでは論理的な条件を提示することができないため、基本的に類似検索しか行えず、複雑な条件での検索や概念レベルでの検索ができない0また、検索キーとなる画像をユーザに自由に表現させることは難しく、画像の表現能力を十分には活かしきれない0このタイプのマッチングで用いられる類似度とは、画像間の似ている、もしくは、似ていないといった主観的な度合をヒューリスティックや心理実験に基づいて定義されたものである0そのため、必ずしもユーザの主観と一致しないといった問題点が挙げられる。言語・画像型は、言語情報と画像情報といった2つの全く異なる情報のマッチングを行わなければならないため研究がそれほど進んでいないものの、前述の2つのタイプの短所を補うべくものと考えられる0人力は画像の表現能力に劣る部分があるものの言語における概念レベルでの条件、論理的な複雑な条件を用いての検索が可能であり、また、検索対象としての画像の豊富な情報量を活かすことが可能である。ただし、現状の画像処理技術では概念を自動的に抽出することはできないため、概念レベルでの検索は困難である。また、言語情報と画像情報の客観的な対応付けを行うことができないため、システムで用いられる対応付けとユーザの主観による対応付けが必ずしも一致しないといった問題点が挙げられる0人力方法に関しては将来的には例示画などを用いっつ、.

(26) 2．1．画像データベース検索手法. 21. 例えば、「この画像の形状に似ていて赤い色をしている画像」といったように画像も含めての検索条件の表現も考えられ期待される。. これまでの画像データベースの検索手法における入力手法としては、言語ではキーワードや印象語といったような単語や予めに用意された語桑から特徴を指定するような形式言語的な条件の入力といったように比較的単純で自由度の少ない条件のみを受け付けるシステムが多かった。画像においてもインデックス画像や例示画といったように予め用意された画像の中から選択して条件を指定するといったように自由度の少ないシステムも多い。画像の場合、自由度を増そうとするとスケッチ画による入力となるが、描画能力が劣るユーザにとっては逆に負担となってしまう。また、画像入力だけでは基本的に類似検索となり、論理的な条件や検索幅のある条件による検索は難しい。画像データベースを検索する際、入力された条件と検索される対象の間には主観による判断が必ず存在する。言語・言語型では画像に付与する言語情報、さらには検索キーと検索対象との言語情報間の対応関係に主観による判断が存在する。画像・画像型では、検索キーと検索対象との画像情報間の類似度たる対応関係に存在する。言語・画像型においても検索キーたる言語情報と検索対象たる画像情報の対応付けに主観による判断が存在する。これらの主観は大抵データベース構築者の主観であり、検索を行うユーザの主観とは異なる。そのため、ユーザの主観を反映させるための学習を行うシステムの研究が行われてきた。しかし、言語・言語型では言語間の対応関係の修正がなされているが、既に画像から言語情報に変換する時に主観による判断がなされており、それほど正確には対応することができない。画像・画像型、言語・画像型ではそれぞれの対応関係をユーザから学習する試みがなされている。しかし、正確に学習するためには多くの学習データを必要とするが、通常の検索時に自動的に学習するといったことができないため、学習はユーザに負担を課すことになる。そもそも主観というのは非常に曖味なものであり、同一の人物であっても時間・場所・気分などによっても左右され必ずしも一定の判断がなされるものではない。. また・これまでの画像データベースの検索手法においては、画像の検索は条件を1回入力されたときに即座にユーザの希望する画像を提示させるための努力が行われてきたが・検索に失敗したときのことは考慮されていない。大抵はもう一度・別の検索条件を新たに入力しなければならない。類似検索では検索された画像を利用してさらに検索条件とすることが可能ではあるが、その画像.

(27) 22. 第2章関連研究. の全体の特徴が検索条件となってしまうため、条件を絞り込むような検索を行うことはできない。. 2・2 画像データベース検索に望まれることこれまでの考察をもとに画像や画像内の対象物に対する知識を持たないような素人のユーザにとって使い易い画像データベースの検索システムには以下のようなことが望まれる。. 気軽で自由な条件入力一般の素人をシステムのユーザとして考えた場合、人加法は簡単で、かつ、細かな画像特徴や複雑な条件も指定することができるほど表現に自由度があることが望ましい0キーワードや印象語、例示画などのような選択方式は入力が簡単ではあるが、表現が制限され自由度がなくユーザの意図を満足に表現できるとは限らない0また、スケッチ画などによる画像による入力場合は非常に検索条件としての自由度の高い表現が可能な反面、ユーザに描画能力を必要としてしまい簡単に条件入力が行えず、また、論理積・論理和的な条件を表現することができない。. 画像データベースの検索において、見たことのない画像を検索する場合には具体的詳細な条件を入力することは困難である0そのため、部分的な条件や比較的範囲が幅広い条件での検索が行えることが望ましい0ユーザが曖昧な条件での検索を行うことによりその結果を提示され、その提示画像によりユーザに新たな検索条件や別の検索条件を述べることを促すことができる。. 画像データベースの検索を行うとき、ユーザが客観的な基準が存在する表現だけを用いて検索したい画像を表明することは極めて困難である。特に画像に対する知識を持たないユーザが対象物の周囲長・円形度・色の明度といったような客観的特徴だけを用いて言語で表明することは難しい。そのため、それらの表現と対応付けるためにシステムはなんらかの主観的な判断を用いて行うことになる0また、直接画像を用いて表明された場合であっても類似検索を行う.

(28) 2．3．本論文の手法. 23. ため、その際に用いられる類似度も主観的な判断に基づく定義がなされていることになる。これらの主観は大抵データベース構築者の主観に基づいて定義がなされるためユーザの主観は反映されておらず、例えユーザの主観の学習を行ったとしても必ずしも一致するとは限らない。また、画像の検索は必ずしも1回の検索でユーザが満足する画像が得られるとは限らず、特に曖昧検索においてはその傾向が強い。そのため、検索が失敗してもさらに検索条件を追加したり、修正したりすることで徐々に検索対象を絞り込んでいけるような対話的な検索が行えることが望ましい。. 2．3 本論文の手法画像データベースの検索に望まれることをもとに本論文では以下のような特徴を持つ画像データベース検索システムを構築することを目標とする。. なるべく制約のない自然音詩文による検索素人のユーザに気軽で自由な条件入力を行ってもらうため、検索条件の入力には自然音詩文を用いることが有効であると考えられる。なぜなら、自然言語文は曹段から人間が意志を表明するために用いられているため、誰でも気軽に機業条件を述べることが可能であるからである。また、画像ほどの表現能力はないものの輪理積・論理和といった複雑な条件も表明できるため比較的検索条件の自由度が高い、しかも形式書籍などと異なりそれらをあまり意識せずに容易に表明することが可能である。さらに何らかの形式で提示されている画像も指示代名詞などにより検索条件に含めるといったことも可能である。当然ながら気軽に自由度の高い検索条件を入力してもらうためには自然言語文の文体、用いることのできる単語などにはなるべく制約を与えてはならない。. 感性語句を用いた曖昧検索自然言語文を用いて曖昧検索を行うことを考えた場合、「かわいい」・「シンプルな」といった人間の直観的印象を表す感性語句を用いることが有効である。これらの語句は画像対象物から受けるイメージだけが言及されており非常に曖昧ではあるが、見たことのないような画像を検索する場合においても比較的簡単に述べることができる。.

(29) 24. 第2章関連研究. 比較表現を用いた対話的検索画像の検索に失敗したとき対話的な検索を行い、検索条件を絞り込むためには「もっと明るい色」・「もう少し丸っぽい」といった検索結果として提示された画像との比較により条件を表明する比較表現を用いることが有効である。特に検索された画像がユーザの希望とする画像と近かった場合、新たに別の表現を用いて画像全体の特徴を入力し直さなくても、「その画像より色がもっと薄いもの」といったように、特定の特定を変更することを表明する入力だけで済む0また、そのため検索に失敗してもその検索で提示された画像を次の検索条件を表明するのに活かすことができ、ユーザにとっても条件の言い換えなどをするよりも表明しやすい0これらのことから検索したい画像の特徴を1度にすべての条件を述べる必要がなく、最初はイメージによる検索、次は比較表現による色特徴の検索、さらに比較表現による形状の検索といったように検索対象を徐々にはっきりとさせるといったように検索対象を絞り込んでいくような検索も可能である。. 自動インデクシング検索対象の媒体としては言語と画像が考えられるが、本論文では画像を用いる方が望ましいと考え、画像から自動的に特徴を抽出する手法を用いることにした0現状では画像認識が十分に行えないため、概念レベルの検索が行えなくなってしまうが、画像データベースに多量の画像が蓄積されることを考慮した場合、人手により情報を付加するのは非常に手間のかかる作業となることの方が問題である0また、検索対象となる情報に人為的に主観の判断がなされてしまうよりも計算機により主観的判断を模倣させる万がある程度規律もあり、比較的容易にいっでも修正が可能である0また、豊富な画像情報をいっでも利用でき新たな特徴情報の抽出も計算機で行わせることにより簡単に行うことが可能である。.

(30) 第3章基礎的考察. 3．1 はじめに検索キーに自然言語文を用いる場合、ユーザに予備知識がなくても比較的簡単に検索したい画像を表明することができ、部分的な特徴なのか全体的な特徴なのか、単属性の特徴なのか複数の属性特徴なのか、主観的な特徴なのか客観的な特徴なのか、などといったことユーザが意識しなくても自然に検索が行えるといった利点が考えられる。そのためにシステムはその自由に用いられる様々な文を扱わなければならない。また、自動インデクシングを行い、かつ、画像の豊富な情報量を利用するために検索の対象となる媒体として画像を用いることにしたが、他の言辞・画像型の画像検索システムと同様に、画像から得られる豊雷な情報と音鮒報といった全く異なる情報のマッチング手法を検討しなければならない。そのため、音詩と画像のマッチング手法、ならびに、検索に用いられる表現の解釈方法ついて考察する【16，17，18】。. 3．2 言語と画像のマッチング書籍情報と画像情報とは直接マッチングすることはできない。そのため、マッチングするためには言語と画像の媒介となる表現が必要である。ここでは言語と画像のそれぞれの側面から検討することにする。. 3．2．1 言語からの考察自然言語には文体が異なるが同等の意味を表す様々な同義文が存在する。例えば、「赤い椅子」・「赤い色の椅子」・「色が赤い椅子」・「赤色をした椅 25.

(31) 26. 第3章基礎的考察. 子」といった文があるが、これらはいずれも「色属性に赤さを持っ椅子」といった同じ意味を表している0これらの文は文体が異なっているため、形態素解析（自然言語文を表す文字列から意味を持ちうる最小の文構成要素である形態素をそれぞれ抽出する処理）、構文解析（形態素列から句構造や依存構造を抽出する処理）を施してもそれらの結果は異なっている。しかし、これら一つ・つの文体ごとに意味解釈の処理を行っていたのでは合理的であるとはいえない。だからといって文体に制約を持たせてはユーザに制約をかけてしまい好ましくない。そのため、次のような表現が必要である。 ●同義文に対してその意味の同等性が容易に判定でき、意味解釈時に一定のアルゴリズムで処理が行えるような定式化された表現であること ●様々な文体に対してもー一・定の規則に基づき生成することができる表現であること. そこで、自然言語文の意味解釈には高木・伊東の意味表現周を用いることにした0この表現は意味ネットワークやフレームといった意味・知識表現と異なり、表層のシンタックスと整合性がとれており、また、表層の文の意味の同等性を示すことも可能である0そのため、表層のシンタックスに基づき一定のルールに従って意味表現を生成することができ、同義文は同一の表現で表すことができるので同一・の意味解釈処理を行うことができる。実際には自然言語文は形態素解析、構文解析が施された後にこの表現に変換される。. 意味表現図3・1に、（1）「赤い椅子」、（2）「赤色の椅子」、（3）「色が赤い椅子」といった同義文に対する意味表現の具体例を示す0ここで、rO」は名詞を表し、「◎」は動詞を表す0矢印は格助詞を表し、主格となる「は」、「が」は「＝＞」で表され、対象格となる「を」は「−＞」で表される0従属節は「（）」で囲み、主節と区別される0「●」は関係代名詞を表し、先行詞と「●」とを「＝」で結び対応関係を表す0「＊」は連体助詞「の」などの中にあって、それに接続する名詞句を受ける代名詞相当の意味を表す0口は英語の形容詞叙述用法で用いるbe動詞、日本語の「ある」を表す0例えば、「赤くはあるが・‥」の「ある」に相当する0図3・1の（3）のAの部分は、日本語では表層に表れないが、英語では関係代名詞whichとofに当たる表現であり、 Ofwhich，に相当する部分であり、この形で所有格関係節構造が表現されている。. whose.