• 検索結果がありません。

N-gram全文検索と概念検索を融合した文書検索方式の検討

N/A
N/A
Protected

Academic year: 2021

シェア "N-gram全文検索と概念検索を融合した文書検索方式の検討"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第67回全国大会. 2G-2. N-gram 全文検索と概念検索を融合した文書検索方式の検討 亀代 泰三. 永井. 明人. 谷垣. 宏一. 平野. 敬. 岡田. 康裕. 三菱電機(株)情報技術総合研究所 1.はじめに 文書検索の主な方式には、文書全体から検索キー ワードの存在を検証する全文検索と、文書内容とキー ワードとの類似性を検証する概念検索がある。全文検 索は検索キーワードを含む文書を確実に取得できる 反面、類義語・関連語を含む文書を取得するには予め シソーラスを定義する必要があり、検索もれを防止す るにはこれらを充実させる必要がある。一方概念検索 は検索キーワードに内容が類似する文書を出力する ため、類義語・関連語を含む文書も取得できる反面、 キーワードを含む文書であっても関連性が低いと検 索もれとなる場合がある。本稿では、この全文検索と 概念検索を融合することで互いの欠点を補完し、検索 精度向上を図る方式について検討した。. ここで、t は検索キーワード、tf は文書 Di 内の出現 頻度、df は t が出現する文書数、M は全文書数、γ は 定数、k1 は正規化係数である。. 2.2 概念検索 一般に、検索クエリに類似する文書を検索する方式 としては、ベクトル空間モデルを利用した関連文書検 索が知られている。この方式は、文書中の単語出現頻 度に基づいた文書ベクトルと、検索クエリベクトルと の類似性が高い文書を検索するものである。しかし、 検索クエリの単語が含まれない文書は類似性が低く なるため、検索目的に合致した類似内容であっても、 検索クエリの単語と表記が異なる文書を検索できな いという課題がある。 共起頻度行列. 2.検索方式詳細 本稿では、N-gram による全文検索方式とベクトル 空間モデルを用いた概念検索の融合方式を検討した。 以下に個々の検索方式とその融合方式を示す。. 2.1. N-gram 全文検索. 音声認識の 音響モデル に… ワープロで 文書の編集 を支援… 文書を編集 して保存す る画面…. 形態素解析 頻度計算. 学習. … (単語 j ) … 文書 編集 ワープロ : 文書編集 音声認識 (単語 i ). Uij (単語 i と単語 j とが 近くにある頻度の行 列). N-gram 全文検索はキーワード抽出、キーワード検索、 「ワープロ」 圧縮 スコア計算の3つの処理で構成する。 「文書編集」 (1) キーワード抽出:検索クエリを形態素解析し、名 …(特徴 k )… 特徴次元 概念ベクトル 文書 + 0.18 … 詞と未知語を抽出する。名詞は全て検索キーワード 抽出(SVD) の内積で類 編集 + 0.15 … 似度を計算 とするが、未知語は字種により検索キーワードとし ワープロ + 0.22 … ての利用有無を決定する。更に各キーワードに対し 概念 文書編集 + 0.24 … ベクトル てシソーラスを用いて類義語展開する。 「音声認識」 音声認識 - 0.33 … (単語 i ) (2) キーワード検索: 抽出したキーワードおよび類義 概念ベクトル空間 語を用いて N-gram インデックスを検索する。 概念索引 (3) スコア計算: 個々のキーワードによる検索結果か 図 1 概念検索方式 ら検索クエリに対するスコアを計算する。スコア は、性質の異なる2種類のスコア i)キーワードの これに対し我々の概念検索では図 1 に示すような特 TF-IDF 重みより算出したスコア(一般語の影響の 異値分解(SVD:Singular Value Decomposition)によ 抑制)ii)検索クエリ内のヒットしたキーワード数 って共起頻度行列から特徴的な次元を自動抽出して に比例したスコア、により求める。文書 Di に対す 概念索引を生成する[1][2]。概念索引には単語間の高 る一致度 SZDi の算出は、式(1)を用いる。 次の相関関係が含まれており、「ワープロ」と「文書 編集」のような、テキスト中に潜在する重要な関連性 M SZDi = k1 log(1 + tf (t , Di )) ⋅ (log +γ) …(1) が抽出可能となる。文書ベクトルは文中に現れる単語 df (t ) t に対応する概念ベクトルの和を正規化して作成する。 検索時には、検索クエリを形態素解析し、概念索引を A Study on Document Retrieval Method based on Full Text 用いて検索クエリベクトルを生成した後、文書ベクト Search and Concept Search. ルとの一致度を計算する。検索クエリベクトル q と文 Taizo Kameshiro, Akito Nagai, Koichi Tanigaki, 書 Di の文書ベクトル di との一致度 SGDi は、式(2)で Takashi Hirano, Yasuhiro Okada 算出する。k2 は正規化係数である。 Information Technology R&D Center,Mitsubishi Electric Co. SGDi = k2 (q・di)/(|q|・|di|) …(2) 5-1-1 Ofuna, Kamakura, Kanagawa,247-8501, Japan. ∑. 2−3.

(2) 融合方式. N-gram 全文検索と概念検索を用いた融合方式の ブロック図を図 2 に示す。提案方式では検索クエリに 対して全文検索、概念検索を独立に実行する。そこで 得た各検索結果(文書の一致度)から統合一致度を算 出し、一致度の高い順に検索結果を出力する。文書 Di の統合一致度 STDi は前記 SGDi、SZDi を用いて式(3) で算出する。. STDi = α* SGDi (0≦α≦1). この再現率を全文・概念検索の OR 出力で取得するに は上位 1300 文書以上を必要とする。. 100 90 80. 再現率(%). 2.3. 70. + (1-α)* SZDi …(3). 60 50. 検索クエリ. 概念検索. 概念索引. 40. 全文検索 検索クエリ ベクトル生成. キーワード抽出・ 類義語展開. 索引照合. インデックス照合. スコア計算. スコア計算. 文書索引. 50. シソーラス. 100. 200 300 出力文書数. 全文検索 提案方式(α=0.2) 提案方式(α=0.8). N-gram インデックス. 400. 500. 概念検索 提案方式(α=0.5). 図 3 各方式の再現率 統合一致度計算. 90 80. 検索結果. 70. 図 2 提案方式ブロック図 適合率(%). 60. 3.評価 本方式の有効性を検証するために、特許明細書約 1 万文書を用いて検索を行い、再現率・適合率を算出し た。検索に用いたキーワードは「自動販売機」「浄水 器」の 2 種類である。正解文書は上記キーワードに関 連する文書を人手により抽出した。例えば「自動販売 機」では「自動取引装置」「自動交付機」など、「浄 水器」では「水処理器」「水質改善方法」などに関す る文書も正解とする。また統合一致度を評価するため に、提案方式についてαと検索結果出力文書数 N を変 化(50∼500)させて再現率・適合率を算出した。なお、 本実験では全文検索でシソーラスを用いずに検索処 理を実行した。上位 N 位における再現率・適合率の算 出方法を以下に示す。 再現率=(上位 N 位までに存在する正解数)*100 / (全 文書中の正解文書数) 適合率=(上位 N 位までに存在する正解数)*100 / N. 図 3 に各方式の再現率を、図 4 に各方式の適合率を示 す。比較のために、全文検索および概念検索の単独実 行による結果も併せて示す。. 50 40 30 20 10 0 50. 100. 200. 300. 出力文書数. 400. 500. 図4 各方式の適合率(グラフの凡例は図 3 と同一) 検索結果を個別に解析すると、概念検索では「自動 販売機」の再現率が低く、全文検索は「浄水器」の類 義語の再現率が低いが、融合方式ではこれらをうまく 補完して再現率を向上している。. 4.まとめと今後の課題 性質の異なる2つの検索方式である全文検索と概 念検索を融合することで検索精度が向上することを 確認した。今後は、より詳細な評価を行い更なる検索 精度の向上を図る。. 参考文献 [1]高山 他, “単語の連想関係に基づく情報検索システムI nfoMAP”, 情報処理学会 情報学基礎研究会(SIGFI), 図 3 より、提案方式は上位 200 文書以上で再現率が全 FI53-1 (1999). 文検索、概念検索単独に比較して向上している。また [2]永井 他, “単語共起行列の次元圧縮に基づく概念検索方 α=0.5 での上位 400 文書での再現率は 94.8%であり、 式の評価”,第 67 回情処全大, 2G-3,2005. 2−4.

(3)

参照

関連したドキュメント

計算で求めた理論値と比較検討した。その結果をFig・3‑12に示す。図中の実線は

A number of qualitative studies have revealed that Japanese railroad enthusiasts have low self-esteem, are emotionally distant from others, and possess

 膵の神経染色標本を検索すると,既に弱拡大で小葉

When we consider using WEKO as a data repository, it is not easy for the users to search the data which they wish because metadata are not well standardized in many academic fields..

2013年,会議録を除く」にて検索したところ論文数18 Fig. Intra-operative findings in the case 1 : Arrow- head shows the partial laceration of the anterior rec- tal wall.

国内の検査検体を用いた RT-PCR 法との比較に基づく試験成績(n=124 例)は、陰性一致率 100%(100/100 例) 、陽性一致率 66.7%(16/24 例).. 2

検索対象は、 「論文名」 「著者名」 「著者所属」 「刊行物名」 「ISSN」 「巻」 「号」 「ページ」

Matsui 2006, Text D)が Ch/U 7214