隣接情報とグラフを用いた名称検索手法
2
0
0
全文
(2) 情報処理学会第 82 回全国大会. と表せるが, 本稿ではこのパスを. 使用手法 正解数 編集距離 提案手法. Γ := (s, dl , . . . , dk , f ) ∈ VdK+1 と表記する. ただしΓ[k] をΓの第 k 番目の要素とし て (Γ[k], Γ[k + 1]) ∈ Ed が成立する. 2)パスΓを構成する頂点の中で, 1) で定義した S に含ま れる頂点の集合を. A := {vi |vi ∈ S, vi ∈ Γ} 頂点集合 A の各要素のΓにおけるインデックスを.. 表3. 不正解数 特定不可 正解率 60 5 7 83.3% 68 0 4 94.4% 各手法におけるビル名検索実験結果. 提案手法では原名と全く共通する文字列がない通称で あっても, グラフ上で頂点が一致することから正解の略 名を選択可能であったからと考えられる. 一方, 提案手 法において特定不可となった名称は表 4 のように 2 通 りの候補が出た. 原名の候補が少なくとも 2 通り存在してしまう原因は 略名 候補. I := {x|Γ[x] ∈ A} と表記する. 3) グラフ Gb において以下の 2 条件を満たすパスΓ′ を 作成する. i)始点が s, 終点が f であり, 頂点数は K + 1 である. ii)パスΓ′ を構成する頂点のうち, 頂点集合 A の各要素 のインデックスは I と同一である. 即ち. Γ′ [x] = Γ[x] ∈ A, Γ′ [x] : パスΓ′ の第 x 要素, x ∈ I を満たす. 4)上記で得られたパスΓ′ とΓを照らし合わせることで名 称の組み合わせ. {(bi , dj )|bi = Γ′ [x], dj = Γ[x]} を得る. ただし 3) の 2 条件を満たすパスが複数存在す る場合は全てを候補をして出力する. 3 数値実験 3.1 使用データ 通信事業者の業務において, 複数の通信ビル間ネット ワーク (NW) を管理する通信パス構成管理 DB と, 光 ファイバケーブル NW 構成管理 DB があり, 各管理ビル 名に表記ゆれが存在するケースがある. 加えて, 光ファ イバケーブル DB はビル間の接続情報を保持しており, 伝送 DB の各ビルはエリアごとに閉路 (cycle) を形成し ている. これに注目し, 光ファイバケーブル DB を隣接 DB, 伝送 DB をパス DB として前述した条件を満たす パスを取り上げ, 72 個のビル名を実験に使用した. パ ス DB 内の各ビル名と同じビルを表す原名を, 提案手 法を用いて隣接 DB 内のビル名から選択すると同時に, 精度比較として編集距離 (Levenshtein distance)[5] に よるビル名同士の類似度から最も似ている名称を検索 する実験を行った. 3.2 結果 既存手法と比べて提案手法では正解率が向上した. 各 手法における正解数 (1 つの原名が正しく提示された略 名数), 不正解数 (誤った原名が提示された略名数), 特 定不可 (候補なし, または複数の略名数) を表 3 に載せ る. 精度向上の理由としては編集距離による検索では原 名と大部分が共通している略名が選択されたのに対し,. x y z w. a, d b, c c, b d, a. 表 4 提案手法において特定不可になった略名. , 表 4 の略名は全て 1 つの閉路の要素であり, この閉路を 構成する頂点の多くが S に属していないこと (始点を除 く 5 頂点のうち, 3 頂点目のみが S の要素) であったこと だといえる. 表 4 中の頂点が所属する閉路はΓ := 「 ( U」 「 , x」「 , y 」「 , V 」「 , z 」「 , w」「 , U 」) かつ, S = {U, V } であ る. これより「U 」を始点とし 4 頂点目が「V 」であり 頂点数 7 の閉路を作成するように提案手法を隣接 DB に 適用すると 「 ( U 」「 , a」「 , b」「 , V 」「 , c」「 , d」「 , U 」) という 閉路が出力される. ここで隣接 DB より得られるグラ フは無向グラフであることから, 上記と逆順の閉路もま た「U 」を始点とし 4 頂点目が「V 」であり頂点数 7 の 閉路という条件に合致する. よって表 4 のような結果 が得られる. 3.3 今後の課題 100% の正解率で紐づけができる手法を作り出すこ とが今後の課題である. i) 今回の実験結果のように原 名の候補が 2 通り出現してしまう場合の対処方法の構 築, ii) パス DB のパスに関する 3 つ目の条件を, “次数 が 1 である頂点の接続している辺を除き, 同じ辺を 2 回 以上通らない” へ拡張すること, を目指す. 参考文献 [1] 中川 裕志 他, 「出現頻度と連接頻度に基づく専門用語抽 出」, 自然言語処理, Vol. 10, No. 1, pp. 27–45, 2003. [2] 田淵裕章, 他, 「N-gram に基づく用例対訳検索手法」, 信 学技報, 人工知能と知識処理研究会, Vol. 108, No. 441, pp. 43–48, 2009. [3] 小川まな美, 他, 「隣接情報を用いた文字列検索」, 電気 情報通信学会総合大会講演論文集, 2019. [4] https://www.fujitsu.com/jp/products/software /middleware/businessmiddleware/interstage/products/infoquality/ [5] D. Gusfield. “ Algorithms on strings, trees and sequences: computer science and computational biology. ” Cambridge university press, 1997.. 1-340. Copyright 2020 Information Processing Society of Japan. All Rights Reserved..
(3)
関連したドキュメント
BCI は脳から得られる情報を利用して,思考によりコ
第一の方法は、不安の原因を特定した上で、それを制御しようとするもので
現在入手可能な情報から得られたソニーの経営者の判断にもとづいています。実
テキストマイニング は,大量の構 造化されていないテキスト情報を様々な観点から
「系統情報の公開」に関する留意事項
本手順書は複数拠点をアグレッシブモードの IPsec-VPN を用いて FortiGate を VPN
本文書の目的は、 Allbirds の製品におけるカーボンフットプリントの計算方法、前提条件、デー タソース、および今後の改善点の概要を提供し、より詳細な情報を共有することです。
Google マップ上で誰もがその情報を閲覧することが可能となる。Google マイマップは、Google マップの情報を基に作成されるため、Google