• 検索結果がありません。

英和辞典からの知識抽出

N/A
N/A
Protected

Academic year: 2021

シェア "英和辞典からの知識抽出"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第68回全国大会. 7C-4. 英 和辞典からの 知識抽出 下司 義寛. †. 和多 太樹. ††.   廣川 佐千男 ‡  . † 九州大学理学部  †† 九州大学大学院システム情報科学府  ‡ 九州大学情報基盤センター  は じめに. 1. 分析対象の テキストに 応じて カテゴリ辞書やシソー ラスを作成して おけば 、分析結果を分かりやすく提示 で きたり、検索の ヒントを与えること がで きる。従来、 この ような 辞書やシソーラスは 多大な 人手と 費用をか けて 作成されて いる。本発表で は 、単語の 出現頻度を 用いて 分析対象の テキストに 現れる単語に ついて 、単 語間の 概念的な 上位/下位の 関係を自動的に 抽出する 方法を提案する。英 和辞典の 文書を具体的な 対象と し て 様々な 事柄に ついて 知識の 抽出を試みる。 データと して の 英 和辞典. 2. 筆者らは 文書群に 現れる単語に ついて 、それらの 文 書頻度を用いて 単語の 上位下位関係を抽出し、グラフ 図 1: 市販検索システムで の 「 wine」 検索結果. 表示するシステムを開発して いる。本発表で は 、英 和 辞典「 英 辞郎」 に 載って いる英 単語に ついて の 説明の 文章に 現れる単語( 日本語、英 語の 両方) に ついて 関. Distribution of Description Length 100000. 連を分析した。英 辞郎に は 1,648,628 語の 英 単語が掲 載されて いる。市販の 検索システムだと 、 「 wine」 を検. 10000. 明文章の サイズは 平均 68.3 バイト (34 文字) で 、その サイズの 分布は 図 2 の ように な って いる。つまり、非 常に 短い文章で 各単語が説明されて いる。本発表で は 、. number of words. 索すると 図 2 の ような 文章が表示される。各単語の 説 1000. 100. これらの 短い文章群に 現れる単語の 関連をもと めるこ 10. と に より、知識抽出を試みる。長い文章からその 要約 を求めたり、論理的構造を求める研究は あるが、共通. 1. の 単語を含むと いう関連しかな い短い文章群から、意. 文書頻度を用いた関連語抽出. 連の 強い単語と して 、検索結果の 文書群に 現れて いて. 本発表で 使ったシステムは 英 和辞典をデータ文書群 と して [2] の アルゴリズムを実装したもの で ある。利 用者がクエリーを与えると 、まずシステムは 通常の 検 索を行な い、その クエリーに 関連の ある文書の リスト を求める。この 部分は 国立情報学研究所で 開発された. GETA を利用した。次の ステップで は 、クエリーに 関. ‡. 他の 文書群に 現れな い単語を文書頻度を用いて 抽出す る。次に 、得られた関連語の 上位下位関連を、検索結 果の 文書群に おける文書頻度を使って 求める。例えば 「 wine OR ワイン」 で すると 、1496 個の 文章が求ま る。関連単語の 個数を出現頻度順に 並べると 表 1 の よ うに な る。出現頻度で 上位 100 個まで 選ぶと 、出現回 数が 7 回以上の 104 個の 単語が得られる (図 3)。. Limit of Boolean Query for IR ††. 10000. 図 2: 各単語の 説明文章サイズ分布. は 他に な い。. †. 1000. 100. length of description. 味の ある事柄を発見する研究は 、筆者らの 知る範囲で. 3. 10. Yoshihiro SHIMOJI([email protected]) Taiki WADA([email protected]) Sachio HIROKAWA([email protected]). 4. Department of Physices, Kyushu University (†) Graduate School of Information Science and Electrical Engineering, Kyushu University (††) Computing and Communications Center, Kyushu University (‡). 3-19. 文書頻度を用いた上位下位関抽出 得られた関連語に ついて 、「 多数決原理」 に 基づ き. 上位下位関係を求める [2]。すな わち、求まった文書 群に おいて 、単語 A の 方が単語 B より出現数( 文書.

(2) 情報処理学会第68回全国大会. ワイン (1304),wine(583), 白ワイン (233), 醸 造 (150), シャトー (135),chateau(128), 名産地. (68), 名産 (68), 赤ワイン (64), 原産地 (60), 品質管理法 (57), ブドウ酒 (54), ワイン醸造 元 (54),origen(54), 原産 地呼称 (53),domina-. cion(52),dominacion de origen(52), chardonnay(48), ボルドー (48),blanc(47), シャルドネ (47), ブラン (46), ブルゴーニュ(40), ( 中略) sancerre(7),spatlese(7), サンセール (7), ベーレ ンアウスレーゼ (7), ポイヤック (7), ワイン醸造 品質管理協定 (7), エブロ河流域 (7),classico(7), ソアーヴェ(7), ボルドーワイン (7) 図 5: 白ワインより下位部分 (詳細) 図 3: 文書頻度上位 100 まで の 関連語 頻度 個数. ∼100 6. ∼90 6. ∼80 6. ∼70 6. ∼60 10. ∼50 17. ∼40 23. 頻度 個数. ∼30 25. ∼20 30. ∼10 71. 6 129. 5 175. 4 217. 3 317. 8 89 1 2525. 7 104. 頻度 個数. 9 79 2 753. 5. まと めと 今後の 課題. 160 万個以上の 短い文章群からな る英 和辞典を使っ て 、知識を構築するシステムを提案した。Web 文書や 専門的な 書籍の 索引情報からキーワードや知識を抽出 する研究 [1, 5] は あるが、本発表の ような 非常に 短い 文章群から単語の 関連抽出を試みるもの は な い。文書. 表 1: 頻度ごと の 関連語数. 頻度を利用して 単語間の 階層構造を求める [4, 6] と の 比較は 今後の 課題で ある。. 頻度) が大きくて 、さらに 、単語 B が出現する文書の 過半数に 単語 A も出現して いると き、A の 方が上位 と する。グラフと して 表示すると きに は 、単語 B の. 参考文献. [1] 藤井, 石川, World Wide Web を用いた事典知識. 上位に ある単語の 中で 、最小な もの だけに 線を引く。. 情報の 抽出と 組織化, 電子情報通信学会論文誌,. 図 4 は 図 3 の 関連語で 文書頻度が上位の 20 個に つい. Vol.J85-D-II, No.2, pp.300-307, 2002. て 上位下位の 関連の 表示したもの で ある。左側の 単語. [2] 廣川, 下司, 和多, 文書群からの 概念グラフの 構成,. の 方が文書頻度が高く上位に な って いる。文書頻度を. 情報処理学会第 169 回自然言語処理研究会,pp.79–. 下げると より多くの 単語に ついて も関連が得られる。. 84, 2005. 図 5 は こうして 得られた大きな グラフに おいて 「 白ワ イン」 の 下位の 一部を表示したもの で ある。白ワイン. [3] 中西 他, 特定分野を対象と した連想検索の ための. の 種類やそれぞれの 産地名な ど が現れて いること が分. 書籍の 索引部を用いたメタデータ空間生成方式, 電. かる。. 子情報通信学会論文誌, Vol.J88-D1, No.4, pp.840–. 851, 2005 [4] Y. Niwa et al., Topic Graph Generation for Query Navigation, NLPRS’97, pp.95–100, 1997 [5] 桜井, 佐藤, ワールドワイドウェブを利用した用 語説明の 自動生成, 情報処理学会論文誌, Vol.43,. No.5, pp1470–1480, 2002 [6] P. Srinivasan, Thesaurus Construction, in W.B. Frakes and R. Baeza-Yates eds, Information Retrieval: Data Structures and Algorithms, Prentice-Hall, 1992.. 図 4: ワイン関連語概念図. 3-20.

(3)

図 2: 各単語の 説明文章サイズ分布 連の 強い単語と して 、検索結果の 文書群に 現れて いて 他の 文書群に 現れな い単語を文書頻度を用いて 抽出す る。次に 、得られた関連語の 上位下位関連を、検索結 果の 文書群に おける文書頻度を使って 求める。例えば 「 wine OR ワイン」 で すると 、 1496 個の 文章が求ま る。関連単語の 個数を出現頻度順に 並べると 表 1 の よ うに な る。出現頻度で 上位 100 個まで 選ぶと 、出現回 数が 7 回以上の 104 個の 単語が

参照

関連したドキュメント

Hoekstra, Hyams and Becker (1997) はこの現象を Number 素性の未指定の結果と 捉えている。彼らの分析によると (12a) のように時制辞などの T

しかし , 特性関数 を使った証明には複素解析や Fourier 解析の知識が多少必要となってくるため , ここではより初等的な道 具のみで証明を実行できる Stein の方法

参加者は自分が HLAB で感じたことをアラムナイに ぶつけたり、アラムナイは自分の体験を参加者に語っ たりと、両者にとって自分の

今回、新たな制度ができることをきっかけに、ステークホルダー別に寄せられている声を分析

これら諸々の構造的制約というフィルターを通して析出された行為を分析対象とする点で︑構

 筆記試験は与えられた課題に対して、時間 内に回答 しなければなりません。時間内に答 え を出すことは働 くことと 同様です。 だから分からな い問題は後回しでもいいので

これまで、実態が把握できていなかった都内市街地における BVOC の放出実態を成分別 に推計し、 人為起源 VOC に対する BVOC

自分ではおかしいと思って も、「自分の体は汚れてい るのではないか」「ひどい ことを周りの人にしたので