• 検索結果がありません。

未知の検索対象領域における類義語抽出法

N/A
N/A
Protected

Academic year: 2021

シェア "未知の検索対象領域における類義語抽出法"

Copied!
2
0
0

読み込み中.... (全文を見る)

全文

(1)情報処理学会第68回全国大会. 7C-3. 未知の検索対象領域における類義語抽出法 石塚 亜細亜大学†. 隆男†. 田中. 一宏‡. 医療情報システム開発センター‡. 1.はじめに 情報検索とは、情報要求を検索条件として記述し、検 索対象の集合から適合する要素を抽出するプロセスであ るが、要求が常に well-defined であるとは限らない。 私たちは、未知の、あるいは知識が乏しい対象にたいし てとりあえず検索してみることから始めることも多い。 特に自然言語により記述されたテキストデータを対象に する場合、文中で使用されている用語が統制されていな いため、多くの類義語表現が存在し、キーワード検索で は漏れを生ずる可能性がある。こうした問題にたいし、 通常はキーワードを選択し直すか、AND/OR による条件の 記述を試行錯誤的に行っている。情報要求がある一般用 語を含むテキストを検索する場合、その用語のシノニム を網羅的に列挙し、OR 検索を行うのは難しい。 本来は、シソーラスが自動的に機能する検索システム が望ましいが、多義語の場合には意味により上位概念や 類義語も変わるため完全ではない。また、情報検索のア ルゴリズムには、TF・IDF 法のような重みづけや適合性 フィードバックや潜在的意味インデキシングなど多くの 方法が提案されているが、情報要求の具体化等の上流工 程の方法論は十分ではない。 こうした問題に対処するために、シソーラスの網羅性 を高めるよりは、逆説的ではあるが、情報要求からみて 明らかに検索対象外のテキスト集合と比較することによ り本来の検索対象に関するシノニムを抽出することが考 えられる。 今回、未知あるいは事前知識の乏しい対象領域の検索 に際して、比較対照群を設定し、構成する単語の出現比 率の差を検定することにより類義語を抽出する方法を考 案したので報告する。. 2.問題意識と検索パラダイム 本研究の出発点は、医薬品を患者に処方するに際し、 問題がないかどうかを判断するために、医薬品添付文書 の情報が患者の病態や属性に合致しているかどうかを効 率的にチェックする方法を検討することであった。 医薬品添付文書は、処方する際の注意を喚起するよう 一応項目単位には書かれ、構造化された文書である。た とえば、妊婦や高齢者に対する処方の注意は、独立した 項目として書かれているが、それらの項目以外にも患者 属性に該当するものが数多く存在し、しかも、用語や各 文の記述表現は統一化されておらず、単純なマッチング 検索では検索の精度が低くなる。こうした問題点を解決 するため、添付文書を電子化した医薬品情報データベー スから患者属性に相当する用語や概念を網羅的に抽出す るにはどうしたらよいかを検討することになった。 医薬品情報DBを直接検索する代わりに患者属性に関 する単語を含むデータセットを与えることが考えられ、 それをどのように構成するかが今回のテーマである。 Synonym Extraction from Unknown Text † Takao Ishizuka , Asia University ‡ Kazuhiro Tanaka, MEDIS-DC. 3-17. 従来の情報検索は、キーワード・マッチング検索であり、 そのパラダイムは大規模・高速・高精度追求型「情報」 検索である。固定的なデータベースの発想に基づき、デ ータベースに登録されたカテゴリー名の検索や範囲指定 の検索が中心である。したがって、データベース定義や データ更新さえきちんとなされていれば検索できるのは 当たり前であり、入れたものを絞って出しているにつぎ ない。検索者がひとつひとつキーワードを与える必要が あり、未知の分野の場合、何をキーワードにすべきかわ からない。 これに対して、新しい検索パラダイムとして発見的 「知識」検索が求められている。そこでは、個々のキー ワードを知らなくてもよく、精度は多少悪くても知識の 発見を重視する。専門的知識としてキーワード・セットを 与えればよい。キーワード・セットを与える代わりに、 relevant な知識である専門的知識を記述したテキストデ ータを与えればよい。本研究が目指しているのは、未知 の領域にも対応できるような方法論の確立である。. 3.方法 以下の手順により類義語の抽出を行う。 ①対象コーパスの確定 情報要求を記述する一般用語の類義語が多く含まれて いるテキスト集合を対象コーパスとして確定する。本研 究では、医薬品添付文書から「子ども」に関する記述箇 所を網羅的に抽出するために、時事通信社版『家庭の医 学 デジタル版Ⅱ』の中から「子どもの病気」の項の説 明文を対象コーパスとした。 ②比較コーパスの確定 当該一般用語並びにその類義語は含まれないであろう テキスト集合を比較コーパスとして確定する。本研究で は、同じく『家庭の医学』における「女性の病気」と 「高齢者の病気」を比較コーパスとした。 ③単語の抽出と集計 これらのコーパスに含まれている名詞(句)を形態素 解析プログラムにより抽出し、単語×コーパスマトリク スの形に頻度を集計する。 ④各単語の構成比率の計算 全単語について各コーパス内の出現頻度の構成比率を 求める。なお、母比率の検定により対象コーパスにおけ る出現割合が一定値以下の単語は削除する。比較コーパ スのみに出現する単語も削除する。 こうして、 n1:対象コーパス内の単語総数 n2:比較コーパス内の単語総数 を確定する。 単語 wordiについて、 f1:対象コーパス内の頻度 f2:比較コーパス内の頻度 p1:対象コーパス内の構成割合=f1/n1 p2:比較コーパス内の構成割合=f2/n2 とする。図1にコーパス間の集合関係を示す。.

(2) 情報処理学会第68回全国大会. 図1. コーパス間の集合関係. 表1 5%有意となった「子どもの病気」コーパスの 単語( は、「子ども以外の病気」コーパス①の単語 頻度が0件でない単語を指し、 のない単語は子ども の病気のカテゴリーにしか出現しなかった単語であ る。). 対象コーパスの単語の集合 対象コーパスに特. 比較コーパス. 有な単語. 単語の集合. 対象コーパスにしか出現しな かったが、頻度が小さく、偶 然とみなせる単語. ⑤全単語について比率の差の検定(たとえば、池田 (1989))を行う。 帰無仮説 H。:p1=p2 のもとで、. Z=. p1 − p 2 1 1 π (1 − π )( + ) n1 n2. ∼N(0,1). アレルゲン ウイルス ウイルス感染 かゆみ くび けいれん ステロイドホルモン たんぱく尿 チアノーゼ てんかん のど は しか はれる ビリルビン まひ ワクチン 意識 遺伝子 遺伝子異常 解熱薬 感染 顔いろ 気管支 吸入 緊張 空気 血液検査 血尿 呼吸 呼吸困難 後遺症 行動 酵素 細菌感染 子ども 死亡率 自然 手足 重篤 小児 食物 心不全症状 人工呼吸器 水分 髄膜炎 成長 接種 接種上 染色体 潜伏期 全身 胎児 大人 知的障害 知能 注意点 鉄分 点滴 内服 乳児 乳児期 乳幼児 熱性けいれん 脳炎 脳性まひ 肺高 血圧 肺動脈 発作 発疹 発達 発熱 発病 不登校 風疹 母親 麻疹 予防 流行 両親 喘鳴 嘔吐. 5.考察及び今後の課題. ただし、. f +f n p +n p π= 1 2= 1 1 2 2 n1 + n2 n1 + n2. 検定の結果、対立仮説H1:p1>p2が有意となった単 語を抽出し、その中から類義語を選択する。. 4.結果 『家庭の医学 デジタル版Ⅱ』からのコーパスをもと に「子ども」に関する類義語を上述の方法により抽出し た結果を以下に示す。 n1=6563「子どもの病気」コーパスの総単語数 n2:「子ども以外の病気」コーパスの総単語数 ①女性+高齢者の病気をプール:n2=2429 ②①+部位別病気をプール: n2=43906 「子どもの病気」と「子ども以外の病気」の2つのコ ーパスで、構成比率の差が危険率5%で有意となった単 語は、表1の 80 個であった。 表1の中から、「子ども」の類義語として、 小児、乳児、乳児期、乳幼児 を抽出することができた。 なお、「子どもの病気」と②のコーパスでは、構成比 率の差が危険率5%で有意となった単語は、498 個であ った。以上のことから、比率の差の検定結果が有意とな るかどうかは、比較コーパスの単語数に大きく依存して いることがわかる。たとえば、 p1=0.002,p2=0.0006,n2=3200 でZ=1.65 p1=0.002,p2=0.001, n2=9300 でZ=1.65 となる。. 3-18. 1)比較コーパスの大きさについて 比較コーパスの単語数を増やせば増やすほど対象コー パスの単語は有意になりやすくなる。言い換えれば、比 較コーパスの単語数を増加させると単語の種類数は増加 するが、各単語の頻度はそれほど増加しない。 Zipf の法則により順位×頻度=一定の関係があり、比 較カテゴリーを大きくすることは頻度の小さい単語が増 加する。 2)比較コーパスの選択について 今回の例は、「子ども」であったので対比するものと して「女性の病気」や「高齢者の病気」を選択した。比 較コーパスの役割は、抽出したい類義語を際立たせ、同 時にその他の単語は対象コーパス並みに存在することで ある。したがって、全く異分野から比較コーパスを構成 するのではなく、類義語の反対語の関係にある用語を含 むコーパスについて対象コーパスを含む領域から構成す るのが望ましいと考えられる。また、検定等計量Zの二 乗値は単語間の“距離”を表わしており、全単語につい て合計すれば、コーパス集合間の距離になろう。これを どう使うかも今後検討したい。 3)他の手法との比較 今回は、他の手法と十分な比較や評価を行えなかった ので今後の課題としたい。 たとえば、TF・IDF 法は、その文章において特徴ある 単語は、頻度が大きく、同時に出現文書数が小さいとい う原理に基づいている。本研究の方法は、対象・比較の 2つのカテゴリーのコーパスを収集すればよく、IDF 値 は意味をもたない。. 参考文献 池田央編(1989)『統計ガイドブック』新曜社.

(3)

参照

関連したドキュメント

わからない その他 がん検診を受けても見落としがあると思っているから がん検診そのものを知らないから

通常は、中型免許(中型免許( 8t 限定)を除く)、大型免許及び第 二種免許の適性はないとの見解を有しているので、これに該当す

ドリル教材 教材数:6 問題数:90 ひきざんのけいさん・けいさんれんしゅう ひきざんをつかうもんだいなどの問題を収録..

けいさん たす ひく かける わる せいすう しょうすう ぶんすう ながさ めんせき たいせき

   がんを体験した人が、京都で共に息し、意 気を持ち、粋(庶民の生活から生まれた美

発行日:2022 年3月 22 日 発行:NPO法人

とである。内乱が落ち着き,ひとつの国としての統合がすすんだアメリカ社会

【細見委員長】 はい。. 【大塚委員】