専門用語の関係に着目した医療文献検索手法に関す る考察
9
0
0
全文
(2) 専門用語の関係に着目した医療文献検索手法に関する考察 園田 亮†. 伊東 栄典‡. †九州大学大学院システム情報科学府情報理学専攻 〒819-0395 福岡市西区元岡 744 ‡九州大学情報基盤研究開発センター 〒812-8581 福岡県福岡市東区箱崎 6-10-1 E-mail: †[email protected],. ‡[email protected]. アブストラクト 近年,医療分野において研究成果を記述した学術論文が蓄積されている.従来これらのデータ ベースは,その分野の専門家が利用することが多く,登録された情報を研究や実務等に用いてきた.一方では, 患 者自身が検索を行い, 医療文献を見つけたいという要求が生まれた.本論文は情報検索技術を用いて患者の医療文献 活用を補助することを目的とする. 具体的には, 患者が持っている情報から知りたい情報を含んだ医療文献を導き 出す方法と候補文献の順位づけの方法について提案を行った.. A study of information retrieval method to search for medical references, with attention for the relation of technical terms. Ryo SONODA† and. Eisuke ITO‡. †Dept. of Informatics, Kyushu University 744 Motooka, Nishi-ku, Fukuoka, 819-0395 Japan ‡RIIT, Kyushu University 6-10-1 Hakozaki, Higashi-ku, Fukuoka, 812-8581 Japan E-mail: †[email protected], Abstract. ‡[email protected]. Recently, a lot medical papers are published and they have been accumulated. The more medical information. become available, the more patients are interesting in academic papers. However, academic papers are difficult for non expert because those papers have a lot of medical terms. In this paper, we propose a new method of information retrieve to utilize medical references. We focus on similarity of medical terms to navigate medical references from poor medical knowledge. In a. simple examination, we found that our method got good results..
(3) 1. 序 論. 1.. 患者が持っている情報から知りたい情報を含ん だ医療文献を導き出す方法. 1.1. 研 究 背 景 近年,医療分野において研究成果を記述した学術論. 2.. 候補論文の順位づけの方法. 文 が 蓄 積 さ れ て い る .米 国 国 立 医 学 図 書 館 で は ,医 学・. 2. 関 連 研 究. 生 命 科 学 分 野 に 特 化 し た 文 献 デ ー タ ベ ー ス. 2.1. 医 療 文 献 情 報 サービス. MEDLINE[7]を 1964 年 か ら 作 成 し て い る . MEDLINE. 2.1.1. 従 来 の 医 療 文 献 検 索 シ ス テ ム. に は 毎 年 新 た な 文 献 情 報 が 蓄 積 さ れ て お り ,2006 年 に. 医療文献検索システムの最も有名なものとして 米. は 約 62 万 件 が 追 加 さ れ て い る . 現 在 MEDLINE に は. 国の国立生物工学情報センターが公開している. 1,600 万 件 を 超 え る 巨 大 な 文 献 情 報 が 保 持 さ れ て い る .. PubMed が あ げ ら れ る . PubMed を 使 用 す る こ と で 世 界. 1996 年 に は Pubmed と 呼 ば れ る 無 料 で MEDLINE の 検. 最 大 の 医 療 文 献 デ ー タ ベ ー ス MEDLINE の 全 文 献 を 検. 索を行うオンラインサービスが開始された.. 索することができる. 利用者は検索語のほかに著者名,. ま た , MEDLINE に は. MeSH (MEDLINE Subject. 学会名, 論文形式, 年齢などを制限を加えて検索を行. Headings)[9] と 呼 ば れ る 論 文 を 特 徴 づ け る た め の カ テ. う こ と が で き る . 検 索 結 果 は 論 文 に 付 与 さ れ て い る ID. ゴ リ 分 類 語 彙 が あ る . MeSH は 木 構 造 を し て お り 効 果. や著者名, 登録日時などで並び替えることができる.. 的な分類が可能である. ほかの分野でも, 特定の分野に特化したデータベー スの整備が進んでいる.. 医療関係者限定の会員制のサービスとしてはメデ ィ カ ル オ ン ラ イ ン が あ げ ら れ る .医 中 誌 Web で は 日 本 国内で発行された医学, 歯学, 薬学, 看護学などの関. 一方では, 患者自身が検索を行い, 医療文献を見つ. 連分野の定期刊行物の論文情報を検索することができ. けたいという要求が生まれた. 一般的に患者は, 医療. る. 医中誌は法人だけでなく, 個人でも利用すること. 知識が乏しく, 治療を医師に一任したり, 調べるとし. が で き る . JDreamPetit で は MEDLINE の ほ か 日 本 国 内. ても図書館に通い本を読んで病気に関する知識を得る. で発行された文献に対しても検索を行うことができ. 程度であった. しかし, 医師が治療を行う前に患者に. る.. 十分に治療法についての説明を行うインフォームドコ. これらのサービスは専門家を対象としているため,. ンセプトや実際に治療を行う前にほかの医師に意見を. 現状では患者が使用するには支障がある. 前述のとお. 求めるセカンドオピニオンといった考え方の普及によ. り 患者が知りうるような単語や知識では曖昧な検索. り, 患者が納得した治療を受ける権利を求めるように. しかできず, 検索結果が多くなり絞り込み検索も困難. な っ た .さ ら に 医 療 技 術 は 日 々 進 歩 し て お り , 数 年 前. であり, 候補論文の表示順に検索語に対する文献の重. までは治療法が確立していなかった病気の治療法が開. 要度が考慮されていない.. 発されたり, 従来からの治療法ではなく最新の治療法 が確立されることもある. これに加えインターネット の爆発的普及による情報収集の平易化や前述のような データベースの充実により患者が自身の健康問題の 解 決のために医療文献を検索したいという要求がでてき た. 個人向けに解放されている医療文献検索サイトも 存在している. その例として個人向け医療文献検索サ イ ト は 医 中 誌 [10]や JDreamPetit[11]が あ る. 1.2. 研 究 目 的 本論文の目的は情報検索技術を用いて患者の医療 文 献 活 用 を 補 助 す る こ と で あ る [17]. 現 存 の 医 療 文 献 検索システムでは患者が利用する場合に問題がある. 1点目は, 患者が知りうるような単語や知識では曖昧 な検索しかできず, 検索結果が多くなり絞り込み検索 も 困 難 な 点 で あ る .2 点 目 は 候 補 論 文 の 表 示 順 が 内 部 IDの順であったり, 投稿日時の順などであり検索語 に対する文献の重要度を考慮していない点である . 本論文では, 以下の2点を解決することを主な目的 とする.. 2. 2.1.2. 既 存 の 医 療 情 報 提 供 サ ー ビ ス 患者向けの医療情報提供サービスの例として, がん ナ ビ [12] が あ る . こ の サ イ ト に は , が ん に つ い て の 治 療法などの情報や生活に対するアドバイスが掲載され ている. しかしながら, あくまでも一般的ながんに対 する情報提供を行うものであるため, 医療についての 専門的な情報は提供されていない. 患者が自身の健康に関する医療の専門情報を調べ る場合には, 医療文献検索を行う必要があるものの, 従来からある医療文献システムでは専門家ではない患 者が的確な文献を効率的に探し出すことは困難である . このように既存の医療文献検索サービスや, 既存の医 療情報提供サービスでは, 患者が自身の健康に関する 専門的な情報を効率的に調べることは難しい . 医療文献集合は, 対象の母集団が大きいため医療文 献検索には情報検索技術を適用することが望ましい. 次節では, 情報検索技術を医療文献に適用した先行研 究について述べる.. 2.2. 医 療 文 献 集 合 からの関 連 語 発 見 手 法 ここでは医療文献からの関連語発見手法について.
(4) 述べる. 関連項目を発見できれば検索語に近い用語を. 情 報 の 項 目 と し て は , 症 状 や 違 和 感 の あ る 箇 所 (臓 器. 含む文献の提示が可能になり, 専門知識を持たない人. 名 や 器 官 名 )が あ る . 病 院 か ら の 通 知 で 分 か る 情 報 に. の文献検索に応用することができる.. は病名や検査結果があげられる. 投与された薬から分. 2.2.1. Swanson の 手 法. か る も の に は 薬 の 名 前 や 薬 の 成 分 (化 学 物 質 名 )が あ る .. Swanson[1][2]ら は ABC モ デ ル (図 1)の 提 案 ,ABC モ デ ル を 用 い た 新 た な 項 目 間 の 関 係 の 発 見 方 法 の 提 案( 2 種 類 ) を 行 い Arrowsmith と 名 付 け た 計 算 機 を 用 い た 文献からの知識発見システムを開発している.. これらの知識からでは,. 自身の手で膨大な医療文献. から必要な情報を得るのは困難である . 本研究ではこれらの患者が保持している僅かな情 報を基に患者の欲しい情報を導き出す手法を検討す る.. 3.2. 患 者 側 が必 要 とする情 報 次に健康問題の解決につながる文献とはどの様な 内容が記載されている文献であるかについて考える. 患者が欲しい情報とは専門家が求める情報とは異なる. 専門家は病気の原因や相互関係を調査し, 教育, 研究, 実験に役立て医療技術の発展を目指す. これに対し患 者側としては今現在存在する医療技術で最大の効果を あげることを目的とする. 具体的には最新あるいは現 在受けている治療とは異なる病気の治療法、注意すべ き合併症, 関係のある病気や臓器名,. 渡された薬以. 図 1 ABC モ デ ル. 外 の 薬 (主 に , 未 だ 広 範 囲 に 認 知 さ れ て い な い 新 薬 )、ま. こ の シ ス テ ム は 医 療 文 献 デ ー タ ベ ー ス MEDLINE を. たはその薬の情報, あるいは副作用情報などが患者が. 対 象 と し て お り ,利 用 者 が 単 語 A と 単 語 C を 入 力 す る. 知りたい情報であるといえる.. と,その二つの単語と互いに関係のあると思われる単. 3.3. 提 案 手 法. 語 B を 共 起 関 係 に 基 づ い て 算 出 し , A と B, B と C が. 患者が保持する情報から, 患者が必要とする情報へ. 共起した論文タイトルを表示する.その結果である B. 導く方法を提案する. まず医療文献集合から通常患者. を 介 し て ,未 発 見 で あ る A-C の 関 係 を 導 き 出 す こ と を. が知ることが困難な項目相互間の関係を導出する. 次. 支援する.. に医療文献を見つけ出す過程でこれらの関係情報を付. 2.2.2. Surinivasan の 手 法. 与する. 最終的にはそれらの情報が載った医療文献の. Surinivasan[3]ら は ABC モ デ ル の 考 え 方 を 基 に し て , 物質と病名の新たな関係を導き出すためのアルゴリズ ム (open discovery algorithm)を 提 唱 し て い る .. 発見および重要度の程度を数値で表す .. 3.3.1. 患 者 保 有 情 報 か ら 医 療 文 献 を 導 き 出 す 方 法 患者が持っている少ない情報から徐々に追加情報. 物 質 名 (A)と MeSH 用 語 (B)の 関 連 性 を 共 起 関 係 に よ. を引き出し, 最終的に患者が欲する情報にたどり着く. り重みをつける.次に,同様の方式を用いて,重みの. ための導き方について述べる. 医療文献集合から通常. 大 き い MeSH 用 語 (B)か ら 病 名 (C)を 導 出 す る .. 患者が知ることが困難な項目相互間の関係を情報検索. Open discovery algorithm を 用 い て 今 ま で 知 ら れ て い. 技術をもちいて導出する. 本研究では具体的な項目相. な い 新 た な 関 係 を 導 出 で き た た め ,Surinivasan ら は 提. 互間の関係計算手法としてコサイン類似度と上位下位. 案アルゴリズムが未知の関係発見についても有効であ. 関 係 (intersection rate)を 用 い る こ と と し た .単 語 間 の コ. ろうと述べている.. サイン類似度を算出することにより似ている単語を結. 3. 患 者 側 へ の 医 療 文 献 活 用 方 法. びつけることができる. 検索結果に検索語と似ている. 本章では患者の医療文献活用方法について述べる. 3.1. 患 者 側 が保 持 している情 報. 単語群の情報を付加することで, 検索語のみではとら え切れなかった文献情報を得ることができる. また,. まず, 患者側が保持している情報にはどのようなも. 単語間の上位下位関係を算出することで単語群を階層. のかを考える. 医療文献に含まれる情報は, 専門性が. 化することができる. 検索語よりも下位に相当する単. 非常に高い. そのため, 医療関係者でないものは知る. 語群の情報を付加することで, より詳細で情報豊富な. 機会が少ない. 通常患者は断片的で僅かな情報しか持. 文献情報を得ることができる.. っていない. 患者が知りうる情報は, 自覚症状から分. これら関係を用いて患者が通常知ることの無いあ. かるもの, 病院からの通知で分かるもの, 投与された. るいは無関係であると思い込んでいた単語と患者が入. 薬から分かるものに大別できる. 自覚症状から分かる. 力した検索語を結びつけ, 拡張検索を可能とする.. 3.
(5) 結果として医療文献を見つけ出す過程でこれらの. つ 掲 載 年 が 2003 年 ~ 2007 年 と な っ て い る も の を 実 験. 項目間関係情報を付与することになる. このようにし. の第一段階として文献検索により抽出した . 本格的な. て, 検索語を追加していくうちに必要とする文献を絞. 調 査 の た め に「 高 血 圧 症 」(Hypertension)が 記 載 さ れ て. り込むことによって 患者の必要とする情報を既知の. い る 最 近 25 年 の 文 献 (1984 年 ~ 2008 年 )を 抽 出 し た .. 情報から必要とする情報が載った医療文献の発見する. なお, ここで記載されているとはタイトル , アブスト. ことができる.. ラ ク ト , MeSH の い ず れ か に 記 載 さ れ て い る こ と を 指 す.. 3.3.2. 候 補 論 文 の 順 位 づ け の 方 法 次に, 患者にとってその文献がどれだけの価値があ. 取 得 を 試 み た 肺 が ん に 関 す る PubMed ID の リ ス ト の 数 は 23,467 件 , 高 血 圧 症 に 関 す る も の は 173,257 件 で. るかについて重要度を定義する必要がある. 本節では. あ っ た . そ れ ぞ れ の MEDLINE 全 体 に 占 め る 割 合 は. 重要度の算出方法の方針について大まかに述べる. な. 0.15%, 1%で あ っ た . 第 一 段 階 の 肺 が ん を 分 析 対 象 と. お, 6章にて具体的な定式化を行う.. したのは, 我々の身近な健康問題であり喫煙との関係. 検索結果の文献に対して情報検索技術を用いた重. など興味深くわかりやすい分析結果が得られやすいと. み 付 け を 行 う こ と で 重 要 度 を 定 義 す る .ま ず , 入 力 さ. 考 え た か ら で あ る . ま た ,本 格 的 な 調 査 の た め に 高 血. れ た 検 索 語 (ク エ リ )の 各 文 献 に 対 す る 重 要 度 を 算 出 す. 圧症を分析の対象としたのは, 高血圧症のほうが情報. る .全 て の 検 索 語 に 対 し て こ の 操 作 を 行 い , こ れ ら の. 検索技術を用いて処理を行うのに肺がんに比べて適し. 和 を と る こ と に よ り 検 索 語 に 対 す る 文 献 dk の 重 要 度. た規模であったためで, 高血圧症のほうが副作用や関. を 算 出 す る . こ の 重 要 度 を D1 と す る .. 連疾患などの情報が得たいというニーズがあった為で. 次に, 検索語と拡張語との関連性を検索結果に反映. ある. そこで項目間類似度の数値化実験には高血圧症. を す る 必 要 が あ る .項 目 間 関 係 情 報 を 付 与 す る た め に ,. に 関 す る 文 献 を 用 い た .各 論 文 の 2 次 情 報 デ ー タ の う. 拡張語の各文献に対する重要度と, 検索語と拡張語間. ちアブストラクトは文献の内容を簡潔にまとめた文章. の 関 連 度 合 を 表 す 数 値 で あ る 関 連 度 係 数 (図 2 )を 用 い. であるため本研究ではアブストラクトを主な分析対象. て 文 書 d k 文 書 の 重 要 度 を 算 出 す る . こ れ を D2 と す る .. とした.. 4.2. 医 療 文 献 特 有 の問 題 医療文献に特徴的な問題としてシノニム及びホモ ニムがある. 生物学分野には名前を付けるタイミング 図 2. 検索語と拡張語間の関連. さらに, 医療では古い文献に記載されている既知の. や, 同じものを別のものと思い込んでいた等という歴 史上の理由からホモニム, シノニムが存在する. 1つ. 情報である場合が多く, 必要とする情報は新しい文献. の も の が 複 数 の 名 前 を も つ (同 物 異 名 )と き , こ れ ら は. ほどよいと考えられる. そのため時系列での評価を取. シノニムであるという. 例として, アサガオの学名は. り入れる.. Ipomoea nil と Pharbitis nil が あ り こ れ ら は シ ノ ニ ム で. これら3つの計算手法を組み合わせ最終的な文献. あ る [24]. 複 数 の 異 な る も の に 対 し て 同 じ 名 前 が つ け. の重要度の数値を算出する. 次章では, 分析の対象と. ら れ て い る (異 物 同 名 )と き , こ れ ら は ホ モ ニ ム で あ る. した医療文献について述べる.. という. 分かりやすい例として「はし」には食事に使. 4. 医 療 文 献. う「箸」や川にかけてある「橋」があるがこれらはホ. 本章では分析の対象とした医療文献について述べ. モニムである. ホモニムとシノニムが複合している場. る. 合 も あ る . 例 え ば 化 合 物 名 「 CYCLOSPORINE」 は. 4.1. 分 析 対 象 データ. 「 Sandimmun Neoral」 , 「 Sigmasporin Microoral」 ,. 本研究では分析対象とするデータベースは先行研. 「 Cyclosporin A」 , 「 Cyclosporine」 そ れ ぞ れ の シ ノ ニ. 究 と 同 じ MEDLINE を 分 析 対 象 と し た .MEDLINE は ,. ム と し て 登 録 さ れ て い る . こ の 場 合「 CYCLOSPORINE」. 医学や生物学分野で, 最も有名かつ世界最大の文献. は こ れ ら の ホ モ ニ ム で あ る .文 献 や 学 者 ご と に 使 用 す. DB で あ る .. る名称が異なる場合もある.. MEDLINE の 全 文 献 を 分 析 対 象 に す る に は 数 が 多. 5. 分 析. すぎるため, 文献の数を制限する. 本研究では,ワー. 本章では取得データの分析方法について述べる .. ルドフュージョン社が提供する知識ベース ,. 専門用語間の関係を知るためには専門用語のみを. LSKB(Life Science Knowledge Bank)[ 8]に お い て 疾 患 名. 分 析 の 対 象 と す る 必 要 が あ る .専 門 用 語 の 分 析 は 共 同. が 「 肺 が ん 」 (実 際 の 検 索 語 と し て は 「 Lung cancer」,. 研究を行っているワールドフュージョン社が保有する. 「 Lung neoplasms」 )と 記 載 さ れ て い る 文 献 で , な お か. 専門用語辞書を用いた. 分析対象は「高血圧症」を含. 4.
(6) む医療文献である. この専用用語辞書は, 専門用語の. 6. 提 案 手 法 の 詳 細 化. 分類だけではなく, その専門用語がどの文献で出現し. 6.1. 候 補 論 文 の順 位 づけ. たかについても調べることができる. 専門用語の分類. 本節では, 候補論文の順位づけの方法について述べ. は, 遺伝子, 化学物質名, 病名, 臓器名の 4 つである.. る.. この辞書を用いて「高血圧症」に関する論文に ついて. 割し, それぞれ定式化する.. 分 析 を 行 っ た ... 5.1. コサイン類 似 度. 重要度の決定方法について3つの評価基準に分. 6.1.1. 検 索 語 に 対 す る 文 献 の 重 要 度 患者にとってその文献がどれだけの価値があるか. 専門用語間の類似度合を調査するためコサイン類. に つ い て 重 要 度 を 定 義 す る 必 要 が あ る .検 索 結 果 の 文. 似度を用いる. 文書ベクトルモデルで表現すると,文. 献に対して情報検索技術を用いた重み付けを行うこと. 書間あるいは単語間の類似度をコサイン尺度で評価で. で 重 要 度 を 定 義 す る .入 力 さ れ た 検 索 語 (ク エ リ )の 重 要. き る [14].文 書 1,2...n で 各 文 書 が 単 語 A,B を 含 む 数 (TF). 度を算出する.. をベクトルで表すものとする. このとき単語 A と B のコサイン類似度を以下の式で計 算する.. A (a1 , a2 an ) B (b1 , b2 bn ). このとき単語AとBのコサイン類似度を以下の式で計. 入力された検索語: Q ある検索語. 入力された全ての検索語に対してこの操作を行い, を 算 出 す る .こ の 重 要 度 を D1 と す る .. D1(d k ) weight(q).. a1 * b1 a2 * b2 ... an * bn a12 a22 ... an2 * b12 b22 ... bn2. 例 え ば 「 心 臓 」 (heart)の コ サ イ ン 類 似 度 が 高 い 語 句 は , 「 心 臓 病 」 (herat disease)「 心 筋 」 (myocardial)な ど で あ り , こ れ ら は 心 臓 に 関 係 す る 語 句 で あ る .入 力 し た専門用語に類似した専門用語を拡張語とすることで 拡張検索を行うことができる.. 5.2. 上 位 下 位 関 係. q の 重 み : weight(q). 和 を と り こ と に よ り 検 索 語 に 対 す る 文 献 dk の 重 要 度. 算する. cos(A, B) . {q1 , q2 qn }. qQ. 6.1.2. 検 索 語 の 拡 張 語 に 対 す る 文 献 の 重 要 度 検索語と拡張語との関連性を検索結果に反映をす る 必 要 が あ る (図 4).そ の た め 検 索 語 に 対 す る 文 書 の 重 要 度 に ,出 現 す る 拡 張 語 に 対 す る 文 書 の 重 要 度 に 関 連 度 係 数 を 掛 け た も の を 全 て 加 え る こ と で , あ る 文 書 dk 文 書 の 重 要 度 を 算 出 す る . こ れ を D2 と す る . 検索語から関連性が定義される拡張語:. 専門用語間のつながりを階層化し, 専門用語の上位. R {r1 , r2 rm }. 語, 下位語をそれぞれ算出する. 本 研 究 で は , 用 語 s, t の 出 現 回 数 DF(s), DF(t)を 用 い て 各 専 門 用 語 の 上 位 下 位 関 係 を 以 下 に 示 す Intersection Rate で 算 出 す る [15][16].. | DF (t ) DF ( s) | | DF (t ) || DF ( s) | かつ | DF ( s) |. 本 研 究 で は α の 値 を 0.5 と 定 め た . つ ま り 単 語 s の 出. 関 連 度 係 数 :α i, j た だ し. i Q, j R,. D2(d k ) D1(d k ) ( αu ,v weight(rv )) qQ p ( u ,v ). P(u,v)と は 入 力 語 q u と 拡 張 語 r v に つ い て 関 連 度 係 数 α u, v が 定 義 さ れ る こ と と す る .. 現する文献のうち半分を超える文献に単語 t が含まれ ていれば t は s の上位語である. 上 位 下 位 関 係 の 具 体 例 と し て 「 心 臓 」 (heart)の 下 位 語 は「 心 筋 虚 血 」(myocardial ischemia)や「 拡 張 型 心 筋 症 」 (dilated cardiomyopathy) で あ っ た .入 力 し た 専 門 用 語 の 下位語を拡張語とすることで拡張検索を行うことがで きる. ここで下位語のみを拡張検索の対象としたのは, 上位語をいれると検索対象文献数が大きく増加し探し. 図 3検索語と拡張語間の関連度係数αの概念図. たい文献が見つかりにくくなり, 下位語のほうがより. 関連度係数は追加情報を引き出すための値であ. 詳細な情報を得ることができると考えられるからであ る.. る .(図 3 参 照 ). 6.1.3. 時 系 列 評 価 医療では古い文献に記載されている既知の情報で. 5.
(7) ある場合が多く, 必要とする情報は新しい文献ほどよ. ただし. いと考えられる. そのため時系列での評価を取り入れ. DF (qi ) DF (r j ). る .評 価 法 は , 対 象 期 間 を 1 と し 経 過 年 月 の 割 合 に よ. これらの値は実験段階では専門用語ごとに分けて計算. り0~1までの評価を与える. ただしこの場合時系列. を行っていたが, 次章で述べるシステムを実装する段. の評価値により, 文献の重要度が大きく変化する可能. 階では病名, 化学物質名, 臓器名3つの専門用語群を. 性 が あ る .そ の た め , 全 体 に 1 を 加 え る こ と で 1 ~ 2. 混 ぜ た 28,753 語 を 分 析 の 対 象 と し た . 遺 伝 子 に 関 す る. までの評価を与えることとした.. 専門用語ついては実験段階で大量の本来関係のない遺. あ る 文 献 dk の 時 系 列 評 価 は 以 下 の よ う な 式 で 定 義 する.. 伝子どうしに関係が定められてしまったため除外して いる.. T (d k ) 1 . 7. 試 作 シ ス テ ム. 経過年月 対象期間. 本章では, 提案手法の計算手法を実装した試作シス テ ム に つ い て 述 べ る . シ ス テ ム は WebCGI を 用 い て 作. これら3つの計算手法を組み合わせ最終的な文献. 成 し , 利 用 者 は Web ブ ラ ウ ザ を 通 じ て シ ス テ ム を 利 用. の 重 要 度 の 数 値 を 算 出 す る . そ れ ぞ れ D3,D4 と す る .. す る こ と が で き る .拡 張 語 導 出 に コ サ イ ン 類 似 度 も し. D3(d k ) D 2 _ add _ T (d k ) T (d k ) D 2(d k ). くは上位下位関係を用いることができる. どちらを用. D 4(d k ) D 2 _ multiply _ T (d k ) T (d k ) * D 2(d k ). いるかは利用者が自由に決めることができる . 画面上部に検索したい語句を入力する入力欄があ る. ここには病名, 化学物質名, 臓器名3つの専門用. これらの数値を計算し, 7章で述べる試作システムを. 語 群 に 出 現 す る 28,753 語 を 入 力 す る こ と が で き る . 検. 作 成 し た .さ ら に 専 門 家 に 依 頼 し 計 算 手 法 ご と の 比 較 ,. 索結果は画面下部のフレームに表示される. まず入力. 評価を行う.. された語句に対する拡張語が全て表示され, その下に. 6.2. 単 語 の重 みづけ. 検索結果の文献が各計算方法に対して重要度の順で上. 本節では単語の重みづけについて述べる. 単語の重 みは検索結果の文献の重要度を定義するために必要と. 位 20 位 ま で 表 示 さ れ る . 計 算 手 法 は 6 章 で 述 べ た D1,D2,D3,D4 を 用 い る .な. なる. 本研究では入力されたある検索語 q の重要度を. お D1 の 手 法 は 従 来 の 情 報 検 索 手 法 そ の も の で あ る .. 求めるために局所的重みと大局的重みを使用する. 局. 7.1. 拡 張 検 索 機 能. 所 的 重 み 付 け と し て TF を 用 い 大 局 的 重 み づ け に は 文. 高血圧症を対象として患者が保持する情報から患. 書 頻 度 の 逆 数 (inverse document frequency:IDF) を 用 い. 者の知らない情報を拡張語として導き出し, その拡張. る .こ れ ら の 積 を 検 索 語 に 対 す る 文 書 の 重 要 度 と 定 義. 語の重みを検索対象文献に付加し患者が必要とする情. する.. 報を見つけ出す試作システムを作成した .. ある単語 q が文献に出現する場合以下のように単語 の 重 み weight(q)を 定 め る .. 係 は α >0.5 を 条 件 と し た .. weight(q) TF (q) * idf (q ) TF (q) * log(. 全文献数 ) DF (q ). 6.3. 関 連 度 係 数 単語間の関係を正しく定めることができるコサイン類 似度及び上位下位関係の値を関連度係数として使用す る . 入 力 語 q i と 拡 張 語 r j と の 間 の 関 連 度 係 数 α i, j は 以 下のように定める. コサイン類似度を拡張語導出の指標とする場合,. 関連度係数αi , j cos(qi , r j ), 上位下位関係を拡張語導出の指標とする場合. 関連度係数αi , j . 6. コ サ イ ン 類 似 度 の 値 は 0.1 を 閾 値 と し , 上 位 下 位 関. | DF (qi ) DF (r j ) | DF (rj ). システムの実行図を図 5 に示す. 現状のシステムで は検索結果が出るのに多少時間がかかる. 特に検索語 に対する拡張語が多くなるとこの傾向が強くなる ..
(8) たといえる. 文献の内容も全体的に無難な文献が上位 にリストアップされていた. しかしながら上位下位関 係では, 病名の関連語にアルファベット 2 文字のみの ( 例 え ば DM) も の が あ り , こ れ が 文 献 を 選 び こ む 際 のノイズの原因になっている可能性があった. また全 体的に上位下位関係では関連性の薄い文献が取れてき がちであった.. 8. 結 論 本論文は情報検索技術を用いて患者の医療文献活 用 を 補 助 す る こ と を 目 的 と し た .具 体 的 に は , 患 者 が 持っている情報から知りたい情報を含んだ医療文献を 導き出す方法と候補文献の順位づけの方法について提 案を行った. ま ず , MEDLINE か ら 分 析 対 象 と す る 肺 が ん , 高 血 圧 症 に 関 す る 文 献 を 取 得 し た .次 に , 検 索 語 と 拡 張 語 間 の関連性を数値化した. このための計算手法にコサイ ン 類 似 度 と Intersection Rate に 基 づ く 上 位 下 位 関 係 を 用 い た .こ れ を 用 い て , 検 索 さ れ た 文 献 に 対 し 重 要 度 を定義する式を提案した. さらに, 上記の計算を行い, 結 果 を 表 示 す る 簡 単 な 試 作 シ ス テ ム を 作 成 し た .ま た , 特定トピックの例として副作用に焦点を当て, 特定ト 図 4 試作システム. 7.2. 評 価 及 び考 察. ピックに関する論文の選集方法について述べた . コサイン類似度, 上位下位関係を用いることで, 関. 3人の専門家に人出で評価していただいた. 試作シ. 連性の高い専門用語どうしが関連づけられていた. こ. ステムに高血圧症に関係が深いと考えられている単語. れにより医療文献に対しこれらの手法が有効だと考え. を数パターン入力しその結果を評価の対象とする .. られた. 試作システムについての評価については専門. 主な評価項目は, 以下のとおりである. 1.. 拡張検索を行う際の, 拡張語が入力語に対して 適切か否か. 2. 3.. 家からみての意見ではあるが検索結果の文献も関連度 の高いものが取れていた. 今 後 の 課 題 に つ い て 述 べ る .今 回 は 時 間 が な く , 患. 導出された論文の内容が入力語に対して適切か. 者 か ら 見 た 意 見 が 取 れ な か っ た .こ の た め 患 者 か ら 見. 否か. てこの医療文献検索手法が本当に的を得た結果である. 従来の検索法との比較. かどうかが不明である.. 検索語に対する拡張語の中にあまり関係のないも. 今後は共同研究をしているワールドフュージョン. のも含まれていることがあり, 拡張語の制限が甘い傾. 社を通して, 日経が運営する患者向けのナビゲーショ. 向があった. 拡張語が正確な場合は関連語の出現によ. ン サ イ ト で あ る が ん ナ ビ [12]で の 試 験 的 な 運 用 を 視 野. り文献が上位にカウントされるため, 情報量の豊富な. に入れている. ここで患者から見た意見を得られると. 文献が優先される傾向があった. この結果から入力語. 考えている.. に対する拡張語が余分に選定され, 結果として文献の. また, 提案手法についての定量的な評価を行う必要. 重要度に余計な拡張語分の補正が余計に加算されてい. がある. 人手での評価では良い結果が得られたものの,. る こ と が わ か る .導 出 さ れ た 論 文 の 内 容 が 入 力 語 に 対. 主観的な評価であるため, 客観的に評価するためには. して適切か否かについては, 拡張語が正確に算出され. 定量的な評価が必要である. 今後, いくつかの検索語. て い る か ど う か で 左 右 さ れ て い る .ま た , 従 来 の 検 索. に対しての検索結果を定量的に評価し本論文の提案手. 手法では検索されない文献が検索結果に表れていた.. 法の良さを示していきたい.. こ の た め コ サ イ ン 類 似 度 の 閾 値 を 0.2, 上 位 下 位 関. 今回は肺がんと高血圧症に限定して実験や試作シ. 係 の 閾 値 を α >0.6 に 引 き 上 げ て 再 実 験 を 行 っ た . コ サ. ス テ ム を 作 成 し た .コ サ イ ン 類 似 度 お よ び 上 位 下 位 関. イ ン 類 似 度 に 関 し て は losartan と diabetes の 組 み 合 わ. 係について一定の閾値を設定し実験を行った. 特に上. せについて完璧に近いほど関連語が抽出されていた.. 位下位関係については試作システムでの運用時の評価. これは閾値の引き上げにより関連語の絞り込みができ. が 芳 し く な か っ た .こ の た め 閾 値 の 調 整 を 行 う こ と で. 7.
(9) よ り よ い 結 果 が 期 待 で き る .さ ら に , こ の ア ル ゴ リ ズ ムは肺がんや高血圧症だけではなく他の対象について も同様に適用可能である. 医療文献内の他の項目や, 医療文献以外のデータに適用することで, このアルゴ リズムの汎用性を検証したいと考えている .. 謝. 辞. 本研究は, 株式会社ワールドフュージョン社との共 同研究によるものである.. 文. 献. [1] Don R. Swanson, Neil R. Smalheiser ”An interactive system for finding complementary literatures: a stimulus to scientific discovery,” Artificial Intelligence, Vol. 9, No. 1, pp.183-203, 1997. [2] Don R. Swanson, and Neil R. Smalheiser and Vetle I. Torvik, “Ranking Indirect Connections in Literature-Based Discovery: The Role of Medical Subject Headings,” J. Am. Soc. Inf. Sci. Technol. , Vol. 57, No. 11, pp.1427–1439, 2006. [3] Padmini Srinivasan , and Bisharah Libbus, “Mining MEDLINE for implicit links between dietary substances and diseases,” Bioinformatics (Oxford, England), Vol. 20 Suppl. 1, pp. 290–296, Aug., 2004. [4] Yasunori Yamamoto, Toshihisa Takagi ,”Biomedical knowledge navigation by literature clustering ” Journal of Biomedical Informatics, 40 pp.114–130, 2007. [5] Smalheiser,N.R. and Swanson,D.R. (1998) Calcium-independentphospholipase A2 and Schizophrenia. Arch. Gen. Psychiatry, 55,752–753. [6] Srinivasan,P. (2004) Text mining: generating hypotheses from MEDLINE. J. Am. Soc. Inf. Sci. Technol., 55, 396–413. [7] NLM, MEDLINE,1964 [8] 株 式 会 社 ワ ー ル ド フ ュ ー ジ ョ ン , LSKB(Life Science Knowledge Bank), http://www.w-fusion.com/J/productlist/lskb.html [9] NLM. MeSH. (Medical subject headings), 1960. National Library of Medicine.. 医 中 誌 web:http://www.jamas.or.jp/ JDreamPetit:http://pr.jst.go.jp/jdreampetit/ が ん ナ ビ:http://cancernavi.nikkeibp.co.jp/ Wikipedia:http://ja.wikipedia.org/wiki/ 北研二,津田和彦, 獅 子 堀 正 幹 ,情 報 検 索 ア ル ゴ リ ズ ム , 共 立 出 版 , 2002.(ISBN:4-320-12036-1) [15] Rui Li, Shenghua Bao, Ben Fei, Zhong Su, Yong Yu, Towards Effective Browsing of Large Scale Social Annotations, International World Wide Web Conference archive Proceedings of the 16th international conference on World Wide Web, 2007. [16] Yoshihiro Shimoji, Sachio Hirokawa, Dynamic Thesaurus Construction from English-Japanese Dictionary, International Workshop on Ontology Alignment and Visualization, 2008. [17] 園田 亮, 伊東 栄典, 高崎 哲也, 川原 弘 三 ,医 療 文 献 か ら の 類 似 項 目 発 見 に つ い て [10] [11] [12] [13] [14]. 8. の 考 察 ,電 子 情 報 通 信 学 会 第 19 回 デ ー タ 工 学 ワ ー ク シ ョ ッ プ (DEWS 2008),2008.03.
(10)
関連したドキュメント
[r]
[r]
[r]
[r]
1) Ishiki M., Usui I., Kanatani Y., Tobe K.: Oxidative stress and antioxidant possess various effects on metabolic function in vitro. American Diabetes Association
2) Hiroaki Fushiki, Masayuki Ishida, Shigeki Sumi, Akira Naruse and Yukio Watanabe: Correlation between canal paresis and spontaneous nystagmus during early stage of
: Development and applicability of Hospital Survey on Patient Safety Culture (HSOPS) in Japan. : Astaxanthin, a strong antioxidant, enhances metabolic but inhibits
1) 石木 学, 戸邉一之 : インスリン作用からみた血糖調節機構. : A de novo interstitial deletion of 8p11.2 including ANK1 identified in a patient with