• 検索結果がありません。

• • 頻度解析 頻度解析 の の 手法 手法

N/A
N/A
Protected

Academic year: 2021

シェア "• • 頻度解析 頻度解析 の の 手法 手法"

Copied!
14
0
0

読み込み中.... (全文を見る)

全文

(1)

文献情報の解析に基づく 文献情報の解析に基づく

対訳シソーラスの

対訳シソーラスの 評価 評価

• • ライフサイエンス辞書とは ライフサイエンス辞書 とは

• • 頻度解析 頻度解析 の の 手法 手法

• • MeSHリンクによる MeSH リンクによる シソーラス構築と評価 シソーラス構築と評価

京都大学大学院薬学研究科 京都大学大学院薬学研究科

生体機能解析学分野 生体機能解析学分野

金子 金子 周司 周司

製品評価技術基盤機構 製品評価技術基盤機構

ゲノム解析部門 ゲノム解析部門

藤田 藤田 信之 信之

2006 200 6年 年 7月 7 月1 1日 日

医療情報学会春期学術大会 医療情報学会春期学術大会

(神戸) (神戸 )

(2)

オンライン辞書サービス オンライン辞書サービス

WebLSD Web LSD

PubMed論文へ PubMed

検索へ

Google 検索へ

日本語入力 英語入力

相互逆引き

(3)

LSD LSD データベース構造 データベース構造

英語テーブル

英語テーブルはコーパス解析からはコーパス解析から 対訳テーブル

対訳テーブルはは手作業手作業で規定で規定 シノニムは

シノニムはあるがあるが,ツリー,ツリーではないではない

対訳 テーブル 漢字変換

テーブル

日本語頻度 テーブル

英語頻度 テーブル 意味ツリー

テーブル

用法 テーブル

音声 テーブル 日本語

テーブル

英語 テーブル

音声付き英和・和英辞書

スペルチェック辞書 かな漢字

変換辞書

機械翻訳辞書

は参照方向を示す 作業

テーブル

(転送)

(4)

研究目的 研究目的

日本語コーパスの解析による英語との比較 日本語コーパスの解析による英語との比較

LSD の LSD の現状 現状評価 評価

日本語と英語の間における概念

日本語と英語の間における概念の の相違 相違 MeSH

MeSH とのリンクによるシソーラスの構築 とのリンクによるシソーラスの構築 独自のシソーラスへの

独自のシソーラスへの足がかり 足がかり

(5)

英語コーパスを用いた頻度解析(1)

英語英語コーパスコーパス PubMed

PubMed 収録のインパクトファクターの高い学収録のインパクトファクターの高い学 術誌術誌((89誌89誌)に)にアメリカ・イギリスの研究機関アメリカ・イギリスの研究機関 からから19951995--20042004年年にに発表された論文抄録発表された論文抄録 Bookshelf

Bookshelf公開の教科書テキスト等も使用公開の教科書テキスト等も使用 合計合計 463 Mbyte463 Mbyte((60006000万語)万語)

解析手法解析手法

1.1. 単語間のスペースのみを認識して切断する単語間のスペースのみを認識して切断する Perlスクリプトを用いPerlスクリプトを用いてて単語および年度毎に単語および年度毎に 出現頻度を計数した。

出現頻度を計数した。

2.

2. 語尾変化を考慮しないで,語尾変化を考慮しないで,LSDLSD収録語との収録語との マッチングを

マッチングを行った行った

(6)

1 10 100 1000 10000 100000 1000000

1 2- 5- 10- 20- 50- 100- 200- 500- 1000- 2000- 5000- 10000- 20000- 50000-

âpåÍÉRÅ[ÉpÉXÇ-ÇÃèoåªïpìx

英語コーパスを用いた頻度解析(2)

0âÒ 16%

1-9âÒ 20%

10-99âÒ 31%

100-999âÒ 24%

1000-9999âÒ 8%

10000âÒ à»è„

1%

LSD収録英語の頻度分布

英語コーパス全単語とLSD収録英単語の頻度分布 解析手法解析手法

–– 名詞や動詞の規則変化に対応する逐語訳名詞や動詞の規則変化に対応する逐語訳 EtoJエンジンをEtoJエンジンを用いて,用いて,LSDLSD収録語の出現収録語の出現 頻度解析を

頻度解析を行った。行った。

→ LSD収録語はコーパスを88%網羅

(7)

1 10 100 1000 10000 100000 1000000

1 2- 5- 10- 20- 50- 100- 200- 500- 1000- 2000- 5000- 10000-

ìÝñ{åÍÉRÅ[ÉpÉXÇ-ÇÃèoåªïpìx

ç-í òAë±óvëf äøéöïœä é´èë ëŒñÛé´èë

日本語コーパスを用いた頻度解析 日本語コーパスを用いた頻度解析

日本語コーパス日本語コーパス

ある出版社の協力により提供されたある出版社の協力により提供された医学医学 総説誌1996総説誌1996--20022002年の全文年の全文

一部,臨床医学テキストも使用 一部,臨床医学テキストも使用 合計合計34 34 MByte (2000MByte (2000万文字)万文字)

解析手法解析手法

1.1. 漢字,カタカナ,ひらがな,アルファベット,漢字,カタカナ,ひらがな,アルファベット,

数字の境目を認識して最長連続する要素 数字の境目を認識して最長連続する要素

(単語)

(単語)をを抽出する抽出するPerlPerlスクリプトで計数スクリプトで計数 2.2. 日本語コーパス中で日本語コーパス中でLSDLSD収録語収録語および1および1でで

得られた単語の出現頻度を計数

得られた単語の出現頻度を計数するするPerlPerlスス クリプトを

クリプトを使用使用

全単語とLSD収録語の頻度分布

38% 35% 13% 12% 3%

Ç–ÇÁǙǻ

äøéö ÉJÉ^ÉJÉi ÉAÉãÉtÉ@ÉxÉbÉ êîéö

コーパスを構成する文字種の割合

(8)

英語と日本語の関係 英語と日本語の関係

英和,和英ともに1対1関係に 英和,和英ともに1対1関係に ある語句は全体の7割程度 ある語句は全体の7割程度 Metabolism

Metabolism 代謝 代謝 Transcription Transcription 転写 転写 Cancer

Cancer 癌 癌 などなど などなど

しかし癌は「がん しかし癌 は「がん」 」「ガン」 「ガン」とも とも

対訳関係は複雑 対訳関係は複雑

71 71 2 2

降圧 降圧 82* 82*

107* 107*

antihypertensive antihypertensive

313 313 3 3

抗菌 抗菌 55 55

131* 131*

antibacterial antibacterial

anticancer anticancer anti- anti -inflammatory inflammatory immunosuppressive immunosuppressive 英語( 英語( * MeSH * MeSH term term) )

6 6 633 633

抗癌 抗癌 121 121

125 125

102 102 6 6

抗炎症 抗炎症 411 411

197* 197*

6 6 102 102

免疫抑制 免疫抑制 229 229

263* 263*

薬 薬 剤 剤

日本語 日本語 drug drug

agent

agent

(9)

MeSH

MeSH term term の標準表記化と の標準表記化と LSD へのリンク LSD へのリンクづけ づけ

実際に用いられる語順への変更 実際に用いられる語順への変更 複数形から単数形への

複数形から単数形への 統一 統一

対訳 テーブル

(約7万対)

漢字変換 テーブル

(約7万語)

日本語頻度 テーブル

英語頻度 テーブル MeSH

テーブル

(6.5万語)

日本語 テーブル

(約5万語)

英語 テーブル

(約5万語)

対訳シソーラス

(10)

LSD日本語

LSD英語 MeSH Descriptor, Term とTree

MeSH

MeSH リンクによる リンクによる LSD 対訳シソーラス化 LSD 対訳シソーラス化

14.7 19.5

12.7 平均文字バイト数

868 (328) 1.70 13,462 共通語

[C]

= [A]∩[B]

194 (16) 2.43 65,733 MeSH

[B]

1,141 (257) 1.51 49,034 LSD英語

[A]

平均単語長

平均頻度

(75%パーセンタイル)

語数

(11)

20%

(40%) 21%

(33%) 21%

(35%) 13%

(29%) 31%

(57%) 22%

(37%) 62%

(75%) カバー率*

[D]

= [C]/[B]

3,790 4,211

(4,015) 32,259

(13,835) 8,001

9,806 Chemicals & Drugs【D】

1,148 1,148

1,686 副詞

2,144 2,144

3,974 動詞

13,462 13,462 (12,971) (12,971) 1,719 (1,666) 1,013 (965) 3,700 (3,604) 1,215 (1,193) 1,604 (1,528) 共通語*

[C]

= [A]∩[B]

65,733 65,733 (33,195) (33,195) 8,268 (5,004) 4,900 (2,740) 12,095 (6,338) 5,635 (3,254) 2,576 (2,024) MeSH*

[B]

12,929 14,648

23,418 その他の名詞 【F-Z】

および略語

7,984 7,984

12,053 形容詞

35,572 49,034

70,622 合計

3,099 4,214 5,403 7,400 2,505 3,101 4,102 4,970 LSD英語

[A]

対訳数

1,290 Organisms【B】

1,703 Diseases【C】

2,086 Techniq. & Equip.【E】

2,498 Anatomy【A】

未マップ語 [E]

= [A]-[C]

分類 【 MeSHカテゴリー】

*丸カッコ内は英語コーパスで頻度1以上の語について集計した値

MeSH

MeSH term term ベースでの ベースでの網羅率 網羅率

(12)

LSD LSD データベース データベース から から MeSH MeSH 参照 参照 例 例

(13)

MeSH

MeSH ツリーベースでの ツリーベースでの LSD LSD 網羅率 網羅率

LSD

MeSH

固有名称 化合物名 生物学名 高頻度

語句 一般的名称

用言

日本的概念

PubMed

低頻度語 遺伝子名 略語 0

2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000

語数

未定義 424 2,452 4,346 9,973 6,207

対訳有 1,918 2,307 5,403 6,046 3,313

解剖(A) 生物(B) 病名(C) 化合物(D) その他

MeSH ツリー( 45,000 カテゴリー)の 45% をカバー

( 2006 年 6 月)

課題

LSD 収録 PubMed 頻出語のマッピング

コーパスを用いた関係抽出実験

(14)

ライフサイエンス辞書プロジェクト ライフサイエンス辞書プロジェクト

• 辞書制作

金子周司

(京都大学大学院薬学研究科,薬理学)

• 技術開発

藤田信之

(製品評価技術基盤機構ゲノム解析部門,生物遺伝学)

鵜川義弘

(宮城教育大学環境実践研究センター,情報教育学)

• 教材作成,出版 – 大武 博

(京都府立医科大学,英語教育)

河本 健

(広島大学医歯薬総合研究科,生化学)

• 評価,利用促進

竹内浩昭

(静岡大学理学部,行動生理学)

竹腰正隆

(東海大学医学部,分子生物学)

1993

1993 年~ 年~

参照

関連したドキュメント

重要な変調周波数バンド のみ通過させ認識性能を向 上させる方法として RASTA が知られている. RASTA では IIR フィルタを用いて約 1 〜 12 Hz

週に 1 回、1 時間程度の使用頻度の場合、2 年に一度を目安に点検をお勧め

本装置は OS のブート方法として、Secure Boot をサポートしています。 Secure Boot とは、UEFI Boot

市民的その他のあらゆる分野において、他の 者との平等を基礎として全ての人権及び基本

    pr¯ am¯ an.ya    pram¯ an.abh¯uta. 結果的にジネーンドラブッディの解釈は,

生活のしづらさを抱えている方に対し、 それ らを解決するために活用する各種の 制度・施 設・機関・設備・資金・物質・

鉄道駅の適切な場所において、列車に設けられる車いすスペース(車いす使用者の

ことの確認を実施するため,2019 年度,2020