• 検索結果がありません。

構造化・非構造化データの特異な部分構造の検出

N/A
N/A
Protected

Academic year: 2021

シェア "構造化・非構造化データの特異な部分構造の検出"

Copied!
63
0
0

読み込み中.... (全文を見る)

全文

(1)

九州大学学術情報リポジトリ

Kyushu University Institutional Repository

構造化・非構造化データの特異な部分構造の検出

谷口, 雄太

https://doi.org/10.15017/1441267

出版情報:Kyushu University, 2013, 博士(情報科学), 課程博士 バージョン:

権利関係:Fulltext available.

(2)

構造化・非構造化

特異 部分構造 検出

谷口 雄太

2014 年 2 月

(3)

要旨

人類 蓄積 膨大 量 及 , 蓄積 利活用 基盤

技術 確立 強 求 . ,内容・形式 多岐 渡

,大 構造化 非構造化 2 .非構造化

例 文書 ,音声 自然現象 観測 時系列

. 明示的 構造 ,連続 記号 事象 単純 列,

,文字列 見 .他方,構造化 ,例 原子同士 結合 表 分子構造,論文 共著関係 人間同士 関係 表

. 明示的 構造 多 ,異 2 実体間 関係 集

, , 見 .今日 ,文字列 ,計算機科学

様々 抽象的 取 扱 基本的 表現 用 .

大量 利活用 ,構造化・非構造化 ,

中 埋没 高次 部分構造 捉 重要 .例 ,

文字 並 , 意味 把握 場合 単語 列 見 必要 , 高次 意味 捉 ,文 列 , 高次 構造 解析 必要 出

.同様 ,例 , 中 築 見

社会学, 有用 .

部分構造 検出 関 既存研究 多 ,部分構造 特異性 基 検出 行 . 既存手法 ,専門家 領域知識 利用 以外

分 .前者 ,領域知識 活用 精度 高 反

面, 高 ,未知 対応 問題 .一方,後者 大

未知 含 様々 普遍的 適用 , 発見的 結果

期待 .本研究 ,構造化・非構造化 対 ,

隠 部分構造 後者 検出 問題 取 組 . 結果, (1) Purity

尺度 配列上 水平伝播遺伝子 発見, (2) 大 文

(4)

字列 対 Purity 尺度 改良, (3) 対 頑健 手法 提

案, 研究成果 .

(1) ,文字列 部分文字列 特異性 測 尺度 , Yamada (2012)

提案 Purity 尺度 着目 ,複数 細菌 配列 Purity 尺度 水平伝

播遺伝子 呼 遺伝子 特徴付 明 .細菌 微生物 ,通 常 生殖 異 遺伝子伝播 水平伝播 存在 .水平伝播 獲 得 遺伝子 特定 , 理解 進化 過程 解明 繋 重要視

.本研究 ,実験 配列 配列注釈 用 評価 通 , RNA

, ,水平伝播 考 遺伝

子 , Purity 尺度 高 与 確 .

(2) ,短 部分文字列 Purity 尺度 問題点 指摘 克服

尺度 Atomicity 尺度 提案 配列 4 種類程度 記号 記述

,解析 対象 比較的長 部分文字列 .一方,英文

文字列 多 記号 使 ,情報 短 文字列 記述 ,

比較的短 部分文字列 解析 対象 .対象 部分文字列 短

場合, Purity 尺度 値 特定 値 集中 短 部分文字列 差別化

問題 .本研究 提案 Atomicity 尺度 , 問題 改善

.英文 中 単語 文字 実験 , Purity 尺度 差別化

部分文字列 Atomicity 尺度 差別化 確認 .

(3) , 頂点 問題 対 ,巨視的構造 呼 粗視化 導入 ,既存手法 比 頑健 手法 提案 .

問題 定式化 種々 問題 中 , 間 多数 辺 ( )

扱 場合 .本研究 ,巨視的構造 呼

間 関係性 記述 導入 , 間 辺 絶対数 左右 , 間 内 辺密度 差 依存 手法 提案 .人工

実 用 実験 ,提案手法 多 上 既存手法 凌

性能 示 .

(5)

謝辞

本研究 遂行 多 方々 支援 , 無 不可能 . 場 借 感謝申 上 .

学部 4 年次 現在 ,終始研究 御指導 九州大学大学院 情報科学研究院 池田大輔准教授 心 感謝申 上 . ,本論文

,貴重 御助言 頂 九州大学大学院 情報科学研究院 竹田正幸教授,

瀧本英二教授 深 感謝申 上 .特 配列 分析 ,九州大学大学院 農学研究院 久原哲教授,九州大学 ・ ・ 研究所 丸山修准教授 貴重 御助言 頂 .深 感謝申 上 .

,事務手続 全般 支援 頂 秘書 方々 感謝申 上 .研究 議論 雑談 至 , 愉快 時間 共 過 頂 池田研究室,鈴木研究室,

瀧本研究室 先輩方,後輩 感謝申 上 .

最後 ,博士課程修了 至 経済的 支援 行 , 変 愛情 注

両親 感謝申 上 .

(6)

目次

1 序論 8

1.1 背景 . . . . 8

1.2 主結果 . . . . 9

1.3 本論文 構成 . . . . 10

2 Purity 尺度 領域 適用 水平伝播遺伝子 発見 11 2.1 背景 . . . . 11

2.2 関連研究 . . . . 12

2.3 手法 . . . . 13

2.3.1 Purity 尺度 . . . . 13

2.3.2 Blumer 部分文字列 . . . . 14

2.4 結果 考察 . . . . 15

2.4.1 . . . . 15

2.4.2 機能別 評価 . . . . 18

2.4.3 水平伝播遺伝子検出性能 . . . . 25

2.5 結論 . . . . 26

3 文字列 Purity 尺度 改良 27 3.1 背景 . . . . 27

3.2 手法 . . . . 29

3.3 実験 . . . . 29

3.3.1 20 Newsgroups . . . . 30

3.3.2 Brown . . . . 33

3.4 結論 . . . . 36

4 巨視的構造 最適化 37

(7)

4.1 背景 . . . . 37

4.2 関連研究 . . . . 39

4.2.1 先行研究 . . . . 40

4.2.2 分類手法 HITS . . . . 41

4.3 手法 . . . . 41

4.3.1 問題定義 . . . . 41

4.3.2 巨視的構造 . . . . 42

4.3.3 最適化 . . . . 43

4.4 実験 . . . . 44

4.4.1 評価 . . . . 44

4.4.2 実験環境 . . . . 45

4.4.3 実験 1: 多様 量 網羅的調査 . . . . . 46

4.4.4 実験 2: 応用 . . . . 50

4.5 結論 . . . . 54

5 結論 55

参考文献 57

(8)

図目次

2.1 閾値以上 Purity 値 部分文字列 数 変化 . . . . 17

2.2 見方 . . . . 18

2.3 E. coli K-12 [GenBank:NC_000913] . . . . 19

2.4 E. coli O157:H7 [GenBank:NC_002695] . . . . 20

2.5 G. metallireducens [GenBank:NC_007517] . . . . 21

2.6 M. mycoides [GenBank:NC_015431] . . . . 22

2.7 F 値 . . . . 24

2.8 F 値 高 Purity 値 . . . . 24

2.9 F Purity . . . . 25

3.1 Purity 値 分布 . . . . 33

3.2 Atomicity 値 分布 . . . . 34

4.1 巨視的構造 . . . . 38

4.2 適用 . . . . 42

4.3 人工 生成過程 . . . . 46

4.4 生成 人工 . . . . 47

4.5 提案手法 結果 . . . . 48

4.6 各 性能 比較 . . . . 49

4.7 変換 . . . . 51

4.8 人工 結果 . . . . 52

4.9 Iris 対 結果 . . . . 53

(9)

表目次

2.1 実験 用 細菌 配列 一覧 . . . . 16

2.2 水平伝播遺伝子 検出性能 評価結果 . . . . 26

3.1 Purity 尺度 単語列 ( ) 評価例 . . . . 28

3.2 Purity 尺度・ Atomicity 尺度 評価結果 . . . . 31

3.3 Atomicity 尺度 評価結果 . . . . 35

(10)

1

序論

1.1 背景

普及, 整備,多様 機器 導入,

化 動 ,人類 創出 量 加速度的 増加 ,蓄積

膨大 量 及 . , 蓄積 利活用 基盤技術 確立 強

求 . ,内容・形式 多岐 渡 ,大 構

造化 非構造化 2 分 .非構造化 ,例 文書

,音声 自然現象 観測 時系列 . 明

示的 構造 ,連続 記号 事象 単純 列, ,文字列 見

.他方,構造化 ,例 Web 間 関係

表 Web ,原子同士 結合 分子構造,論文 共著関係 人間同士 関係

表 ,言葉同士 類義関係 表 WordNet .

明示的 構造 多 ,異 2 実体間 関係 集 ,

, 見 .今日 ,文字列 ,計算機科学

様々 抽象的 取 扱 基本的 表現 用 .

大量 利活用 ,構造化・非構造化 ,

中 埋没 高次 部分構造 捉 重要 .例 ,

文字 並 , 意味 把握 場合 単語 列 見 必要 , 高次 意味 捉 ,文 列 , 高次 構造 解析 必要 出

.同様 ,例 , 中 築 見

社会学, 有用 .

部分構造 検出 関 既存研究 多 ,部分構造 特異性 基

(11)

検出 行 . 既存手法 ,専門家 領域知識 利用 以

外 分 .前者 ,例 既存 解析済 比較 行

特異 部分 検出 行 . 領域知識 活用 検出 精度 高

,同時 高 必要 , 未知 対応 問題

.一方,後者 多 場合,解析対象 用 ,

部分 特異性 直接的 評価 . 方法 既知 比較 行

, 抑 , 未知 発見的 結果 期待

.本研究 構造化・非構造化 対 , 隠 部分構造

後者 検出 問題 取 組 .非構造化 , 配列

対象 , 構造化 対象 .

1.2 主結果

本研究 貢献 次 3 構成 (1) Purity 尺度 配列上 水平伝

播遺伝子 発見 [39] , (2) 大 文字列 対 Purity 尺度 改

良 [46] , (3) 対 頑健 手法 提案 [38] . (1) ,文字列 部分文字列 特異性 尺度 Yamada [44]

案 Purity 尺度 着目 ,複数 細菌 配列 Purity 尺度 水平伝播

遺伝子 呼 遺伝子 特徴付 明 .細菌 微生物 ,通常 生殖 異 遺伝子伝播 水平伝播 存在 .水平伝播 獲得

遺伝子 特定 , 理解 進化 過程 解明 繋 重要視

.本研究 ,実験 配列注釈 用 評価 通 ,

RNA ,水平伝播

遺伝子 , Purity 尺度 高 与 確 .

(2) ,短 部分文字列 対 Purity 尺度 問題点 指摘 , 克服 新

尺度 Atomicity 尺度 提案 配列 4 種類程度 記号 記述

,解析 対象 比較的長 部分文字列 .一方,英文

文字列 多 記号 使 ,情報 短 文字列 記述 ,

比較的短 部分文字列 解析 対象 .対象 部分文字列 短

場合, Purity 尺度 特定 集中 部分文字列 差別化

問題 .本研究 提案 Atomicity 尺度 , 問題 改善

.英文 中 単語 文字 実験 , Purity 尺度 差別化

部分文字列 Atomicity 尺度 差別化 確認

(12)

(3) , 頂点 問題 対 ,巨視的構造 呼 粗視化 導入 ,既存手法 比 頑健 手法 提案 .

問題 定式化 種々 問題 中 , 間 多数 辺 ( )

扱 場合 .本研究 ,巨視的構造 呼

間 関係性 記述 導入 , 間 辺 絶対数 左右 , 間 内 辺密度 差 依存 手法 提案 .人工

実 用 実験 ,提案手法 多 上 既存手法 凌

性能 示 .

1.3 本論文 構成

次章以降,本論文 次 構成 . 第 2 章 Purity 尺度 配 列 適用 .次 ,第 3 Purity 尺度 適用 , 尺度 提案

. 第 4 問題 手法 提案 .最後 5

結論 述 .

(13)

2

Purity 尺度 領域 適用

水平伝播遺伝子 発見

2.1 背景

解析 配列 構造 機能的 領域 解明 確立

.従来, 配列 解析 , 隠

頻繁 用 [8] 機能的領域 同定 成功

Yamada [44] 分野 Purity 尺度 提案 .

与 文字列 部分文字列 対 , 特異性 測 尺度 .彼 Purity 度 日本語 対 適用 . 結果,大学 名前

部分 高 与 示 . 彼 配列 対 適

用 行 . Escherichia coli Bacillus subtilis 配列 適用 結果,高

Purity 領域 RNA 遺伝子 対応

示 .

注目 , 遺伝子 水平伝播遺伝子 [22] 考 , Purity 尺度 特徴付 可能性 示唆 点 .遺伝子 水平伝播 突然変異 比 大 変化 ,細菌 遺伝的多様性 主要 原因 1 考

[10] . 水平伝播遺伝子 微生物 進化 密接 関 ,

特定 重要 . , Yamada [44] 実験 ,最 高

Purity 値 与 100 個 領域 評価 ,示唆 限定的

. , Purity 尺度 種類 遺伝子領域 同定 ,広

(14)

調査 意義 .

本論文 Purity 尺度 細菌 配列 対 有効性 広範 渡 調査

.先行研究 [44] , RNA Purity 尺度 特徴付

, 加 高 Purity 値

新 示 .面白 ,新 見 遺伝子 水平伝播遺伝

子 考 [18, 45] .従 , 事実 Purity 尺度 水平伝播遺伝子 予測

有用 意味 .

2.2 関連研究

領域 計算的 特徴付 大 2 分 .生物学的

知識 基 組成 特徴 利用 . 分類 下 ,

Purity 尺度 組成尺度 一種 ,後者

前者 ,多 手法 異 領域知識 基 提案

.例 , 相同性 [13, 25, 32] 特定 遺伝子 共通 構造 [28, 33]

. 手法 ,検出 領域 既知 領域 類似 領域 偏 傾向

,後者 比較 ,未知 機能的領域 発見 難 .

他方,後者 ,特定 領域 組成 変異 特

徴付 . ,単一塩基 組成 [1] , 2 連塩基 存在量 [36] ,確率 [20] ,複雑

度 [21, 43] ,数多 組成 尺度 提案 .通常 組成特徴

変異 ,平均的 組成 [1] 背景 配列 確率 [20] 「基準」 比較

測 . 水平伝播遺伝子 特徴付 広 用

[7, 14, 31, 40] .基本的 手法 1 3 程度 低次 連続塩基 組成

考 .比較的長 程度 連続塩基 利用

[31] ,組成 考慮 連続塩基 長 限定 .

対照的 Purity 尺度 ,任意 長 連続塩基 考慮 ,特定 基準 対

変異 測 代 ,普遍的 適用可能 仮定 基 , Purity 尺度 水平伝播

遺伝子 上手 , 頑健 特徴付 可能性 .

(15)

2.3 手法

2.3.1 Purity 尺度

Purity 尺度 ,与 文字列 部分文字列 特異性 評価 尺度 ,「短

部分文字列 長 部分文字列 多 出現 」 仮定 基 .例

,文字列 T 部分文字列 x 特異 評価 x 任意 部分文字列 y ,先 仮定 通常, T y 出現頻度

T x 出現頻度 多 考 . Purity 尺度 x 特異性 ,仮定 満

y 多少 定量化 .仮定 反 y ,極端 場合 x 同頻

度 y x 固有 y

Purity 尺度 測 特異性 ,部分文字列 x 「 良 」 「分割不可能

性」 言 .

Yamada [44] 具体的 Purity 尺度 定義 確率, 3

提案 . 内, 1 目 尺度 彼 配列 対 実験 用

, RNA 特徴付 . ,本研究 特 尺度

考 ,以降 単 Purity 尺度 呼

Purity 尺度 形式的 以下 定義 . N 非負整数 集合 Σ

有限集合 呼 . 0 個以上 文字 有限列 集合 Σ

表記 , 集合 要素 文字列 呼 .文字列 x ∈ Σ

長 | x |

.長 n 文字列 x = a

1

a

2

· · · a

n

∈ Σ

関 ,任意 正 整数 i x

i 番目 文字 a

i

x[i] 表記 . , ij 満 任意 正 整数 i , jx

連続 部分 a

i

· · · a

j

x[i : j] 表記 , x 部分文字列 呼 .

文字列 x ∈ Σ

対 , sub(x) 定義

sub(x) = { ⟨ i , j ⟩ ∈ N

2

| 1 ≤ ij ≤ | x | } 文字列 T , x ∈ Σ

対 , pos

T

(x) 定義

pos

T

(x) = { ⟨ i , j ⟩ ∈ sub(T ) | T [i : j] = x }

文字列 T , x ∈ Σ

対 , freq

T

( x) freq

T

(x ) = pos

T

( x) 定義 .直感的

sub( x) x 全 部分文字列 重複 含 集合, pos

T

(x) x T 全 出

現位置 集合, freq

T

(x) x T 出現頻度 表 .例 、 sub(“aab”) =

(16)

{⟨ 1 , 1 ⟩, ⟨ 2 , 2 ⟩, ⟨ 3 , 3 ⟩, ⟨ 1 , 2 ⟩, ⟨ 2 , 3 ⟩, ⟨ 1 , 3 ⟩} pos

“aab”

(“a”) = {⟨ 1 , 1 ⟩, ⟨ 2 , 2 ⟩} freq

“aab”

(“a”) = 2

定義 1 入力文字列 T 部分文字列 x x T Purity

次 定義 .

purity

T

(x ) = { ⟨ k , l ⟩ ∈ sub(x) | freq

T

( x[k : l]) = freq

T

( x) }

| sub(x) |

Purity 尺度 x 特異性 , x 部分文字列 内, Tx 部分 出現

固有 「割合」 定量化 .

接尾辞木 接尾辞配列 [17] 構造 用 , T 全 Blumer 部

分文字列 Purity 値 , T 長 関 線形時間・領域 計算 . Blumer 部分文

字列 次節 詳述 .

2.3.2 Blumer 部分文字列

Purity 尺度 入力文字列 部分文字列全 適用 ,最 高 Purity 値 部分文字

列 見 可能 ,入力長 2 乗 比例 膨大 数 部分文字列 人

手 評価 現実的 . Blumer [4] 提案

同値関係 利用 冗長 部分文字列 削減 考 .

文字列 T T 部分文字列 x 対 , ← → x = α x β 定義

x T 出現 常 α β x 接頭辞・接尾辞

, α, β Blumer 同値関

係 ≡ x ≡ y ⇐⇒ ← → x = ← → y 定義 x 同値類 [x]

= { y | y ≡ x } 代表元 ← → x 定義 . 代表元 一意 ,同値類 極大元

.例 , T = “acgacctacga” , ←→

“g” = ←−→

“cg” = ←−−→

“acg” = ←−−→

“cga” = ←−−−→

“acga” = “acga”

, 同値類 , “acga” 代表元

Blumer 同値類 数 ,最大 文字列 T 長 関 線形個 存在 ,従

同値類 代表元 Purity 尺度 対象 ,大 数 減

.以降 Blumer 同値類 代表元 Blumer 部分文字列 呼 . ,

Purity 尺度 T 評価 意味 T 代表元 1

出現 部分文字列 同値類」 考 .

(17)

2.4 結果 考察

本節 種類 遺伝子領域 Purity 尺度 特徴付

領域 Purity 値 強 関連 , 11 本 細菌 配列

対 実験 示 . 実験 配列 機能的領域 高 精度 特定

狙 .代 ,複雑 手続 行 ,様々 配列上

Purity 尺度 性能 視覚的・定量的 示 目的 .

実験 手順 , (1) 配列 Blumer 部分文字列 列挙, (2) Blumer 部分文字列

Purity 計算 .実験後,出力 Blumer 部分文字列 Purity

配列 付与 注釈 用 評価 .使用 11 本 細菌 表 2.1 示

.表 ,評価 用 注釈 含 GenBank ID 示 .

様々 「門」 幅広 生物種 選択 ,系統的 長

G + C 含量 様々 .以下 実験 GenBank 記載

配列 一本鎖 用 , 相補鎖 考 .

図 2.1 閾値 ( 横軸 ) 大 Purity 値 部分文字列 数 ( 縦軸 ) 各

示 .縦軸 対数軸 注意.全体 数百

万 Blumer 部分文字列 存在 . 閾値 大 , 大

Purity 値 Blumer 部分文字列 数 急激 減少 , 限 数 Blumer

部分文字列 大 Purity

全 実験 単一 Linux 上 行 . Intel Core i7 3.4 GHz

16 GB 構成 .先述 実験手続 C ++ 言語 実装 ,全

GCC 4.8.1

2.4.1

評価 作成 .対象 各 配列 , GenBank

注釈 遺伝子, Blumer 部分文字列 Purity

上 並 表示 ,配列領域 機能 Purity 値間 関連 視覚的 理解 試

.図 2.2 見方 説明 .作成

中 4 2.3 2.4 2.5 2.6

1 本 配列 示 ,各行 3 「 」 構成

. 1 目 GenBank 記載 注釈 情報 示 .

(18)

表 2.1: 実験 用 細菌 配列 一覧.各 配列 , GenBank

ID ,長 , G + C 含量 生物名 記載 .幅広 門 様々 長 , G + C

含量 含 選択 .

ID G + C

(%)

生物名

NC_000911.1 3,573,470 47.7 Synechocystis sp. PCC 6803

NC_000913.2 4,639,675 50.8 Escherichia coli str. K-12 substr. MG1655 NC_000964.3 4,215,606 43.5 Bacillus subtilis subsp. subtilis str. 168 NC_002695.1 5,498,450 50.5 Escherichia coli O157:H7 str. Sakai NC_002946.2 2,153,922 52.7 Neisseria gonorrhoeae FA 1090 NC_003228.3 5,205,140 43.2 Bacteroides fragilis NCTC 9343 NC_007517.1 3,997,420 59.5 Geobacter metallireducens GS-15 NC_008261.1 3,256,683 28.4 Clostridium perfringens ATCC 13124

NC_010572.1 8,545,929 72.2 Streptomyces griseus subsp. griseus NBRC 13350 NC_012973.1 1,576,758 39.2 Helicobacter pylori B38

NC_015431.1 1,153,998 23.8 Mycoplasma mycoides subsp. capri LC str. 95010

注釈 付 全 領域 機能 種類 7 分類 .分類

注釈 特定 特徴修飾子 (feature qualifier) 値 (qualifier value) ,特定 機能 示

言葉 含 判断 基準 .例 領域 注釈 ,単語 “phage”

修飾子値 部分 含 “function” “product” “note” 特徴修飾

子 場合,「 」 分類 . 分類規則 説明 省略 .次 ,

分類 注釈付 領域 分類 色 付 上 表示 .

赤色, Rhs (rearrangement hot spot element [11, 19]) 橙色, 黄 色, ( ) 緑色, tRNA 水色, rRNA 青色

分類 注釈付 領域 上 表示 .「 他」以外 6

,水平伝播遺伝子 , 挿入 関連 考 .

2 ,重 l-mers 「局所 G + C 含量」 .局

所 G + C 含量 , l-mers 構成要素 “g” “c” 占 割合 ,水

平伝播遺伝子 特徴付 使 [14] ,参考 表示 . ,

l = 1000 ,各 l-mer G + C 含量 色付 ,最

(19)

NC_000911.1 NC_000913.2 NC_000964.3 NC_002695.1

NC_002946.2 NC_003228.3 NC_007517.1 NC_008261.1

NC_010572.1 NC_012973.1 NC_015431.1

1e+02 1e+04 1e+06

1e+02 1e+04 1e+06

1e+02 1e+04 1e+06

0.2 0.4 0.6 0.8 0.2 0.4 0.6 0.8 0.2 0.4 0.6 0.8 Purity threshold

Number of Patterns

図 2.1: 閾値以上 Purity 部分文字列 変化.横軸 Purity 閾値,

縦軸 閾値以上 Purity 値 部分文字列 数 対数 .

大値 1 l-mer 赤色 ,最低値 0 l-mer 緑色 示 色付

凡例 下部 示 .

最後 3 目 , Blumer 部分文字列 対応 領域 対 ,部分文字列

「 Purity 値」 示 Purity G + C 含量 同 0 1 実数 ,同

様 色付 行 . ,最大値 (1) 場合 赤色 ,最低値 (0) 場合

緑色 示 .図 2.3 ,表示 Blumer 部分文字列 Purity 値 最低値 閾

値 設 ,全 Blumer 部分文字列 表示 以外 Purity

0 . 5 以上 Blumer 部分文字列 表示 .

Purity 尺度 RNA , Rhs 分類 領域 非

常 上手 捉 分 . 機能的領域 通

常多数 Blumer 部分文字列 集団的 被覆 少数 Blumer 部分文

字列 領域全体 被覆 稀 .全体 覆 尽 程 ,

領域 高 Purity 値 Blumer 部分文字列 集 .

対照的 ,局所 G + C 含量 水平伝播遺伝子 領域 程強

(20)

0 30000 60000 90000 120000

300000 330000 360000 390000 420000

Annotations (1st track)

Local G+C % (2nd track) Found paerns (3rd track) Positions

Mobile elements Rhs

Phage

Transposon tRNA rRNA Coloring of functional regions:

図 2.2: 見方.左図 一部 示 , 構造 説

明 .最上段 機能的領域 色 付 示 .色 機能

対応 右図 示 .

分 . Purity 尺度 配列 同様 ,水

平伝播遺伝子 領域 対応 Blumer 部分文字列 高 Purity 与 ,値 変異 領域 特有 .一方,局所 G + C 含量 機能性 関係 変異 ,水平伝播

遺伝子 特徴付 .

Blumer 部分文字列 水平伝播遺伝子 関連性 2.3

取 . 全 Blumer 部分文字列 Purity 値 示 . 3

目 全体的 通 色 , Blumer 部分文字列 配列

全体 渡 存在 意味 , Blumer 部分文字列 水平伝播遺伝子

特有 分 . ,大部分 Blumer 部分文字列 緑色 ,

Blumer 部分文字列 必 高 Purity 値 分 .従 ,

特 Purity 尺度 水平伝播遺伝子 捉

2.4.2 機能別 評価

本節 , 示 Purity 値 領域 特定 機能

関連性 ,定量的 評価 . , GenBank 注釈 各領域

, 領域 最 被覆 最適 Blumer 部分文字列 求 .

後,対応付 注釈付 領域 Blumer 部分文字列 組全 ,領域 分類 部分文字列 Purity 関連 分析 ,分類 説明 7 種類 用 .

領域 対 部分文字列 被覆 良 評価 ,情報検索 分野

利用 F 尺度 配列 T ∈ Σ

, 機能的領域

r = ⟨ i , j ⟩ ∈ sub(T ) 対 , 配列 T 部分文字列 x F 値 F (x , r ) 次

(21)

図 2.3: E. coli K-12 [GenBank:NC_000913] .全 Blumer 部 分 文 字 列 Purity 値 従 表 示 .

(22)

Purity�/�Local�G+C�(%) 0.000.050.100.150.200.250.300.350.400.450.500.550.600.650.700.750.800.850.900.951.00

04000080000120000160000200000240000280000320000360000 400000440000480000520000560000600000640000680000720000760000 80000084000088000092000096000010000001040000108000011200001160000 1200000124000012800001320000136000014000001440000148000015200001560000 1600000164000016800001720000176000018000001840000188000019200001960000 2000000204000020800002120000216000022000002240000228000023200002360000 2400000244000024800002520000256000026000002640000268000027200002760000 2800000284000028800002920000296000030000003040000308000031200003160000 3200000324000032800003320000336000034000003440000348000035200003560000 3600000364000036800003720000376000038000003840000388000039200003960000 4000000404000040800004120000416000042000004240000428000043200004360000 4400000444000044800004520000456000046000004640000468000047200004760000 4800000484000048800004920000496000050000005040000508000051200005160000 520000052400005280000532000053600005400000544000054800005520000

図 2.4: E. coli O157:H7 [GenBank:NC_002695] . Purity 値 0.5 以 上 Blumer 部 分 文 字 列 表 示 .

(23)

Purity�/�Local�G+C�(%) 0.000.050.100.150.200.250.300.350.400.450.500.550.600.650.700.750.800.850.900.951.00

0300006000090000120000150000180000210000240000270000 300000330000360000390000420000450000480000510000540000570000 600000630000660000690000720000750000780000810000840000870000 900000930000960000990000102000010500001080000111000011400001170000 1200000123000012600001290000132000013500001380000141000014400001470000 1500000153000015600001590000162000016500001680000171000017400001770000 1800000183000018600001890000192000019500001980000201000020400002070000 2100000213000021600002190000222000022500002280000231000023400002370000 2400000243000024600002490000252000025500002580000261000026400002670000 2700000273000027600002790000282000028500002880000291000029400002970000 3000000303000030600003090000312000031500003180000321000032400003270000 3300000333000033600003390000342000034500003480000351000035400003570000 3600000363000036600003690000372000037500003780000381000038400003870000 39000003930000396000039900004020000

図 2.5: G. metallir educens [GenBank:NC_007517] . Purity 値 0.5 以 上 Blumer 部 分 文 字 列 表 示 .

(24)

Purity�/�Local�G+C�(%) 0.000.050.100.150.200.250.300.350.400.450.500.550.600.650.700.750.800.850.900.951.00

080001600024000320004000048000560006400072000 800008800096000104000112000120000128000136000144000152000 160000168000176000184000192000200000208000216000224000232000 240000248000256000264000272000280000288000296000304000312000 320000328000336000344000352000360000368000376000384000392000 400000408000416000424000432000440000448000456000464000472000 480000488000496000504000512000520000528000536000544000552000 560000568000576000584000592000600000608000616000624000632000 640000648000656000664000672000680000688000696000704000712000 720000728000736000744000752000760000768000776000784000792000 800000808000816000824000832000840000848000856000864000872000 880000888000896000904000912000920000928000936000944000952000 96000096800097600098400099200010000001008000101600010240001032000 1040000104800010560001064000107200010800001088000109600011040001112000 112000011280001136000114400011520001160000

図 2.6: M. mycoides [GenBank:NC_015431] . Purity 値 0.5 以上 Blumer 部分文字列 表示 .

(25)

定義 . F( x , r ) = max

{ H

( overlap(i , j ⟩, ⟨ k , l ⟩ )

ji , overlap(i , j ⟩, ⟨ k , l ⟩ ) lk

)

∀⟨ k , l ⟩ ∈ pos

T

( x) }

H(p , q) = 2pq p + q overlap(a , b ⟩, ⟨ c , d ⟩ ) =

{ min(b , d)c + 1 (a ≤ cb) min(b , d)a + 1 (c ≤ ad)

.簡単 言 , F 値 部分文字列 x 領域 r 重 大 大 程高 値 .極端 場合,例 x r 一致 場合 F 値 1 , x r

場合 0

F 値 分布 図 2.7 示 .図 F 値 ,対象 11 本

配列 機能的領域 最適 Blumer 部分文字列 組全 総合 作成

. 横軸 F 値,縦軸 範囲 F 領域 部分文字列

数 対応 .領域 最適 Blumer 部分文字列 求 拘 ,図

上手 機能的領域 被覆 Blumer 部分文字列 数多 存在 分

. rRNA ,領域 上手 Blumer 部分文字列 存在

多 , 0 . 5 以上 F 値 84% , 0 . 87 以上 F 値 半数

Purity 値 領域 機能 関連性 明 目的 ,

Blumer 部分文字列 単一 注釈付 領域 性質 十分 反映 F

組 考 . ,領域 部分文字列 組 F 値 0 . 5 以上

0 . 5 未満 分 .

図 2.8 2.9 Purity F

示 . 横軸 Purity 値,縦軸 範囲 Purity

値 領域 部分文字列 組 数 対応 .図 2.8 ,水平伝播遺伝子 対応

Blumer 部分文字列 Purity 他」 領域 対応

部分文字列 大部分 低 Purity 値 分 .他方,図 2.9 機能 分類

, 全 Blumer 部分文字列 低 Purity 値

分 .

観察 ,次 2 仮説 立 . 「水平伝播遺伝子 対応 Blumer 部分文

字列 場合 , F 値 Purity 値 間 正 相関 」, 「 他 機能的領域 対

(26)

Others rRNA Transposon

tRNA Mobile Element Phage

Rhs 0

10000 20000 30000

0 10 20 30 40

0 20 40 60

0 50 100 150 200

0 10 20 30 40

0 50 100 150 200 250

0 1 2 3 4 5

0.00 0.25 0.50 0.75 1.00

F−measure

Number of Substrings

図 2.7: F 値 .機能的領域 最適 Blumer 部分文字列 組全

,機能 各分類 全対象 配列 渡 示 .横軸

F 値,縦軸 範囲 F 領域 部分文字列 組 数 対応

Others rRNA Transposon

tRNA Mobile Element Phage

Rhs 0

200 400 600 800

0 10 20 30

0 20 40

0 30 60 90

0 5 10

0 10 20 30

0.0 0.5 1.0 1.5 2.0

0.00 0.25 0.50 0.75 1.00

Purity

Number of Substrings

図 2.8: F 値 高 Purity 値 .高 F 値 (0 . 5 以上 ) 機能

的領域 最適 Blumer 部分文字列 組全 ,機能 各分類

対象 配列 渡 示 .横軸 Purity 値,縦軸 範囲

Purity 値 領域 部分文字列 組 数 対応 .

(27)

Others rRNA Transposon

tRNA Mobile Element Phage

Rhs 0

5000 10000 15000 20000

0 2 4 6

0 10 20 30 40

0 20 40 60

0.0 2.5 5.0 7.5 10.0

0 50 100 150 200

0 1 2 3 4

0.00 0.25 0.50 0.75 1.00

Purity

Number of Substrings

図 2.9: F Purity .低 F (0 . 5 以下 ) 機能

的領域 最適 Blumer 部分文字列 組全 ,機能 各分類 全

対象 配列 渡 示 .横軸 Purity 値,縦軸 範囲

Purity 領域 部分文字列 組 数 対応

応 Blumer 部分文字列 場合 , F 値 Purity 値 間 相関 」. 仮

説 順位相関係数 定式化 ,統計的検定 確 .有意水準 1% .水平伝播遺伝子 場合 相関係数 0 . 58 0 . 01 未満 p 値 得 . 従 水平伝播遺伝子 場合 , F 値 Purity 値 間 正 相関 言 . 他方「 他」 機能的領域 場合 ,相関係数 − 0 . 18 p 値 1 得 .従 , 水平伝播遺伝子以外 機能的領域 , F Purity 値 間 相関

.以上 議論 , Purity 尺度 特 水平伝播遺伝子 特徴付 ,

機能性 十分 反映 ,水平伝播遺伝子 機能性 有 部分文字列 ,高

Purity 結論

2.4.3 水平伝播遺伝子検出性能

本節 Purity 尺度 水平伝播遺伝子 検出 試 場合 性能 評

価 . F 0 . 5 以上 ,注釈付 領域 Blumer 部分文字列 組全

Blumer 部分文字列 Purity 値 ,対応 領域 水平伝播遺伝子 分類

領域 判定 . 単純 Purity 値 閾値 0 . 5 以上

(28)

表 2.2: 水平伝播遺伝子 検出性能 評価結果. Purity 値 水平伝播遺伝子,

以外 判定 Blumer 部分文字列 F 0 . 5 以上

能的領域 Blumer 部分文字列 組 考慮 .

水平伝播遺伝子 他

Purity ≥ 0 . 5 734 1035

Purity < 0 . 5 286 2209

水平伝播遺伝子 判定 方法 採 .表 2.2 結果 .水平 伝播遺伝子 判定 内,実際 水平伝播遺伝子 割合 (false discovery rate) 1035 / (734 + 1035) = 0 . 59 比較的高 .一方 ,水平伝播遺伝子 多 (734 / (734 + 286) = 0 . 72) 上手 検出 ,水平伝播遺伝子 領域 過半

数 (2209 / (1035 + 2209) = 0 . 69) 判定

2.5 結論

本章 , Purity 尺度 配列 対 有用性 広 調査 .興味深

, Purity 水平伝播遺伝子 複数 遺伝子 顕著 関係

, 視覚的 示 . Purity 尺度 水平伝播遺伝子 総合的

特徴付 ,他方 G + C 含量 異 傾向 見 . 定量的 評価 結果, 配列 領域 水平伝播遺伝子 機能性 Purity

有意 相関 示 . , Purity 尺度 水平伝播遺伝子 検出 用

場合 , 70% 程度 注釈付 領域 正 判定 分 .一方 , false

discovery rate 0 . 59

以上 結果 Purity 尺度 水平伝播遺伝子 複数 遺伝子 総称的 特徴付

示唆 .従 , Purity 尺度 水平伝播遺伝子 検出

有用 可能性 意味 言 .

(29)

3

文字

Purity 尺度 改良

3.1 背景

前章 配列 対 Purity 尺度 適用 扱 ,他 文字列 適用

考 .例 Yamada [44] 配列 ,日本語

対 実験 行 .彼 対象 模 人工

的 挿入 不自然 含 ,実際 実験 結果, Purity 尺度

部分 特異性 捉 報告 . 以外 「明治大学」 大学

名前 捉 方向 . 日本語 記述 ,単

語 境界 明 . 拘 ,形態素解析 単語分割 処

理 行 , Blumer 同値関係 [4] Purity 尺度 適当 抽出

興味深 . Purity 尺度 有用

可能性 .

文字列 多 , 4 種類程度 記号

配列 異 ,多 記号 多 .例 酸配列

20 種類 ,自然言語 記号 使

.記号 数 多 特定 情報 短 単位 文字列 表現

.例 配列 個々 遺伝子 数百 超 数 塩基 普通

,例 英語 単語 単位 短 . ,

Purity 尺度 配列以外 広範 文字列 適用 場合,部分文字列 長短 影響

受 部分文字列 評価 行 求 .

(30)

表 3.1: Purity 尺度 単語列 ( ) 評価例. Brown 含

“News” 文書 Purity .最

Purity 値 上位 10 位 Purity 値 示 .

News Purity 値

0.666667 outcom in 0.666667 tatter remain 0.666667 essex counti 0.666667 36 year 0.666667 portion of 0.666667 lafayett squar 0.666667 rescind the 0.666667 greec and 0.666667 deadlin for 0.666667 didn t

, Purity 尺度 短 部分文字列 上手 扱 問題

. Purity 尺度 計算 評価値 有理数 ,分母 対象

部分文字列 長 依存 決 . ,短 文字列 特定 評価値 集中 易 ,評価 差別化 行 .例 ,表 3.1 単語 文字 見 文字列

「単語列」 対 Purity 適用 結果 .表 Purity 値順 上位 10 部分文字列 示 , 10 個全 Purity 2 / 3 = 0 . 666 · · ·

分 .実際 上位 136 件 対 同 Purity 値 与 ,

単語列 互 区別 .

本研究 , 問題 克服 新 尺度 Atomicity 尺度 提案 .以下

,第 2.3.1 節 Atomicity 尺度 定義 . 後,第 3.3 節 実験 説明

後,最後 結論 述 .

(31)

3.2 手法

Purity ,頻度 同一

,頻度 異 場合 , 近 考慮 値 多様性

考 .例 入力文字列 部分文字列 x 評価 考 .

x 部分文字列 y 総出現回数 10 回 内 9 x 一部 出現 x 部分文字列 z 総出現回数 5 回 内 1 回 x 一部 出現 . 場合,前者 y 方 x 強 関連 考 , Purity 尺度

場合 Purity 貢献 0

本研究 提案 Atomicity 尺度 ,先 例 8 / 10 , 1 / 5 頻度 比 関連度

見 ,評価値 計算 関連度 考慮 , 違 細

表現 .具体的 次 定義 .

定義 2 入力文字列 T , 部分文字列 x = T [i : j] 与 , Tx

Atomicity 値 以下 定義

atomicity

T

(x) =

 ∑

⟨k,l⟩∈sub(x)

freq

T

( x) freq

T

(x[k : l])

 / | sub(x ) |

定義 ,任意 x 対 Purity 値 Atomicity 値 0 < purity

T

( x)

atomicity

T

(x) ≤ 1 関係

3.3 実験

本節 2 対 異 方法 Purity 尺度 Atomicity

尺度 適用 , 尺度 対 有効性 吟味 .一

20 Newsgroups 呼 , 中 連続 部分

( ) 対 Purity 尺度 適用 . 一 Brown 呼

, 中 単語列 ( ) Purity 尺度 適用

(32)

3.3.1 20 Newsgroups

20 Newsgroups 投稿 収集 , 20 異

, 1000 投稿 含 投稿 ,

記事 比較的 表現 多 , 片 多様

混在 ,未知語 多 含 言 .

本 用 実験 目的 , 含 多様 表現 対

Purity 尺度・ Atomicity 尺度 付与 調

含 全投稿 1 入力文字列 ,今回 特

部分文字列 ( ) 尺度 評価対象 .

20 Newsgroups 対 ,各投稿 部分 削除 ,全 投稿

1 連結 .次 連結 抽出 . 連続

2 文字以上 列 取 出 .

結果

表 3.2 切 出 Purity 尺度 Atomicity 尺度 評価 結果

一部 示 .与 評価値 高 順 上位 15 件,下位 15 .長 末尾 一部省略 表示 .

切 出 見 , “aammmaaaazzzzzziinnnnggggg”

“hahahahaha” 代表 , 表現 多 分 . ,

系 , 名 中 変数名,

添付 由来 文字列 ,通常 単語 性質 異 多 取 出

次 Purity 値・ Atomicity 上位 観察 .両尺

度 ,比較的長 一見単語 比較的長 文字列 大 値 与

.実際 “wholesomegodfearingbiblebelievingtraditionalfamilyvalues” ,投稿 者 単語 組 合 作 造語 含 .他方,下位

見 , Purity 尺度 場合 ,反復的 文字列 比較的最下位 集中 ,

Atomicity 尺度 場合 広範囲 分散 .表中 示 上位

部分 ,両尺度 単語 思 文字列 分布 .

,大 傾向 , Purity Atomicity 部分文字列 通常

(33)

表 3.2: Purity 尺 度 ( 左 側 ) ・ Atomicity 尺 度 ( 右 側 ) 評 価 結 果 .高 評 価 値 上 位 , 低 評価値 下位 15 個表示 .長 後半部分 省略 示 .

Purity値Atomicity値 0.881brownbladerunnersugarcubeselectroni...0.892brownbladerunnersugarcubeselectronicblayloc... 0.844plutoniumsurveillanceterroristciaas...0.851costellobeatlesspinaltapfawltytowersmuttsav... 0.842costellobeatlesspinaltapfawltytower...0.846plutoniumsurveillanceterroristciaassassinationira... 0.827prxnpueuszqeiiusmcvcrcgnwbavrxfja0.836prxnpueuszqeiiusmcvcrcgnwbavrxfja 0.821wholesomegodfearingbiblebelievingtr...0.830pnaqevxgqaoxrviaggvpvrdlwzchbnqo 0.818pnaqevxgqaoxrviaggvpvrdlwzchbnqo0.827evyynlzbboryvhfszyyhyheqqqilhek 0.817evyynlzbboryvhfszyyhyheqqqilhek0.825wholesomegodfearingbiblebelievingtraditiona... 0.805gasbpxcdhsrhpmebpjklyikuijzat0.813gasbpxcdhsrhpmebpjklyikuijzat 0.791hrrrtnaiwyjmfaqxpeyrodvfdxc0.806abcdefghijklmnopqrstuvwxyz 0.779iainmbanksneworderheathersbatmanpjorourke0.805iainmbanksneworderheathersbatmanpjorourke 0.777gestaltpowermanagerattributesfoodspreadproduct0.803vxxwtpaqebkgqasgoxctzjdzmzurfm 0.776vxxwtpaqebkgqasgoxctzjdzmzurfm0.799hrrrtnaiwyjmfaqxpeyrodvfdxc 0.767moorcockpratchettdenislearydelasoulu0.789mqcnaitfksqaaaeeakceejwi 0.764eocclpkstavebtdcligqhnzowc0.788moorcockpratchettdenislearydelasoulu 0.763tyyobpbtlqgsurgkgdzpxwfh0.785gestaltpowermanagerattributesfoodspreadproduct 0.008ttttttttttttttt0.027compressions 0.008hahahahahahahahahahaha0.027nominates 0.007halesshavethewhalesshavethewhalesshavethewhal...0.027hmmmmmmmmmmmmmmmmmmmmmmmmmm... 0.007vethewhalesshavethewhalesshavethewhalesshavet...0.027regenerates 0.007xxxxxxxxxxxxxxxxx0.026inversions 0.006hmmmmmmmmmmmmmmmmmmmmmm...0.026impresses 0.006immmmmmmmmmmmmmmmmmmmmm...0.026deflections 0.005jjjjjjjjjjjjjjjjjjj0.025exterminations 0.004vvvvvvvvvvvvvvvvvvvvv0.025rationals 0.003oooooooooooooooooooooooooo0.023emulations 0.002esshavethewhalesshavethewhalesshave...0.023constantinov 0.002shavethewhalesshavethewhalesshaveth...0.022separations 0.002wmwmwmwmwmwmwmwmwmwmwmwmwmw...0.021groundings 0.001vvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvv...0.018vvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvv... <0.001vvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvvv...0.018oppositions

(34)

単語 大 異 文字列 ,逆 値 小 部分文字列 単語 文字列 言 . 両尺度 評価対象 部分文字列 組成, 構成 , 小 部分文字列 頻度 考慮 考 .頻繁 出現 文字 組

合 言語 依存 考 , 文字 組 部分

文字列 小 評価値 与 .逆 ,滅多 出現 文字 組 合 用

部分文字列,例 表現 文字列 外来語,合成

語 大 値 与 .

以上 観察 定量的 確認 .具体的 ,英語 単語辞書 用 評価対象

「単語」 「単語 類似 文字列」 「 以外」 分類 ,

Purity 値・ Atomicity 値 分布 毎 分析 . 単語集合

MySpell 1 英語辞書 単語,

英語 Wikitionary 2 登録 単語 併 .以下 単語 集合

単 辞書 呼 .

分類 以下 手順 行 .

1. 全 内,辞書 含 全 「 word1 」 分類

2. 1 分類 内,語幹 辞書 単語 語幹

同一 「 word2 」 分類

3. 2 分類 内,辞書 含 単語 編集距離

3 以下 word3 分類

4. 3 分類 内,辞書 含 3 文字以上 単語 連接

「 word4 」 分類

5. 4 分類 others 」 分類

語幹 Snowball 3 計算 word1

word2 word3 単語 単語 類似 文字列

word4 others 合成 語 単語 文字列 .

図 3.1 , 3.2 , Purity 値 Atomicity 値 密度分布 ,

毎 示 .密度分布 密度推定 計算 .前述

, Purity 値 特定 値 偏 性質 , Atomicity 値 分布 滑

. 違 ,両者 大 同様 傾向 言 .

1http://code.google.com/a/apache-extras.org/p/ooo-myspell/

2http://en.wiktionary.org/wiki/Wiktionary:Main_Page 3http://snowball.tartarus.org/

(35)

0 5 10

0.00 0.25 0.50 0.75 1.00

purity

density

class words1 words2 words3 words4 others

図 3.1: Purity 値 分布.

単語 最 類似 文字列 word1 word2 word3 Purity 値・ Atomicity

低 値 偏 . ,残 2 ,低 値 与

,全体 比較的高 値 偏 ,先 観察 裏

付 言 . Purity Atomicity 値 偏 ,例 機械学習

不要 語 辞書 依 削除 応用 考 .

3.3.2 Brown

Brown 英語 , 15 ,様々

収集 含 . 本 ,単語 文字 考

文字列 「単語列」 扱 ,単語列 部分文字列 対 Purity 評価 調

. 配列 通常 英文 比 圧倒的 文字数 多 場合 相当 ,

場合 両尺度 振 舞 調査 . Brown

(36)

0 5 10

0.00 0.25 0.50 0.75 1.00

purity

density

class words1 words2 words3 words4 others

図 3.2: Atomicity 値 分布.

採用 ,文章 20 Newsgroups 対照的 比較的整 ,単語

不要 多様性 排除 . 前章 同様 ,単語列 部分文字列 内

Blumer 部分文字列 考 , 呼 .

15 1 連結 ,結果 15 入力 用意

個別 扱 .

結果

表 3.3 Brown 15 4 結果

. Atomicity 値順 上位 10 件 下位 10 件 示 .表 3.1 示

Purity 尺度 多数 同一 値 与 , 値

性質 表現 考 省略 . ,先 20 Newsgroups 場合

長 ( 構成 単語数 ) 圧倒的 短 , 対象

出現回数 2 回以上 限定 .

(37)

表 3.3: Atomicity 尺 度 評 価 結 果 . Bro wn 選 択 4 ,各 ,文 書 抽 出 Atomicity 尺 度 評 価 . Atomicity 値 上 位 下 位 , 10 個 示 .

NewsReviewsGovernmentRomance Atomicity値Atomicity値Atomicity値Atomicity値 1.000000puertorico1.000000catfishbend1.000000losangel1.000000hongkong 1.000000dolcvita1.000000wharfrat1.000000puertorico0.958333grattshafer 1.000000corpuschristi1.00000018esiecl1.000000dupont0.925926oclock 1.000000sterltownship1.000000sanchopanza1.000000amicicuria0.895833evadnamaeevan 1.000000pinardelrio1.000000olgamoiseyeva1.000000conscientiobjector0.888889waltperri 1.000000hardwicketter1.000000zealousvolunt1.000000nonresidalien0.888889signorraymond 1.000000duncanphyfe1.000000peewee0.973985regionofficinatlanta gaboston...

0.888889vshapeinlet 1.000000scottishrite1.000000teatray0.954545rhodeisland0.863636wetgrahamcracker 1.000000notrdame1.000000andreapalladio0.944444lanternslide0.857143mousichandler 1.000000hongkong0.944444sanfrancisco0.942529samrayburn0.857143sandiego 0.176417oneofa0.192778oneofit0.160240intheunitstateor0.166052hesaid“i 0.174724inthepresid0.192667itisthe0.159587oftheunitnation0.162456whichhehadbeen 0.174002tothefirst0.189765intheprogram0.154709partoftheunitstate0.160008anditwasnot 0.173955itwillbethe0.188133atthefirst0.154322departofthestate0.159077“illbe 0.170289totheun0.187400ofthe“0.146225oftheunitstateor0.157727thavetobe 0.164508presidoftheunivers0.187307withthemusic0.139310partofthenation0.155281said“im 0.163976hesaid“we0.184279andthemusic0.133474thegovernoftheunit stateofamericain 0.147193said“ill 0.162041chairmanofthere- publican

0.182640inthemusic0.126949ofthegovernofindia0.137401hesaid“im 0.155763hesaid“i0.182511isoneofthemost0.121070oftheunitstateand0.135393anditwasa 0.140840oneofthefirst0.165639oneofthegreat0.116950intheunitstateand0.132477isaid“i

表 2.1: 実験 用 細菌 配列 一覧.各 配列 , GenBank ID ,長 , G + C 含量 生物名 記載 .幅広 門 様々 長 , G + C 含量 含 選択 . ID 長 G + C (%) 生物名 NC_000911.1 3,573,470 47.7 Synechocystis sp
図 2.2: 見方.左図 一部 示 , 構造 説 明 .最上段 機能的領域 色 付 示 .色 機能 対応 右図 示 . 分 . Purity 尺度 配列 対 同様 ,水 平伝播遺伝子 領域 対応 Blumer 部分文字列 高 Purity 与 ,値 変異 領域 特有 .一方,局所 G + C 含量 機能性 関係 変異 ,水平伝播 遺伝子 特徴付 . Blumer 部分文字列 水平伝播遺伝子 間 強 関連性 無 図 2.3 読 取 . 全 Blumer 部分文字列 Purity 値 示 . 3 目 全体的 通
表 2.2: 水平伝播遺伝子 検出性能 評価結果. Purity 値 水平伝播遺伝子, 以外 判定 Blumer 部分文字列 数 示 . F 値 0 . 5 以上 機 能的領域 Blumer 部分文字列 組 考慮 . 水平伝播遺伝子 他 Purity ≥ 0
表 3.1: Purity 尺度 単語列 ( ) 評価例. Brown 含 “News” 文書 抜 出 , Purity 値 求 .最 高 Purity 値 上位 10 位 Purity 値 示 . News Purity 値 0.666667 outcom in 0.666667 tatter remain 0.666667 essex counti 0.666667 36 year 0.666667 portion of 0.666667 lafayett squar 0.666667 rescind

参照

関連したドキュメント

Kyoto University Research Information Repository https://repository.kulib.kyoto-u.ac.jp... A Self-archived

つまり、p 型の語が p 型の語を修飾するという関係になっている。しかし、p 型の語同士の Merge

事業区間の延長約 1.1km のうち、開削及びシールドトンネル構造が延長約 1.0km、擁壁構 造が延長約

建屋構造 鉄⾻造、鉄筋コンクリート、鋼板コンクリート等、遮蔽機能と⼗分な強度を有 する構造

参考第 1 表 中空断面構造物の整理結果(7 号炉 ※1 ) 構造物名称 構造概要 基礎形式 断面寸法

または異なる犯罪に携わるのか,の糸ならず,社会構造のある層はなぜに他