•H-DBAS -

•VaryGene

•(G-compass)

•(LEGENDA)

•(DNA Probe Locator)

•(PANDA)

•(M-tiss)

転写産物情報 15

遺伝子ファミリー 14

タンパク質相互作用 13

分子進化学的特徴 12

遺伝子発現プロファイル 11

遺伝子多型（SNP,マイクロサテライト等）

疾病との関連 9

立体構造 8

代謝経路 7

細胞内局在 6

機能ドメイン 5

タンパク質としての機能 4

機能性RNA 3

選択的スプライシング変異体 2

ヒト遺伝子の構造 1

分類 No.

複合検索システム

各viewer、サブDBへのハイパーリンク

データの

分類

項目選択

分類・選択された項目

H-InvDB

サブデータベース

•G-integra

•H-ANGEL

•Evola

•TOPO Viewer

•PPI view

•DiseaseInfo Viewer

•GTOP

サテライトデータベース

•H-DBAS

•VaryGene

•(G-compass)

•(LEGENDA)

•(DNA Probe Locator)

•(PANDA)

•(M-tiss)

転写産物情報 15

遺伝子ファミリー 14

タンパク質相互作用 13

分子進化学的特徴 12

遺伝子発現プロファイル 11

遺伝子多型（SNP,マイクロサテライト等）

疾病との関連 9

立体構造 8

代謝経路 7

細胞内局在 6

機能ドメイン 5

タンパク質としての機能 4

機能性RNA 3

選択的スプライシング変異体 2

ヒト遺伝子の構造 1

分類 No.

複合検索システム

各viewer、サブDBへのハイパーリンク

データの

分類

項目選択

分類・選択された項目

図 2.1.3.2-2 新ナビ/詳細検索システム(平成 19 年度版)の検索の流れ

新ナビ/詳細検索システムでは、あらかじめ想定したユーザーの調べたい観点が示されている(図 2.1.3.2-3)。これらのどれかを選択すると次の画面に遷移し、具体的で詳細な検索条件を指定することができる(図 2.1.3.2-4)。条件を指定する項目は、あまりに多岐にわたるため、大項目を左のメニューで選択して、大項目の選択モジュールを出したり削除したりすることができる。図 2.1.3.2-4 は 3 つの選択モジュールを表示させている場面である。

図 2.1.3.2-3 新ナビ/詳細検索システム(平成 19 年度版)の TOP 画面

図 2.1.3.2-4 新ナビ/詳細検索システム(平成 19 年度版)の条件指定画面

2007 年 12 月のリリース 5.0 の公開時には、 Web サービスを公開した (http://h-invitational.jp/hinv/hws/doc/index_jp.html)。これは、プログラムから H-InvDB の検索やデータ取得を実行できるサービスである。この実現によって、世界の任意の WWW サイトで、

H-InvDB へのリンクでなく H-InvDB のデータをリアルタイムに組み込むことがすでに可能になった。これにより本データベースがより広く利用されることを期待している。

２．１．４目標の達成について

モデル事業における 3 つの目標、「月平均アクセス数：3 年間で倍増」、「月平均参照ページ数：

3 年間で倍増」、「3～4 万個と言われるヒト全遺伝子のデータベースへの格納」を達成するために研究開発を進めるため、テーマ 1 では下記 4 つの具体的な数値目標を達成することを目標とした。

•

ヒト全遺伝子の同定

•

ヒト全遺伝子データベースの更新

•

その他のアノテーション項目の充実

•

月平均アクセス数の倍増

各数値目標ごとの目標達成について詳細を以下に記す。

２．１．４．１ヒト全遺伝子の同定

【数値目標】ヒト全遺伝子（約 4 万個）を同定

最終的に約 4 万個と想定されたヒト全遺伝子を同定し、多種のアノテーションを付与してデータベースに格納することを目標とした。ここでの遺伝子は主に、タンパク質をコードした遺伝子、および同じ遺伝子座の相補鎖（アンチセンス）であると定義し、ヒト全遺伝子数を同定するため下記配列データ拡張およびアノテーション改良を行った。

(1)配列データ拡張

①完全長 cDNA→ヒト全 mRNA への拡張

・プロジェクト開始時にはヒト完全長 cDNA 配列のみであったアノテーション対象配列を、

国際 DNA databank（DDBJ/EMBL/GenBank）に登録されているヒトの全ての mRNA 配列へ拡張した。また、毎年最新のデータを取得してアノテーションを更新した。配列数の詳細を表 2.1.4.1-1 に示す。

②GPCR 遺伝子配列の拡張

・装薬ターゲットとして特に注目されている GPCR 遺伝子については、発現量が低いなどの理由により転写産物データの入手・アノテーションが困難であった。そこで、既存のヒト GPCR 遺伝子が登録されているデータベースを 5 件調査し、cdna.org, SEVENS, GPCRDB database より GPCR 遺伝子配列を追加して取得した。

・ H-InvDB_5.0 構築時のアノテーションでは、2306 件の追加配列を基に、363 件の新規遺伝子を同定した。このうち、36 件については、RefSeq や Ensembl にも含まれない H-InvDB ユニークな遺伝子であった。

・ EST 配列、CAGE タグのエビデンスでサポートされる 2 つの新たな遺伝子モデル予測手法を開発し、新規予測遺伝子候補(pHIT, eHIT)の探索を行った。

・ H-InvDB_5.0 構築時のアノテーションでは、1,897 件の pHIT、899 件の eHIT 予測遺伝子を基に、899 件の新規遺伝子座を同定した。

(2)アノテーション改良

①)配列のオリエンテーションの判定

・国際 DNA databank（DDBJ/EMBL/GenBank）に登録されている塩基配列は、配列決定者が登録するシステムであり、実験操作上オリエンテーションが誤って登録されていることがある。この問題を解決するため、スプライスサイトのパターンと polyA

･polyA シグナル、既知タンパク質とのアラインメントの方向等の情報より、塩基配列のオリエンテーションの修正を行った。

・ H-InvDB_5.0 では、3,873 件の遺伝子座に属する 4,473 件の配列についてオリエンテーションの修正を行い、より正しくヒト遺伝子座を定義することができた。

②Readthrough 配列判定

・同じく配列決定の実験操作上、ストップコドンが読み飛ばされ複数の遺伝子由来の配列が単一配列として登録される、Readthrough と呼ばれる配列が誤って登録されていることがある。この問題を解決するため、遺伝子構造や既知タンパク質との相同性パターンの情報より、Readthrough 配列の同定を行った。

・ H-InvDB_5.0 では、153 件の遺伝子座に属する 196 件の配列について Readthrough 判定を行い、より正しくヒト遺伝子座を定義することができた。

【目標の達成】

プロジェクト開始時点（H-InvDB_1.0）では、21,037 件であった H-InvDB のヒト遺伝子数は、プロジェクト最終年度（Ｈ19）に公開した H-InvDB_5.0 では、36,073 件となり、実質的に目標を達成することができた。公開データが 4 万件に到達しなかったことは信頼性の高いヒﾄ遺伝子の情報のみに限定したためであり、結果的にはユーザにとってのメリットが大きくなかったと考えられる。H-InvDB におけるヒト遺伝子数の推移を以下に示す。

表 2.1.4.1-1 H-InvDB におけるヒト転写産物数および遺伝子数

ヒト転写産物数ヒト遺伝子数 H-InvDB 公開日

HIT HIX

PJ 開始時 1.0 2003/4/20 41,118 21,037

H17 年度 2.0 2005/5/31 56,419 25,585 H17 年度 3.0 2006/3/31 167,992 35,005 H18 年度 4.0 2007/3/28 175,542 34,701

Ｈ19 年度 5.0 2007/12/26 187,156 36,073

２．１．４．２ヒト全遺伝子データベースの更新

【数値目標】ヒト全遺伝子データベースのデータの更新を年に 4 回実施

【目標の達成】

ヒト全遺伝子データベースのデータの更新は年に 4 回実施した。このうち年に 1 回はヒト全遺伝子のアノテーション情報を再解析することによって、全データの更新を行い、残りの 2 回については一部のアノテーション項目の追加や精度の向上、外部データベースとの相互リンクの修正などの更新として実施した。

各年度に実施したメジャー、マイナー更新については下記に示す。

表 2.1.4.2-1 H-InvDB データベースの更新

２．１．４．３その他アノテーション項目の充実

【数値目標】新規アノテーション項目として 15 項目追加

新規のアノテーション項目として 1 年ごとに 5 項目、3 年間に合計 15 項目（遺伝子構造に関する項目、スプライシング変異体に関する項目、タンパク質機能・構造関連の項目、遺伝子発現関連の項目、多様性と分子進化関連の項目、生体分子相互作用についての項目、遺伝子翻訳メカニズムに関する項目）追加する事を目標とした。

【目標の達成】

3 年間で合計 22 項目の新規アノテーション項目を追加した。

追加したアノテーション項目については表 2.1.4.3-1 に示す。

表 2.1.4.3-1 H-InvDB における新規アノテーション項目

No. H-InvDB 新規/拡張アノテーション項目区分テーマ

1 3.0 ・偽遺伝子アノテーション公開遺伝子機能・構造 1

2 3.0

・新規カテゴリー（Category VI Hypothetical short protein）公開

遺伝子機能・構造 1

3 3.0 ・アダプター配列情報公開遺伝子機能・構造 1

4 H17 年度

3.0 ・スプライシングパターン情報公開スプライシング 1

5 3.8 ・PPI view (タンパク質間相互作用情報)公開相互作用 3

6 4.0

・新規 ID としてヒト遺伝子タンパク質に対する H-Invitational protein ID (HIP ID)を公開

遺伝子機能・構造 1

7 4.0

・遺伝子ファミリーのアノテーション (TCR, Ig, MHC, Olfactory receptors)公開

遺伝子機能・構造 1

8 4.0 ・配列クオリティー情報(NMD 判定）遺伝子機能・構造 1

9 4.0 ・配列クオリティー情報(Readthrough 判定）遺伝子機能・構造 1

10 4.0 ・配列クオリティー情報(Reverse orientation 判定）遺伝子機能・構造 1

11 4.0 ・マイクロサテライトデータ（H-GOLD）公開多型 2

12 4.0 ・G-integra 及び Evola で生物種増加（+8 で 12 種）分子進化 1、3

13 H18 年度

4.0 ・ゲノムからの予測遺伝子公開(G-integra) 遺伝子機能・構造 1

14 4.6

・Probe 対応情報公開 (DNA チップ研究所、アフィメトリクス、アジレント）

遺伝子発現 3

15 5.0

・新規 ID:ヒト遺伝子ファミリー・グループに対する H-Invitational gene family/group ID (HIF ID)公開

遺伝子機能・構造・

分子進化

1、3

16 5.0 ・予測遺伝子アノテーション公開(eHIT, pHIT) 遺伝子機能・構造 1

17 5.0 ・配列クオリティー情報（Truncation 判定）遺伝子機能・構造 1

18 5.0 ・配列クオリティー情報（Kozak 配列）遺伝子機能・構造 1

19 5.0 ・アンチセンス遺伝子座情報遺伝子機能・構造 1

20 5.0 ・機能性 RNA アノテーション情報拡張遺伝子機能・構造 1

21 5.0 ・タンパク質間相互作用（PPI）情報拡張相互作用 3

22 H19 年度

5.0 ・G-integra 及び Evola で生物種増加（+2 で 14 種）分子進化 1、3

２．１．４．４月平均アクセス数

本事業において、2 つの達成目標があるが一つはアクセス数に関するものである。月平均の利用者数と参照ページ数を事業が終了時に当初の 2 倍にする、というものである(図 2.1.4.4-1)。

図 2.1.4.4-1

この目標達成のためもあり、H-InvDB 本体のアクセス数を解析している。フリーソフト「AWStats」

(ver. 6.6)を使用し、訪問者数、訪問数、ページ数、件数、転送容量を解析した。ただし、60 分以内で同一アドレスからのアクセスは同じユーザーとみなして、カウントした。ミラーサーバーでも同様の解析をしているが、本節の結果には含めていない。

結果としては、各年度とも目標を達成した(図 2.1.4.4-2)。ただし、平成 19 年度（2007 年度）は 3 月の結果が出ていないため途中の結果である。

図 2.1.4.4.-2 各年度の月平均利用状況。カッコ内は 2004 年度基準値との比。

上記の結果は、ロボットからのアクセスも含めた生データの結果である。ロボットからのアクセスは人間のユーザーからのアクセスではないが、当初の目標設定の際にそのように決まっていたた

2005年度利用者 52,604 （2.3倍）参照ページ 617,798 （1.5倍）

2006年度利用者 38,014 （1.7倍）参照ページ 784,330 （2.0倍）

2007年度利用者 58,087 （2.6倍）参照ページ 947,396 （2.4倍）

結果

（2007年度は2008年1月時点まで、10ヶ月分）

2005年度利用者 52,604 （2.3倍）参照ページ 617,798 （1.5倍）

2006年度利用者 38,014 （1.7倍）参照ページ 784,330 （2.0倍）

2007年度利用者 58,087 （2.6倍）参照ページ 947,396 （2.4倍）

結果

（2007年度は2008年1月時点まで、10ヶ月分）

2005 年度利用者 29,120 （1.3倍）参照ページ 521,300 （ 1.3倍）

2006 年度利用者 35,840 （1.6倍）参照ページ 641,600 （ 1.6倍）

2007 年度利用者 44,800 （2.0倍）参照ページ 802,000 （ 2.0倍）

月平均の利用者数と参照ページ数を

「3 年後に 2 倍」にする

200 4年度基準値: 利用者 22,400 、参照ページ 401,000 として、以下を目標数値とする

2005 年度利用者 29,120 （1.3倍）参照ページ 521,300 （ 1.3倍）

2006 年度利用者 35,840 （1.6倍）参照ページ 641,600 （ 1.6倍）

2007 年度利用者 44,800 （2.0倍）参照ページ 802,000 （ 2.0倍）

月平均の利用者を

「

200 4年度基準値: 利用者 22,400 、参照ページ 401,000 として、以下を目標数値とする

目標

ドキュメント内 <4D F736F F D D83808FEE95F1939D8D87504A8E968BC695F18D908F915F8E968CE3955D89BF97702E646F63> (ページ 70-125)

•H-DBAS

•VaryGene

•(G-compass)

•(LEGENDA)

•(DNA Probe Locator)

•(PANDA)

•(M-tiss)

データの

分類

H-InvDB

サブデータベース

•G-integra

•H-ANGEL

•Evola

•TOPO Viewer

•PPI view

•DiseaseInfo Viewer

•GTOP

サテライトデータベース

•H-DBAS

•VaryGene

•(G-compass)

•(LEGENDA)

•(DNA Probe Locator)

•(PANDA)

•(M-tiss)

データの

分類

•

•

•

•

2005年度 利用者 52,604 （2.3倍） 参照ページ 617,798 （1.5倍）

2006年度 利用者 38,014 （1.7倍） 参照ページ 784,330 （2.0倍）

2007年度 利用者 58,087 （2.6倍） 参照ページ 947,396 （2.4倍）

結果

2005年度 利用者 52,604 （2.3倍） 参照ページ 617,798 （1.5倍）

2006年度 利用者 38,014 （1.7倍） 参照ページ 784,330 （2.0倍）

2007年度 利用者 58,087 （2.6倍） 参照ページ 947,396 （2.4倍）

結果

2005 年度 利用者 29,120 （1.3倍） 参照ページ 521,300 （ 1.3倍）

2006 年度 利用者 35,840 （1.6倍） 参照ページ 641,600 （ 1.6倍）

2007 年度 利用者 44,800 （2.0倍） 参照ページ 802,000 （ 2.0倍）

2005 年度 利用者 29,120 （1.3倍） 参照ページ 521,300 （ 1.3倍）

2006 年度 利用者 35,840 （1.6倍） 参照ページ 641,600 （ 1.6倍）

2007 年度 利用者 44,800 （2.0倍） 参照ページ 802,000 （ 2.0倍）

目標

H-InvDB

サブデータベース

サテライトデータベース

2005年度利用者 52,604 （2.3倍）参照ページ 617,798 （1.5倍）

2006年度利用者 38,014 （1.7倍）参照ページ 784,330 （2.0倍）

2007年度利用者 58,087 （2.6倍）参照ページ 947,396 （2.4倍）

2005年度利用者 52,604 （2.3倍）参照ページ 617,798 （1.5倍）

2006年度利用者 38,014 （1.7倍）参照ページ 784,330 （2.0倍）

2007年度利用者 58,087 （2.6倍）参照ページ 947,396 （2.4倍）

2005 年度利用者 29,120 （1.3倍）参照ページ 521,300 （ 1.3倍）

2006 年度利用者 35,840 （1.6倍）参照ページ 641,600 （ 1.6倍）

2007 年度利用者 44,800 （2.0倍）参照ページ 802,000 （ 2.0倍）

2005 年度利用者 29,120 （1.3倍）参照ページ 521,300 （ 1.3倍）

2006 年度利用者 35,840 （1.6倍）参照ページ 641,600 （ 1.6倍）

2007 年度利用者 44,800 （2.0倍）参照ページ 802,000 （ 2.0倍）