H-InvDBの統合的ヒト遺伝子アノテーション


山崎千里(生物情報解析研究センター(JBIRC))
配列情報から遺伝子の機能を正確に予測するためには、完全長のcDNA塩基配列を解析対象として、各種のバイオインフォマティクス技術を駆使した解析を行い、その結果を統合的に解釈することが有効と思われる。
われわれは、国際共同研究であるH-Invitationalヒト完全長cDNAアノテーション・プロジェクトの成果である、統一基準に基づく配列解析および専門家による精査を加えたヒト遺伝子に関する統合的アノテーションデータベース、H-InvDBの構築を行っている。
2006年3月に公開したH-InvDB release 3におけるアノテーションを紹介する。
国際DNAデータバンクに登録された合計167,992本のヒトmRNA配列をヒトゲノム(NCBI b35)上にマップし、35,005のヒト遺伝子クラスターを決定した。ゲノム上の重複を除いて定義されるクラスター(遺伝子座)の代表的な配列を代表配列と定義し蛋白質データベースに対して配列相同性検索プログラム(FASTY・BlastX)を実行し、配列の類似性およびGeneMarkによる遺伝子予測結果との組み合わせによりcDNAの配列中でタンパク質をコードしている領域(CDS)を予測した。
代表配列のうち34,725個がタンパク質コード遺伝子、残る280個を非タンパク質コード遺伝子と判定した。
以上のアノテーション結果は、H-InvDB release 3としてhttp://www.h-invitational.jp/より公開している。