国際塩基配列データベース(INSD: DDBJ/EMBL/GenBank)におけるゲノム配列の登録とアノテーションについて


大城戸利久(日本DNAデータバンク(DDBJ))
国際塩基配列データベース(INSD)は,研究者(登録者)によって送られた配列エントリに対して,アクセッション番号を発行・管理する共に,データの公開・更新を行っている.
配列データに関する情報は,INSDの記述ルール(The DDBJ/EMBL/GenBank Feature Table : Definition)に従って,記載される. INSDには様々なタイプの配列データが登録されるが,近年,ゲノム配列の登録は目覚しいものがある.
登録されるゲノム配列には大きく2つのタイプに分けられる;
1)complete genome sequenceと呼ばれるタイプ.
2)Whole Genome Shotgun(WGS)法に代表される方法で読み取られた完成度が高い配列.INSD では,後者に由来する,大量の DNA 断片の配列に対して,特別のカテゴリーを用意し,データの登録を受け付けている(WGSデータ).WGSデータの登録は急速に伸びており,昨今の登録では,complete genome sequenceに比べて多数を占めつつある,由来生物はゲノムサイズの小さいバクテリアにとどまらず,ショウジョウバエ,マウス,ヒト等の高等真核生物までに及んでいる.
今後も,ゲノム配列の登録が増加し、データベースに着実に蓄積される。益々増大するゲノムデータに対応するための一環として,ゲノム配列の登録に対してINSDで共有・管理する枠組を構築している.
以上の点を中心に,INSDにおけるゲノム配列の取り扱いやアノテーションの取り組みを紹介する.