ピュア・ナレッジ
What Is Genomics Data?

ゲノミクス・データとは？

※このページの内容が日本語である場合は、機械翻訳システムで翻訳したものです。

ゲノミクス・データは、世界中の生物学者、遺伝学者、データ・サイエンティストが連携を進めながら獲得してきた共同の産物です。こうした専門家たちは、DNA や遺伝子、ヒトのゲノムの構造・機能・進化・マッピング・編集に関する謎を解き明かそうとしています。

研究における発見は、医学、疾病予防、データ・ストレージの分野での画期的な成果につながっています。科学コミュニティ全体にとって、ゲノミクス・データは、生命を成り立たせている DNA の化学的構造を理解・解明する助けとなっています。

ゲノミクスとは

ゲノミクスは比較的新しい用語で、端的にいえば、ゲノムの研究のことです。しかし、ゲノミクスとゲノミクス・データをきちんと説明するためには、まず以下の 4 つの用語の意味を明確にする必要があります。

細胞
DNA
遺伝子
ゲノム

細胞とは

細胞とは、生命の基本的単位です。微細な構造の中に、自らエネルギーを発生し、増殖するために必要なあらゆる機能が含まれています。また、細胞どうしが結合することで、骨、血液、筋肉、皮膚など体のあらゆる部分を形成しています。細胞は、DNA の記述に従って自らをつくり、機能します。

DNA とは

DNA とは、生物が生育するために必要なあらゆる指令を含んだ化合物です。生物はそれぞれ固有の DNA を持っていますが、基本は、以下の頭文字で表される 4 種類の化学物質で構成されています。

アデニン（A）
シトシン（C）
グアニン（G）
チミン（T）

DNA の構造は非常に複雑です。文字を無数に組み合わせて単語、文、段落を作っている、いわば本のようなものです。ヒトの DNA には、DNA の構成要素である 4 つの文字を対にしたものが 30 億個含まれています。体内のほぼ全ての細胞はそれぞれ DNA を含んでおり、体をつくるための指令が遺伝子を通じて何万と出されています。

遺伝子とは

遺伝子とは、長いらせん状になった DNA の中の固有・独自の配列で、瞳の色などの遺伝形質を生み出すものです。生物学では、この遺伝子が遺伝の基本単位と考えられています。

遺伝情報を記述する手段として体が持っている文字が DNA だとすると、遺伝子は 1 つの単語だといえるでしょう。他と比べて長さが短い遺伝子もあれば、体により複雑な影響を与える遺伝子もあります。また、文字の組み合わせが数百のものもあれば、200 万を超えるものもあります。

ヒトの体には遺伝子が 2 万～2 万 5000 個あるとされています。遺伝子を研究する学問を遺伝学と呼びます。

ゲノミクスとは

ゲノミクスと遺伝学は異なるものではありますが、関連しています。遺伝学が個々の遺伝子や形質の遺伝に焦点を当てたものであるのに対し、ゲノミクスは、ある生物の遺伝子全体の特徴と、それらが互いにどう関連して体に影響を及ぼしているのかを明らかにしようとするものです。

ゲノムとは、その人の持つ遺伝情報全体のことです。遺伝子を単語とするならば、ゲノミクスは、本全体を見て、章や登場人物、テーマ全てが互いにどう関連しているのかを理解することだといえます。

ゲノミクス・データ解析とは

ゲノミクス・データ解析は、コンピュータ技術によってゲノムとゲノム関連情報を解析して可視化を進める研究分野です。遺伝子どうしの関係性を探るために大量のデータを処理し、あらゆる未加工データに加えて、その関係性やコンテキストを保存する作業も含まれます。

ヒトの遺伝的性質とゲノム情報を理解するのは、4 つの文字から作られる 30 億個の対の配列を解読（2003 年に完了）するよりも、はるかに大変です。ゲノミクスは、この 30 億個の対からなる約 2 万 5000 個の遺伝子それぞれについて、その働きや相互の関係、自然環境との相互作用を明らかにすることも目的としています。

ゲノミクスのデータ解析で興味深い点の 1 つは、DNA の文字を可視化して配列を認識する能力が、文字列が実際に何をするのかを解読して理解する能力に先行したということです。ゲノミクス・データ解析は、遺伝子の言語で記述された大量の情報を、医学やその他の分野向けに翻訳していく試みといえます。

ゲノミクス・データ解析は、さまざまな方法を駆使して行う非常に大規模な事業です。世界で特に成長が著しいビッグデータ分野の 1 つです。2025 年には、40 エクサバイトものデータが生成される見込みです。1 ギガバイトを地球の大きさに例えると、1 エクサバイトは太陽に相当します。つまり、ゲノミクス・データの量は太陽 40 個分になるということです。

なぜゲノミクスを研究するのか

米国での主な死因の多くに遺伝的性質が大きく関係しています。心臓病、糖尿病、ガンはいずれも、体内のさまざまな遺伝子や、遺伝子間の関係が原因となって起こる病気です。こうした多くの疾患や死亡を防ごうと、ゲノミクス研究が行われています。

ゲノミクスは体の働きの理解を促進し、人々の健康寿命を延ばすことが期待されています。遺伝子的に見ると、全ての人は 99.9% 同じです。つまり、ある人のゲノム情報を分析して画期的な発見があれば、それは地球上のほとんど全ての人にも当てはまるといってほぼ間違いありません。

研究者の間でのゲノミクス・データベースの共有が重要な理由

研究者の間でゲノミクス・データとゲノミクス・データベースを共有することは重要です。共有することで、より正確な結果をより迅速に得られます。遺伝子と病気の関連性を調べる研究者は増え続けています。今後は、研究結果を共有し、共同研究を促進することで、人の健康増進に役立つ知識・製品・手法のいっそうの向上が期待できます。