퓨어 지식 (Pure Knowledge)
What Is Genomics Data?

유전체학 데이터란?

유전체학 데이터는 전 세계 생물학자, 유전학자, 데이터 과학자들로 구성된 확장된 네트워크의 결합체입니다. 이들 과학자와 전문가들은 DNA, 유전자 및 인간 유전체의 구조, 기능, 진화, 매핑, 편집에 대한 해답을 찾고 있습니다.

이들의 발견은 의학, 질병 관리 및 데이터 스토리지 분야 혁신으로 이어지고 있습니다. 유전체학 데이터는 대규모 과학 커뮤니티가 생명을 가능케 하는 화학 구조를 이해하고 밝혀내는 데 도움을 줍니다.

유전체학이란?

간단히 말해, 유전체학은 유전체 연구를 지칭하는 비교적 최근의 용어입니다. 하지만 유전체학 및 유전체학 데이터를 완전히 설명하려면 먼저 아래의 네 가지 핵심 용어를 정의해야 합니다:

세포(Cell)
DNA
유전자(Gene)
유전체(Genome)

세포란?

세포는 생명의 기본 구성 요소입니다. 이는 스스로 에너지를 공급하고 번식하는 데 필요한 모든 도구를 포함하는 미세한 단위입니다. 또한 다른 세포와 협력하여 뼈, 혈액, 근육, 피부 등 우리 몸의 모든 부분을 구성합니다. 세포는 DNA의 지시에 따라 스스로를 만들고 활동합니다.

DNA란?

DNA는 생명체가 발달하는 데 필요한 모든 지침을 담고 있는 화합물입니다. 생명체마다 DNA는 다르지만, DNA의 기본 구성 요소는 네 개의 단일 문자로 표시되는 네 가지 화학 물질입니다.

아데닌(Adenine) (A)
사이토신(Cytosine) (C)
구아닌(Guanine) (G)
티민(Thymine) (T)

DNA의 구조는 매우 복잡합니다. 수백 만 개의 글자가 단어, 문장, 단락으로 결합돼 있는 한 권의 책과 비슷합니다. 인간 DNA 복사본 하나에는 DNA 구성 요소를 나타내는 네 개 문자로 구성된 30억 개의 서로 다른 조합이 포함돼 있습니다. 우리 몸의 거의 모든 세포에는 DNA 복사본이 들어 있으며, 이는 유전자를 통해 우리 몸을 구성하는 방법에 대한 수만 가지 지침을 제공합니다.

유전자란?

유전자는 눈 색깔과 같이 유전될 수 있는 특성을 만들어내는 긴 DNA 가닥의 특정하고 고유한 서열을 의미합니다. 생물학에서 유전자는 유전의 기본 단위로 간주됩니다.

DNA를 신체가 기록해야 하는 모든 문자(letter)로 가정한다면, 유전자는 단어(word)라고 볼 수 있습니다. 어떤 것은 다른 것보다 짧고 어떤 것은 신체에 더 복잡한 영향을 미칩니다. 어떤 유전자는 수백 개의 DNA 문자 조합을 가지고 있고 어떤 유전자는 200만 개 이상을 가지고 있습니다.

인체는 2만~2만 5천개 유전자를 갖고 있는 것으로 추정됩니다. 유전자에 대한 학문을 유전학이라고 합니다.

유전체학이란?

유전체학과 유전학은 다르지만 서로 연관돼 있습니다. 유전학은 개별 유전자와 형질의 유전에 초점을 맞추지만, 유전체학은 유기체의 모든 유전자를 특성화해 유전자들이 서로 어떻게 상호 연관돼 신체에 영향을 미치는지 파악합니다.

유전체(genome)는 한 사람의 모든 유전자를 한데 모아 놓은 것입니다. 유전자를 단어(word)로 생각한다면, 유전체학은 책 전체를 보고 각 챕터, 등장인물, 주제가 서로 어떻게 연관돼 있는지 이해하는 것입니다.

유전체학 데이터 분석이란?

유전체학 데이터 분석은 유전체 및 그에 대한 정보를 분석하고 시각화하기 위해 컴퓨터 기술을 사용하는 연구 분야입니다. 유전체학 데이터 분석에는 유전자 간 관계를 찾기 위해 방대한 양의 데이터를 처리하고, 모든 원시 데이터 뿐 아니라 그 관계와 컨텍스트까지 저장하는 작업을 포함합니다.

인간 유전학과 유전체학을 이해한다는 것은, 특정 순서로 배열된 네 가지 화학 문자의 조합이 30억 개라는 사실을 알아내는 것(2003년 발견)보다 훨씬 더 방대합니다. 유전체학은 30억 개에 달하는 문자의 약 2만5천개 조합, 각각의 기능, 서로의 관계, 환경과 상호작용하는 방식을 발견하는 작업이기도 합니다.

유전체학 데이터 분석의 흥미로운 점 중 하나는 DNA 문자를 시각화하고 배열하는 능력이, 문자가 실제로 어떤 역할을 하는지 해독하고 이해하는 능력보다 더 빠르게 발전했다는 점입니다. 따라서 유전체학 데이터 분석은 유전자 언어에 대한 풍부한 정보를 의학 및 그 이상의 것으로 해석하려는 시도입니다.

유전체학 데이터 분석은 여러 가지 면에서 방대한 작업입니다. 유전체학 데이터 분석은 세계에서 가장 빠르게 성장하는 빅 데이터 분야 중 하나입니다. 유전체학 데이터 분석은 2025년까지 40엑사바이트에 달하는 데이터를 생성할 수 있습니다. 유전자 데이터 크기를 원근법으로 설명하자면, 1기가바이트가 지구 크기라면 엑사바이트는 거의 태양 크기에 해당합니다. 유전체 데이터는 태양 40개 분량입니다.

왜 유전체학을 연구할까요?

유전학은 미국내 주요 사망 원인의 많은 부분을 밝혀내는데 중요한 역할을 합니다. 심장병, 당뇨병, 암은 모두 우리 몸의 다양한 유전자 및 유전자들 간 관계와 관련된 요인에 의해 발생합니다. 우리는 가장 흔한 형태의 질병, 질환 및 사망을 예방하기 위해 유전체학을 연구합니다.

유전체학은 우리 몸이 어떻게 기능하는지 더 잘 이해하도록 도와주며, 이를 통해 더 많은 사람이 더 오랫동안 더 나은 기능을 유지하도록 도울 수 있습니다. 유전적으로 인간은 99.9%가 동일합니다. 즉, 한 사람을 위한 유전체 혁신이 지구상 거의 모든 사람에게 적용될 수 있습니다.

유전체 데이터베이스를 연구자 간에 공유하는 것이 왜 중요할까요?

연구자들 간에 유전체 데이터와 유전체 데이터베이스를 공유하여 보다 정확한 결과를 더 빨리 찾는 것이 중요하기 때문입니다. 유전자와 질병의 관계를 탐구하는 연구자가 점점 더 늘어나면서, 이러한 연구 결과를 공유하고 다른 연구자들의 협업을 유도하면 인류의 건강을 개선하는 지식, 제품 및 절차에서 더 나은 결과를 얻을 수 있습니다.