본문 바로가기
생물정보학

유전체 데이터는 무엇일까?

by 호주타조 2020. 3. 8.

안녕하세요 첫 글 이후 오랜만에 하는 포스팅이네요. 이번 시간은 생물정보학의 여러 분야 중 유전체학(genomics)분야에 대해 설명하고자 합니다.

 

유전체학(Genomics)은 2003 Human Genome Project(HGP)를 통해 인간 게놈(genome)에 있는 약 32억개의 nucleotide 쌍의 서열을 알아내면서 폭발적인 연구성과가 있던 분야입니다. (물론 그 전에도 연구성과가 아주 많이 존재했습니다.) 이전 사람들은 HGP를 통해 인간 게놈만 알게 되면 모든 유전과 관련한 질병을 정복할 수 있을 줄 알았습니다. 하지만 여러분도 아시다시피 그렇지 못했지요. 이유는 여러 가지가 존재하지만, 그 중 하나는 genome 상에서 어떤 위치의 서열이 중요한지 모른다는 것입니다. 따라서 사람의 genome 중 어떤 서열이 표현형과 연관이 있는지 보는 방법인 Genome Wide Association Study(GWAS)라는 방법이 있습니다만, 이는 다음 번 포스팅을 통해 말씀 드리도록 하겠습니다.

 

[그림1] genomics의 역사

 

HGP를 통해 32억개의 사람의 염기쌍을 밝히는 데 천문학적인 돈과 시간이 들었습니다. 이유는 염기서열 하나 하나마다 일일이 확인해야 하는 실험방법을 진행해왔기 때문입니다. 그 방법은 sanger sequencing이란 방법으로서 하루에 10개 전후의 DNA조각을 분석할 수 있었고, 실험 방법이 노동 집약적 이였습니다. 하지만 기술의 발달로 2008년을 기점으로 비용이 급격히 낮아지기 시작합니다. 이 방식은 전통적인 sanger sequencing 기술과 차별화된 방식으로 Next Generation Sequencing(NGS)라 불리게 되었으며, 2014년 말에 다시 한번 급격한 비용 절감을 하여 현재의 sequencing 기술이 도래하였습니다.

NGS가 도래함에 따라 개인도 무리 없이 자신의 genome을 알 수 있는 시대가 왔으며, 이를 의학에 적용하여 개인별 맞춤 의학(precision medicine)의 시대가 얼마 남지 않았다고 합니다. 그렇다면 NGS가 어떤 원리로 이루어지는지 확인하고, 어떤 형태의 데이터가 나오는지 알아봅시다.

가장 대표적으로 Illumina 사에서 나온 sequencing기기가 있습니다. 현재 NGS sequencing기기 시장 점유율의 대부분은 Illumina가 차지하고 있습니다.

 

 

[그림2] Illumina sequencing 기기 원리 (출처: http://www.intechopen.com/)

먼저 실험을 통해 나온 DNA조각서열들(fragments) adaptor를 붙입니다. adaptor flowcell에 붙이기 위한 용도로 사용됩니다. Adaptor 2가지 종류가 있습니다. 2가지 종류인 이유는 flowcell fragment 양 끝 다 붙이기 위함입니다. 위아래 adaptor flowcell에 붙으면 고리모양의 형태가 되는데 이때 PCR(polymerase chain reaction)과정을 통해 fragment는 증폭을 하게 됩니다. 증폭을 하는 이유는 여러 가지가 있지만 그 중 하나는 quality에 대한 문제이다. 실험을 통해 나온 fragment를 최대한 오류 없이 sequencing하기 위해 여러 가닥의 fragment를 만들고 그를 군집화하는 것이 목적입니다. 그 결과 최종적으로 Cluster formation이 만들어지게 됩니다. 이후 sequencing을 진행하게 되는데, 이해하기 쉽게 비유로 설명하도록 하겠습니다. fragment는 하나의 건물, 건물 군집은 도시, 염기서열이 한 개는 하나의 층으로 비유를 해본다면, 모든 도시의 1층을 조사해서 그 서열이 A,T,C,G 중 어떤 것인지 확인합니다. 이후 2층을 조사하고 3층을 조사해서 도시 별로 어떤 층에 어떤 서열을 지니는지 확인합니다. 서열을 확인하는 방법은 염기서열 4개에 각각 서로 다른 색을 붙여 구별하게 하는 방법을 사용합니다(fluorescence).

! 우리는 이렇게 fragment별로 어떤 서열이 어떤 위치에 있는지 확인하였습니다. 하지만 이 fragment가 우리의 genome에 어떤 위치에 있는지, 변이는 있는 것인지는 알지 못합니다. 따라서 이렇게 나온 데이터를 분석해서 우리는 어떤 위치에 어떤 변이가 있고(Single Nucleotide Variation), 서열 중 어떤 부분이 삽입이 되거나 결실이 되었는지(Indel) 확인해야 합니다. 우리는 이 작업들을 위한 가장 원시의 데이터(raw data)를 만든 것입니다. 그렇다면 NGS를 통해 나온 데이터가 어떠한 형태인지 그리고 분석은 어떻게 진행되는지에 대해 궁금하실 겁니다. 앞으로 이 과정에 대해 자세히 알아보도록 하겠습니다.