Home > 열린마당 > 공개SW 소식

공개SW 소식

게놈 연구 “고맙다, 하둡”

OSS 2012-06-04 15:18:39 619

2012년 06월 03일 (일)

ⓒ 블로터닷넷, 이지영 기자 izziene@bloter.net


우리의 몸은 비밀 덩어리다. 과학 기술이 끊임없이 발전했지만 인체에 담긴 모든 신비를 풀어내긴 역부족이다. 1990년 인간 게놈 프로젝트가 공식적으로 시작돼 2001년 완성됐다곤 하지만, 게놈 연구는 여전히 현재 진행중이다.


게놈은 어떤 생물을 구성하는 데 필요한 유전정보 전체, 즉 생물의 형태를 만드는 데 필요한 것으로 자손까지 유전되는 정보 전체를 말한다. 인간 유전체 지도 또는 인간게놈지도는 인간의 몸을 형성하는 정보인 유전체의 서열이 어떻게 생겼는지 규명하기 위해 시작한 프로젝트다.


게놈 연구 활성화라고 하면, 태어날 때부터 질병 원인을 규정해서 유전자 조작이 이뤄질 지 모르는 우울한 영화를 떠올릴지 모르겠다. 하지만 실제로 진행되고 있는 게놈 연구는 확률을 높이기 위한 싸움이다. 내가 몇 살에 어떤 질병에 걸릴 확률이 몇 퍼센트인지 국민건강보험을 통해 파악해 삶의 질을 높이는 데 있다. 병원 진료와 투약도 내 몸 상태에 최적화돼 제공받아 부작용을 줄이는 데 있다. 이를 위해 유럽, 중국, 싱가포르 등이 정부 주도로 DNA 정보화 사업을 진행중이다. 미국은 이 사업에 30년간 관련 분야에 막대한 예산을 투입해 왔을 정도다. 국내도 정부에서 국민의료시스템 주도로 연구를 진행하고 있다.



인간의 DNA를 이루고 있는 32억쌍 염기서열에 영향을 미치는 요소는 성별, 나이, 가족상황, 주변환경, 섭취음식, 심리상태 등에 이르기까지 다양하다. 임상연구, 생명공학, 의료, 장비, 헬스케어 시스템에 이르기까지, 생명과학 분야 솔루션 전반에 걸쳐 20년이 넘는 설계 경험을 보유한 산자이 조쉬 EMC 바이오 산업분야 최고기술경영자가 보기에 DNA 같은 생명공학 연구는 빅데이터 분야다.


“사람 1명의 DNA 염색체 1개를 이미지 파일로 바꾸면 약 750메가바이트(MB)에 이르는 용량이 나옵니다. 변이까지 감안하면 한 사람당 유전자 정보의 데이터 크기는 약 1GB로, 이를 전세계 인구로 환산하면 약 4억페타바이트(PB)에 이르죠. 구글이 전세계적으로 처리하는 데이터 양이 1PB라는 점에 미뤄볼 때, 생명공학 연구는 분명 빅데이터 분야입니다.”


빅데이터로 바라본 DNA 연구

물론 DNA서 발생하는 데이터 양만 보고 이를 빅데이터 연구라고 보는 건 아니다. DNA 연구 과정에서 발생하는 데이터는 상당수가 비정형 데이터인 점도 한몫한다.염기서열 1쌍당 4테라바이트(TB)에 이르는 이미지 정보가 나온다. 그 뿐이랴. 각 염기서열에서 발생한 정보와 질병간 상관관계 연구 결과 데이터도 있다. 각 유전자 값의 속성, 질병 유전자와의 교차 분석, 정합성 정도를 따지기 위한 검증 작업까지 매 순간이 복잡한 데이터 처리의 연속이다. 인간의 다양성과 질병의 원인은 유전자 변이에 의해 발생하는 변이 여부를 파악하기 위해 염기서열정보 해독(시퀸싱) 방법이 사용된다.


“게놈에서 나온 데이터만 뚫어지게 분석하는 건 아닙니다. 각 데이터를 비교해야 합니다. 모집단에서 여러 사람의 패턴을 뽑아, 거기서 표준적인 특징을 찾습니다. 이를 일종의 패턴 매칭이라고 합니다. 2TB에 이르는 데이터를 가지고 한 서버가 패턴 매칭하긴 어렵습니다. 분산 분석을 할 수 밖에 없지요.”


이 과정에서 혜성처럼 등장해 연구에 도움을 준 게 오픈소스 하둡이다. 하둡을 사용해 각 데이터를 쪼개서 처리한 뒤 다시 합치는 과정을 거치면 비용을 절감하면서도 효과적으로 유전자 연구를 할 수 있게 됐다. 1995년에는 하나의 유전자 분석 당 1천만달러가 들었다면 2009년에는 1만달러 미만으로 줄어들었다. 올해는 전체 유전자를 분석하는 비용이 2~3천달러로 줄어들었으며, 내년에는 MRI를 찍는 수준인 1천달러까지 떨어질 전망이다. DNA 정보 수집 속도는 2009년과 비교했을 때 10배 빨라졌고, 수년씩 걸리던 DNA 정보 분석 시간도 1~2주 밖에 걸리지 않을 정도로 단축됐다.


하둡, 유전자 분석 표준도구로 자리잡는 중

하둡은 일부 국가 연구기관과 학교만이 할 수 있던 게놈연구의 벽을 허무는 데 기여했다. 그 외에도 하둡은 게놈 분석 대상을 1만명에서 70억 인구로 늘릴 수 있게 도와줬다. 하둡 등장 전에는 순차적으로 처리를 하다보니 분석 결과에 시간이 오래 걸렸으나, 하둡이 병렬처리하는 부분을 75~95%로 확대할 수 있게 도우면서 전수 조사 시대가 열린 것이다.


“지금까지는 벤틀리 같은 고가 자동차 타입으로 연구를 해왔다면, 하둡의 등장으로 연구가 대중화됐습니다. 과거에는 게놈 연구 결과물을 만들기까지 천문학적인 비용이 들었으나 저렴한 비용 때문에 게놈 연구 상용화 시장이 열렸습니다. 일반 산업처럼 게놈 연구 워크플로우를 만드려는 시도가 2년 전부터 시작됐을 정도입니다.”


그 결과 하둡은 표준 유전자 염기 서열을 연구하는 도구로 자라잡기 시작했다. 과거에는 이 연구를 하는 사람마다 자기 알고리즘을 만들어서 연구를 진행했다. 사용한 알고리즘이 다양하다보니 연구 결과 공유도 잘 이뤄지지 않았다. 즉, 그 동안 게놈 연구는 정해진 표준 작업 절차도, 자동차 제조 공장 같은 생산 라인도 존재하지 않았다. A대학에서 연구한 게놈 데이터를 B대학에서 볼 수 없는 식이었다.


“하둡이 화두가 되면서 이를 중심으로 표준화 분석 작업 움직임이 일어나고 있습니다. 초창기 리눅스처럼 아직 상업적 안정성이 100% 보장되지 않기 때문에 위험 요인이 어느정도 있지만, 다들 하둡에 분석 알고리즘을 녹여 재현 반복 가능한 프로세스를 만들까 고민중입니다.”


게놈 분석에 빠지지 않는 영역 ‘해석’

게놈 연구에서 수집하는 데이터 양과 분석 방법 못지 않게 중요한 분야는 연구 결과 해석이다. 각 유전자의 다양성을 찾아서 이를 정상적인 유전자와 비교해서 질병의 원인이 되는 질병 유전자를 찾는 일이 중요하다. 한 사람의 인체 내에도 1500만개에서 3천만개 유전자 다양성을 찾아볼 수 있다고 한다. 이 다양성 중에서 무엇이 질병을 유발하는지 정확히 파악된 건 극히 일부에 불과하다.


조시 최고기술경영자는 지난해부터는 1천개에 이르는 암 유전자를 분석하는 프로젝트에 참여하고 있다. “현재 목표는 100만명의 염기서열을 해독하려고 합니다. 게놈에서 기능을 발현하는 32억쌍 염기 중 겨우 1.3%만 알아냈습니다. 각 국가별 환경적인 요인이 다르다보니 유전자 지도가 제각각 나옵니다. 이를 해석하기 위핸 작업이 시작됐습니다. 5년 정도 걸릴 것으로 봅니다.”


게놈 연구가 갈 길이 멀어보이지만 미래는 밝다. 질병의 원인이 되는 유전자에 대한 연구는 곳곳에서 현재 활발히 진행중이다. 조시 최고기술경영자는 조급하게 여기지 않았다.


“온라인 뱅킹을 하는데만 해도 7년이 걸렸습니다. 이런 프로세스가 안정화하는 단계가 중요합니다. 게놈 연구에 대한 프로세스가 안정적으로 표준화되려면, 은행에서 온라인 인출을 하는 것보돠 훨씬 중요한 가치를 높일 수 있을 것으로 보입니다. 5년, 10년 뒤에는 단백체 유전차에 대한 연구가 진행될 수 있지 않을까요.”


※ 본 내용은 (주)블로터 앤 미디어(http://www.bloter.net)의 저작권 동의에 의해 공유되고 있습니다.


[원문출처 : http://www.bloter.net/archives/112591]


맨 위로
맨 위로