Home > 열린마당 > 공개SW 소식

공개SW 소식

2013년 07월 05일 (금)

ⓒ 지디넷코리아, 김우용 기자 yong2@zdnet.co.kr



하둡 하이브 대체 기술로 주목받은 아파치 타조(Tajo) 프로젝트가 하둡전문업체 그루터에서 성장을 이어가게 됐다. 타조 개발을 주도해온 인물이 국내 굴지 대기업의 무수한 유혹을 뿌리치고 최근 그루터 합류를 결정한 것이다.

최현식 박사를 지난 4월 지디넷코리아 주최 ‘어드밴스드컴퓨팅컨퍼런스(ACC)' 강연 후 약 2개월만에 그루터 사무실에서 최근 다시 만났다. 그는 이제 박사학위 논문을 제출하고, 고려대학교 연구실을 나왔다. 8월 졸업식만 남겨둔 그는 새로운 일터에서 매우 바빠 보였다.

타조는 빅데이터 분석을 위한 표준 인프라로 자리잡은 아파치 하둡과 관련된 기술이다. 하둡은 하둡분산파일시스템(HDFS)와 맵리듀스를 기본으로 시작된 후 HBASE, 하이브, 주키퍼, 우지, 피그 등 필요에 따라 구성요소를 더하는 식으로 생태계 규모를 키우며 성장했다.

하이브는 SQL 언어와 유사한 하이브QL을 통해 HDFS 내 저장된 데이터를 조회, 분석할 수 있게 해준다. 그러나 하이브는 맵리듀스 프레임워크를 한번 거쳐야 하기 때문에 조회속도가 느린 편이다. 이는 하둡을 대용량병렬처리(MPP) 기반의 데이터웨어하우스(DW) 대체재로 자리잡을 수 없게 하는 원인이었다.

타조는 하이브 대신 SQL언어로 HDFS 데이터를 빠르게 조회할 수 있게 해주는 쿼리엔진이다. 클라우데라의 임팔라, 구글의 드레멜, 호튼웍스의 스팅거, 맵R의 드릴, EMC 피보탈의 호크 등이 타조와 같은 콘셉트로 개발되는 기술이다.


▲ 최현식 그루터 책임연구원

다른 기술이 모두 미국 주도로 개발되는 반면, 타조는 IT의 변방인 한국에서 개발하는 기술이란 점에서 주목된다. IT기술 변방에서 개발되는 기술의 가능성에 각국 저명한 개발자들의 관심도 뜨겁다.

최현식 박사는 고려대학교 박사과정을 밟으며 2010년부터 타조 개발을 주도했다. 타조는 최현식 박사외에 고려대학교 대학원 박사과정을 이수중인 손지훈씨도 공동개발하고 있다.타조가 아파치 재단 인큐베이팅 프로젝트로 선정되고, 국내 언론에 소개되면서 투자제안부터 영입제안까지 대기업의 러브콜이 무수히 들어왔다는 후문이다.

“학교에서 타조를 꾸준히 개발하면서, 궁극적으로 타조를 널리 쓰이는 SW로 만들고 싶었습니다. 오픈소스 활동을 좋아하기도 하고, 한편으론 외국 논문이나 외국 제품 보면서 우리나라엔 왜 세계적인 SW가 없을까라고 생각했어요. 한국은 애플리케이션쪽은 훌륭해도 기반 기술은 없는 편이라 아쉬움을 항상 느꼈죠. 그러다가 타조가 아파치 인큐베이팅에 선정됐고, 타조 같은 시스템이 필요한 시기가 왔다고 판단했습니다. 이런 기회에 계속 타조를 개발할 수 있는 곳을 찾았습니다.”

그의 말대로 IT강국을 자처하는 한국은 세계적인 개발자 입장에서 보면 IT변방이다. 전세계적으로 활용되는 모든 IT 핵심기술은 다른 국가의 것에 의존한다. 20세기 후반부터 오늘에 이르기까지 잠재력을 갖고 있었던 한국산 기술은 국내 IT시장의 특수성과 황폐한 풍토에 사라져갔다.

“여러 곳에서 연락을 많이 해왔습니다. 하지만 그 회사에서 타조로 비즈니스 모델을 만들고, 타조를 진짜 필요로 하는가 의구심이 들었죠. 만약 그게 아니라면 잠깐 쓰고 시도해보다가, 아니면 말고 식으로 자칫 다른 일을 투입 될 수도 있다고 생각했습니다. 학교에서 여러 과제를 대기업과 하다보면 기업쪽 담당자나 책임자가 몇 개월마다 바뀌는 걸 많이 봤으니까요.”

기사로 언급하긴 어렵지만, 알만한 회사들이 최현식 박사에게 접촉했다. 타조에 투자하고 지원하겠다는 손길도 적지 않았단다. 그러나 대기업에서 들어온 여러 제안에서 타조를 살려줄 진지함은 보지 못했다는 게 그의 설명이다. 그렇게 결정한 그루터 합류에 대한 소감이 이어진다.

“그루터에서 타조를 필요로 하고, 무언가 해보려한다는 계획이 느껴져서 합류를 결정하게 됐습니다. 이전부터 권영길 대표님이나 김형준 수석님을 뵀을 때 방향이 좋다는 생각을 했었고, 김진호님, 정재화님 같이 기술적으로 뛰어난 분들이 많으셔서 배울 것 많고. 재밌을 것 같다고 생각했습니다. 직접 와서 일해보니 기대했던 것보다 훨씬 더 좋습니다. 스스로 일하는 분위기고, 내가 맡은 것에 집중할 수 있는 분위기에요.”

최 박사는 그루터에서 아파치 타조 책임연구원을 맡게 됐다. 3년동안 대학원 안에서 연구용으로 개발되던 타조는 이제 실제 비즈니스 영역으로 들어와 퀀텀 점프를 노린다. 미국에 내로라하는 클라우데라, 호튼웍스, 맵R과 붙어도 지지 않을 거란 자신감이 그루터 곳곳에서 풍긴다.

■IT변방에서 태어난 타조, 글로벌로 부족함 없다 

타조는 원래 최 박사 소속 대학원 연구실에서 수행중이던 정부기관과제를 위해 고안됐다. 다른 목표를 가졌던 과제를 위해 필요하겠다 싶어 개발하기 시작된 기술이란다. 만들어진 결과물도 좋았고, 시장 분위기가 타조의 콘셉트에 열렬히 주목하는 것으로 급변해 시기적 운을 탔다는 판단을 했단다.

“작년 클라우데라가 임팔라를 발표했을 때 많이 안타까웠어요. 당시 타조도 어느정도 수준에 이르러서 아파치 인큐베이팅을 준비중이었고, 이름도 아파치를 노리고 타조로 지었거든요. 또 맵R 드릴이 우리보다 먼저 아파치 인큐베이팅에 선정돼서 타조는 안될지도 모른다는 좌절도 했었습니다. 그런데 타조도 아파치 인큐베이팅에 잘 선정됐지요.”

아파치재단 인큐베이팅 프로젝트로 선정되려면 프로젝트관리위원회(PMC) 멤버 3명의 지지를 얻어야 한다. 그에 앞서 프로젝트를 관리하고 조언할 ‘챔피언’ 1명과 ‘멘토’ 3명을 확보해야 한다. 아파치 멤버로 불리는 ‘챔피언’과 멘토는 해당분야에서 오랜 경험을 쌓고, 능력을 인정받은 시니어급 개발자다.

타조의 챔피언은 링크드인의 하둡 엔지니어로 유명한 제이콥 호만 수석엔지니어가 나서줬다. 호튼웍스 설립자인 오웬 오말리 부사장, NASA 제트추진연구소의 크리스 매트맨도 멘토로 참여했다. 이들은 아파치 프로젝트서 이슈 논쟁을 벌이면서 친해진 사람들이었단다.

“2008년부터 하둡이랑 하이브를 구현해보기 시작했는데, 하이브가 워낙 느리고 반응도 느렸습니다. 하이브를 보니 지속적으로 개발 할 때 성능을 개선하기 힘든 구조적 한계를 갖고 있더라구요. 밑바탕부터 새로 만들어야겠다고 생각했어요. 하이브 대체로 개념을 잡고 로레이턴시, 인터랙티브 등을 주요 기능으로 갔습니다.”

타조를 표현하는 말은 ‘인터랙티브 쿼리엔진’ 혹은 ‘대화형 쿼리엔진’이다. 터미널에서 SQL 질의를 던지고 바로 결과가 나오면, 그 결과에 대해 다시 질문을 던지는 식으로 대화하듯 분석을 하는 것이다. ADHOC 쿼리가 그렇듯 미리 어떤 쿼리를 날릴지 정해놓은 게 아니라 결과를 보면서 질의를 이어가는 형태다. 때문에 당연히 빠른 반응속도가 중요하다.

“타조 성능을 연구실 32개 클러스터 기준으로 했을 때 하이브와 비교하면 100GB 정도에선 1.5~4배 빠르고, 1TB 이상의 큰 데이터는 2~10배 빠릅니다. 클라우데라 임팔라도 로레이턴시에 특화된 설계를 갖고 있어서 빠르다고 하지요. 하지만 임팔라는 하이브를 대체하는 게 아니에요. 클라우데라의 경우 워크로드에 따라 하이브와 임팔라를 선택적으로 사용할 것을 요구합니다. 타조는 원래 하이브 대안으로 개발된 거라서 하이브가 하는 걸 다 하면서 더 빠르게 하는 거구요.”

■"클라우데라 임팔라 다음은 타조"

클라우데라 임팔라의 경우 소규모 데이터를 메모리에서 처리하는 기술이다. 하지만 데이터 규모가 커지면 디스크를 이용하는 하이브를 사용하는 수밖에 없다. 반면, 타조는 메모리와 디스크를 상황에 따라 선택할 수 있게 했다.

하이브의 기능을 완전 대체할 수 있는 타조의 비결은 이처럼 DW와 OLAP 양쪽에 모두 활용가능한 설계다. 대화형 쿼리와 데이터 통합 등의 워크로드에 따라 그에 적합한 알고리즘들을 사전에 설정해 작동하도록 한 것이다.

“제가 타조 방법이 좋다고 믿는 게 SQL 질의를 처리할 때 사용자는 자신의 질의가 얼마나 많은 메모리를 필요로 하는지 알 수 없어요. 클라우데라가 임팔라와 하이브를 선택하라고 하는 건 사용자가 데이터 크기와 메모리를 다 판단해서 어떤 걸 택할지 결정해야 한다는 의미입니다. SQL질의를 쓰는 건 어떤 데이터가 필요한지만 기술하고, 처리에 대한 건 기술하지 않기 때문이에요. 이런 SQL의 의미를 더 잘 살리려면 일반사용자가 데이터 크기와 메모리 필요를 알면 안 되는 겁니다. 그게 더 SQL의 의도에 더 맞는 거죠.”

최박사가 판단하기에 타조가 구현수준에서 현존하는 하둡 진영의 대화형쿼리엔진 중 임팔라에 가장 근접했다. 호튼웍스 스팅거, 맵R 드릴은 진도도 더딜 뿐 아니라 어떤 것도 나온 게 없기 때문이다. 아직 실체조차 없는 기술들이 영미권이란 이점을 안고 외국 언론에서 자주 거론되는 것에 답답함을 느낄 만 하다.

“타조는 아직 갈 길이 멉니다. 학교에선 개인적으로 했고, 홍보도 거의 안 됐죠. 오픈소스라 해도 뒤에서 벤더가 지원하는 경우 벤더가 대신 홍보를 해줍니다. 타조가 괜찮을 거라 믿는건 구현의 진척 상태가 스팅거나 드릴보다 상당히 앞서서 임팔라에 준하는 수준이에요, 정식 릴리스하면 실제 성능이나 실제 시스템으로 어필할 수 있을 거라 믿고 있습니다. 이미 타조 코드를 본 미국의 이분야 회사의 CTO가 직접 메일을 보내서 협력을 제안할 정도였어요. 물론 우리보다 뒤진 기술과 협력할 수 없단 생각에 거절했지요.”

글로벌 홍보. 여기서 그루터에 합류한 또 다른 이유가 있다. 오픈소스 중 유사한 개념으로 경쟁하는 기술이 많은데, 그루터란 회사가 갖고 있는 목표와 타조의 성공이 부합한다는 것이다.

그루터는 빅데이터와 하둡 분야 핵심기술에서 국내 독보적인 경쟁력을 갖고 있다. 이 회사의 특징은 당장의 제품과 서비스를 내놔 사업적 성공을 거두기보다, 핵심기술 경쟁력 확보에 주력해 세계적인 기술회사로 인정받기를 원한다. 최박사는 이 지점을 주목했단다.

“올해초부터 대화형 쿼리엔진이 주목을 받고 있어서 내년 정도엔 꽃이 피지 않을까 합니다. 기업들이 하둡 적용하면서 엔터프라이즈의 문이 열리고 거기서 더 가속화될 것이고요. 올해 안에 정식 릴리스를 할 겁니다. 기술적으론 타조는 맵리듀스와 클라우드 기반 기술에 데이터베이스 기술을 접목하려고 합니다. 20~30년 간 누적된 DB기술을 클라우드에 맞게 적용해야 하거든요.”

자신이 만든 잠재력있는 기술에 승부를 걸기 위해 비전을 지원해줄 강소기업을 택한 최현식 박사. 조만간 그와 타조에게 좋은 소식이 들릴 것 같다.



※ 본 내용은 (주)메가뉴스(http://www.zdnet.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 지디넷코리아. 무단전재 및 재배포 금지


[원문출처 : http://www.zdnet.co.kr/news/news_view.asp?artice_id=20130705144338]

맨 위로
맨 위로