본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

美 빅데이터 행사에 韓 주도 오픈소스 뜬다

OSS 게시글 작성 시각 2014-06-03 18:08:14 게시글 조회수 4349

2014년 06월 02일 (월)

ⓒ 지디넷코리아, 김우용 기자 yong2@zdnet.co.kr


최현식 그루터 연구원, 하둡서밋서 타조 프로젝트 발표


3일 미국 캘리포니아 새너제이에서 아파치 하둡 커뮤니티를 위한 대규모 빅데이터 행사가 열린다. 제7회 하둡서밋이다. 이번 하둡서밋에선 한국 개발자들이 주도하는 오픈소스 빅데이터 데이터웨어하우스(DW) 엔진 '타조(Tajo)' 사례도 발표될 예정이어서 주목된다.

야후와 호튼웍스가 주최하고 아파치소프트웨어재단(ASF)이 파트너로 동참한 하둡서밋은 미 동부의 '하둡월드'와 함께 미국 2대 하둡 컨퍼런스로 통한다.

3일부터 5일까지 열리는 올해 하둡서밋은 하둡 성공사례와, 개발 및 관리에 대한 팁과 함정 등을 공유하는 자리다. 전세계 하둡 에코시스템 개발자, 아키텍트, 관리자, 데이터 분석가, 데이터과학자, 벤더에 이르기까지 광범위한 참석자들의 네트워킹 장으로도 활용된다.
총 7개의 세션이 동시에 진행되는 가운데, 3일 오후 4시 35분 커미터(Commiter) 세션에서 ‘타조’ 발표가 진행된다. 지난 3월 아파치 톱레벨 프로젝트로 승격된 타조는 아파치 하이브를 대체하는 오픈소스 하둡용 빅데이터 DW 엔진이다. 아파치 타조 프로젝트 의장(VP, Vice President)이자 창안자인 최현식 그루터(Gruter) 책임연구원이 발표자로 나선다. 

최현식 연구원은 “타조의 로컬 처리 엔진을 앞으로 어떻게 발전시켜야 할지에 초점을 맞춰 발표할 것”이라며 “벡터라이즈드 엔진에 대한 내용으로, 병목이 어떻게 생기고 어떤 성능저하요소를 발견했으며, 어떻게 개선해 얼마나 좋아졌는지 등의 분석 내용이 담긴다”고 설명했다. 

타조는 2010년 처음 창안되고 작년 3월 아파치 인큐베이터 프로젝트에 선정됐다. 이후 1년만에 아파치 톱레벨 프로젝트로 승격됐다. 최현식 책임연구원을 비롯해 그루터의 전문 개발자들의 주도 속에 활발히 개발되고 있다.

타조는 표준SQL 언어를 사용해 하둡분산파일시스템(HDFS)의 데이터를 조회, 분석하자는 'SQL온하둡(SQL on Hadoop)' 솔루션이다. 하둡 프레임워크의 맵리듀스를 사용하지 않는 로레이턴시(Law latency), 대화형(Interactive) 실시간 분석을 목표로 했다. 

대규모 배치 작업과 실시간 인터랙티브 분석에 모두 사용 가능하다. HDFS 외 다양한 데이터 소스에 저장된 데규모 데이터세트에 대한 ETL( extract, transform, and load: 추출-변환-적재), 확장가능한 애드혹(Adhoc) 쿼리, 온라인통합 등의 기능을 제공한다. 대규모 데이터에서도 대화형 쿼리분석이 가능하다는 게 장점이다. 
SK텔레콤의 경우 작년부터 타조를 빅데이터 분석 솔루션으로 사용중이다. 현재 프로덕션 적용 작업이 진행되고 있다. SK텔레콤은 타조 도입 후 하이브 대비 평균 3.7배 성능 향상, 데이터 처리 작업량 70% 절감 등의 효과를 거뒀다고 한다. 

벡터라이즈드 엔진이란 ‘벡터라이제이션(Vectorization)’ 기술을 이용한 데이터처리엔진이다. 데이터베이스를 컬럼단위로 연산하고, CPU의 SIMD나 캐시를 활용해 성능을 높인다. 현재 벡터와이즈(Vectorwise)와 버티카(Vertica) 등이 상용DB 제품 가운데 벡터라이제이션을 구현했다. 아마존웹서비스에서 인수한 레드시프트(Redshift)도 이 방식에 기반했다. 

최 연구원은 “아파치 톱레벨로 승격된 후 컨트리뷰터가 더 많아졌고, 최근 왕성하게 활동하는 한명이 커미터로 추가로 등록됐다”며 “근래 타조 0.8 버전을 발표했고, 상용DB 수준의 안정성과 기능을 갖췄다 판단되면 1.0 버전을 내놓을 것”이라고 말했다. 

타조는 당초 하둡서밋 발표 투표에서 1위를 달리다 막판에 아쉽게 탈락했다. 그러나 행사주최측의 심사 후 특별 초청을 받아 세션 발표를 하게 됐다. 

최 연구원은 하둡서밋에 이어 14일 로스앤젤레스(LA)에서 열리는 ‘빅데이터캠프’에서도 ‘타조’를 주제로 발표한다. 빅데이터캠프 발표 역시 LA 하둡유저그룹의 초청을 받아 하게 됐다. 빅데이터캠프에서 발표는 사용자에 초점을 두고 사용법이나 주요기능을 설명할 예정이다. 

그는 “오픈소스는 사람이 중요하다고 생각한다”며 “사람들은 오픈소스 커뮤니티나 컨퍼런스에서 누가 어떤 재밌는 것을 하는지, 기술적으로 얼마나 쿨한지 보고 매력을 갖게 된다고 생각한다”고 말했다. 

그는 이어 “뭔가 진보적이고 앞선 것을 하면 그 사람에 끌리고 프로젝트도 따라서 끌린다고 본다”며 “하둡서밋 발표를 통해 우리가 이만큼 나아갔으니, 끌린다면 참여하라고 알리고, 훌륭한 공헌자를 모시고 싶다”고 포부를 밝혔다.



※ 본 내용은 (주)메가뉴스(http://www.zdnet.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 지디넷코리아. 무단전재 및 재배포 금지


[원문출처 : http://www.zdnet.co.kr/news/news_view.asp?artice_id=20140602104249]

맨 위로
맨 위로