본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

“하둡은 좋은데 맵리듀스 어려워”…대책은?

OSS 게시글 작성 시각 2013-04-01 19:19:39 게시글 조회수 4253

2013년 03월 29일 (금)

ⓒ 디지털데일리, 심재석 기자 sjs@ddaily.co.kr



하둡파일시스템(HDFS)에 저장된 데이터를 SQL(structured query language)로 처리하는 기술이 봇물을 이루고 있다.


SQL은 원래 관계형 데이터에서 사용하는 데이터베이스 언어로, 비정형 데이터에는 사용할 수 없다. 그러나 하둡이 인기를 끌면서 관계형 DB가 아닌 하둡파일시스템과 SQL을 함께 사용하고자 하는 요구가 강해졌다.


하둡을 쓰고 싶지만, 어려운 맵리듀스를 공부하는 것보다는 익숙한 SQL을 사용하는 것이 효율적이기 때문이다.


한국MS는 지난 28일 빅데이터 처리를 위한 어플라이언스형 데이터웨어하우스(DW) 솔루션인 ‘SQL 서버 2012 PDW’ 을 출시했다.


이 솔루션은 ‘폴리베이스’라는 데이터 처리 엔진이 내장된 것이 특징이다. 회사 측에 따르면, 폴리베이스는 정형 데이터는 물론 비정형 데이터까지 표준 SQL로 한번에 처리할 수 있는 기술이다. 관계형DB에 저장된 데이터와 하둡에 저장된 비정형 데이터까지 SQL로 읽고 쓸 수 있다는 설명이다.


이런 기술을 개발한 것이 MS가 처음은 아니다. 대표적인 것은 미국 클라우데라 임팔라다. 임팔라는 폴리베이스와 마찬가지로 비정형데이터와 정형데이터에 모두 SQL로 접근할 수 있는 기술이다.


오픈소스 프로젝트인 ‘하이브’도 SQL과 하이브큐엘(HivQL)로 하둡 데이터를 제어할 수 있다. 하이브는 하이브큐엘로 받은 명령을 맵리듀스로 변환하는 것이 특징이다. 때문에 성능이 떨어진다는 지적도 있다.


테라데이타도 비슷한 접근법을 선보인 바 있다. 테라데이타는 애스터데이터와 SQL-H라는 기술로 정형, 비정형 데이터를 모두 처리할 수 있다.


EMC도 HAWQ라는 기술을 보유하고 있다.


최근에는 국내에서도 이와 같은 기술이 개발됐다. 고려대학교 정보통신대학 컴퓨터학과 DB연구실(지도교수 정연돈) 박사과정 최현식, 손지훈 학생들이 개발한 하둡 기반 데이터웨어하우스(DW) 시스템인 ‘타조’를 개발했다. 타조는 이달 아파치재단의 인큐베이션 프로젝트로 선정된 바 있다. 최근에는 국내 하둡 전문기업 그루터를 비롯해 여러 개발자들이 커미터로 참여하고 있다.


이에 대해 권영길 그루터 대표는 “이런 기술이 등장하는 것은 하둡이 엔터프라이즈로 들어가고 있다는 것을 보여준다”면서 “이로 인해 기존의 데이터웨어하우스는 약화될 듯 보인다”고 말했다.




※ 본 내용은 (주)디지털데일리(http://www.ddaily.co.kr)의 저작권 동의에 의해 공유되고 있습니다.

Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지


[원문출처 : http://www.ddaily.co.kr/news/news_view.php?uid=102798]

맨 위로
맨 위로