본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

맵알, “하둡으로 규모·확장성 한꺼번에 잡자”

OSS 게시글 작성 시각 2014-11-25 17:00:13 게시글 조회수 3459

2014년 11월 07일 (금)

ⓒ 블로터닷넷, 이지현 기자 jihyun@bloter.net



‘스키마에서 벗어나 더 많은 데이터를 빨리 처리하자.’


최근 맵알테크놀로지가 집중하는 기술 방향이다. 하둡 기술이 점점 세분화되면서 기술 경쟁도 가속화되고 있다. 특히 최근 SQL을 하둡에서 쓰기 위한 ‘SQL온하둡’ 기술을 여러 빅데이터 업체나 오픈소스 커뮤니티가 내놓고 있다. 맵알도 최근 ‘아파치 드릴’이라는 오픈소스 기술을 내놓고 입지를 확장하고 있다.


맵알은 2014년 초 한국지사를 설립하고, 한국 고객을 잡기 위한 여러 노력을 기울이고 있다. 하둡은 오픈소스로 공개된 만큼 누구나 자체 개발 및 이용할 수 있지만, 맵알은 이를 기업에서 사용할 수 있도록 안정성을 보강해 제공하고 있다. 실제로 하둡 내부 구조가 복잡해, 자체 개발하기보다 맵알 같은 외부 전문 업체 기술력을 빌리는 업체들이 여럿 있다. 국내에선 전자회사, 보험회사, 연구소 등이 맵알 기술을 이용하고 있다.


지난주 한국을 방문한 M.C. 스리바스 맵알 최고기술책임자(CTO)이자 공동설립자는 “과거에는 미국이나 일본 쪽에서 주로 빅데이터 기술에 관심을 가졌는데, 지난해부터 한국 고객도 늘고 있다”라며 “이 때문에 한국지사 인력을 강화하고 한국 고객을 적극적으로 찾고 있다”라고 설명했다.


mapr_cto_interview_2014_02
▲M.C. 스리바스 맵알 최고기술책임자(CTO) 겸 공동설립자


하둡을 보통 ‘대용량 분산처리 시스템’으로 표현하지만 실제론 하나의 기술이 아니라 여러 기술을 함께 사용한다. 이를 ‘하둡 생태계’라고 표현하는데, 이 안에 30여개에 이르는 구성요소가 있다. 여러 단체나 기업이 이러한 구성요소 기술을 경쟁하듯 출시하고 있다.


M.C. 스리바스 CTO는 하둡의 핵심 기술을 2가지로 요약했다. 하나는 ‘맵리듀스’, ‘얀’과 같은 컴퓨팅 기술, 다른 하나는 분산시스템을 위한 데이터 저장 기술이다. 최근 맵알은 데이터 저장 기술에 주목하고 있다.


“컴퓨팅 부문에선 리눅스를 활용할 수 있죠. 데이터를 관리하고 저장하는 데는 좀 더 전문적인 기술이 필요해요. 과거엔 오라클, MySQL, 넷앱, 테라데이터 등과 같은 기업의 기술들로 데이터를 저장하고 처리했죠. 하지만 데이터 저장방식도 2가지로 분류돼 있어요. 데이터를 단순 저장하는 기술과 데이터를 가공해서 저장하는 방식으로요. 맵알은 양쪽 데이터 저장방식 장점을 모두 가져오려 합니다. 이를 통해 더 많은 데이터를 똑똑하게 처리할 수 있게요.”


mapr_cto_interview_2014_03
▲하둡 생태계 기술(출처 : 맵알)


현재 많이 쓰이는 데이터 저장 기술을 보자. 일단 전통적으로 데이터를 읽고, 쓰고, 열 수 있는 SAN, NFS 기술이 있다. EMC, 씨게이트, 넷앱 등이 제공하는 데이터 저장 기술이다. 이러한 기술로 사용자는 원하는 데이터를 한 장소에 넣어놓고 간단하게 처리할 수 있다. 가공되지 않은 데이터를 처리할 수 있지만, 데이터 규모를 확장하는 데 문제가 있었다.


그 반대편엔 OLTP(On-Line Transaction Processing), OLAP(On-Line Analytical Processing) 기술이 있다. 이를 통해 테이블, 스키마, 트랜잭션을 이용하면서 똑똑한 데이터들을 만들 수 있다. 오라클, MySQL, 사이베이스, 테라데이타, SAP 등이 이러한 기술을 제공한다. 이는 SQL 기반 기술로, 여러 데이터를 표에 정리하듯 재가공한 데이터를 말한다. 확장성은 있지만 가공되지 않는 데이터를 처리할 수 없는 단점이 있었다.


그동안 위와 같은 2가지 데이터 저장 방식이 따로 존재했는데, 맵알은 2가지 데이터 저장 방식의 장점을 하둡시스템으로 구현하려 한다. e메일, 트윗, HTML 파일 같이 분류되지 않은 여러 데이터와 마치 표에 정리되어 있듯이 구조화된 데이터를 동시에 저장하고 처리할 수 있게 돕는 것이다. 이를 통해 NoSQL 데이터를 처리할 수 있다. 여기서 말하는 NoSQL이란 SQL뿐만 아니라 모든 데이터 처리하겠다라는 의미다. 하둡에서 처리 가능한 SQL이란 의미로 ‘SQL온하둡’이라고 부르기도 한다.


mapr_cto_interview_2014_04
▲출처 : 맵알 유투브 영상 캡쳐(가장 왼쪽이 전통적인 데이터 저장 기술, 가장 오른쪽이 SQL 기반 데이터 저장기술이다. 가운데가 맵알 하둡이 추구하는 하둡 기술, 양쪽의 장점을 가져오는데 주력했다)



☞M.C. 스리바스 맵알 최고기술경영자(CTO)가 설명하는 맵알 하둡 기술


사실 SQL온하둡 분야엔 경쟁자가 많다. ‘임팔라’, ‘하이브’, ‘프레스토’ 등도 SQL온하둡을 구현하기 위해 등장했다. M.C. 스리바스 CTO는 이러한 경쟁 기술과의 차이점에 대해 “스키마가 없는 것”이라고 강조했다. 스키마가 없다는 것은 구조가 없다는 뜻이다. 이 때문에 가공되지 않은 데이터를 더 많이 처리할 수 있다.


예를 들어 통신사가 고객 정보를 저장할 때 이름, 주소, 전화번호를 분류해서 표를 만들었다고 치자. 여기에 ‘성별’이라는 칸을 넣고 싶다. 과거 데이터 구조에서 칸을 추가하려면 기본 설계를 처음부터 바꿔야 했다. 표를 처음부터 다시 그려야 했던 셈이다. 이러한 과정은 시간이 많이 걸리고 시스템에 큰 부담을 줬다. 맵알은 스키마, 즉 구조를 없애서 데이터를 쉽게 추가하고 결합할 수 있게 지원하려고 한다.


맵알은 이를 위해 ‘아파치 드릴’을 개발하기도 했다. 아파치 드릴은 하둡에 표준 SQL(ANSI SQL)을 지원하며, 일반적인 애플리케이션을 포함한 여러 데이터 소스에서 즉각적인 데이터 탐색을 제공한다. 아파치 드릴은 사용자들이 SQL 스킬 및 비즈니스 인텔리전스(BI) 도구에 대한 기존 투자를 쉽게 활용할 수 있도록 표준SQL을 지원한다. 최신 아파치 드릴 버전은 0.5이다.


M.C. 스리바스 CTO는 “EDW 기업들이 하둡 기술을 활용할 수 있도록 ‘커넥터’를 제공하긴 했지만, 맵알은 하둡을 연결하는 것이 아닌 하둡을 중심으로 데이터 기술을 처음부터 설계했다”라고 강조했다.




※ 본 내용은 (주)블로터 앤 미디어(http://www.bloter.net)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 블로터 앤 미디어. 무단전재 및 재배포 금지



[원문출처 : http://www.bloter.net/archives/213698]

맨 위로
맨 위로