본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

빅 데이터를 위한 하둡, 그 이상의 방법은 없는가

OSS 게시글 작성 시각 2012-11-05 18:22:46 게시글 조회수 4906

2012년 11월 01일 (목)

ⓒ ITWorld, Jaikumar Vijayan | Computerworld



하둡(Hadoop)과 맵리듀스(MapReduce)는 오랫동안 빅 데이터의 중심이었지만, 일부 기업들은 이제 거대하고 지속적으로 성장해가는 데이터세트에서 비즈니스 가치를 뽑아내는 새롭고 더 빠른 방법을 찾고 있다.

많은 대형 조직들이 여전히 오픈소스 하둡 빅 데이터 프레임워크로 돌아서고 있지만, 이를 창시한 구글과 다른 이들은 이미 좀더 새로운 기술로 움직이고 있다.

아파치 하둡 플랫폼은 구글 파일 시스템과 구글 맵리듀스 기술의 오픈소스 버전이다. 이는 거대 검색엔진업체가 상용 하드웨어 상의 막대한 볼륨의 데이터를 관리하기 위한 목적으로 개발된 것이다.

아파치 하둡은 구글이 웹을 훑고 검색하는데 사용된 처리 기술의 핵심이었다. 지난 3년동안 수백 개의 기업들이 빠르게 성장하는 구조적 데이터, 반-구조적 데이터, 비구조적 데이터를 관리하기 위해 하둡을 채택했다.

오픈소스 기술은 로그(log)나 이벤트 데이터 분석(event data analysis), 보안 이벤트 관리, 소셜 미디어 분석(analytics), 그리고 페타바이트급 데이터 세트를 포함하는 애플리케이션 등에서, 전통적인 기업 데이터웨어하우징(warehousing) 기술보다 더 값싼 옵션임이 증명됐다.

하둡 설계의 한계가 새로운 빅 데이터 기술 요구
애널리스트들은 일부 기업들이 기술의 제한때문이 아니라, 설계된 목적때문에, 하둡 이후를 생각하기 시작했다고 주장했다.

하둡은 데이터가 배치로 수집되고 처리되는 경우에 배치-프로세싱(batch-processing) 작업을 맡기 위해 만들어졌다. 하둡 환경에서의 데이터는 쪼개져서 고도로 분산된 상품 서버나 노드에 저장된다.

데이터로부터 보고서를 받기 위해서는, 사용자는 우선 업무를 쓰고, 제출한 후, 모든 노드에 분산되고 처리될 때까지 기다려야 한다.

데이터베이스와 분석 전문가인 커트 모내시는 "하둡 플랫폼이 잘 작동하고 있지만, 몇몇 핵심 애플리케이션의 경우 충분히 빠르지 못하다"고 말했다. 예를 들어, 하둡은 대규모 데이터베이스에 상호적인, 즉각적인 쿼리를 실행하는데는 적합하지 않다.

모내시는 "하둡은 상호 쿼리에 있어서 문제가 있다"며, "만약 몇 초간의 지연시간(latencies)를 참을 수 있다면, 하둡은 쓸만하다. 그러나 하둡 맵리듀스는 1초 미만의 지연시간을 요구하는 곳에서는 절대로 유용하지 않을 것"이라고 말했다.

즉각적인 응답 능력을 필요로 하는 기업들은 이미 자사의 빅 데이터 분석을 위해 하둡 이후를 모색하고 있다.

사실 구글은 5년 전부터 내부적으로 개발된 기술인 드레멜(Dremel)을 사용하기 시작했다. 드레멜은 상호 분석을 하거나 전세계에 위치하는 수천 대의 서버들이 만들어내는 막대한 로그 데이터 양을 '쿼리'한다.

구글은 드레멜 기술이 상용 기기의 공유 클러스터에 대한 거대 데이터세트의 상호 분석을 지원한다고 말했다.

구글은 "드레멜 기술은 조 단위줄을 넘어가는 데이터 테이블에 걸쳐 쿼리를 순식간에 실행할 수 있고, 수천 개의 CPU와 페타바이트급 데이터로 확장될 수 있으며, SQL-쿼리같은 언어들을 지원해 사용자들이 데이터와 소통하기 쉽고, 즉각적인 쿼리를 생성하기 쉽다"고 설명했다.

전통적인 관계형 데이터베이스 관리 기술은 지난 몇년간 상호 쿼리를 지원했지만, 드레멜은 훨씬 더 강력한 확장성과 속도를 제공한다고 주장했다.

구글, 하둡은 데이터 저장/처리에 드레멜은 데이터 분석
구글 운영에 있어 수천 명의 사용자들은 웹 문서 분석, 안드로이드 앱을 위한 설치 데이터 추적, 충돌 보고, 수십만 디스크를 위한 디스크 I/O 통계 유지 등과 같은 다양한 애플리케이션에서 드레멜을 사용한다.

그러나, 구글이 최근 출시한 빅쿼리(BigQuery) 제품 관리자인 쿽 주-케이는 드레멜은 맵리듀스와 하둡의 대체재가 아니라고 말했다. 빅쿼리는 드레멜에 기반한 호스티드 빅데이터 분석 서비스다.

쿽은 "구글은 드레멜을 맵리듀스와 결합해 사용한다"고 설명했다. 하둡 맵리듀스는 막대한 양의 서버 로그 데이터를 준비하고, 지우고, 변형하고, 옮기기 위해 사용되고, 이후 데이터 분석에 드레멜이 사용된다.

쿽은 하둡과 드레멜은 광범위한 컴퓨팅 기술이지만, 각기 아주 다른 문제들을 해결하기 위해 만들어졌다고 설명했다.

예를 들어, 만약 구글이 자사 지메일 서비스의 문제 해결을 시도한다면, 거대한 볼륨의 로그 데이터를 뒤지고, 문제를 정확히 짚어내야 했을 것이다.

쿽은 "지메일은 4억 5,000만 명의 이용자를 보유하고 있다. 만약 모든 이용자가 지메일과 몇백 개의 교차점(intersections)을 가진다면, 구글이 로그해야할 전체 이벤트와 교차점을 생각해보라"고 말했다.

쿽은 "드레멜을 통해 구글은 시스템으로 진입해 추측에 근거한 쿼리들로 그 로그들의 정보를 얻을 수 있다"고 말했다. 쿽에 의하면, 구글 엔지니어는 10초가 넘어가는 모든 반응시간을 자신에게 보여달라. 지금 지역별로 보여달라고 말할 수 있다. 드레멜은 엔지니어로 하여금 어디에서 지연이 발생하고 있는지 아주 빠르게 정확하게 집어낼 수 있게 해준다고 설명했다.

드레멜은 아주 많은 기기들로 데이터를 분산하고, 모든 서버로 쿼리들을 분산하며, 각각에 대해 '해답을 가지고 있냐고 묻는다. 그리고 드레멜은 말 그대로 그 모든 결과를 모아 몇 초만에 해답을 제시한다.

같은 작업에 하둡과 맵리듀스를 사용하면 작업 쓰기, 실행, 정보가 이용자에게 다시 보내지기 전까지 클러스터에 걸쳐 펼쳐질 때까지 기다리기 등이 요구되기 때문에, 더 오랜 시간이 소요된다. 쿽은 "그렇게 할 수도 있지만, 아주 복잡하다. 그건 마치 컵으로 빵을 자르려는 것과 같다"고 말했다.

구글을 드레멜로 몇 년 전 갈아타게 한 것과 같은 종류의 데이터 볼륨들이 일부 기업 조직에서도 나타나기 시작했다고 말했다.

자동차, 제약, 유통, 금융서비스 산업 등의 기업들이 데이터를 감당 못할 지경에 이르렀기 때문에, 이 데이터를 빠르게 쿼리하고 분석할 수 있는 툴을 찾고 있는 중이다. 구글의 호스티드 빅쿼리 분석 서비스는 새로운 빅 데이터 기술 요구로부터 혜택을 받을 수 있는 유리한 위치에 서게 됐다.

가트너 애널리스트 리타 살람은 드레멜 기반의 호스티드 서비스가 빅 데이터 분석의 판도를 바꿀 수 있다고 말했다.

살람은 "드레멜 기반의 호스티드 서비스는 기업들이 거대 데이터세트를 값비싼 기초 분석 기술의 구입 없이도 상호 쿼리를 할 수 있게 해준다"고 설명했다. 비즈니스는 다른 데이터 유형들과 다른 데이터 볼륨들을 기업 데이터 분석 플랫폼을 구입하는 비용의 극히 일부만 쓰고도 탐구하고 실험해볼 수도 있다.

살람은 "진정 빅쿼리에 주목해야 하는 이유는 빅쿼리의 기초 기술이 아니라 대기업에서 IT 비용을 감소시켜줄 수 있는 잠재력에 있다"고 말했다.

살람은 "빅쿼리는 대규모 데이터 세트를 분석하는데 있어서, 전통적인 기업 데이터 플랫폼에 비해 훨씬 비용대비 효과적인 방법을 제공한다. 기존 비용 방정식을 바꿔버릴 잠재력은 물론 기업들이 그들의 빅 데이터로 실험을 할 수 있게 해준다"고 말했다.

BI 업체, 하둡 환경의 데이터 분석 툴 발표
SAS, SAP, 오라클, 테라데이터, HP 등의 비즈니스 인텔리전스 제품의 주요 개발업체들은 향상된 데이터 분석 능력을 제공하는 툴을 공급하기 위해 노력해왔다. 구글처럼, 이런 개발업체 대부분은 하둡 플랫폼을 다른 툴을 통해 분석하기 위한 다중-구조적 데이터를 준비하고 옮기는, 주로 거대 데이터 저장 용도로 보고 있다.

바로 지난 주, SAP는 대형 조직들이 하둡 환경을 SAP의 HANA 인-메모리 데이터베이스와 관련 기술들과 통합할 수 있게 해주는 새로운 빅 데이터 번들을 공개했다.

이 번들 제품은 SAP HANA 플랫폼을 이용해 하둡 환경으로부터 데이터를 읽고 로드한 후, 그 데이터에 SAP의 리포팅, 분석 툴을 이용해 빠른 상호 분석을 수행한다.

몇 주 전, SAS는 비슷한 능력의 하이 퍼모먼스 애널리틱 서버(High Performance Analytic Server)를 발표했다. HP는 버티카(Vertica)의 인수로 취득한 기술로, 테라데이터는 자체 애스터-하둡 어댑터(Aster-Hadoop Adaptor)로, IBM은 네테자(Netezza) 툴 세트로, 비슷한 기능을 제공하고 있거나, 곧 제공할 예정이다.

최근 이 비즈니스는 상당한 창업 바람을 일으키고 있다.

메타마켓(Metamarkets)은 실시간으로 막대한 양의 새로운 스트리밍 데이터를 기업들이 분석할 수 있도록 설계된 클라우드-기반 서비스를 개발했다.

메타마켓 CEO 마이클 드리스콜은 이 서비스의 중심은 내부적으로 개발된 드루이드(Druid)라 불리는 분산된 인-메모리, 원주 데이터 기술이라고 말했다. 드리스콜은 드루이드를 개념상 드레멜과 비교했다.

드리스콜은 "드레멜은 애초부터 분석 데이터 저장이 되는 것을 가정하고 설계됐다"고 설명했다. 또한 "칼럼-지향, 평행, 인-메모리 설계로 인해, 전통적인 데이터 저장보다 수백, 수천 배 빠르다"고.

드리스콜은 "메타마켓은 이와 아주 비슷한 아키텍처를 갖고 있다"며, "칼럼-지향적이고, 분산적이며, 인-메모리"라고 말했다. 이에 "메타마켓의 기술은 데이터가 데이터 저장소로 스트림되기도 전에 기업들이 데이터에 쿼리를 실행할 수 있게 해줘 드레멜보다도 더 빠른 통찰을 얻을 수 있게 해준다"고 설명했다.

메타마켓은 올해 초 드루이드를 오픈 소스 커뮤니티에 출시하면서 이 기술에 대한 더 많은 개발 활동을 끌어내려고 했다. 드리스콜은 "이런 기술에 대한 수요는 속도에 대한 필요에 의해 발생되고 있다"고 말했다.

드리스콜은 "하둡은 밀리초 단위의 쿼리 응답 시간이 필요한 기업들에게는 절대적으로 너무 느리다"며, "전통적인 개발업체에 의해 제공되는 분석 기술들은 하둡보다는 빠르지만, 드레멜이나 드루이드에 비할 바가 못된다고 말했다.

또다른 벤처업체인 노디블(Nodeable)은 스트림리듀스(StreamReduce)라는 클라우드-호스티드 서비스를 제공하는데 이는 메타마켓와 흡사하다.

스트림리듀스는 백타입(BackType)이 지난해 트위터에 인수되기 전에 원래 개발했던 오픈소스 데이터 분석 기술인 스톰(Storm)으로 만들어졌다. 또한 트위터 내부에서도 사용되는 스톰은 기업들이 스트리밍 데이터에 실시간 분석을 할 수 있게 해준다.

노디블 CEO 데이브 로센버그은 "노디블은 하둡 커넥터를 제공해 기업들이 하둡 환경에 저장된 데이터에 상호 쿼리를 실행할 수 있게 해준다"고 말했다.

노디블은 클라우드 시스템 관리 업체로 시작했지만, 빅 데이터 분석 기술에서 기회를 포착한 후 기업 노선을 변경했다. 로센버그는 "하둡의 실시간 보완재가 없다는 것을 깨달았다. 노디블은 자체적으로 얼마나 하둡과 실시간에 가까워질 수 있는지 물었다"고 말했다.

로센버그는 "노디블 등의 서비스는 하둡을 대체하는게 아니라 보완하는 것"이라고 주장했다.

스트림리듀스는 향후 전통적인 배치 프로세싱을 위해, 하둡 환경이나 다른 데이터 저장소에 저장될 수 있는 스트리밍 데이터로부터 이전가능한 정보를 추출해 낼 수 있는 방법을 제공해 준다고 설명했다.

노디블과 메타마켓이 제공하는 스트리밍 엔진은 드레멜같은 기술과 한 가지 중요한 점에서 차이가 있다. 노디블과 메타마켓은 미가공 데이터가 데이터베이스에 도달하기 이전에 분석하기 위해 고안된 것이라는 점이다. 드레멜과 다른 기술들은 이미 하둡 환경 같은 데이터 저장소에 존재하는 데이터의 즉각적인 쿼리 작업을 위해 만들어졌다.

한편, 이런 상황에서 주요 하둡 관련 업체들도 보고만 있지 않았다.

상업적 하둡 기술의 최대 개발업체인 클라우데라는 지난주 하둡 분산 파일 시스템(Hadoop Distributed File System)에 저장된 데이터의 실시간 쿼리 엔진인 클라우데라 임팔라(Cloudera Impala)라는 기술을 출시했다.

클라우데라에 의하면, 임팔라 기술을 통해 기업들은 한 시스템에서 구조적, 비구조적 데이터 배치와 실시간 작업을 할 수 있게 될 것이다.



※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지



[원문출처 : http://www.itworld.co.kr/news/78599]

맨 위로
맨 위로