Home > 열린마당 > 공개SW 소식

공개SW 소식

2014년 03월 21일 (금)

ⓒ ITWorld, Brandon Butler | Network World



자사에서 막대한 데이터를 다루고 있다면 하둡을 반드시 고려해봐야 한다. 한때 구글과 야후와 같은 글로벌 인터넷 기업의 전유물이던 가장 인기있고 잘 알려진 빅데이터 관리 시스템이 이제 다른 기업에까지 확산되고 있다.

거기에는 두 가지 이유가 있다. 첫째, 기업이 관리해야 될 데이터가 훨씬 많아졌고, 하둡은 기존의 정형 데이터와 새로운 비정형 데이터를 혼합하는데 탁월한 플랫폼이라는 점이다. 둘째, 수많은 개발업체가 하둡 지원과 서비스를 제공하는데 뛰어들어 기업 입장에서 선택의 폭이 늘어났다는 것이다.

포레스터 2013년 4분기 소프트웨어 조사 보고서에 따르면, 대부분의 기업들은 이미 보유한 데이터 가운데 단 12%만을 분석하고 있으며, 나머지 88%는 그냥 방치해두고 있다.
포레스터 애널리스트 마이크 갈티에리와 노엘 유하나는 "하둡은 자체 오픈소스 기반이 기업 데이터 관리 아키텍처로 넓고 깊게 성장함에 따라 더 이상 멈출 수 없는 흐름이 됐다"며, 최근 포레스터 웨이브 리포트(Wave Report)에서 하둡 시장에 대해 평가했다.

이 보고서는 "포레스터는 하둡이 대기업에게는 갖춰야 할(Must-have) 데이터 플랫폼이며, 모든 유연한 미래 데이터 관리 플랫폼의 초석을 형성하고 있다고 파악했다. 만약 자신의 조직에 정형, 비정형 혹은 바이너리 데이터가 많다면 하둡이 제 역할을 제대로 해낼 수 있다"고 설명했다.

그러면 어디서부터 시작할까?
포레스터는 다양한 분야 가운데 아홉 개의 하둡 서비스 개발업체를 평가해 각각의 장단점을 밝혔다. 포레스터는 현 시점에서 빅데이터 벤처 업체들이 상당한 서비스 제공을 무기로 IT 업계를 대표하는 거대기업들과 우열을 가리기 힘든 경쟁을 하고있다고 결론내렸다.

우 선 배경부터 정리해보자. 하둡은 오픈소스 아파치(Apache) 프로젝트로 누구든 무료로 하둡 커먼(Hadoop Common), HDFS(Hadoop Distributed File System), 하둡 YARN, 하둡 맵리듀스(MapReduce) 등을 포함한 하둡의 핵심을 다운로드할 수 있다.

IBM에서부터 아마존 웹 서비스(Amazon Web Services), 마이크로소프트(Microsoft), 테라데이터(Teradata)까지 많은 IT업체들이 이 하둡을 좀더 간편히 사용할 수 있도록 배포하거나 서비스 상품으로 내놓았다. 각각의 업체는 조금씩 다른 전략을 취하고 있지만 하둡에 잠재적으로 수천 개의 서버에 걸쳐 작업부하를 분산시켜 빅데이터를 관리 가능한 데이터로 바꾸는 능력이 바로 차별화 요소다.

다음 목록에서 주의할 점은 포레스터의 웨이브 보고서에 나온 개발업체 정보에 기반한 것으로, 하둡과 빅데이터 관리 플랫폼 전부를 망라한 것은 아니다. 그리고 나열 순서는 알파벳 순이다.

아마존 웹 서비스(AWS)
하둡 플랫폼에 호스팅된 퍼블릭 클라우드를 찾는 고객들은 포레스터가 '클라우드의 제왕'이라고 부르는 아마존 웹 서비스만 고려해도 될 것이다.
아마존 웹 서비스의 하둡 제품은 EMR(Elastic Map Reduce)라는 이름으로, AWS의 하둡 활용 빅데이터 관리 서비스를 말한다. 하지만 순수 오픈소스 하둡은 아니고, AWS의 클라우드상에서 특정적으로 실행된다.

포레스터는 EMR이 시장에서 가장 큰 하둡 플랫폼이라고 말했다. 이미 EMR을 기반으로 쿼리, 모델링, 통합, 관리 등의 서비스를 제공하는 다양한 협력업체들이 있다. 그리고 AWS는 EMR이 작업 부하 필요에 따라 자동적으로 확장 축소되어 규모를 바꾸는 능력을 위한 로드맵으로 혁신 중에 있다고 한다.

AWS는 레드시프트(RedShift) 데이터 웨어하우스, 새로 발표된 케네시스(Kenesis) 실시간 프로세싱 엔진 등을 포함한 기타 자체 제품과 서비스로 EMR 지원을 강화하려는 계획을 발표했으며, 추가적인 NoSQL 데이터베이스와 비즈니스 인텔리전스 툴 지원 계획도 갖고 있다.
다만 사용자가 자체 시스템 상에서 실행할 수 있는 하둡 배포판은 AWS가 가지고 있지 않다. 이어 소개하는 클라우데라와 호튼웍스는 해당 분야를 전문으로 한다.

클라우데라(Claudera)
클라우데라는 아파치 프로젝트의 많은 측면을 활용하는 오픈소스 하둡의 배포판을 가지고 있지만, 이 외에도 수많은 발전을 해왔다. 클라우데라는 자체 제품에 클라우데라 매니저(claudera manager)라는 관리와 모니터링 툴부터 임팔라(Impala)라는 관계형 데이터 실행을 위한 SQL 엔진까지 여러 가지 기능을 개발해왔다.

클라우데라는 자체 배포판의 기본에 오픈소스 하둡을 활용하지만 순수 오픈소스 제품은 아니다. 클라우데라의 고객들이 오픈소스 하둡이 가지지 못한 무언가를 필요로 할 때, 클라우데라는 자체적으로 이를 구축하거가 그 부족 기능을 갖고 있는 협력업체를 찾았다.

포레스터는 "클라우데라의 하둡 접근방식은 핵심 하둡을 고수하면서도 고객 수요를 충족시키기 위해 빠르고 공격적으로 혁신을 감행하며 자체 솔루션을 다른 개발업체와 차별화하는 것"이라고 평가했다.

이 결과로 클라우데라의 플랫폼 채택은 꾸준히 상승해왔고, 현재 200여 곳의 유료 고객을 갖추고 있으며, 일부는 1페타바이트(PB)가 넘는 규모의 데이터를 1,000개가 넘는 노드에 걸쳐 가지고 있을 정도다.

호튼웍스(Hortonworks)
클라우데라처럼 호튼웍스는 퓨어-플레이(pure-play) 하둡 업체다. 클라우데라와는 다르게 호튼웍스는 아마도 다른 어떤 개발업체보다도 더 강력하게 오픈소스 하둡 코드를 고수한다.

호튼웍스의 목표는 하둡 생태계와 하둡 사용자를 구축하고 오픈소스 코드를 발전시키는 것이다. 호튼웍스의 플랫폼은 오픈소스 코드를 밀접하게 고수한다. 이 점으로 인해 호튼웍스 측은 개발업체 종속을 막을 수 있어 사용자에게 도움이 된다고 강조한다. 호튼웍스 고객이 이 플랫폼을 떠나고자 할 때면 언제라도 손쉽게 애플리케이션을 플랫폼에서 다른 오픈소스 코드로 이전할 수 있다.

이는 호튼웍스가 오픈소스 코드 위에 다른 가치를 제공하지 않는다는 의미가 아니다. 호튼웍스는 오픈소스 커뮤니티에 플랫폼 개발 작업에 관한 모든 것을 되돌려준다. 바로 그 예가 호튼웍스에서 개발한 툴인 앰바리(Ambari)로, 클러스터 관리와 연관된 프로젝트의 구멍을 막는 역할을 한다.

호튼웍스의 접근방식은 테라데이터, 마이크로소프트, 레드햇(Red Hat), SAP 등의 개발업체로부터 강력한 협력관계를 이끌어냈다.

IBM
기업이 대규모 IT 프로젝트를 떠올릴 때 많은 이들은 IBM을 먼저 생각한다. 이 때문에 IBM은 세계 하둡 프로젝트 시장의 주요 업체 가운데 하나가 되었다. IBM은 이미 100여 곳의 하둡 배치를 완료했으며, 이 가운데에는 많은 고객들은 PB급 데이터를 관리 중이다. IBM은 그리드 컴퓨팅, 글로벌 데이터센터, 기업 이행 경험에서의 막대한 경험을 빅데이터 프로젝트에 활용한다.

포레스터는 'IBM' 로드맵에는 빅인사이트 하둡(BigInsights Hadoop) 솔루션과 SPSS 고급 애널리틱스, 고성능 컴퓨팅을 위한 작업부하 관리, BI 툴, 데이터 관리와 모델링 툴 같은 연관 IBM 자산과의 지속적인 통합이 포함되어 있다"고 말했다.

인텔(Intel)
아마존 웹 서비스처럼, 인텔은 자체 하둡 버전을 활용, 최적화하는데 특히 자체 생산된 제온(Xeon) 칩 하드웨어상에서의 구동에 중점을 뒀다. 자체 하둡 시스템의 극한을 끌어내면서 소프트웨어와 하드웨어 사이의 밀접한 연동을 찾는 고객들에게 인텔의 하둡 배포판이 적합할 수 있다.

포레스터는 인텔이 최근 출시한 제품을 통해 기업들이 현재 시장에 나온 버전에 더 많은 혁신을 기대할 수 있다고 말했다. 인텔과 마이크로소프트는 하둡 시장에서의 '강력한 경쟁자'로 분류되어 있으며, 기존 시장에서의 '시장 선도자'와는 위치가 다르다.

맵R 테크놀로지(MapR Technologies)
맵R 테크놀로지는 많은 사람이 들어보지 못한 가장 좋은 하둡 배포 업체일 것이다. 포레스터가 웨이브 보고서를 작성할 때 실시한 하둡 사용자 조사에서 맵R은 현재 제품으로는 가장 높은 평점을 받았고, 배포판의 아키텍처와 데이터 프로세싱 능력에서도 가장 높은 점수를 획득했다.

맵R 테크놀로지의 비법은 맵R이 자체 하둡 버전에서 이끌어낸 독특한 기능성 조합에 있다. 예를 들어, 맵R의 배포판은 NFS(Network File Systems)를 지원하며, 맵R은 재난 복구와 고가용성 기능을 배포판에 담았다.
포레스터는 맵R이 단지 브랜드 인지도에 있어서만 클라우데라와 호튼웍스보다 뒤처질 뿐이라고 평가했다. 더욱 많아지는 협력 관계와 마케팅은 맵R을 주류 하둡 업체로 성장시킬 수 있을 것이다.

마이크로소프트(Microsoft)
마이크로소프트는 전통적으로 오픈소스 소프트웨어에 친화적이지 않은 기업으로 알려져 있지만, 이번에는 하둡을 윈도우상에서 활성화할 뿐 아니라 하둡 생태계를 더욱 넓힐 수있는 오픈소스 프로젝트 코드도 내놓고 있다.

이런 노력의 결실은 마이크로소프트의 퍼블릭 클라우드 윈도우 애저(Windows Azure)의 HD인사이트(HDInsight) 제품에서 나타났다. HD인사이트는 서비스로의 하둡 제품으로 호튼웍스의 플랫폼 배포판에 기반하고 있지만 애저상에서 실행되도록 설계됐다.

마이크로소프트는 다른 훌륭한 프로젝트도 진행하고 있는데, 여기에는 SQL서버 상의 정보가 하둡 쿼리상으로도 검색되도록 하는 폴리베이스(Polybase)라는 데이터 처리 엔진도 포함된다. 포레스터는 "마이크로소프트의 데이터베이스, 데이터웨어하우스, 클라우드, OLAP, BI, 스프레드시트(파워피봇(PowerPivot)), 협업, 개발 툴 시장에서의 상당한 존재감은 마이크로소프트 고객에게 성장하는 하둡 스택을 제공할 때 장점으로 작용한다"고 평가했다. 인텔처럼 마이크로소프트는 '강력한 경쟁자'로 분류됐지만, 이 업계에서 선두주자는 아직 아니다.

피보탈 소프트웨어(Pivotal Software)
지난해 EMC와 VM웨어는 양사의 상당한 자산을 합쳐 피보탈이라는 별개의 독립 업체를 설립했다. 피보탈의 가장 큰 영업 분야는 하둡 배포와 클라우드 파운드리 PaaS(Cloud Foundry Paas)다. 피보탈은 오픈소스 코드상에 몇 가지 툴을 추가했는데, 특히 HAWQ라는 SQL 엔진과 빅데이터 플랫폼을 실행하기 위해 특별히 만들어진 하둡 어플라이언스 등이 있다.

피보탈 하둡 플랫폼이 갖고 있는 최고의 장점은 자체 배포판과 다른 피보탈, EMC와 VM웨어 제품들간의 통합에 있다. 피보탈은 자체 EMC와 VM웨어 지원의 혜택을 받고 있다. 하지만 포레스터는 현지까지 피보탈의 구축 경험은 100건에도 미치지 못하는데, 그것도 대부분 중소 규모의 고객이라고 지적했다.

테라데이타(Teradata)
테라데이타와 같은 업체들은 하둡을 위협요소이자 기회로 본다. 테라데이타는 데이터 관리, 특히 SQL과 관계형 데이터베이스 측면에 강점을 보이는 업체다. 그러므로 하둡 클라우드같은 NoSQL 플랫폼은 테라테이타에 위협이 될 수 있다. 이 대신 테라데이타는 하둡을 받아들였다.

호튼웍스와의 협력관계 체결을 통해 테라데이터는 이제 고객들에게 즉각 사용이 가능한 형태로 자동적으로 테라데이터 웨어하우스에 저장된 데이터와 매끄럽게 작동되도록 자체 SQL과 통합된 하둡 플랫폼을 사용할 수 있는 능력을 제공하고 있다.



※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지


[원문출처 : http://www.itworld.co.kr/news/86608]

맨 위로
맨 위로