본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

"빅데이터 알뜰 혁신"··· 맵알이 전하는 8가지 융합 요령

OSS 게시글 작성 시각 2016-08-16 16:50:45 게시글 조회수 3481

2016년 8월 8일 (월)

ⓒ CIO Korea, Thor Olavsrud | CIO



CIO나 여타 IT 의사 결정권자들에게 친숙한 미션 중 하나는 더 적은 자원으로 더 많은 일을 하는 것이다. 빅데이터(Big Data) 세계에서도 예산을 효율적으로 운영할 방안들이 있다. 

대표적인 것이 개발, IT 운영(Ops), BI(Business Intelligence), 오픈소스, 분산형 컴퓨팅, 클라우드, 마이크로 서비스 개발을 융합하는 것이다. 이러한 접근법을 통해 비용 절감뿐 아니라 생산성도 높일 수 있다.

맵알 테크놀로지스(MapR Technologies)의 데이터 및 애플리케이션 수석 부사장 잭 노리스는 "CIO들은 '더 적은 자원으로 더 많은 일을 하라'는 이야기를 너무 자주 들었기 때문인지, 비용 절감을 주제로 한 토론에 그리 적극적인 태도를 보이지 않곤 한다”라며 "그렇다면 다르게 표현해보자. 여러 기술과 역량을 융합함으로써 예산 대비 2배의 효과를 얻을 수 있다. 즉, 데이터와 애플리케이션 플랫폼을 2배 또는 3배로 가동하여 비용, 복잡성, 노력을 절감하는 방안이 있을 수 있다"라고 말했다.

노리스는 여러 기술을 융합해 효율성을 도모하는 방법을 어떻게 찾아낼 수 있는 지와 관련해 다음 8가지 요령을 제시했다.


Image Credit : Getty Images Bank

기업 프로토콜(Protocol)을 재활용
그렇다. 새로운 툴과 기법과 API를 도입할 이유는 있기 마련이다. 그러나 노리스는 CIO 및 엔터프라이즈 아키텍트들이 SQL, NFS, LDAP, POSIX 등의 기존 기업 표준과 새로운 기술 사이의 연결고리를 찾아내야 한다고 강조했다.

"이미 비용이 지불된 전문지식들이며, 수십 년 동안 사용되는 것들이기도 하다. 반드시 교체해야 할 시점이 아닌 한 새로운 것으로 대체해서는 안 된다. 기존의 세계와 새로운 세계를 연계하는데 도움을 줄 수 있는 기업 소프트웨어 벤더가 있을 것이다. 그들을 찾으려는 노력을 등한시해서는 안 된다"라고 그는 말했다.

스파크(Spark)와 하둡(Hadoop), 함께 있으나 분리된 존재
아파치 하둡은 현대 빅데이터 분석에서 혁명의 시작에 일조했다. 그러나 최근에는 아파치 스파크가 데이터 지향적인 애플리케이션에 활발히 사용되기 시작하면서 이목을 집중시키기 시작했다.

노리스는 "하둡 이후 개발된 스파크는 하둡 상에서 구동될 수 있다. 그러나 단독형 클러스터로도 동작할 수 있다. 현재는 스파크가 하둡의 맵리듀스(MapReduce) 모델보다 선호되는 개발 플랫폼이다. 그러나 하둡의 데이터 관리 역량 때문에 이 둘을 유지할 가능성이 있다. 어떤 선택을 하든 데이터 보호가 무엇보다도 중요하다는 점을 기억해야 한다. 애플리케이션은 다시 시작할 수 있지만 손실되거나 손상된 데이터는 잃게 될 수 밖에 없기 때문이다"라고 말했다.

클러스터 분산을 방지
컴퓨팅 클러스터(Cluster)는 친숙한 존재지만 오늘날의 환경에서는 자칫 "클러스터의 클러스터"로 이어지기 십상이다. 스파크와 하둡이 개별적인 클러스터로 배치되는 경우가 많다. 또 카프카 스트리밍, 파일 관리용 클러스터화된 파일 시스템 Node.js 프론트 엔드(Front End) 및 여타 다양한 것들이 클러스터 분산을 초래하기 십상이다.

노리스는 "스케일 아웃(Scale-Out) 클러스터링은 빅데이터의 근본적인 기초 중 하나임에 틀림없다. 하지만 각 클러스터에는 자체 보안 모델, 관리 인터페이스, 데이터 포맷, 지속 규칙, 개별적인 하드웨어 등이 있을 수 있다! 이로 인해 기술 사일로(Silo) 구조가 빠르게 나타날 수 있다. 클러스터들을 하나의 플랫폼이나 최소한의 플랫폼들로 통합 또는 융합할 수 있는 환경을 추구해야 한다"라고 말했다.

레이크(Lake) 상에 데이터 웨어하우스
데이터 웨어하우스가 아직 건재하지만 데이터 레이크가 매력적인 대안으로 부상했다. 사실 때로는 IT 조직이 씨름하는 가장 보편적인 빅데이터 사용례이기도 하다. 노리스는 레이크 상에 데이터 웨어하우스를 구축하는 방안을 검토하라고 권고했다.

"고객들이 데이터 레이크에서 체험할 수 있는 가장 큰 이점은 회사가 '알고 있는 것'들을 가시성을 높여 제시해준다는 것"이라며 "이런 가시성이 선사하는 즉각적인 이점은 좀더 완전하면서도 정확한 고객 360 모델이다. 이러한 이점은 더 양질의 마케팅 및 판매로 이어질 수 있다. 사기, 낭비, 남용 예측 및 예방 모델을 더 정확하게 구현해주기도 한다"라고 그는 말했다.

HTAP를 고려
HTAP(Hybrid Transaction/Analytical Processing)는 조사 기관 가트너가 붙인 명칭이다. 데이터 복제 없이 OLTP(Online Transaction Processing)과 OLAP(Online Analytical Processing)가 가능한 차세대 데이터 플랫폼을 의미한다. 노리스는 다음과 같이 설명했다.

"하둡과 새로운 애널리틱스가 데이터 웨어하우스를 포위 공격하고 있는 양상이다. 심지어 일부 트랜젝션 워크로드용 관계형 데이터베이스를 대체하기 시작했다. 이미 몇몇 기업들은 HTAP를 향한 경로를 발견해내고 있다. 비싼 데이터 변환 단계 없이도 OLTP 및 OLAP 운영을 가능하게 하는 문서 데이터베이스 기술을 이용하는 것이다. 오라클이 위기에 처했다고 평가할 정도는 아니다. 그러나 OLTP와 [데이터 웨어하우스] 워크로드를 논리적, 물리적으로 분리하는 관점은 점차 새로운 데이터 관리 및 분석 기법들에게 자리를 내주게 될 것이다."

기록 시스템으로써 이벤트 스트림(Event Stream) 활용하기
DiM(Data in Motion)에 대한 수요가 지속적으로 증가하면서 이벤트 스트림에 집중하는 기업이 늘고 있다. 노리스는 다음과 같이 설명했다.

"오늘날 스트리밍 분석, 트리거(Trigger), 경보 및 CEP(Complex Event Processing)에 대한 많은 논의가 이뤄지고 있는 가운데, 일부 기업들은 데이터 스트림을 새롭게 바라보고 있다. 시스템과 기업 사이의 데이터 상호작용을 캡처할 수 있는 수단으로 보는 것이다. 데이터 출처, 계통, 지속성, 라이프 사이클 등과 같이 다소 덜 흥미로운 주제의 경우에는 데이터 상호작용에 관한 불변의 기록을 생성하는 것이 더 효율적일 수 있다.”

하이브리드 클라우드(Hybrid Cloud) 활용
하이브리드 클라우드는 이미 몇 년 전부터 눈길을 끌어왔던 개념이지만, 빅데이터 세계에서 더욱 중요해지고 있다. 노리스는 다음과 같이 설명했다.

"하둡과 분산형 컴퓨팅의 기본 원칙 중 하나는 연산이 데이터를 향한다는 생각이다. 그 반대의 방향성은 성립되지 않는다. 오늘날 수집되고 있는 데이터 용량으로도 하이브리드 클라우드를 검토할 이유가 충분하다. 하지만 또 다른 이유들이 있다. 바로 상용 데이터 소스의 강화와 기업들이 분석 및 애플리케이션을 위해 외부 데이터 소스에 의존하게 될 가능성의 증가다. 이 때문에 기업은 클라우드와 방화벽 안에서 원활히 공조될 수 있는 데이터 및 애플리케이션 플랫폼을 찾아야 한다."

로컬에서 분석
데이터 변환과 이동에는 많은 시간과 노력이 요구될 수 있다. 노리스는 이런 시간과 비용을 절감할 수 있는 상황이 있다며 다음과 같이 설명했다.

"스파크, 아파치 드릴(Apache Drill), 기타 인메모리(In-memory) 처리 기술을 이용하면 데이터 이동, ETL 연산, 기타 데이터 변환을 방지하는 기회를 제공하면서도 하둡 플랫폼의 특징이라 할 수 있는 분석에 대한 스키마 온 리드(Schema On Read)를 활용할 수 있다.”

"항상 그랬듯이 데이터를 메모리로 읽어 들일 때 작용하는 네트워크 그리고/또는 디스크 지연 속도가 있다. 만약 기업이 기업근 분산형 파일 시스템에 투자했다면, 그것은 기업 분석 역량 측면에서 또 하나의 흥미로운 무기가 될 수 있다."



※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지


[원문출처 : http://www.ciokorea.com/news/30801]

맨 위로
맨 위로