본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

[포럼] 빅데이터 `고도화 전략` 시급하다

OSS 게시글 작성 시각 2015-06-02 17:46:48 게시글 조회수 3116

2015년 05월 03일 (일)

ⓒ 디지털타임스, 손승혜 KTDS IT서비스혁신센터 센터장


최근 빅데이터는 고도화 전략 도입으로
다양한 분야로 확장 추세 유연한 프로비져닝 등
자동화 지원 여부 따져 최상의 전략 마련해야


[포럼] 빅데이터 `고도화 전략` 시급하다
손승혜 KTDS IT서비스혁신센터 센터장

미국의 정보기술 연구 및 자문회사인 가트너는 매년 시장의 기술 투자가 어떤 부분에 집중되고 있는지, 사람들의 관심이 어디에 몰려있는지를 쉽게 파악할 수 있게 하이프 사이클(Hype Cycle)이라는 그래프를 발표한다. 이 하이프 사이클에서는 기술의 성장주기를 기술이 소개되는 단계(Technology Trigger), 기술에 대한 기대가 충만해지는 단계(Peak of Inflated Expectations), 기대에 못 미친 기술에 실망하는 단계(Trough of Disillusionment), 기술 이해도가 상승하는 단계(Slope of Enlightenment), 기술과 시장 안정기(Plateau of Productivity)의 다섯 단계로 구분한다. 가트너의 최근 발표자료에 따르면 빅데이터는 세 번째 단계에 속하며 이는 빅데이터라는 용어가 새로움과 신기함을 대중들에게 주는 단계를 넘어 구체적인 결과를 요구하는 시기가 됐다.


최근 시장에서의 빅데이터 활용사례나 고객의 요구사항을 살펴봐도 이러한 변화는 충분히 감지된다. 초기의 빅데이터 시장은 저비용 기반의 데이터 저장소를 구축하여 그 동안 비용문제로 버려졌던 수많은 데이터를 저장하고 배치(Batch)작업을 통해 분석하는 과정에서 미래를 예측하고 새로운 인사이트(Insight)를 찾아내는 '이상'적인 시도가 주류였으나 점차 고가의 EDW(Enterprise Data Warehouse)나 상용분석 솔루션을 저렴한 비용으로 확장 및 고도화 하는 등의 투자대비 효과를 명확하게 보여줄 수 있는 방향으로 그 활용도가 넓어지고 있다. 특히 하둡 2.0 출시 이후 인메모리 프로세싱, 실시간 처리, 인터랙티브 분석 등의 새로운 컴퓨팅 모델들이 하둡 에코시스템에 포함 되면서 기술의 집중영역과 적용영역이 확장되고 있음을 알 수 있다. 따라서 근시일 내에 빅데이터 환경을 도입하려는 계획이 있거나 기존 환경을 고도화 하려는 기업은 이러한 시장변화에 맞는 새로운 관점의 도입 기준을 고려해 볼 필요가 있다.


새로운 도입기준 세 가지 중 첫 번째는 오픈소스 커스터마이징 최소화 및 설치/배포/패키징 표준 준수 여부다. 빅데이터 솔루션을 일반적으로 하둡 에코시스템이라고 부르는 이유는 빅데이터가 단일 솔루션이 아니라 수많은 오픈소스 제품의 조합으로 구성되어 있기 때문이다. 기본적 구성만도 10여개의 오픈소스를 포함하고 있으며 인메모리, 실시간 복합 이벤트 처리 등의 새로운 컴퓨팅 모델이 하둡 2.0에 추가되면서는 20여개가 넘는 오픈소스가 포함되게 된다. 따라서 특정 오픈소스의 버전관리나 각 오픈소스 간의 호환성 관리를 특정기업이 독자적으로 수행하는 것은 불가능에 가까우며 새로운 기능과 요구사항을 신속하게 반영하는 데에도 어려움이 따르게 된다. 따라서 국내외 유명 빅데이터 제조사들은 오픈소스에 대한 직접적인 소스변경 보다는 오픈소스 커뮤니티에 핵심 커미터(오픈소스 커뮤니티 또는 프로젝트 리더)로 참여하면서 각 기업이 필요로 하는 요구사항을 오픈소스에 반영하는 전략을 사용하고 있다. 즉 빅데이터 솔루션 선정 시 오픈소스 표준(Vanilla Hadoop Ecosystem)을 얼마나 잘 준수하느냐에 대한 검증은 오히려 최신 트렌드를 지속적으로 따라갈 수 있고 확장성과 유지보수 안정성을 보장받을 수 있는 검증과 같다고 볼 수 있다.


도입기준 두 번째는 유연하고 확장성 있는 프로비져닝 및 배포 자동화 지원 여부이다. 앞에서 설명한 바와 같이 빅데이터는 다양한 오픈소스로 구성돼 있으며 이러한 구성요소들은 각각의 특성에 따라 이중화, 삼중화 아키텍처 구성을 하거나 컴포넌트 독립구성, 분산 배포 등 제약조건에 맞는 까다로운 설정이 필요하다. 이러한 구성과 각 요소들의 설정은 전체 빅데이터 환경의 성능과 안정성에 지대한 영향을 미치며, 이 때문에 지속적인 튜닝과 최적화에 많은 시간과 노력을 투자할 수 밖에 없게 된다. 따라서 이러한 구성과 설정, 튜닝과 최적화를 경험과 지식에 기반해 자동화 할 수 있다면 전체적인 도입 및 구축시간을 대폭 줄일 수 있으며 여기서 절약한 시간과 노력을 빅데이터 서비스 고도화에 투자할 수 있다. 자동화된 하둡 에코시스템 설정도구는 개별 오픈소스의 패치나 버전 업그레이드에도 효과적으로 활용될 수 있다.


도입기준 세 번째는 핵심 빅데이터 레퍼런스 아키텍처 지원 여부이다. 빅데이터에는 매우 다양한 활용분야가 있지만 최근 주요 고객의 요구사항은 몇 가지의 레퍼런스 아키텍처로 모아지고 있다. DW(Data Warehouse) 부하분산, 데이터 허브, 로그분석을 통한 행동양식 분석, 상황인식 기반의 실시간 이벤트 처리 등이 그 대표적인 사례이며 이러한 레퍼런스 아키텍처를 얼마나 쉽게 구현할 수 있는지, 구현된 시스템을 기존의 레거시(Legacy) 시스템이나 IoT 환경 등과 쉽게 연동할 수는 있는지, 구현된 시스템을 특정 산업이나 용도에 반복적으로 적용할 수 있게 표준 솔루션화는 가능한지 여부가 빅데이터 시스템의 지속적인 확장과 적용범위 확대를 위한 중요한 도입기준이 될 수 있다.


서울시의 심야전용버스 노선 최적화나 미국 넷플릭스(Netflix)사의 큐레이션 서비스를 통한 매출증대, 미 유통업체 시어스(Sears)의 재고 및 경쟁사 가격 분석을 통한 실시간 판매정책 조정 등 빅데이터를 활용해 수익을 개선하거나 의사결정을 최적화 한 사례는 점점 더 늘어나고 있으며 이러한 사례를 이해한 많은 기업들은 자신의 사업에 빅데이터를 적용하기 위한 노력을 기울이고 있다. 물론 빅데이터 적용에는 많은 고민과 사전검토가 필요하며 한번 도입된 빅데이터 플랫폼은 기업의 지속가능성을 좌우할 수 있는 근간으로 동작하게 된다. 따라서 단기간 내에 빅데이터 도입을 성과로 연결하기 위해서는 앞에서 언급된 고려사항들을 충분히 반영한 솔루션과 이를 가이드 할 수 있는 파트너를 선정하는 전략수립이 최우선이라 할 수 있다.




※ 본 내용은 (주)디지털타임스(http://www.dt.co.kr/)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 디지털타임스. 무단전재 및 재배포 금지


[원문출처 : http://www.dt.co.kr/contents.html?article_no=2015060202102251727001]

맨 위로
맨 위로