본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

스플렁크 “빅데이터, 손쉽고 간편히 처리해야”

OSS 게시글 작성 시각 2013-12-23 19:02:30 게시글 조회수 3823

2013년 12월 23일 (월)

ⓒ 블로터닷넷, 이지영 기자 izziene@bloter.net



대용량 데이터를 처리하는 데에는 여러가지 방법이 있다. 데이터베이스나(DB)나 데이터웨어하우스(DW), 비즈니스 인텔리전스(BI) 솔루션을 도입하거나 하둡과 같은 데이터 처리 방식을 쓰면 된다. 사용자는 처리하려는 데이터에 맞춰 잘 맞는 방식을 도입하면 된다.


DB와 하둡의 장점을 살리다


“DB가 있다면 DW나 데이터마트가 있어야 합니다. 여기에 분석하려는 데이터를 넣어야 하지요. 물론 원 데이터를 바로 DB에 넣을 수 없습니다. DB와 DW가 데이터를 분석할 수 있게 데이터를 다듬은 다음에 부어넣어야 하지요. 데이터가 많으면 많을 수록 쉽지 않은 일입니다.”


장경운 스플렁크 부장은 기존 DB 방식을 도입해 데이터를 처리하는 데 여러 한계가 있다고 얘기한다. 기업은 고객관계관리(CRM), 전사적자원관리(ERP), 생산관리 시스템 데이터 등 다양한 데이터를 수집한다. 이 데이터를 DB와 DW 형식에 맞춰 가공하는 데 걸리는 시간은 수집한 데이터 양에 비례한다. 빅데이터일수록 분석에 시간이 오래 걸린다.


splunk korea chang>


다른 방식도 있다. 대용량 데이터를 쪼개 여러 시스템에 나눠 저장한 다음 처리하는 방식인 ‘하둡’을 도입해 대용량 데이터를 분석해도 된다. 이 방식이면 데이터를 분류해서 담는 기존 DB 방식보다는 좀 더 빠르게 대용량 데이터를 처리할 수 있다. 실제로 페이스북이나 야후, 링크드인 같은 업체가 하둡을 이용해 대용량 데이터를 처리한다는 애기를 심심치 않게 들을 수 있다.


“IT를 업으로 하지 않는 회사가 자기 목접에 맞춰 하둡을 사용하기란 쉽지 않습니다. 데이터를 수집하고 분석하는 구조를 스스로 만들어야 하는 등 해야 할 일이 많지요. 분산된 데이터를 저장하는 일도 중요하지만, 분산된 데이터를 다시 모으는 모듈을 다룰 줄 아는 사람이나 R로 통계치를 낼 사람 등 다양한 인력이 필요합니다. 이런 측면에서 하둡은 일반 기업이 쓰기 번잡하지요. 할일이 많습니다.”


장경운 부장은 일반 기업이 하둡을 도입해 투자대비효과(ROI)를 내기란 어렵다고 말했다. 하둡이나 하이브 등 하둡 생태계는 개발을 잘 모르는 사용자가 데이터를 바로 뽑아 분석할 수 있는 사용자 환경(UI)이 아니라는 이유로.


“하둡이 혁신적인 아키텍처라는 건 공감하지만, 일반 사용자 손에 쥐어주기엔 엄연히 한계가 존재합니다. 그런 면에서 스플렁크가 출시한 엔터프라이즈 솔루션은 DB와 하둡, 양쪽의 장점을 취했습니다. 기존 DB처럼 쓰기 쉽고, 하둡처럼 대용량 데이터를 빠르게 담아 처리합니다.”


스플렁크 역시 DB 솔루션이나 하둡처럼 트랜잭션 데이터, 운영로그, 센서데이터 같은 대용량 데이터(머신데이터)를 수집한다. 다른 점이 있다면 스플렁크 엔터프라이즈 솔루션 하나로 데이터 저장부터 처리와 분석, 시각화까지 한번에 처리한다. DB와 DW 솔루션, BI 솔루션이 나눠 처리한 일을 한 솔루션이 다 한다.


“많은 사용자가 대용량 데이터를 다룰 때 ‘데이터 수집’이 어렵다고 꼽습니다. 스플렁크는 ‘유니버설 인덱스’라는 기능 안에 모든 데이터를 넣으면 됩니다.”


구글에서 웹크롤러로 다양한 웹페이지를 수집하듯, 스플렁크는 서로 다른 데이터를 한 공간에 모아 사용자 구미에 맞게 알아서 분류한다. 스플렁크 솔루션을 하둡에 설치한 다음 각 애플리케이션에서 발생하는 데이터를 모은다. 어떤 데이터를 수집할 것인지, 어떤 형식에 맞춰 데이터를 모을 것인지 미리 정의할 필요가 없다. 하둡처럼 데이터를 모은 다음 따로 시간을 들여 처리할 필요도 없다. 사용자는 스플렁크로 데이터를 보내는 통로만 만들면 된다. 통로를 타고 온 데이터는 스플렁크 안에 모여 사용자가 설정한 상태로 데이터를 분류해 분석한 다음 그 결과를 실시간에 가깝게 보여준다.


splunk_data_sources1


 


앞서 언급한 데이터베이스와 하둡을 이용해 대용량 데이터를 처리할 때와 비교하면 과정이 꽤 단순해 보인다. 실제로도 단순하다는 게 장경운 과장 설명이다.


“서버에 스플렁크 솔루션을 설치하고 애플리케이션이나 웹서비스로부터 데이터를 받습니다. 모든 데이터는 스플렁크 유니버설 인덱스 안에 담깁니다.  사용자는 분석결과를 몇번에 클릭으로 볼 수 있습니다. 하둡보다 쉽고, DB만큼 사용하기 간단합니다. 국내 공공기관을 비롯해 제조업체가 스플렁크에 관심을 가지는 이유입니다. 어렵게 기술을 알 필요가 없습니다.”


CJ오쇼핑, 실시간 데이터 분석에 도입


실제로 지난 12월3일 서울 양재동 엘타워에서 열린 ‘스플렁크 라이브 2013’ 행사 자리에서 CJ오쇼핑은 ‘스플렁크 엔터프라이즈5’를 도입해 기존보다 손쉽게 빅데이터를 분석할 수 있게 됐다고 설명했다.


CJ오쇼핑은 온라인 쇼핑몰인 ‘CJ오쇼핑’, 소셜 쇼핑몰 ‘오클락’, TV홈쇼핑 사업과 모바일 쇼핑 앱을 운영하는 국내 2위의 인터넷 종합 쇼핑몰이다. 하루에 수백GB바이트에 이르는 데이터가 쏟아진다. CJ오쇼핑 조철현 정보전략팀장은 이를 새로운 환경에 활용하기가 만만찮았다고 말했다.


“기존 시스템으로는 물론 온라인 쇼핑에 대한 정보를 쉽게 얻을 수 있었습니다. 그러나 모바일과 같은 새로운 플랫폼에 확대 적용하기는 힘들었지요. 특히 기존 솔루션은 데이터가 많아질 수록 분석에 비용이 너무 많이 들어갔습니다. 기존 시스템은 확장성에 한계가 있었습니다.”


cjoshopping


조철현 팀장 설명에 따르면 CJ오쇼핑도 처음에는 다른 기업과 비슷하게 데이터를 처리하고 분석하는 시스템을 구축했다. 오라클 데이터베이스로 데이터를 수집하고 IBM의 네티자 솔루션을 사용해 데이터를 처리했다. 웹로거 분석 서비스를 사용해 데이터웨어하우스(DW)의 담긴 데이터를 분석했다. 과거 시스템은 실시간 분석을 할 수 없다는 한계가 있었다. 다음날이 돼서야 어떤 고객층이 특정 상품을 구매하는지에 대한 데이터 분석 결과를 얻을 수 있었다.


“웹사이트에 들어와서 구매를 한 사용자 정보만 분석할 수 있었습니다. DW에 저장된 데이터 대부분이 주문 완료 데이터였지요. 사실 대부분의 고객은 윈도우쇼핑을 하다가 포기하고 나가기도 합니다. 이런 고객을 잡으려면 실시간으로 분석하는 게 중요하다고 생각했습니다.’


CJ오쇼핑은 스플렁크 솔루션을 도입해 실시간 데이터 잡기에 나섰다. 소셜쇼핑 서비스 ‘오클락’에도 실시간 데이터 분석을 활용했다. 실시간으로 특정 상품을 보는 사람이 몇명인지, 고객에게 보여줌으로써 쇼핑에 대한 호감을 샀다.


실시간 데이터 분석을 도입하면서 CJ오쇼핑은 동시에 분석 시간과 비용을 절약했다. 기존 시스템에는 오라클 DB에서 사용자 트래픽을 받아내기 위해서 분석 서버 4대를 이용했다. 새로운 시스템은 서버 1대만 이용해 데이터를 수집한다. 기존 서비스를 사용할 떄보다 비용은 50% 줄었고, 분석시간은 2시간 이상 짧아졌다.


“실시간 스트리밍 분석이 이뤄지면서 웹사이트를 통해 방송은 봤으나 구매 결정은 아직 내리지 못한 고객 정보를 실시간으로 추출할 수 있게 됐습니다. 구매가 이뤄진 고객을 대상으로 마케팅 정책을 펼치는것 뿐만 아니라 현재 반응을 보이고 있는 사용자를 대상으로 프로모션을 진행할 수 있게 됐지요. 새로운 마케팅 타깃을 찾을 수 있게 됐습니다.”




※ 본 내용은 (주)블로터 앤 미디어(http://www.bloter.net)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 블로터 앤 미디어. 무단전재 및 재배포 금지



[원문출처 : http://www.bloter.net/archives/174815]

맨 위로
맨 위로