Home > 열린마당 > 공개SW 소식

공개SW 소식

2014년 07월 10일 (목)

ⓒ CIO Korea, Thor Olavsrud | CIO



다양한 빅 데이터를 활용함으로써 패턴과 이상 값을 발견하고, 미래를 예상할 수 있도록 하는 고급 분석(AA: Advanced Analytics)에 대한 수요가 증가하고 있다.

"우리가 조사한 결과에 따르면, 여러 다양한 산업에서 고급 분석이 빠른 속도로 운영 및 의사결정 프로세스로 통합되는 추세다. 과거에 실제 발생한 사건을 이해하는 것만으로는 불충분하다. 미래에 일어날 사건을 물어, 비즈니스에 최적의 성과를 창출할 수 있도록 트렌드를 예측해 행동을 해야 한다."

휴리츠 앤 어소시에이츠(Hurwitz & Associates)의 마르시아 카우프먼 COO 겸 수석 애널리스트와 다니엘 키르쉬 선임 애널리스트는 최근 발표한 '고급 분석: 휴리츠 빅토리 지수 보고서 2014(Advanced Analytics: The Hurwitz Victory Index Report)'에서 이같이 강조했다.

키르쉬는 한 드러그 스토어(Drug Store)를 예로 들었다. 이 회사는 유행성 감기와 알레르기가 번창하는 시기에 6개월 앞서 그 정도를 예상하기 위해 고급 분석을 이용하기 시작했다. 이를 통해 적정량의 의약품 재고를 효율적으로 확보하며, 과소 또는 과잉 재고 적재를 방지해 진열 공간을 효율적으로 활용하고 있다.

농장들도 곡물 재배 시기, 생산량 최적화, 추수 시기에 관한 더 자세한 정보를 얻기 위해 고급 분석을 활용하고 있으며, 제조업체들은 고급 분석을 활용, 기계류나 생산 현장에 문제가 발생할 시기를 예측한다. 그리고 ‘값 비싼' 다운타임(가동 중단 시간)이 초래되기 이전에 예방정비를 실시한다.

금융 회사들 또한 내부와 외부의 사기 및 부정 행위 방지 또는 대처에 이 기술을 활용하고 있다. 프로 스포츠 구단도 예외는 아니다. 선수들에게 센서를 부착해 가장 효율적인 운동 방법을 파악하고, 부상을 예상하는 등 다양한 방법으로 이 기술을 활용하고 있다. 이렇듯 활용 사례는 무궁무진하게 널려 있다.

키르쉬는 "소비자 행동 예측과 관련된 유즈 케이스가 인기를 끌고 있다. 기업들은 맞춤형 제품과 서비스를 제공하고 싶어한다. 스웨터 3벌을 구입한 고객이 속에 입을 셔츠를 함께 구입했을 때 30%의 할인을 적용해주는 것을 예로 들 수 있다. 이 정도 수준의 고객화된 서비스를 제공하면 시장을 공략할 확률이 높아진다"라고 설명했다.

키르쉬는 기업의 변화하는 니즈를 수용할 수 있을 만큼 고급 분석 분야의 상품과 서비스가 급속도로 발전하고 있다고 말했다. 다음은 휴리츠 앤 어소시에이츠가 현재 고급 분석 분야에서 두드러지고 있다고 판단한 11가지 시장 트렌드다.

1. 통합형 하드웨어 및 소프트웨어를 추구하는 고객들
2. 수직적, 수평적 유즈 케이스를 통합하는 벤더들
3. 오픈소스 프로그래밍 언어인 R의 확산
4. 일반 프로그래머들이 고등 분석 분야에 진출할 기회를 제공하는 파이썬
5. 현업 사용자가 더 쉽게 고등 분석을 이용할 수 있는 비주얼 인터페이스
6. '핫'한 실시간 데이터 스트림과 사물 인터넷
7. 필수 요건으로 자리잡고 있는 데이터 시각화
8. 모든 의사결정에 빅 데이터 분석을 활용하고 있는 기업들
9. 클라우드로 옮겨가고 있는 애널리틱스 서비스
10. ETL에서 초래되는 도전을 회피할 수 있는 인-데이터베이스 분석
11. PMML로 발걸음을 돌리고 있는 기업들


1. 통합형 하드웨어 및 소프트웨어를 추구하는 고객들
고급 분석 워크로드 실행에 최적화된, 그리고 미리 통합된 하드웨어를 찾는 고객들이 증가하고 있다. 이들은 SAP와 IBM, SAS 같은 기존 벤더들을 더 높이 평가하고 있다. 카우프만과 키르쉬는 이번 보고서에서 이들 하드웨어에 대해 빅 데이터와 고급 분석을 위한 확장이 가능하면서도, 동시에 속도와 신뢰도도 높은 제품이라고 분석했다.

보고서에는 "SAP의 경우 대용량 데이터를 고속으로 분석할 수 있도록 설계된 하드웨어에서 인피니트사이트(Infinite Sight)를 실행시킬 수 있는 하나 인메모리 플랫폼을 공급하고 있다. 한편 IBM의 퓨어데이터 시스템(PureData System)은 운영 분석 워크로드에 최적화된 통합 시스템이다. SAS가 데이터베이스 메이커인 테라데이터(Teradata)와 제휴해 개발한 선탑재 최적화 플랫폼 또한 우수한 신뢰도, 확장성, 속도를 자랑한다"라고 기술돼 있다.


2. 수직적, 수평적 유즈 케이스를 통합하는 벤더들
키르쉬에 따르면, 수직적 또는 수평적 솔루션을 연결한 솔루션을 찾는 고객들이 증가함에 따라, 벤더들 또한 의료, 금융, 정부 분야를 대상으로 한 전용 솔루션과 함께 고객 서비스 개선, 고객 이탈 경감, 사기 방지에 목적이 있는 수직적 솔루션을 공급하고 있는 추세다.

카우프만과 키르쉬는 "베스트 프랙티스, 데이터 준비 자동화, 모델 구축 자동화 등이 선탑재 되어 있으면서 일정 수준 고객화가 가능한 솔루션들이다. 고객들에게 고객 경험을 개인화할 수 있는 툴을 제공하는 SAS의 고객 정보 플랫폼과 페가(Pega)의 SAP 및 세일즈포스닷컴 익스텐션을 예로 들 수 있다. 페가의 제품은 고객들이 특정 데이터 소스를 대상으로 BPM(Business Process Management)와 CRM(Customer Relationship Management) 애널리틱스를 실시할 수 있는 것이 특징이다"라고 말했다.


3. 오픈소스 프로그래밍 언어인 R의 확산
전산 통계, 시각화, 데이터용 오픈소스 프로그래밍 언어인 R이 고급 분석 분야에서 가장 널리 쓰이는 툴로 자리잡고 있다.

키르쉬는 유수 기업 대부분이 자신들의 고급 분석 제품에 R을 통합하면서 R 모델을 불러올 수 있는 상태가 마련됐다고 진단했다. 데이터 과학자, 통계 전문가, 기업 내부의 전문 사용자들이 분석 툴에서 R을 활용할 수 있게 된 것이다.

이런 트렌드의 가장 큰 수혜자 중 하나는 대기업을 대상으로 R과 관련된 서비스를 제공하고 있는 레볼루션 애널리틱스(Revolution Analytics)다.

카우프만과 키르쉬는 또 고급 분석 회사인 프레딕시온(Predixion)이 마법사 인터페이스를 통해 데이터 과학자과 통계 전문가는 물론 기업 사용자들도 R을 이용할 수 있도록 하는 데 초점을 맞추고 있다고 설명했다.


4. 일반 프로그래머들이 고급 분석 분야에 진출할 기회를 제공하는 파이썬
R은 정교한 데이터 분석과 머신 학습을 이용해 복잡한 분석 모델을 개발할 수 있는 데이터 과학자들을 위한 언어다. 반면 오픈소스 언어인 파이썬은 다양한 프로그래머들이 고급 분석 분야에 진출할 수 있도록 돕고 있다.

카우프만과 키르쉬는 "파이톤에서는 R과 같이 정교하면서도 깊이 있는 데이터 분석 및 머신 학습이 불가능하다. 그러나 파이톤에서 더 정교한 고급 분석 기능을 이용할 수 있도록 만드는 개발이 진행되고 있다. 예를 들어, IBM과 SAS는 고객들이 R과 파이썬 프로젝트를 더 큰 프로젝트로 통합할 수 있도록 지원하고 있다"라고 설명했다.


5. 현업 사용자가 더 쉽게 고급 분석을 이용할 수 있는 비주얼 인터페이스
데이터 과학자는 많지 않다. 또 중소 기업들은 예산 부족으로 인해 경험 많은 분석 전문가들로 팀을 구성하는 데 어려움을 겪고 있다. 동시에 기업의 전 의사결정 단계에 분석이 활용되면서, 비즈니스 사용자들이 쉽게 데이터를 활용할 수 있도록 만드는 것이 어느 때보다 중요해졌다.

이에 고급 분석 벤더들은 비즈니스 사용자들이 훨씬 쉽게 자신들의 플랫폼을 이용할 수 있는 기능을 개발하는 데 초점을 맞춰가고 있다.

카우프만과 키르쉬는 이와 관련, "SAP는 예측 프로세스 자동화에 초점을 맞추고 있고, 안고스(Angoss)는 의사결정과 전략 트리 등 시각적 효과가 높은 인터페이스를 제공하고 있다. 또 SAS와 IBM은 비즈니스 사용자를 타깃으로 삼은 전용 제품을 출시했다. SAS의 비주얼 애널리틱스(Visual Analytics)와 IBM의 애널리틱스 카탈리스트(Analytics Catalyst)를 예로 들 수 있다"라고 설명했다.


6. '핫'한 실시간 데이터 스트림과 사물 인터넷
인터넷에 연결되는 장치가 증가하면서 실시간 데이터 스트림에 대한 수요 또한 급증하고 있는 추세다.

스트리밍 데이터에 고급 분석을 적용할 경우 더 민첩하게 대응할 수 있다. 예를 들어, 온라인 쇼핑 시 개인화된 상품 추천을 제공할 수 있으며, 비행기 엔진의 중요 매트릭스를 모니터링 해 사전에 고장이나 문제를 감지, 이를 정비사에게 알릴 수 있다.

카우프만과 키르쉬는 "과거 항공사들은 수동으로 설정한 기준치와 눈을 이용해 검사해야 했다. 이 기준치는 엔진이 과열되는 등의 문제가 발생했을 때 경고를 해준다. 그러나 통상은 문제가 없지만 복합적으로 작용할 경우 문제의 소지가 있을 수 있는 문제들을 파악할 수는 없었다”라고 설명했다.

이들이어 “벤더들은 실시간으로 데이터를 분석해야만 하는 필요성에 대응을 하고 있다. SAS의 이벤트 스트림 프로세싱 엔진(Event Stream Processing Engine)과 IBM의 인포스피어 스트림(InfoSphere Streams)은 데이터가 가변적일 경우에도 분석을 실시할 수 있다"라고 말했다.


7. 필수 요건으로 자리잡고 있는 데이터 시각화
스트리밍 데이터, 소셜 미디어 데이터, 머신 데이터, 기타 대용량의 구조화, 반구조화, 비구조화 데이터가 폭증하면서 데이터 시각화가 유례 없이 중요한 역할을 하고 있다. 시각화는 분석가들이 데이터 테이블, 스프레드시트, 차트를 이용할 경우 놓칠 수 있는 정보를 발견하도록 도움을 준다.

카우프만과 키리쉬는 "시각화는 비즈니스 사용자에게는 1차 인터페이스, 데이터 과학자에게는 1단계 인터페이스 역할을 한다"고 강조했다.

이들은 또 "벤더들은 비즈니스 사용자와 데이터 과학자 사이의 격차를 줄이기 위해 더 많은 시각화 기능을 제공하고 있는 중이다. 각 사용자 그룹이 쉽게 이해할 수 있도록 이들 시각화 기능을 맞춤화 할 수도 있다. 일부 벤더들은 종합적인 시각화 제품을 공급하고 있다”라고 말했다.

설명에 따르면 예를 들어, SAS는 인메모리 기반의 인터랙티브 시각화 툴인 SAS 비주얼 애널리틱스(SAS Visual Analytics)를 공급한다. IBM은 SPSS 애널리틱 카탈리스트(Analytic Catalyst)에 RAVE(Rapidly Adaptive Visualization Engine)을 탑재하고, 데이터 세트를 바탕으로 시각화 방법을 사용자에게 제시하고 있다. 이 밖에도 메가푸터(Megaputer), 래피드마이너(RapidMiner), 스탯소프트(StatSoft) 같은 벤더들도 핵심 제품에 시각화 기능을 탑재하고 있다.


8. 모든 의사결정에 빅 데이터 분석을 활용하고 있는 기업들
통계 전문가나 데이터 분석 부서가 전담으로 분석 업무를 관장하던 시대는 저물었다. 기업들은 마케팅, 세일즈, 운영, 재무, HR 등 기업 전 분야의 의사결정에 분석을 활용하고 싶어한다.

카우프만과 키르쉬는 "고객 몰입도를 높이고, 모든 부서에서 최적화된 성과를 일궈내기 위해 다양한 데이터를 분석하고 싶어한다. 예를 들어, 최근 빅 데이터 분석에는 머신에서 생성된 데이터, 기타 센서에서 생성된 데이터, 모바일 데이터, 금융 데이터, 소셜 미디어 데이터 등이 포함돼 있다. 이들 기업들은 벤더들이 많은 데이터 세트를 지원하기 희망한다"라고 설명했다.

이에 벤더들 또한 전사적인 분석 업무와 빅데이터 분석 프로세스 통합을 지원하는 종합 플랫폼을 공급하고 있다. 예를 들어, IBM의 SPSS 애널리틱 서버는 빅데이터를 더 빨리 예측 분석할 수 있도록 돕는다.


9. 클라우드로 옮겨가고 있는 애널리틱스 서비스
많은 투자, 복잡한 내부 솔루션이 필요하다는 문제점을 극복하기 위해, 클라우드를 기반으로 더 저렴하게 분석 기능을 제공하는 고급 분석 벤더들이 증가하고 있다.

카우프먼과 키르쉬는 "일부 제품은 특정 유즈 케이스를 타깃으로 삼고 있다. 예를 들어, 안고스와 페가, SAP는 앱익스체인지(AppExchange)를 이용해 CRM 데이터를 분석할 수 있는 세일즈포스닷컴용 애플리케이션을 공급하고 있다. 또 안고스, IBM, SAS는 고객들이 클라우드 기반 소프트웨어를 가지고 다목적의 분석을 실시할 수 있는 SaaS 서비스를 제공하고 있다"고 전했다.


10. ETL에서 초래되는 도전을 회피할 수 있는 인-데이터베이스 분석
많은 데이터 세트를 대상으로 고급 분석을 실시할 경우, 성능과 데이터 거버넌스, 보안 상의 문제가 발생할 소지가 있다.

인-데이터베이스 분석은 사용자가 데이터를 분석 환경으로 옮기는 대신 데이터베이스에 모델을 배치하는 기능을 제공한다.

이를 통해 이런 문제점과 도전 가운데 상당수를 완화시킬 수 있으며, 데이터베이스에서 데이터 분석을 실시함에 따라 성능과 효율성이 높아지기도 한다. 또 보안과 데이터 거버넌스 문제도 줄어든다. 데이터가 안전한 데이터베이스 내부에 상주하기 때문이다.

카우프만과 키르쉬는 "하둡 등 여러 데이터 플랫폼에서 사용할 수 있는 인-데이터베이스 기능을 제공하는 벤더들이 많다. IBM, SAS, 래피드마이너, 레볼루션 애널리틱스, 스탯소프트, SAS, 안고스 등이 인-데이터베이스 마이닝을 지원하고 있다”라고 전했다.

그들은 이어 “단 인-데이터베이스 기능을 기준으로 벤더를 평가할 경우 회사가 사용하고 있는 데이터 플랫폼을 지원하고 있는지 조사하는 것이 아주 중요하다. 예를 들어, 하둡만 지원하는 벤더가 있는 반면 많이 사용하는 데이터 플랫폼을 거의 모두 지원하는 벤더들도 있다"라고 지적했다.


11. PMML로 발걸음을 돌리고 있는 기업들
모델의 정밀도를 계속 높이기 위해 배치 분석 대신 실시간 피드백을 활용하기 시작하면서, PMML(Predictive Model Markup Language) 을 이용하는 기업들이 증가하고 있는 추세다.

PMML은 벤더들로 구성된 독립 콘소시움인 DMG(Data Mining Group)이 개발한 통계 및 데이터 마이닝 모델 표준이다. IBM과 SAS는 DMG의 정회원이며, SAP와 스탯소프트, 래피드마이너, 안고스는 PMML 발전에 기여를 했다.

키르쉬에 따르면, 표준이 있을 경우 특정 애플리케이션과 시스템을 대상으로 개발된 모델을 다른 애플리케이션과 시스템으로 쉽게 이전해 배치할 수 있다.

카우프만과 키르쉬는 "이들 기업은 PMML에 기반을 둔 애플리케이션과 모델의 배치가 모델을 옮겨 생산화 하는 프로세스에 있어 지연 문제를 해결하고, 속도를 높이는 데 도움을 준다는 사실을 발견했다. PMML을 이용하는 가장 큰 장점 중의 하나는 많은 비용과 시간을 투자해야 하는 맞춤화 코딩 개발과 사유 프로세스(proprietary process, 사유기술을 조정하는 프로세스) 필요성을 없앤다는 것이다"라고 분석했다.



※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지


[원문출처 : http://www.ciokorea.com/news/21601]

맨 위로
맨 위로