Home > 정보마당 > 공개SW 활용 성공사례

공개SW 활용 성공사례

공개SW 일체로 구성된 DAISY로 국내 빅데이터 시장 공략

스마트 모바일 컴퍼니를 지향해온 KTH는 ‘114전국전화’, ‘푸딩.투’, ‘아임IN’ 등과 같은 자사의 모바일 앱 개발을 통해 내재화된 기술을 플랫폼화할 방안을 모색했다. 그 결과로 서버 구축 없이도 백엔드 서비스를 제공하는 baas.io 서비스를 개발한 KTH는 백엔드에 수집된 데이터를 분석하기 위해 공개SW로 일체가 구성된 빅데이터 플랫폼인 ‘DAISY(Data Intelligence System)’를 자체 개발했다. 인메모리 기반의 Esper와 분산파일시스템인 하둡 등의 공개SW로 실시간 빅데이터 분석이 가능한 DAISY를 개발한 KTH는 다양한 빅데이터 분석 사례를 확보하고 공공 빅데이터 분석 시장에 진출하는 성과를 거뒀다.

- 기     관 KTH
- 수행년도 2012년
- 도입배경 내재화된 기술력의 플랫폼화, 빅데이터 시장 선점
- 솔 루 션 Esper, Lucene, 하둡, Chart, R, Sqoop, HIVE, Pig, Mahout, Kafka
- 도입효과 : 인메모리 기반의 공개SW로 실시간 빅데이터 분석 지원, 단기간 내에 빅데이터 플랫폼 개발 및 다양한 빅데이터 분석 사례 축적, TCO 절감

kth, Esper, hadoop


위치기반, 실시간 웹, 클라우드, 소셜, 퍼스널 영역의 다양한 모바일 앱 개발을 통해 모바일 시장을 개척해온 KTH는 국내 첫 BaaS(Backend as a Service)인 baas.io를 개발하고 자사의 개발 환경에 우선 도입했다. 그 과정에서 백엔드에 수집된 데이터의 가치에 주목한 KTH는 데이터에서 의미 있는 가치를 창출함으로써 서비스 경쟁력을 강화할 방안을 모색한 결과, 공개SW로 일체가 구성된 빅데이터 플랫폼인 ‘DAISY’를 자체 개발하기로 결정했다.

이에 대해 노동학 KTH 플랫폼사업본부 플랫폼솔루션팀 팀장은 “빅데이터 플랫폼의 자체 개발과 상용SW 도입을 검토한 당시는 국내에 빅데이터 도입 사례가 전무할 만큼 빅데이터 시장이 막 개화하는 단계였으므로 자체 개발을 통한 기술 내재화를 꾀하기로 결정했다”고 밝혔다.


프로토타이핑 통해 공개SW 검토

데이터의 수집, 정제, 분석을 위한 DAISY는 인메모리 기술로 빅데이터의 실시간 분석과 배치 분석이 모두 가능한 빅데이터 플랫폼을 목표로 데이터의 라이프 사이클을 통합 관리하고, 데이터 유형에 관계없이 처리가 가능하면서 다양한 분석 알고리즘과 방법론을 적용할 수 있는 유연한 구조로 설계됐다.

KTH는 본격적인 DAISY의 개발에 앞서 프로토타이핑을 실시했다. 먼저 2주간의 이터레이션(Iteration)을 진행하고, 기술이 이미 내재화된 공개SW를 우선적으로 선택하고 단계별 도입 전략을 수립하는 등의 노력을 통해 공개SW 도입에 따른 리스크를 최소화했다. 그 결과 Esper, 하둡, Kafka, Hive, Pig, R, Sqoop, Chart 등의 공개SW 도입이 결정됐으며, DAISY의 개발 과정에서 그간 사내 위키에 축적된 방대한 공개SW 도입 사례 및 노하우가 예기치 못한 이슈에 대응하는 데 큰 도움을 줬다고 노동학 팀장은 설명했다.


공개SW 기반의 빅데이터 플랫폼, DAISY

노동학 팀장은 “DAISY의 가장 큰 특징은 빅데이터의 실시간 분석이고, CEP(Complex Event Processing) 아키텍처는 다양한 이벤트 스트림의 실시간 고속 처리가 가능하다”며 “하둡 기반의 빅데이터 플랫폼에 인메모리 기술을 적용한 것은 사실상 국내 첫 사례일 것”이라고 DAISY의 기술적 의의를 설명했다. DAISY는 데이터의 분석 및 추천이 가능한 토털 빅데이터 솔루션을 목표로 시각화·모니터링·GUI, 외부 인터페이스, 데이터 동기화, 배치 분석을 위한 데이터 분석, 실시간 데이터 분석, 데이터 마이닝 및 프로세싱, 데이터 수집 등으로 구조를 계층화했다.



DAISY 시스템 아키텍처


그리고 데이터를 이벤트 관점에서 보고 데이터를 실시간 처리하고 의미 있는 패턴을 인식할 수 있는 CEP 아키텍처를 적용해 분석처리 후 저장하는 방식으로 데이터 용량에 관계없이 데이터 분석에 따른 지연을 최소화했다. 여기에 자바 기반의 정보 검색 라이브러리인 Lucene으로 텍스트의 색인 및 검색 기능을 효율화하고 분산파일시스템인 하둡과 MapReduce로 클러스터를 구성해 데이터 저장에 따른 분산을 최소화함으로써 스케일 아웃에도 유연하게 대처할 수 있게 구성됐다.

또한 Queue 방식으로 데이터 수집이 유연한 Kafka로 데이터 에이전트와 콜렉터를 구성하고, 여기에 SQL-Like로 손쉽게 데이터 조회 및 분석이 가능한 Hive, 스크립트 기반의 Pig를 적용했다. 그리고 데이터 분석에는 R, 데이터 마이닝과 사용자 추천에는 Mahout를 써서 데이터 분석 및 추천 기능을 구현하는 등 공개SW로 핵심 기능을 구축했다.

노동학 팀장은 분석 결과의 시각화에는 Chart와 R이, 로그 데이터의 수집 과정에서 비정형 데이터의 처리를 위해서는 Sqoop이 적용돼 DW(Data Warehouse)에서 상당한 시간이 소요되는 빅데이터 분석을 보다 저비용으로 실시간 처리할 수 있다고 DAISY의 특징을 설명했다.


자사 서비스에 선제적 도입, 다양한 빅데이터 경험 축적

KTH는 공개SW 일체로 구성된 DAISY를 자사의 서비스에 선제적으로 도입했다. 생활정보형 모바일 앱인 ‘114전국전화’에 도입된 DAISY는 서비스 이용자의 패턴 분석을 통해 평일, 주말, 시즌, 시간별 데이터 마이닝 결과를 토대로 사용 빈도가 높은 서비스를 앱의 전면에 배치하는 맞춤형 테마를 제공하며 ‘푸딩.투’ 모바일 앱의 경우 인기사진 선정 작업을 이용자 수가 가장 적은 시간대에 배치함으로써 서비스를 최적화했다.



114전국전화에 도입된 DAISY


DAISY의 자사 서비스 우선 적용으로 축적한 빅데이터 도입 경험을 바탕으로 2012년 7월 DAISY 솔루션을 런칭한 KTH는 KT의 VITAL(VoC Information Total Analysis) 개선 사업과 기상청의 빅데이터 처리 플랫폼 구축 사업을 수주하는 성과를 얻었다. 특히 기상청의 ‘기상정보 빅데이터 플랫폼 구축 및 Mash-up 서비스 개발’ 사업 수주는 공공 빅데이터 사업을 본격화하는 계기가 됐으며, DAISY는 기상정보 분석으로 교통사고위험 분석, 질병발병 분석, 전력사용량 분석을 수행해 이상기후로 인한 사회 문제에 대한 근본적인 원인을 파악하고 해결하는 데 활용되고 있다. 그리고 그 분석 결과는 공공데이터로서 OpenAPI로 민간에 공개될 예정이다.


T커머스 사업에도 DAISY 도입 고려

최근 KTH는 baas.io와 DAISY 중심의 플랫폼 사업, 다수의 IPTV 영화 판권을 통한 콘텐츠 유통, 그리고 양방향 TV 서비스의 대중화에 기반한 T커머스(Television Commerce)를 신성장동력으로 삼고, 이를 중심으로 조직 개편을 단행하는 등 수익성 개선에 전사적인 노력을 다하고 있다. 특히 2012년 8월경 IPTV와 스카이라이프 위성방송에 T커머스 채널을 시범 운영하며 시장을 선점해온 KTH는 차후 고성장이 기대되는 T커머스 사업에서도 빅데이터 분석을 통한 고객 맞춤형 서비스를 제공하기 위해 DAISY 도입을 검토하고 있다.

이와 별도로 아직 국내 기업에는 대부분 빅데이터 도입을 전담하는 부서가 없고, 이를 활용할 인력이 적다고 판단한 KTH는 현업에서 손쉽게 사용할 수 있도록 DAISY의 UI를 개선하고 메타언어적인 워크플로우 개념 추가, 시각화 강화 등에 주력하는 한편, 분산 실시간 컴퓨테이션 시스템을 위한 공개SW인 스톰(Storm) 등으로 기능 보완에도 노력할 계획이다.



[인터뷰]


“국내 빅데이터 시장, 새로운 기회 많아”

노동학 KTH 플랫폼사업본부 플랫폼솔루션팀 팀장


노동학 KTH 플랫폼사업본부 플랫폼솔루션팀 팀장

Q> 국내 빅데이터 시장을 평가한다면

국내 빅데이터 시장은 이제 시작 단계인 만큼 많은 기회가 잠재돼 있고, 공공분야를 중심으로 빅데이터 시장이 형성되면서 서서히 민간으로까지 확대되는 추세다. 이와 함께 빅데이터 시장에 대한 기대감이 높아지고 시장 규모도 매년 성장을 거듭하고 있다.
그러나 이런 흐름과 달리 국내 빅데이터 전문 인력은 100여명에 불과한 것으로 지적된다. 국내 기업과 정부 모두 데이터 사이언티스트 등의 빅데이터 전문 인력 양성에 힘써야 하는 이유가 여기에 있다.


Q> 공개SW 도입에 어려움을 겪는 기업이 많은데…

정부 차원에서 공개SW 도입을 장려하면서 기업 내에서도 공개SW 도입이 활성화되는 분위기다. 그러나 아직까지 기업이나 공공기관에서 공개SW의 도입에 많은 어려움을 토로하고 있으며, 일부에서는 공개SW를 ‘40%만 완성된 솔루션’이라고 평가하기도 한다. 기업이 확장성과 비용 효율 등이 고려된 경쟁력을 확보하지 않는다면 지금의 IT 시장에서 살아남을 수 없다. 그러므로 기업의 생존을 위해서라도 공개SW를 적극적으로 고려해야 하며, 도입 목적에 맞춰 가능한 모든 리스크를 검토하고 신중히 선택하는 것이 중요하다.




- 마이크로소프트웨어 조수현 기자 suhyeoni@imaso.co.kr
- 공개SW 역량프라자
맨 위로
맨 위로