본문 바로가기

Home > 정보마당 > 공개SW 활용 성공사례

공개SW 활용 성공사례

[공개SW 활용 성공사례 185] LG CNS - 공개SW 기반 데이터 분석 솔루션 ‘SRA’

OSS 게시글 작성 시각 2015-05-20 11:50:47 게시글 조회수 1915
신사업의 발판이 된 공개SW

‘빅데이터’에 대한 관심과 열기가 쉬이 식지 않는다. 특정 기술 용어로만 인식하는 수준을 벗어나 최근엔 여느 매체든지 빠질 수 없는 화젯거리가 되었다. 하둡(Hadoop) 등 공개SW를 근간으로 한 새로운 데이터 기술과 방법론들이 기존 대비 뛰어난 퍼포먼스를 구현하면서 활약중이다. 반면 이러한 도구들의 활용성에 대한 어려움도 지적돼 왔는데 커뮤니티나 기업들의 개선 움직임도 활발하다. 작년 LG CNS는 통계분석용 공개SW인 R을 보다 간편하게 활용할 수 있는 솔루션을 선보였다. 빅데이터 분석을 위한 도구로서 국내에서도 점차 관심이 높아지고 있는 통계 프로그래밍 언어인 R에 대한 진입장벽을 낮춰, 보다 많은 곳에서 데이터 분석을 통해 인사이트를 구할 수 있도록 지원하는 것이 그 핵심이다.

- 기관 LG CNS
- 수행년도 2014년
- 도입배경 보다 간편한 빅데이터 분석 환경 제공
- 솔 루 션 R, Hadoop, Redhat Enterprise Linux, Tomcat, Spring, Hibernate
- 도입효과 : R 사용편의성 향상

지난 2013년 SW산업진흥법 개정안 시행에 따라 상호출자제한기업집단에 속하는 대기업 계열 IT서비스 기업들의 공공정보화사업 참여가 제한되면서 국내 IT업계에는 많은 변화가 일어났다. 공공부문 SI(시스템통합)시장에서는 중견 SI기업들이 그 빈자리를 메꿔나가는 가운데, 이곳을 떠나게 된 대기업 SI업체들은 새로운 먹거리를 찾아 나서기 시작했다.


삼성SDS 및 SK C&C와 더불어 IT서비스 기업 ‘빅3’로 꼽히는 LG CNS 또한 미래 성장동력 발굴에 박차를 가하고 있다. 빅데이터, 클라우드, IoT(사물인터넷) 등 새로운 분야에서 신사업을 육성중인 LG CNS는 그동안 다양한 시스템을 구축·운영하면서 쌓아온 공개SW 관련 역량도 적극 활용하기로 했다. 이를 바탕으로 탄생한 것 중 하나가 ‘스마트R애널리틱스(Smart R Analytics, 이하 SRA)’로, R을 엔진으로 사용하는 데이터 분석 솔루션이다.



보다 간편한 빅데이터 분석을 위해

S에서부터 이어져 내려온 공개SW 통계 프로그래밍 언어인 R은 데이터마이닝, 먼징(munging), 모델링, 시각화 등 데이터 분석을 위한 요소들을 폭넓게 갖추고 있으며, 자유소프트웨어재단(FSF)의 GNU 프로젝트에 포함돼 적극적으로 개발·관리·보급되고 있다.


그간 통계학계를 중심으로 사용돼온 R은 하둡 분산처리 환경을 지원하는 라이브러리가 제공되면서 빅데이터 분석도구로 세간에도 알려지기 시작했고, 다양한 통계분석 알고리즘과 애플리케이션이 수천 개에 달하는 패키지로 제공된다는 강점이 그 개방성과 맞물려 새롭게 각광받기에 이르렀다.


그러나 이러한 여러 장점에도 불구하고 R 역시 만능은 아니다. 분석의 정확성을 위해 내부적으로 데이터 검증이 여러 단계에 걸쳐 수행되므로 수리 연산 등 처리 속도 측면에서는 비교적 약하다는 단점도 존재한다.
특히 사용성 측면에서는 상대적으로 높은 진입장벽을 지니고 있다. 프로그래밍 언어이기 때문에 GUI 환경을 제공하는 상용SW에 비해 불편할 수밖에 없고, 보편적인 절차적 언어나 객체 지향적 언어와는 달리 함수형 언어의 특징을 지니므로 제대로 활용하기 위해서는 코딩 방식도 새롭게 익힐 필요가 있다.




▲ LG CNS ‘SRA’ 사용자 화면


LG CNS의 ‘SRA’는 이 같은 접근성 및 사용성 문제에 착안해 개발된 솔루션이다. 빅데이터가 화두로 등장하기 시작한 2011년부터 검토되기 시작해 2013년 텍스트 분석 버전, 지난해에는 일반 데이터 분석 버전이 출시됐다. R이 가진 기존의 장점들을 최대한 살리면서, 보다 간편하게 데이터를 분석하고 활용할 수 있도록 돕는 것에 초점을 맞췄다.


‘SRA’에는 R이 기본 분석 엔진으로 적용되면서 ▲엔터프라이즈 솔루션 기능 추가 ▲대용량 데이터 분석을 위한 성능 개선 ▲사용자 친화적인 GUI 기반 워크플로우 환경 제공 ▲외부 연계 및 확장에 대한 유연성 확보 ▲비정형데이터 분석 기능 추가 등이 함께 이뤄졌다. 공개SW에 LG CNS의 노하우를 접목, 기존 고가의 솔루션들을 대신해 각종 분야의 다양한 분석에 손쉽게 활용할 수 있도록 개선했다는 것이 LG CNS 측의 설명이다.



노하우가 담긴 데이터 분석 솔루션



▲ LG CNS ‘SRA’ 구성


LG CNS의 ‘SRA’는 ▲SRA서버 ▲SRA디자이너 ▲데이터 애널리틱스 ▲텍스트 애널리틱스 ▲빅데이터 애널리틱스 ▲스트림 커넥터 ▲하둡 커넥터의 7개 모듈로 구성됐다. R의 제약사항을 개선해 다중서버, 다중사용자, 다중세션을 지원하는 것이 특징이다.


자연어 처리를 위한 형태소 분석기도 탑재됐으며, 워드 클라우드, 텍스트 클러스터링, 문서 자동 분류, 영향 분석 등 소셜 분석을 위한 기능을 보다 간편하게 사용할 수 있게 했다. 또한 스트림 커넥터를 통해 IoT에서 발생되는 실시간 스트리밍 데이터를 불러오거나, 하둡 커넥터를 통해 HDFS(하둡분산파일시스템) 및 각종 하둡 배포판에서 비정형데이터 등을 가져와 다양하게 활용 가능하다.


특히 데이터 분석을 위한 주요 함수 및 알고리즘을 컴포넌트 형태로 제공, 직관적인 확인과 유사 업무에의 재사용을 지원함으로써 생산성 및 편의성 향상을 도모했다. ▲텍스트 파일, DB, R패키지 등에서 데이터를 로딩해 ▲데이터 셋 추출, 결합, 결측치처리, 조인(join) 등 전처리 및 변환을 거쳐 ▲분산분석(ANOVA), 상관분석, 회귀분석, 시계열분석, 주성분분석(PCA) 등을 수행하고 ▲이를 DB나 파일로 저장·업데이트하거나 ▲다양한 방법으로 시각화하는 것이 모두 간단한 클릭과 드래그앤드롭 등을 통해 가능하다.


‘SRA’에는 LG CNS의 검증을 거쳐 분석 컴포넌트가 지속적으로 추가되고 있으며, 사용자정의 R스크립트 기능을 통해 고급 사용자가 직접 코딩할 수 있는 환경도 제공된다. 이와 함께 공개된 모든 R패키지를 설치하고 자유롭게 사용할 수 있어 공개SW로서의 R의 장점도 그대로 받아들였다.




▲ LG CNS ‘SRA’ 아키텍처


아울러 LG CNS는 ‘SRA’를 기업에서 분석시스템으로도 간편하게 도입할 수 있도록, 여러 대의 R엔진에 대한 관리 및 증설이 가능하게끔 설계 및 구현했다. 이를 위해서는 ▲운영체제로 리눅스(Linux) ▲WAS로 톰캣(Tomcat) ▲스프링(Spring) 및 하이버네이트(Hibernate) 프레임워크 등이 요구되며, 리포지토리로는 공개SW를 비롯해 다양한 RDBMS(관계형DB관리시스템)를 사용 가능하다. 나아가 분석 성능의 향상을 위해 다수의 R서버에 로드 밸런싱이 가능한 아키텍처도 지원된다.


LG CNS는 공개SW IT기술에 대해 우수하고 안정적인 것들만 적용할 수 있도록 검증하는 ‘포스트아키텍처팀’이라는 전문조직도 보유하고 있다. 지식재산권(IP)에 대해서도 동시에 검토, ‘SRA’ 또한 라이선스 문제가 발생하지 않게끔 구성됐다. 공개SW에 대해 제대로 알기 위해 그동안 많은 인력과 시간을 투자해온 만큼, 원천적인 부분까지 책임질 수 있는 SW만을 다룬다는 것이 LG CNS가 강조하는 대목이다. LG CNS는 ‘SRA’를 통해 새로운 주력분야의 가능성을 타진하고 있다.



[인터뷰] “공개SW에 대한 인식 개선 필요”

  - LG CNS 천석진 부장, 지태창 책임연구원


LG CNS 천석진 부장
▲ LG CNS 천석진 부장

국내 공개SW 생태계에 바라는 점이 있다면.

국내에는 아직까지 공개SW가 공짜라는 인식이 만연하다. 공개SW도 관리와 운영에는 돈과 인력이 필요하므로, 그에 상응하는 비용이 지불돼야 하는 것은 당연하다. 또 소비만 하려고 하지, 생산하고 기여하려는 움직임은 별로 없다. 해외의 경우 유수의 대기업들이 공개SW 프로젝트에 기여하면서 함께 발전하고 있지 않나. 국내에도 이 같은 컨트리뷰션을 비롯해 자체적인 공개SW 개발도 활성화돼야 하며, 자사 역시 이러한 방향으로 나아가려 한다.


공개SW의 도입 및 활용을 위해서는 먼저 이에 대한 공부가 필요하다. 직접 공부해보지 않고 그저 남의 말에만 의존한다면 공개SW의 장점을 살리기 어렵고 단점에 치우칠 위험이 있다. 공개SW의 가장 큰 장점은 자유로움인데, 이는 직접 겪어보지 않으면 모른다. 업체에게 맡기기만 할 것이 아니라 직접 공부해보기를 권한다.


아울러, 공개SW를 공부하다보면 이를 비교해놓은 자료가 체계적으로 갖춰져 있으면 좋겠다는 생각이 든다. 관련 자료가 부족하다보니 가끔은 똑같은 비교 작업이 바로 옆자리에서 중복으로 진행되는 경우도 생긴다. 참고할만한 공신력 있는 비교자료가 있다면 이러한 불필요한 작업소요를 줄일 수 있어 모두에게 유익하리라 본다.



지태창 책임연구원
▲ 지태창 책임연구원

앞으로 ‘SR A’를어떻게 발전시켜나갈 계획인가.

기본적인 R과 기능적인 부분에서 차별화해나갈 뿐만 아니라, ‘SRA’가 지닌 알고리즘 자체를 업그레이드하는 것을 목표로 삼고 있다. 병렬처리 관련 일반 데이터 분석 알고리즘 속도를 올리는 작업을 진행 중이고, 실시간 스트리밍 데이터 처리를 위한 솔루션도 새롭게 만들고 있다. 빅데이터 및 IoT 시대를 맞아 성능 향상에 주력할 방침이다.


궁극적인 목표는 ‘SRA’가 분석에 쓰이는 기본적인 툴이자 분석시스템의 기본 엔진으로 글로벌 시장에 자리 매김하는 것이다. 당장의 수익보다는 보다 많은 사용자를 확보하는데 주력하고 있고, 국내 제조 대기업의 품질관리분야를 비롯해 카드사 및 공공부문에 적용돼있는 상태다. 여러 클라우드 상에서도 ‘SRA’가 제공되게끔 협력을 확대해나가고 있으며, 올 하반기부터는 100개 사이트 이상에서 상호 돕는 형태의 프로모션을 적극 진행할 계획이다. 또한 데이터 분석방법을 공유하고 함께 기여할 수 있는 ‘SRA페어’라는 장도 마련할 예정이다.




- 공개SW 역량프라자
맨 위로
맨 위로