본문 바로가기

Home > 정보마당 > 공개SW 활용 성공사례

공개SW 활용 성공사례

“국내 최초 빅데이터 분석 공개SW 프로젝트로 빅데이터 활용 프레임워크 개발”

글로벌 빅데이터 시장의 선점을 기대케하는 국내 기술 공개SW 기반 빅데이터 분석 프레임워크가 등장했다.
어니컴이 개발한 빅데이터 활용 통합 프레임워크 Ankus(이하 앵커스)는 `코끼리 조련용 지팡이`라는 뜻의 인도어이다. 국내 최초 빅데이터 분석 공개SW 프로젝트 진행되어 Sourceforge 등 주요 공개SW 프로젝트 사이트를 통해 앵커스 0.0.1 버전 공개를 시작으로 최근 0.1 버전을 릴리즈하였다. 앵커스는 빅데이터 맞춤형 기계학습 라이브러리 Apache Mahout(이하 머하웃)의 한계를 보완할 수 있다는 의미를 담고 있다. 회사 관계자는 기존 비즈니스인텔리전스(BI) 도구를 사용하는 데이터 분석가도 거부감 없이 빅데이터를 쉽게 분석할 수 있도록 기능을 갖춰 앵커스를 통해 빅데이터 응용 기술 개발에 더욱 박차를 가할 예정이라고 전했다.

- 기     관 어니컴㈜
- 수행년도 2013년
- 도입배경 빅데이터의 효율적 활용을 위해서는 데이터 현황 위주의 분석 보다는 기업의 의사 결정 지원 및 서비스에 즉시 응용할 수 있는 마이닝/기계학습 기반의 고급 분석 기법들이 필요
- 솔 루 션 MapReduce(맵리듀스), Hadoop(하둡)
- 도입효과 : 공개SW 빅데이터 응용 기술 개발 활성화, 데이터 중심의 의사 결정을 통한 기업 경쟁력 강화, 빅데이터 활용을 위한 공개 SW개발 커뮤니티 활성화 기대

어니컴 로고

어니컴은 빅데이터 관련 통합 솔루션 및 서비스를 보유한 빅데이터 전문기업으로, 2012년 하둡 기반의 워크플로우 매니저(Flamingo Hadoop Manager) 개발을 필두로 본격적인 빅데이터 사업을 시작했다. 올해 정보통신산업진흥원 공개SW 개발지원 사업을 통해 빅데이터 분석 프레임워크인 Ankus를 성공적으로 개발 완료하였다.

 

시장조사업체 위키본(Wikibon)의 따르면, 빅데이터 시장은 국외 2017년 530억 달러 규모로 예상하고 있으며, 한국과학기술정보연구원(KISTI)에서 예상한 국내 빅데이터 시장 규모는 2016년 2억6300만 달러로 전 세계 빅데이터 시장의 1.6%를 차지할 것으로 분석했다. 특히 향후 빅데이터 시장은 개발을 돕는 프레임워크 위주로 형성될 것이란 기대가 높아지고, 개발 프레임워크 선점이 빅데이터 응용 개발사업의 당락을 좌우하게 될 것이라는 전문가 다수의 의견이다. 이에 공개SW 기반 빅데이터 표준 프레임워크가 중요한 화두로 떠오르고 있다.

 

빅데이터 시장 선점은 공개SW 개발 프레임워크로

일부 외국 기업들에서 제공하는 상용 솔루션을 제외하면, 아파치 머하웃이 유일하게 앵커스와 동일한 목적을 가지고 공개SW 프로젝트로 개발되고 있다. 그러나 머하웃은 알고리즘 위주의 개발로 이를 사용하기 위해서는 라이브러리를 활용한 개발 실력을 보유한 개발자가 필요하며, 입력 데이터 파일을 머하웃이 요구하는 형태로 변환하여야 한다. 또한, 분석 수행 시, 데이터의 다양한 속성을 선택할 수 있는 기능이 없다. 이러한 문제점들로 인하여, 현업에서 BI도구 위주로 분석을 수행했던 분석가 입장에서는 머하웃을 쉽게 이용할 수 없다는 것이 단점으로 지적되고 있다.

 

최근 통계 위주의 분석 기능만을 제공하던 R이 Hadoop을 지원하고, 데이터마이닝/기계학습 알고리즘을 추가하고는 있지만, R 역시, 스크립트 언어 기반 사용 환경을 제공함으로써 개발/프로그래밍 지식이 부족한 분석가 입장에서는 쉽게 활용할 수 없다.

 


▲ Ankus 로고

앵커스는 좀 더 손쉽게 분산 빅데이터 환경에서 운용 가능한 분석 기법, 기업의 의사결정 및 서비스 개발을 위한 다양한 지능형 빅데이터 분석 기법, 공개SW 프레임워크 통합을 위한 표준 인터페이스를 개발 목표로 잡고 정보통신산업진흥원의 공개SW 커뮤니티 과제로 채택되어 개발을 본격적으로 진행했다.
앵커스의 기능상 목표는 Hadoop 기반의 분산 빅데이터 환경에서 운용 가능한 데이터마이닝/기계학습 분석 공개SW 기반의 기술 개발이다.

 

고군분투 공개SW 개발 프로젝트 진행

프로젝트 진행 담당자인 송원문 책임연구원은 개발과정을 재미있고 한편으로 아등바등 고된 과정이었다고 설명했다. 기존 자바 개발자, 데이터 마이닝 전문가 두 명이 주축을 이루어 의기투합하였으나 생각처럼 쉽지 않았다는 설명이다. 그럴 것이 공개SW 프로젝트는 처음 진행하는데다 국내 최초 빅데이터 분석 프로젝트였기에 그저 막막함이 앞섰다고. 무엇보다 빅데이터 관련 하둡 엔지니어, 데이터 마이닝 분석 전문가의 부족으로 자문을 구하는데 어려움이 있었다. 실수를 최소화 하기위해 전수현 선임연구원 함께 프로젝트 시작 전에 다양한 데이터 마이닝과 기계학습 알고리즘에 대해 책을 수십 권을 탐독하여 관련 지식 습득과, 국내에 공개SW 프로젝트 커미터의 조언도 구하고, 해외 공개SW 프로젝트들을 벤치마킹하면서 감을 조금씩 터득해나갔다.

 

이렇게 해서 Confluence사에 이메일로 wiki를 무료로 사용할 수 있는 공개SW 라이선스도 받고, 앵커스에 대한 발전방향성과 기능 확장에 대해 정리해나갔다.

 

하둡 기반의 맵리듀스로 다양한 카테고리의 알고리즘을 개발을 해야 하므로 해당 알고리즘 파악을 우선순위로 두고 그 알고리즘으로 맵리듀스 설계를 하였다. 앵커스의 모든 기능은 전부 손으로 맵리듀스 설계를 했다. 그 다음 마지막으로 개발에 들어갔다.

 


▲ Ankus 구조도

 

개발과 동시에 모든 자료를 위키에 등록하였다. 사용자 가이드에 맵리듀스 설계, 스토리보드, API 파라미터 등 자세히 정리하면서 놓친 부분이 있는지 점검하고 또한 모듈별로 개발이 끝나면 테스트케이스를 만들어 의사 분산 모드(Pseudo-Distributed Mode), 완전 분산 모드(Fully-Distributed Mode)로 하둡 성능 테스트를 진행하였다. 앵커스를 타 SW에 통합할 수 있도록 최대한 쉽게 사용할 수 있도록 호환성도 중점을 둔 부분이다.

 

전수현 선임연구원은 첫 번째 릴리즈를 한 후, 해외 커뮤니티와 국내에 활발하게 홍보한 결과 해외 개발자들의 참여을 이끌어 낼 수 있었다고 밝혔다. 미국, 유럽, 동남아시아 등 점점 많은 국가에서 다운로드 횟수가 증가를 확인하는 것이 담당자로서 너무 보람있고 즐거운 일이라는 것이다.

 

글로벌 빅데이터 서비스 시장 진출의 초석 마련

앵커스의 개발 비전 로드맵을 3단계로 구체화하여 진행중에 있다. 올해까지 적용 및 활용기로 활용사례 확보와 ISV 라이선스 추진을 목표로하고, 2014년은 상용 서비스 안정기로 Amazon과 같은 글로벌 클라우드 사업자가 제공하는 플랫폼에서 동작하는 클라우드 SaaS 기반 애플리케이션으로 전환하여 글로벌 시장 진출 준비 등을 계획하고 있으며, 이후부터는 글로벌 확대기로 국내외 많은 활용저변을 기반으로 본격적인 글로벌 빅데이터 서비스 시장 진출. 이를 기반으로 국내 개발자/기업 및 연계 솔루션/서비스의 해외 진출 기반으로서의 역할 지원하려는 계획이다.

 

앵커스가 제공자와 사용자 입장에서 시너지효과와 알고리즘 작업 시 검증효과로 일의 효율성을 지원하고 국내 빅데이터 솔루션 관련 공개SW 개발 시장 주도 및 활성화를 통한 기술 향상에 기여할 수 있었으면 한다. 국내에서 아파치 라이선스 기반의 공개SW 개발 과 Hadoop의 연계를 통해 빅데이터 아파치 프로젝트로 인정받았으면 하는 포부로 인터뷰를 마무리했다.

 

□ 저장소 및 배포처

소스코드 다운로드 https://github.com/suhyunjeon/ankus
jar 배포 파일 다운로드 http://sourceforge.net/projects/ankus/
위키 사이트 http://www.openankus.org


[인터뷰]


“빅데이터 시대 인력확보가 관건”

어니컴㈜ 송원문 책임연구원, 전수현 선임연구원


어니컴㈜ 송원문 책임연구원

빅데이터 기술 중 특히 데이터 마이닝 분야는 더욱 관심이 고조되고 있다.

데이터 마이닝 분야가 주목받고 있는 이유는 무엇인가?

데이터 마이닝은 중요한 기술임에도 불구하고 관련 업계 종사자가 아니면 그 중요성에 비해 크게 주목받지 못하였다. 그러나 최근 들어 데이터 활용이 큰 화두로 떠오르면서 새롭게 주목받고 있다.

데이터 마이닝이란 데이터들의 집합에서 의미있는 정보를 추출하는 것으로 현재 데이터 마이닝을 활용함으로써 비즈니스상 매출이 신장되는 사례나 국방, 의료 등 거의 모든 분야에서 데이터를 통해 도출된 결과가 사람의 의사결정보다 중요하다는 것을 인식하였기 때문이다.

어니컴㈜ 전수현 선임연구원



국내 빅데이터 기술의 향후 전망과 이에 요구되는 사항은 어떤 것들이 있는가?

이제는 빅데이터가 핫이슈가 아닌 모든 분야에 자연스럽게 녹아내리는 분야라고 생각할 수 있다. 기업이 빅데이터 기술을 도입하려면 기본적으로 하둡 시스템의 운영을 파악할 수 있어야 하고 그와 관련된 하둡 에코시스템(ankus, apache pig, apache hive 등) 또한 알아야 한다. 그리고 데이터를 분석할 수 있는 인사이트와 통계 분야도 필요하다.
이렇게 빅데이터 기술 수요는 증가하는데 반해 다룰 수 있는 인력은 턱없이 부족한 실정이다. 정부와 기업에서 체계화된 교육을 통해 빅데이터 전문인력 양성을 적극 지원하여 성큼 다가온 빅데이터 시대를 대처하고 준비했으면 한다.




- 공개SW 역량프라자
맨 위로
맨 위로