본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

[발언대] 데이터 분석 시스템 구축의 핵심

OSS 게시글 작성 시각 2015-10-27 16:31:04

2015년 10월 25일 (일)

ⓒ 디지털타임스



[발언대] 데이터 분석 시스템 구축의 핵심
피키캐스트
데이터사이언스
강지훈 실장

2011년 이후 빅데이터가 폭발적인 관심을 가지기 시작했다. 이와 연계하여 빅데이터 관련 비즈니스가 등장했고, 대기업이나 IT 관련 기업들이 빅데이터 시스템 도입에 열을 올려왔으나, 그로부터 '4년'이 지난 지금까지 빅데이터와 관련 뚜렷한 성과는 찾아보기 힘들다.


하지만 현재 데이터 양과 활용 범위는 더 방대해졌고 데이터 사이언스를 통해 다양한 성과를 얻고 기업의 방향을 결정하는 사례가 많아진 만큼 그 어느 때보다 데이터 관리 및 분석이 중요해졌다. 최근 IT 서비스 관련 업계에서는 데이터 조직이 구성되고 있다. 개인화 서비스, 추천, 사내 의사 결정에 큰 역할을 하는 중요한 부서로 자리매김 했기 때문이다. 대부분의 경우 이 분야에 경험이 있는 경력자가 적은 상황에서 학습이 필요한 실무진들과 함께 빠른 성과를 내고 있는 것이 현실이다.


빠른 성과를 내는 데이터 사이언스 조직과 시스템을 구축하기 위해서는 우선 견고한 인프라가 선행돼야 한다. 데이터 사이언스 인프라를 구축하기 위해 선택해야 하는 과제에는 여러 가지가 있는데, 그 중 하나로 공개소프트웨어를 활용할지 혹은 내부 플랫폼을 구축할지를 선택해야 한다. 최근 잘 구축된 공개 소프트웨어가 많아지면서 공개 소프트웨어를 사용하는 것 자체가 실적으로 평가되고 있다. 그러나 무리하게 공개 소프트웨어를 사용하다 보면, 이후 도메인 별 다른 특징을 반영하여 수정하기 어렵고 운용하는 것 자체에도 애로사항이 생길 수 있다. 이처럼 각각의 장단점을 잘 비교해 선택해야 하는데, 데이터 사이언스 분야의 경우 하둡이나 스파크 같은 큰 인프라 이외의 주변 소프트웨어(수집, 가공 등)는 간단히 직접 구현하여 쓰는 것이 더 좋은 성과를 내기도 한다.


인프라를 통해 로그를 쌓고, 데이터를 수집하게 되면 최대한 빠르게 가시적 결과를 내야 한다. 이 때, 대쉬보드나 데이터 시각화 시스템 등을 내부 임직원이나 외부에 공개하기 전에, 빠른 시일 내 데이터를 보여주기 좋은 방법 중 하나가 BI(Business Intelligence) 리포팅이다. BI 리포팅은 경영에 대한 의사 결정이나 사업의 현황을 분석하는 데 필수 요소이다. 앞서 구축한 인프라를 통해 데이터 사전처리를 하고 난 후, 그 분석 결과를 스프레드시트 소프트웨어나 데이터시각화 툴(예컨대 Tableau)을 이용해 공유할 수 있다. 이 때, 중요한 것은 평가지표 설계이다. 다양한 도메인의 서비스에서 평가지표를 앞 단계에서 설계해야, 필요한 데이터를 모으고 행동하고 판단하는 데 실패를 줄 일 수 있다.


위와 더불어 동시에 진행해야 하는 필수 과제는 예측 분석과 알고리즘이다. 현재 사업 방향에 대한 의사 결정을 돕는 것뿐 아니라, 실제 서비스에 탑재할 검색이나 추천, 개인화 등의 알고리즘을 개발해야 한다. 이 때, 앞서 만들었던 튼튼한 인프라 덕에 학습에 필요한 특징(Feature)을 빠르게 추출할 수 있다. 이처럼 자연스럽게 기존 인프라와 더불어 상시 설계된 지표 등을 조합하고 알고리즘을 개발하면 비교적 손쉽고 빠르게 데이터 사이언스의 역할을 수행할 수 있다.


마지막으로, 위에서 언급한 데이터사이언스 조직 및 시스템 구축을 하기에 앞서 필수적인 요소가 있다면, 데이터 사이언스 조직은 다른 조직과의 의존성을 최소화해 스스로 기능할 수 있어야 한다는 것이다. 로그를 쌓는 부분을 제외하면, 대부분의 데이터 사이언스 업무는 독립적으로 수행될 수 있다. 이 때문에, 규모에 따라 다르겠지만 소규모 회사인 경우 수 개월 내에 앞서 언급한 모든 역할을 수행할 수 있을 것으로 판단된다.


강지훈 피키캐스트 데이터사이언스실장




※ 본 내용은 (주)디지털타임스(http://www.dt.co.kr/)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 디지털타임스. 무단전재 및 재배포 금지


[원문출처 : http://www.dt.co.kr/contents.html?article_no=2015102602102269746001]

맨 위로
맨 위로