[발언대] 데이터 분석 시스템 구축의 핵심
2015년 10월 25일 (일)
ⓒ 디지털타임스
피키캐스트
데이터사이언스
강지훈 실장
2011년 이후 빅데이터가 폭발적인 관심을 가지기 시작했다. 이와 연계하여 빅데이터 관련 비즈니스가 등장했고, 대기업이나 IT 관련 기업들이 빅데이터 시스템 도입에 열을 올려왔으나, 그로부터 '4년'이 지난 지금까지 빅데이터와 관련 뚜렷한 성과는 찾아보기 힘들다.
하지만 현재 데이터 양과 활용 범위는 더 방대해졌고 데이터 사이언스를 통해 다양한 성과를 얻고 기업의 방향을 결정하는 사례가 많아진 만큼 그 어느 때보다 데이터 관리 및 분석이 중요해졌다. 최근 IT 서비스 관련 업계에서는 데이터 조직이 구성되고 있다. 개인화 서비스, 추천, 사내 의사 결정에 큰 역할을 하는 중요한 부서로 자리매김 했기 때문이다. 대부분의 경우 이 분야에 경험이 있는 경력자가 적은 상황에서 학습이 필요한 실무진들과 함께 빠른 성과를 내고 있는 것이 현실이다.
빠른 성과를 내는 데이터 사이언스 조직과 시스템을 구축하기 위해서는 우선 견고한 인프라가 선행돼야 한다. 데이터 사이언스 인프라를 구축하기 위해 선택해야 하는 과제에는 여러 가지가 있는데, 그 중 하나로 공개소프트웨어를 활용할지 혹은 내부 플랫폼을 구축할지를 선택해야 한다. 최근 잘 구축된 공개 소프트웨어가 많아지면서 공개 소프트웨어를 사용하는 것 자체가 실적으로 평가되고 있다. 그러나 무리하게 공개 소프트웨어를 사용하다 보면, 이후 도메인 별 다른 특징을 반영하여 수정하기 어렵고 운용하는 것 자체에도 애로사항이 생길 수 있다. 이처럼 각각의 장단점을 잘 비교해 선택해야 하는데, 데이터 사이언스 분야의 경우 하둡이나 스파크 같은 큰 인프라 이외의 주변 소프트웨어(수집, 가공 등)는 간단히 직접 구현하여 쓰는 것이 더 좋은 성과를 내기도 한다.
인프라를 통해 로그를 쌓고, 데이터를 수집하게 되면 최대한 빠르게 가시적 결과를 내야 한다. 이 때, 대쉬보드나 데이터 시각화 시스템 등을 내부 임직원이나 외부에 공개하기 전에, 빠른 시일 내 데이터를 보여주기 좋은 방법 중 하나가 BI(Business Intelligence) 리포팅이다. BI 리포팅은 경영에 대한 의사 결정이나 사업의 현황을 분석하는 데 필수 요소이다. 앞서 구축한 인프라를 통해 데이터 사전처리를 하고 난 후, 그 분석 결과를 스프레드시트 소프트웨어나 데이터시각화 툴(예컨대 Tableau)을 이용해 공유할 수 있다. 이 때, 중요한 것은 평가지표 설계이다. 다양한 도메인의 서비스에서 평가지표를 앞 단계에서 설계해야, 필요한 데이터를 모으고 행동하고 판단하는 데 실패를 줄 일 수 있다.
위와 더불어 동시에 진행해야 하는 필수 과제는 예측 분석과 알고리즘이다. 현재 사업 방향에 대한 의사 결정을 돕는 것뿐 아니라, 실제 서비스에 탑재할 검색이나 추천, 개인화 등의 알고리즘을 개발해야 한다. 이 때, 앞서 만들었던 튼튼한 인프라 덕에 학습에 필요한 특징(Feature)을 빠르게 추출할 수 있다. 이처럼 자연스럽게 기존 인프라와 더불어 상시 설계된 지표 등을 조합하고 알고리즘을 개발하면 비교적 손쉽고 빠르게 데이터 사이언스의 역할을 수행할 수 있다.
마지막으로, 위에서 언급한 데이터사이언스 조직 및 시스템 구축을 하기에 앞서 필수적인 요소가 있다면, 데이터 사이언스 조직은 다른 조직과의 의존성을 최소화해 스스로 기능할 수 있어야 한다는 것이다. 로그를 쌓는 부분을 제외하면, 대부분의 데이터 사이언스 업무는 독립적으로 수행될 수 있다. 이 때문에, 규모에 따라 다르겠지만 소규모 회사인 경우 수 개월 내에 앞서 언급한 모든 역할을 수행할 수 있을 것으로 판단된다.
강지훈 피키캐스트 데이터사이언스실장
※ 본 내용은 (주)디지털타임스(http://www.dt.co.kr/)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 디지털타임스. 무단전재 및 재배포 금지
[원문출처 : http://www.dt.co.kr/contents.html?article_no=2015102602102269746001]
번호 | 제목 | 조회수 | 작성 |
---|---|---|---|
공지 | [Open UP 활용가이드] 공개SW 활용 및 개발, 창업, 교육 "Open UP을 활용하세요" | 317198 | 2020-10-27 |
공지 | [Open UP 소개] 공개SW 개발·공유·활용 원스톱 지원 Open UP이 함께합니다 | 306932 | 2020-10-27 |
4624 | 아마존 먹여 살리는 클라우드, 3분기에도 쑥쑥 | 3248 | 2015-10-27 |
4623 | 사물인터넷을 향한 윈도우10, 라즈베리 파이2로 코딩해보니 | 2686 | 2015-10-27 |
4622 | "보안솔루션 적용 칩셋으로 위험 차단" | 3080 | 2015-10-27 |
4621 | "구글, 차량용 인포테인먼트 플랫폼 준비 중··· 안드로이드 오토와 별개" | 3180 | 2015-10-27 |
4620 | ‘씽크빅’, 하둡 데이터 레이크용 포괄적 매니지드 서비스 제공 | 2948 | 2015-10-27 |
4619 | 미래부, 2015 사물인터넷(IoT)진흥주간 개최 | 2895 | 2015-10-27 |
4618 | [e기업]큐브리드, 공공 분야 대표 공개SW로 발돋움 | 3366 | 2015-10-27 |
4617 | [발언대] 데이터 분석 시스템 구축의 핵심 | 3091 | 2015-10-27 |
4616 | 깃(Git) 관리 솔루션 '헬릭스깃스왐' 출시 | 3073 | 2015-10-20 |
4615 | 오픈스택 새버전 '리버티' 공개, 뭐가 달라졌나 | 3211 | 2015-10-20 |
0개 댓글