본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

원석에서 보석을 추출하기··· 데이터 마이닝이란?

OSS 게시글 작성 시각 2017-09-04 07:39:02 게시글 조회수 5409

2017년 8월 29일 (화)

ⓒ CIO Korea, Bob Violino | InfoWorld



오늘날 조직들은 그 어느 때보다 방대한 규모의 정보를 웹사이트, 애플리케이션, 소셜 미디어, 모바일 기기, IoT 등과 같은 여러 출처로부터 모으고 있다. 하지만 중요한 것은 이렇게 모은 정보들로부터 비즈니스 가치를 끌어내는 것이다. 데이터 마이닝이 바로 이 부분에서 기여할 수 있다.

데이터 마이닝은 방대한 양의 데이터 속에서 트렌드와 패턴을 식별해 내고, 정보 간 관계를 정립해 비즈니스 문제를 해결하거나 정보의 분석을 통해 새로운 기회를 만들어 내는 자동화된 프로세스를 뜻한다.

이는 단순히 과거에 있었던 사실들을 참조 하여 향후 일에 대비하자는 차원이 아니다. 데이터 마이닝 툴과 테크닉을 활용하면 미래에 어떤 일이 일어날 지 구체적으로 예측하고 이러한 트렌드를 이용할 수 있도록 도와주는 역할을 한다.

‘데이터 마이닝(data mining)’이라는 용어는 IT 업계에서 널리 쓰이고 있다. 이 용어는 주로 데이터의 수집, 추출, 저장, 분석과 같은 대규모 데이터 프로세싱 활동을 일컫는 것으로 사용된다. 또한 인공지능, 머신러닝, 비즈니스 인텔리전스 등 의사결정 지원 애플리케이션 및 테크놀로지 등도 데이터 마이닝의 범주에 포함되고 있다.

데이터 마이닝이 활용되는 분야는 상품 개발, 세일즈, 마케팅, 유전학, 그리고 사이버네틱스 등 비즈니스 및 연구 등 다양하다. 그리고 제대로만 사용한다면 예측 분석과 결합된 데이터 마이닝 기술은 이를 이용하지 않는 경쟁 조직들에 비해 상당한 이점을 부여해 줄 것이다.

데이터 마이닝으로 비즈니스 가치 이끌어 내기
데이터 마이닝의 진정한 가치는 데이터들 사이에 숨겨져 있는 패턴, 관계를 찾아냄으로써 비즈니스에 막대한 영향력을 가질 수도 있는 미래 예측을 해내는 데에 있다. 예를 들어, 만일 어떤 기업이 특정 마케팅 캠페인 덕분에 특정 제품 모델의 판매량이 특정 지역에서만 엄청나게 올라갔다고 판단 했다면, 미래에도 해당 캠페인을 집중 공략 함으로써 더 큰 수익을 노릴 수 있을 것이다.

데이터 마이닝 테크놀로지의 장점은 비즈니스의 종류 및 그 목표에 따라 여러 가지가 될 수 있다. 예를 들어 리테일 분야의 세일즈 및 마케팅 매니저는 항공사나 금융 서비스 분야 종사자들과는 다른, 그들에게 적합한 데이터 마이닝을 통해 전환률을 개선할 수 있을 것이다.

그러나 과거의 세일즈 패턴을 파악하고 고객 행동 패턴을 분석하는 데이터 마이닝 기술은 산업 분야를 막론하고 앞으로의 세일즈 및 고객 응대 모델을 만들어 내는 데 도움을 줄 것이다.

데이터 마이닝은 비즈니스에 해악을 끼칠 수 있는 잠재적 활동들을 사전에 제거하는 기능도 한다. 예를 들어, 데이터 마이닝을 활용해 제품 안전성을 개선하거나 보험, 금융 거래 과정에서 발생하는 사기, 범죄 행각을 차단할 수도 있다.

데이터 마이닝 기술의 적용
데이터 마이닝은 거의 모든 산업 분야에서 다양한 용도로 활용될 수 있다.

- 리테일 업체: 고객의 과거 구매 이력을 분석하여 그가 어떤 제품을 수요하고 있는지, 혹은 계절별, 월 별로 어떤 제품의 수요가 증가하는지 등을 알아낼 수 있다. 그리고 이러한 정보를 바탕으로 재고를 관리하고 매대 진열 방식을 수정하는 것이 가능하다.

- 은행 및 금융 기관들: 클라이언트의 계좌, 거래내역, 선호하는 경로 등의 데이터를 마이닝 하여 이들의 니즈에 좀 더 적합한 서비스를 제공할 수 있다. 또한 소셜 미디어, 웹사이트 등에서 수집한 데이터를 바탕으로 기존 고객들의 충성도를 강화하고 새로운 고객을 유치할 수 있다.

- 제조업: 데이터 마이닝 기술을 활용해 상품 공정 과정의 패턴을 파악하고, 병목 현상이 일어나는 지점과 문제를 야기하는 공정 과정을 찾아내 효율성을 늘릴 수 있다. 또한 데이터 마이닝 지식을 제품 설계에 적용하여, 고객 경험으로부터의 피드백을 제품 설계에 반영할 수도 있을 것이다.

- 교육 기관: 데이터 분석을 통하여 학생들의 미래 학습 행동 패턴과 학습 능력 향상을 예측하고 이를 통해 교습 방법 및 커리큘럼 구성에 도움을 받을 수 있다.

- 의료업계: 데이터 마이닝 및 분석을 활용하여 비용을 절감하고 더 나은 의료 서비스를 제공할 방법을 고안해 낼 수 있다. 앞으로 몇 명의 환자에게 서비스를 제공하게 되고, 이들 각자가 어떤 류의 의료 서비스를 필요로 하게 될 지를 미리 예측할 수 있다. 생명 과학 분야의 경우 데이터 마이닝을 사용해 방대한 분량의 생물학적 데이터로부터 통찰력을 얻고 새로운 약이나 치료법 개발에 활용할 수도 있을 것이다.

의료 서비스 분야나 리테일 등 다양한 분야에서 데이터 마이닝을 활용하여 사기, 횡령 등 수상한 활동을 전통적인 방식을 사용할 때보다 훨씬 빠르게 잡아낼 수 있게 된다.

데이터 마이닝의 주 요소들
데이터 마이닝 프로세스는 각기 다른 기능을 수행하는 여러 가지 요소들로 구성되어 있다.

- 사전 처리. 데이터 마이닝 알고리즘을 적용하기 전에, 우선 분석의 대상이 될 타깃 데이터 세트를 설정해야 한다. 가장 흔하게 사용되는 데이터 소스들 중에는 데이터 마트나 웨어하우스가 있다. 데이터 세트 분석을 위해서는 우선 이러한 데이터 사전 처리 과정을 거쳐야 한다.

- 데이터 정화 및 준비. 사전 처리를 통해 확정된 데이터 세트는 정화 및 준비 과정을 거쳐 ‘노이즈’를 제거하고, 불완전 데이터 및 이종 데이터 등을 걸러내는 작업을 하게 된다. 이러한 작업을 통해 에러 요소를 제거하고, 추가적인 탐색을 하거나, 세그먼테이션 룰을 만들어 데이터 준비와 관련된 다른 기능들을 수행하게 된다.

- 연관 규칙 학습 (또는 장바구니 분석). 이러한 툴들을 데이터 세트 내의 다양한 변수들 간에 존재하는 관계를 찾아 낸다. 예를 들어 매장 내 어떤 제품들이 함께 구입되는 경향이 있는지 등을 본다.

- 군집화(Clustering). 군집화는 데이터 세트 내의 기존 구조를 사용하지 않고 유사한 데이터 간에 형성되는 구조 및 데이터 그룹을 식별해 내는 작업이다.

- 분류. 알려진 데이터 구조들을 일반화 하여 새로운 데이터 포인트에 적용한다. 예를 들어 이메일 애플리케이션이 특정 이메일이 스팸인지 아닌지를 판단하여 스팸 메일함으로 보내는 기전이 여기에 해당한다.

- 회귀 분석(Regression). 회귀 분석 테크닉은 세일즈, 주택 가치, 기온, 상품 가격 등 주어진 데이터 세트에서 구체적인 숫자를 예측해 내는 데 사용된다.

- 요약. 이 기술은 데이터 시각화, 보고서 생성 등 데이터 세트를 간결하게 요약하여 보여준다.

수많은 벤더들이 데이터 마이닝 소프트웨어 툴을 제공하고 있다. 개중에는 오픈소스 툴도 있고, 사유 소프트웨어들도 있다. 데이터 마이닝에 관한 사유 소프트웨어 애플리케이션을 판매하는 주요 업체로는 앵고스(Angoss), 클라라브릿지(Clarabridge), IBM, 마이크로소프트, 오픈 텍스트(Open Text), 오라클, 래피드마이너(RapidMiner), SAS 인스티튜트, SAP 등이 있다.

오픈소스 소프트웨어 벤더로는 캐롯2(Carrot2), 님(Knime), 매시브 온라인 애널리시스(Massive Online Analysis), ML-Flex, 오렌지(Orange), UIMA, 웨이카(Weka)등이 있다.

데이터 마이닝에 수반되는 위험과 문제점들
물론 데이터 마이닝에도 어느 정도의 리스크와 문제점은 따른다. 개인 식별 정보나 민감한 정보를 다루는 모든 테크놀로지에서 그렇듯, 보안과 사생활 보호가 가장 큰 문제점으로 인식되고 있다.

무엇보다도, 데이터 마이닝의 대상이 되는 데이터가 완전하고, 정확하며, 신뢰할 수 있어야 한다. 중요 비즈니스 의사결정의 기반이 되고, 공공, 정부기관, 투자자, 비즈니스 파트너들과의 협력 관계에서 근거 자료가 되는 기본 토양이니 더욱 그러하다.

한편 이미지나 비디오, 시계열 데이터, 공간 데이터 등 상대적으로 현대적이거나 복합적인 데이터들은 다양한 컴퓨팅 환경에 분산되어 있는 데이터 세트를 통합하는 새로운 기술을 요하기도 한다.

그러나 IT의 업무는 마이닝의 대상이 되는 적합한 데이터 세트을 준비하는 것으로 끝나지 않는다. 클라우드, 스토리지, 네트워크 시스템 등이 고기능 데이터 마이닝 툴을 구동할 수 있어야 한다. 또한 데이터 마이닝의 결과 얻어진 정보를 넓은 범주의 사용자들이 쉽게 이해하고 활용할 수 있도록 직관적으로 프레젠테이션 해야 한다. 이를 위해 데이터 과학 및 관련 분야의 전문성을 갖춘 인재가 필요할 것이다.

사생활 보호 측면에서 보자면, 사람들의 행동 패턴, 구매 내역, 웹사이트 방문 기록 등의 정보를 수집, 분석한다는 사실은 너무 많은 개인 정보를 모으게 되는 것 같아 기업들의 우려를 살 수 있다. 그리고 이러한 우려는 데이터 마이닝 기술의 적용뿐 아니라 비즈니스 전략 및 리스크 프로파일에도 영향을 미칠 수 있다.

개인 정보를 이처럼 철저하게 파고 드는 행위의 도덕성 문제도 문제이지만, 이러한 데이터를 수집, 분석, 공유하는 과정의 법적 절차도 중요하다. 미국의 건강보험 양도 및 책임에 관한 법(HIPAA)나 유럽 연합의 일반 개인정보 보호규정(GDPR)은 그러한 과정을 규제하는 대표적 법들이다.

데이터를 수집하고 분류하는 데이터 마이닝의 초기 단계 만으로도 해당 정보나 관련된 패턴이 공개됨으로써 데이터의 비밀 보장이 침해될 수 있다. 데이터 마이닝 기술을 잘못 사용하다가는 도덕적, 법적 분쟁에 휘말리게 될 수 있는 것이 사실이다.

때문에 데이터 마이닝은 전 과정에서 데이터의 유출, 침해, 비밀스런 액세스를 차단하려는 노력이 필요하다. 암호화, 액세스 컨트롤, 네트워크 보안 메커니즘 등의 보안 툴이 활용될 수 있을 것이다.

데이터 마이닝이 차이를 만든다
이러한 문제점들에도 불구하고 데이터 마이닝은 오늘날 정보로부터 가치를 추출해 내고자 하는 많은 기관들의 IT 전략의 핵심 요소가 되고 있다. 이러한 경향이 예측 분석 기술, 인공 지능, 머신러닝 등 관련 기술들의 발전을 가속화 하게 될 것임에는 의심의 여지가 없다.

* Bob Violino는 컴퓨터월드, CIO, CSO, 인포월드, 네트워크 월드에 기고하고 있다.



※ 본 내용은 한국IDG(주)(http://www.ciokorea.com)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒCIO. 무단전재 및 재배포 금지


[원문출처 : http://www.ciokorea.com/news/35363]

맨 위로
맨 위로