본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

기고 | 빅 데이터, 과거의 BI는 잊어라

OSS 게시글 작성 시각 2013-03-29 11:21:35 게시글 조회수 5273

2013년 03월 28일 (목)

ⓒ CIO Korea, Bernard Golden | CIO



전통적인 BI에서는 상관관계 요소에 필요한 쿼리를 사람의 결정해 입력해야 했다. 예측 데이터 분석이 점점 더 강력해지면서 알고리즘이 결정을 내리게 됐다.


지난 주 SV포럼 빅 데이터 이벤트에 참석한 이들 중에는 이번 행사가 하둡에 대한 것일 거라고 막연히 짐작한 사람이 많았을 것이다. 물론 집중적으로 하둡을 다룬 것은 사실이지만, 그렇다고 하둡이 이번 행사의 유일한 주제는 아니었다.


하둡과 빅 데이터가 대세인 건 맞다. 소셜 미디어나 웹사이트 클릭스트림(clickstream)과 같은 새로운 데이터 소스가 폭발적으로 증가하며 새로운 종류의 정보가 생겨났으며 이는 어쩌면 새로운 시각을 열어줄 계기가 될 수도 있다. 하둡은 이런 트렌드의 중심이자 가장 선두 자리에서 분산된 데이터 콜렉션에 맵리듀스(MapReduce) 방법을 적용해 기존의 방법보다 훨씬 많은 양의 데이터를 분석할 수 있는 길을 열었다.


그러나 이런 장점에도 하둡이 비즈니스 인텔리전스(BI)의 ‘만병통치약’이 아니라는 건 분명하다. 포럼에 참석한 다수의 연사들이 하둡의 일괄적인 성격을 단점으로 꼽았다. 수 시간이 걸려 결과물을 받았지만 이 분석 결과가 원하던 것이 아니어서 다시 결과를 받아야 하는 일이 발생하는 것이다.


몇몇 다른 연설자들은 실시간 BI(트위터나 페이스북과 같은 소셜 스트림 발굴과 관련이 있는 듯 보여지는)에 주목하는 모습을 보여줬다. 이러한 실시간 분석은 분명 가치 있는 작업이다. 그러나 이것이 대다수의 기업들에서 주요 시각 소스로 자리잡는 데는 일면 무리가 있을 듯 보인다. 이는 오히려 다른 시각 수집 도구들의 보조자로서 더 유용하게 이용될 수 있을 것이다. 흥미로운 연구 주제를 제공해준다는 점에서도 실시간 BI는 그 가치를 드러내고 있다.


미래의 빅 데이터 투자처는 ‘오픈소스’

필자는 빅 데이터의 투자 기회를 주제로 한 한 패널 토론의 사회를 맡았다. 이런 종류의 토론에 패널로 참석하는 투자가들은 대게 매우 조심스런 인물인 경우가 많다. 자신이 투자할 영역에 관해 절대 떠벌리고 다니지 않는 그런 인물 말이다. 이러한 인물들과 함께 대화를 나누며 필자는 빅 데이터 영역에 관한, 그리고 더 중요하게는 IT 인프라 환경의 미래 혁신에 관한 중요한 아이디어들을 얻을 수 있었다.


토론에 참석한 3명의 패널 모두는 빅 데이터 환경의 새로운 인프라 오퍼링들이 벤처 지원 상품이 아닌 오픈소스 라이선스에 기반한 공유 개발 제품의 형태를 띌 것이라는데 동의했다. 그 이유는 우선 독점 인프라 상품을 시장에 소개하는데 소요되는 비용의 문제(2억 달러 정도가 적절한 투자 수준이라는 언급이 있었다)에 있었다. 그 밖에도 혁신이 산발적으로 일어나는, 따라서 투자 기관들이 어느 한 업체만을 골라 자금을 지원할 결정을 내리는데 많은 어려움이 있는 상황 역시 시장 변화를 야기하는 요인으로 소개됐다.


그렇다면 빅 데이터와 관련한 벤처 투자는 완전히 사라지게 될까? 패널들의 설명에 따르면, 빅 데이터를 이용하는 산업계에서는 이러한 방식이 여전히 유효할 것이라고 설명하며 그 방식은 SaaS로 이뤄질 것이라 전망했다. 이러한 업종별 시장들이 자체적 컴퓨팅 인프라나 아마존 웹 서비스(AWS, Amazon Web Services) 중 어느 곳에 기반해 성장해 나갈지에 관해서는 패널들 간에 의견이 엇갈렸다.


이러한 패널들의 전망은 필자가 오래 전부터 ‘마진의 변화(the migration of margin)'라 설명했던 시각과 맥을 같이하는 것이었다. 오라클과 같은 거대 소프트웨어 기업들은 독점 인프라에 기반한 구조를 형성해왔다. 그러나 이제 그들의 시대는 지나가고 있다. 오픈소스는 소프트웨어 인프라 시장을 주도해 나갈 것이다. 그렇다면 높은 마진을 얻을 기회는 어느 곳에 있을까? 저 위쪽, 굳이 꼽자면 수직적 시장에 있을 것이다. 이 영역은 전문 기술이 요구되는, 그리고 오픈소스만으론 시장 요구를 적절히 충족 시킬 수 없는 부분이 많기 때문이다.


BI를 바꾸는 알고리즘

그러나 개인적으로 이번 행사서 가장 흥미로웠던 부분은 분석의 미래를 조금이나마 엿볼 수 있었던 점이다. 이는 기존에 우리가 알고 있던 BI가 아니었다. 캐글(Kaggle)의 CEO 앤써니 골드블룸의 개회식 기조 연설과 포레스터의 마이크 걸티에리의 폐회식 기조 연설 모두 예측 분석에 주목했다.


넷플릭스(Netflix)에서 자사의 추천 엔진을 10개 이상의 자동검색완성으로 개선 시킬 수 있는 사람에게 엄청난 상금을 걸었던 ‘넷플릭스 컨테스트’를 기억할 것이다.


행사의 핵심은 예측 분석이었다. (수십, 또는 수백 개의) 알고리즘을 데이터 콜렉션의 부분 집합에 적용해 과연 알고리즘이 다른 흥미로운 결과와 관계 있는 데이터 요소의 패턴을 감지해 낼 수 있는지 알아보고자 한 것이다. 예측 알고리즘을 찾아내자, 이번에는 또 다른 데이터 콜렉션의 부분 집합에 적용해 과연 그 알고리즘이 두 번째 부분 집합의 결과를 예측할 수 있을지 보고자 했다.


걸티에리가 선보인 예시는 모바일 유저 중 서비스 제공자를 바꾸는 고객의 비율이었다. 한 무선통신 업체에서 사용자들의 결혼 여부, 통신료 지불 패턴(미리 지급하는 편인지, 정시에 지급하는지 연체되는 편인지), 무선통신 사용량 등의 정보를 살펴본 후 이런 요소를 분석하면 계약을 파기하는 고객을 예측할 수 있을지 실험했다.(물론 냉소적인 사람은 이런 조사를 하는 대신 서비스의 질을 향상해 제공자를 바꾸는 고객을 줄이면 되지 않느냐고 말하겠지만 말이다.)


이의 연장선에 있는 것이 예측 기능을 더욱 향상시키기 위해 알고리즘을 발달시키는 것인데, ‘기계 학습’이라는 이름으로 불린다. 캐글은 예측 분석 대회를 조직해 개최하는데, 여기서 골드블룸은 훌륭한 예시를 보여주었다. ‘기계 학습 시스템이 교사보다 학생들의 에세이를 더 잘 평가할 수 있을까?’ 답은 ‘그렇다’이다. 특히 소프트웨어는 교사보다 훨씬 변동성이 적으므로 더욱 그러하다.


더 나은 정보 분석, 더 나은 성능, 하지만 비용은?

이런 류의 기계 학습은 전통적인 BI에겐 사형 선고와 다름 없다. BI 자체가 일련의 데이터에 반해 통찰력을 강화해 온 과정이기 때문이다. “날씨가 따듯해지면 크루즈 여행을 예약하는 사람들이 많아진다. 그러니 날씨와 크루즈 예약의 상관 관계에 대한 보고서를 작성하라.”


이런 접근 방식의 문제는 데이터간의 올바른 상호 관계에 대한 판단을 인간이 내린다는 것이다. 바로 이런 부분에서 문제가 복잡해진다. 한 사람의 판단(그리고 편견)에 의지해 관련 데이터를 찾아내는 것이다. 데이터 스스로에게 관련 데이터를 찾아내도록 하는 것이 훨씬 효과적임에도 불구하고 말이다.


그리고 바로 여기서 골치가 아파진다.


“데이터에게 다 알아서 하라고 하자”라고 말하는 순간 드는 생각은 더 많은 데이터를 모아야겠다는 것이다. 말하자면, 모바일 업체가 소비재 회사와 계약을 맺고 서비스 제공자를 바꾸는 고객에 대한 분석을 위해 다른 류의 제품을 사는 소비자들의 소비 습관에 관한 정보를 얻을 수도 있는 것이다.


어쨌거나 고객에게 있어서는 무선 인터넷 제공업체를 계속 이용할 이유를 주는 것과 마찬가지니 나쁠 것이 없다고 생각할 수도 있다. 그렇지만 필자는 재정과 신용이라는 부분에 대해 더 걱정이 된다. 이 두 분야야 말로 수년간 데이터 수집과 정확성의 ‘전장’이었기 때문이다.


간단히 무시하면 되는 허술한 모바일 제공 서비스와는 달리, 부정확한 신용 평가 보고서는 심각한 결과를 낳을 수 있다. 신용 기관들로 하여금 데이터 소스를 밝히고 부정확한 정보를 수정할 권한을 요구하기 위해 정치적인 움직임까지 있어왔다.


지난 주 본 새로운 유형의 빅 데이터 신용 분석 업체 ‘제스트 파이낸스(ZestFinance)’가 이런 생각을 들게 했다. 최근 기가옴(GigaOm) 컨퍼런스에서, 제스트 파이낸스는 자사가 “7만 여 개의 데이터 신호를 사용하며 10개의 기계 학습 알고리즘을 사용해 개인 융자를 평가하는 새로운 보험 회사’라고 설명했다. 실제로 이 회사는 잠재적 차용인이 웹사이트에 올라와 있는 공지사항을 읽었는지와 같은 전통적이지 않은 신호에 주목한다. 이를 통해 그 사람이 돈을 갚을 사람인지 판단하는 것이다.


모든 데이터 신호를 활용함으로써 회사 측에서는 기존 신용 조사서에서 낮은 평가를 받았지만 다른 데이터 요소를 살펴봤을 때 꽤 괜찮아 보이는 사람들을 찾아낼 수 있게 된다.


그건 좋은데, 만약 데이터 신호 분석 결과 당신이 채무 변제 불능의 위험이 있는 채무자라는 결론이 난다면 어떡할 것인가? 아니면 당신이 이웃들보다 0.5%포인트 가량 더 비싼 대출 이자를 내고 있었다는 사실을 알게 된다면? 대체 왜 이렇게 된 것이냐고 따지면, 아마도 회사 웹사이트에 올라온 공지 사항을 읽지 않았기 때문이라는 대답을 듣게 되거나, 아니면 아예 답을 듣지 못할 가능성이 더 크다. 당신이 연락한 사람이 잘 모르고 있거나, 아니면 알고리즘은 회사의 ‘기밀’에 해당하기 때문에 알려줄 수 없다고 할 것이기 대문이다.


테크놀로지 트렌드에 대해 불필요한 우려를 자아내는 사람이 되지 않으려 노력하는 편이지만, 빅 데이터 분야의 이런 측면은 분명 걱정거리가 아닐 수 없다. 데이터와 신용 분석은 언제나 폭발적이었으며 기계 학습과 빅 데이터는 더 하면 더 했지 덜 하진 않을 것이다. 특히 업계가 기계 학습으로의 전환 과정에 부여할 비밀성과 애매한 판단 기준 때문에 말이다.


그러니까, BI는 죽었다고 할 수 있다. 우리는 사람이 비효율적으로 데이터를 걸러 내는 방법을 버리고 기계 학습을 통해 연관된 패턴과 결과를 찾아 내는 새로운 방법으로 옮겨 가는 길목에 서 있다. 앞으로 수십 년 동안은 이런 변화로 인해 업계에 활기찬 변화가 있을 것이다.


*Bernard Golden는 클라우드 관리 소프트웨어 업체인 엔스트라투스 네트워크(enStratus Networks)의 엔터프라이즈 솔루션 담당 부사장이다.


※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지



[원문출처 : http://www.ciokorea.com/news/16349]

맨 위로
맨 위로