본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

[빅데이터1년] 그루터 “빅데이터, ‘솔루션’ 아니다”

OSS 게시글 작성 시각 2013-04-12 13:46:53 게시글 조회수 4357

2013년 04월 11일 (목)

ⓒ 블로터닷넷, 이지영 기자 izziene@bloter.net



" 빅데이터. 국내외 대다수의 기업이 2013년에도 주목하겠다고 꼽은 단어다. 그런데 걱정이 앞선다. 이미 너무 많은 매체가 지난 한 해 빅데이터를 주목했다. 빅데이터 시장성, 가능성, 사례 등을 얘기했다. 갑자기 쏟아진 빅데이터에 사람들은 ‘귀에 딱지가 앉겠다’라는 반응을 보였다. 그럼에도 불구하고 빅데이터는 여전히 뜨거운 감자다. 많은 기업이 빅데이터를 주목하고 나섰으며, 빅데이터의 가치를 얘기하려고 한다. 그래서 1년전 ‘빅데이터’와 지금의 ‘빅데이터’는 뭐가 다른지 살펴봤다."

그루터는 국내외에서 잘 알려진 하둡 관련 기술을 보유한 업체다. 하둡 상용 솔루션 개발업체인 클라우데라, 호튼웍스 임원들이 그루터가 개발한 하둡 관리 솔루션인 ‘클라우몬’을 주목하고 있을 정도다. 실제로 권영길 그루터 대표는 2007년 4월부터 국내에서 하둡을 접목하고 운영한 경험이 있다. 바이오인포매틱스나 보안플랫폼, 웹서비스 등 국내외 굵직한 빅데이터 프로젝트에 그루터는 빠지지 않고 이름을 올렸다. 비밀엄수(NDA) 조건 때문에 공개되지 않았을 뿐이다.

그런 그루터에 지난 국내 빅데이터 시장은 한마디로 ‘별로’였다. 빅데이터와 하둡의 성격조차 이해하지 못하고 추진하는 기업과 시스템통합(SI)업체, 국내외 데이터베이스(DB)·데이터웨어하우스(DW) 업체들이 쏟아낸 ‘거짓말’ 때문이다.



데이터와 빅데이터를 구분하는 작업부터

“빅데이터는 솔루션이 아닙니다. 빅데이터 하둡 솔루션 도입하고, 빅데이터 어플라이언스 도입한다고 해서 빅데이터 프로젝트가 완성되는 건 아니란 얘기지요. ‘구축하면 완성’이라는 식의 기존 방식으로 빅데이터 시장에 접근하다간 낭패보기 십상입니다.”

권영길 그루터 대표는 데이터를 억지로 빅데이터로 포장해 봐야 도움될 건 없다고 말했다. 지난해 수많은 매체들이 쏟아낸 ‘빅데이터’란 개념 덕에, 국내 많은 기업이 빅데이터에 관심을 보였다. 어떻게 하면 빅데이터를 처리할 수 있는지, 빅데이터를 다룰 수 있는지 등을 묻는 기업이 많았다. 그루터도 그런 질문을 받는 곳 가운데 하나였다. 문제는 ‘빅데이터’에 대해 제대로 이해하지 못하면서 ‘빅데이터’면 다 되는 줄 알고 접근하는 몇몇 기업 때문에 발생했다.

이들은 ‘빅데이터를 분석하면 고용을 창출할 수 있다’거나 ‘빅데이터를 분석하면 고객 맞춤형 서비스를 할 수 있다’ 등과 같은 환상에 빠지기 시작했다. 기존 데이터 분석 장비로도 충분히 가능한 일을 괜히 웃돈을 더 들여 빅데이터 장비를 구입해 덩치를 키워 나갔다.

“기존 기술로 충분히 처리할 수 있음에도 ‘빅’이란 단어를 붙여 빅데이터 분석이라고 부르며 물타기를 시도하는 기업이 등장했습니다. ‘빅데이터’라면 기존과 다른 가치를 창출해 줄 것이란 고객의 기대감을 이용한 거지요. 그 탓에 데이터와 빅데이터 간 구분이 모호해지면서 불필요한 빅데이터 거품이 발생했습니다.”

권영길 대표 설명에 따르면 빅데이터는 데이터를 다루는 새로운 방법론이다. 과거에 처리할 수 있었지만 비용이 비싸서 처리하지 못해 기업이 단순하게 저장하고 있던, 과거에 처리하고 싶었지만 분석할 수 없을만큼 용량이 큰 데이터를 클라우드 컴퓨팅, 분산 컴퓨팅, 하둡과 같은 기술로 처리하는 모든 과정이 곧 빅데이터인 셈이다.


하둡, 빅데이터를 다루는 표준 기술

비즈니스 인텔리전스(BI)와 데이터웨어하우스(DW) 같은 전통적인 방식의 데이터 환경에서는 빅데이터라고 불릴만한 데이터를 처리할 수 있는 기술이 없었다. 있더라도 비용이 너무 비싸 실질적으로 기업이 활용하지 못했다.

한 예로, 그루터의 고객사 중 하나가 DW에 데이터를 저장하고 있었다고 한다. 하둡 등장 이전에는 이 데이터를 저장만 하고 분석하질 못했다. 일반적인 통계 정보를 읽는 데 그쳤다. 더 나은 분석을 하려면 더 많은 돈을 들여 DW를 사야 했다. 하둡의 등장은 단순한 통계 저장소에 그쳤던 DW에 활기를 불어넣었다. 기존 장비에서도 데이터를 분석할 수 있는 환경을 하둡이 지원한다. 그 결과 기업은 더 많은 데이터를 분석할 수 있게 됐다. 이는 새로운 마케팅 가치로 이어졌다. 빅데이터 분석에서 강조하는 가치 창출이다.

“하둡을 기준으로 빅데이터 얘기는 꺼내는 이유입니다. 사실 하둡 기술 그 자체보다는 기존에 가능하지 않았던 걸 가능케 한 신기술의 등장을 더 중요하게 바라보고 있습니다. 이 모든 과정을 합쳐서 사람들을 빅데이터라고 봅니다. 단순히 데이터만 가지고 빅데이터라고 말하는 건 아닙니다”

권영길 대표 관점에서 하둡은 데이터와 빅데이터를 나누는 가장 큰 특징이다. 하둡으로 처리할 수 있으면 빅데이터, 하둡이 아니더라도 처리할 수 있는 건 데이터라고 나누는 게 아니다. 그는 대용량 데이터가 등장하면서 클라우드 컴퓨팅 기술이 등장했고, 연장선에서 하둡이 나오면서 저렴한 비용으로 데이터를 처리할 수 있게 된 이 모든 과정을 빅데이터라고 바라보고 있다.

이런 분위기는 전통적인 DB와 DW를 시장을 바꿔놓았다. 오라클, IBM, MS, EMC, 테라데이타 등은 하둡 지원을 약속하며 빅데이터 서비스를 제공하겠다고 앞다퉈 나섰다. 저마다 자사 장비와 하둡이 최적화돼 있다는 걸 내세웠다. 해외에서는 이 장비들이 잘 팔릴수도 있다. 그런데 국내는 아니다. 권영길 대표는 적어도 국내에서는 전통적인 어플라이언스로는 빅데이터 시장에 제대로 대응할 수 없다고 보았다.


하둡을 솔루션으로 대하는 ‘한국형 빅데이터’의 문제

“벤더들이 하둡 어플라이언스를 경쟁적으로 내놓고 있지만, 하둡은 명백히 오픈소스입니다. 구축이 아닌 내재화 작업이 반드시 필요합니다.”

권영길 대표는 하둡이 완성되거나 성숙된 기술이 아닌, 여전히 발전하고 개선되고 있는 오픈소스 기술이라는 점에서 한 번 설치하고 끝내는 일회성 프로젝트형 빅데이터 구축 움직임을 경계했다. 기존 전통적인 솔루션을 도입할 때처럼, 기획하고 설치하고 유지보수하는 건 하둡 중심의 빅데이터 시장에서 통하지 않는다는 얘기였다.

“가끔 인프라 담당자들이 아파치 하둡에 대해서만 유지보수 해줄 수 있느냐는 문의를 받습니다. 이러한 문의는 하둡에 대한 접근법이 얼마나 잘못됐는지 보여주는 사례죠. 하둡은 구축시부터 이러한 운영 이슈에 대해 고민하고 해결책을 모색하는 방향으로 진행돼야 합니다.”

권영길 대표가 하둡 어플라이언스 무용론을 얘기하는 게 아니다. 다만 쉽고 안정적으로 다룰 수 있는 기존 엔터프라이즈 솔루션과 달리 하둡은 대용량 데이터를 처리하는 분산 컴퓨팅 기술에 대해 어느정도 이해가 전제된다. 그래야 하둡 어플라이언스나 하둡 플랫폼을 제대로 쓸 수 있다.

“전통적인 DB처럼 질의를 넣는다고 해서 순식간에 답이 나오지 않습니다. 그래서 새로운 방식에 맞게 데이터를 기획하고 구조화할지를 결정하는 과정이 필요하지요. 이런 고민없이 단순히 장비만 사고, 솔루션을 구축한다고요? 빅데이터를 다룰 수 있을 리 없지요.”

상용 솔루션 회사가 만든 하둡도 크게 다르지 않다. 하둡에 존재하는 버그를 패치를 했다고 하지만, 근본인 하둡 자체가 오픈소스로서 가지는 불완전성이 여전히 존재한다. 그래서 그루터는 하둡 솔루션 도입보다는 하둡 내재화에 더 힘을 쏟는다.

“기업 내 엔지니어들이 스스로 하둡을 다루면서 문제가 생길 때마다 대처할 수 있는 능력을 키워주는 식으로 접근하는 거지요. ‘우리 솔루션 깔면 빅데이터는 다 할 수 있어’와 같은 거짓말은 던지지 않습니다. ‘우리 솔루션 깔고 사용법을 배우면 웬만한 빅데이터를 보다 쉽게 다룰 수 있어’라고 말합니다.”



※ 본 내용은 (주)블로터 앤 미디어(http://www.bloter.net)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 블로터 앤 미디어. 무단전재 및 재배포 금지



[원문출처 : http://www.bloter.net/archives/149359]

맨 위로
맨 위로