본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

'코끼리처럼, 카멜레온처럼'··· 진단! 하둡의 오늘

OSS 게시글 작성 시각 2014-08-20 17:37:24 게시글 조회수 3237

2014년 08월 20일 (수)

ⓒ CIO Korea, Cindy Waxer | Computerworld



오늘날 가장 찾기 어려운 인재군 중 하나가 아파치 하둡(Apach Hadoop)에 능숙한 IT 전문가다. 노동 시장 전문 조사 기관인 원티드 애널리틱스(Wanted Analytics)에 따르면, 하둡 전문가에 대한 수요는 지난 해 이후 34%가 급증했다. 

그러나 이렇게 인재 유치 경쟁이 치열함에도 불구하고, 데이터 과학 분야 인재들이 많은 연봉을 챙기던 시대는 이미 저물어가고 있을지도 모른다.

왜일까? 하둡은 우수한 데이터 처리 능력과 저장력으로 유명하다. 물론 복잡하다는 특성도 갖고 있다. 하지만 이런 역량이 필요한 기업들이 더 이상 하둡 기술을 가진 IT 전문가를 찾기 위해 애를 쓸 필요가 줄어들고 있다. 벤더들이 이용하기 쉬운 하둡 시스템을 개발하고 있기 때문이다.

대용량의 데이터 세트를 처리하는 비즈니스 친화적 하둡 애플리케이션을 개발하는 벤더들로는 피보탈 소프트웨어(Pivotal Software), 싱크소프트(Syncsoft), 맵알 테크놀로지(MapR Technologies), 제타세트(Zettaset) 등을 예로 들 수 있다.

그 결과 비싼 인재들에 대한 의존도를 낮추고, 보안 수준을 높이며, 비용을 절감하는 한편, 비즈니스 목표에 맞도록 비즈니스 데이터를 활용할 수 있다고 주장하는 제품 생태계가 출현하고 있다.

그러나 이런 시스템이 증가 및 발전함에도 불구하고, 하둡이 본질적인 보안 취약점을 극복하고, 마이크로소프트 윈도우와 관련 비즈니스 애플리케이션과는 다른 완전한 운영 시스템으로 부상할 수 있을지에 의구심을 갖는 IT 전문가들이 많다.


버지니아 레스톤 소재 컴스코어(ComScore)의 마이클 브라운은 하둡 시스템에 만족하고 있는 사용자 중 한 명이다.

컴스코어는 200여 만 명의 온라인 쇼핑 행동양태를 모니터링하고, 광고주들이 타깃화된 마케팅 캠페인을 추진할 수 있도록 지원하는 웹 인텔리전스(정보) 회사로 매일 600억 개의 데이터를 '소화'한다.

이 회사는 데이터를 즉시 이용할 수 있는 상태로 만들기 위해 2011년 가을 맵알의 하둡 배포판을 도입했다. 그러나 맵알 시스템을 도입했음에도 불구하고, 데이터 과학자들은 하둡으로 데이터를 이전할 수 있도록 직접 코드를 입력해 애플리케이션을 개발해야 했다.

그러다 지난 해 싱크소프트의 DMX-h를 도입하면서 이 문제를 해결했다. 맵알이 6월 인증한 싱크소프트의 하둡 ETL(Extract, Transform, Load) 소프트웨어는 컴스코어가 손으로 코딩을 할 필요 없이 레가시(기존) 시스템에서 하둡으로 중요한 데이터를 옮길 수 있도록 조정을 하는 기능을 지원했다. 이 회사는 그 결과 더 빨리 데이터를 처리하고 있으며, 앱의 시장 출시를 앞당기고 있고, 하드웨어에 대한 투자를 줄일 수 있다.

컴스코어는 최근 아파치 피그(Apache Pig) 플랫폼에서 75줄의 코드를 개발하는 것과 싱크소프트의 DMX-h에 쓰기 작업을 하는 것을 비교했다. 그리고 아파치 시스템에서는 25시간이, 싱크소프트 에서는 12시간이 소요됨을 발견했다.

맵알의 새로운 애플리케이션 갤러리를 이용할 경우 하둡이 더욱 간단해진다. 지난 6월 출시된 이 갤러리에는 프로비저닝, 보안, 비즈니스 인텔리전스, 머신 학습 등 하둡 기능 일체를 지원하는 다양하면서도 즉시 사용할 수 앱들이 들어 있다.

아직까지 기업들은 빅 데이터 앱 구축에 있어 복잡한 작업들을 처리하기 위해 뛰어난 기술력을 갖춘 내부 프로그래머와 엔지니어들에게 의지하고 있다. 그러나 맵알 갤러리 같이 더욱 쉽게 앱을 개발할 수 있는 대안들이 등장하고 있다. 클라우데라(Cloudera)의 임원들이 설립한 스케일링 데이터(Scaling Data)는 하둡을 운용할 수 있는 쉬운 애플리케이션 라인을 개발하는 것과 관련해 최근 440만 달러의 벤처 자본을 유치하기도 했다.

맵알 갤러리 사용을 검토하고 있는 브라운은 "하둡 시스템에 추가할 수 있는 애플리케이션들이 판매되기 시작한 상태다. 이는 정말이지 큰 변화다"고 강조했다.

'하둡을 다음 단계로' 
이용하기 쉬운 소프트웨어를 개발해 기업의 하둡 도입을 견인하고 있는, 또 다른 회사로는 이노발론(Inovalon)을 예로 들 수 있다.

매릴랜드 보위 소재의 헬스케어 데이터 애널릭틱스 솔루션 공급사인 이노발론은 1억 4,000만 명의 환자, 22만의 임상 그룹, 54만 명의 의료진에 대한 데이터를 관리하고 있다. 이 회사는 이 정보를 처리하기 위해 당초 호튼웍스(Hortonworks), 클라우데라(Cloudera), 맵알의 시스템 중 하나를 선택하려 했다. 그러나 결국에는 데이터 고속 처리는 물론 빅 데이터 스트림에서 지능을 검출할 수 있는 피보탈 소프트웨어를 선택했다.

이노발론은 수 개월에 걸쳐 프로토 타입을 운용하고, 하드웨어를 준비하고, 소프트웨어 아키텍처를 구축한 이후에야 피보탈의 오픈소스 기반 하둡 프레임워크를 생산 환경에 도입했으며, 현재 데이터 관리 및 배포에 이 기술을 사용하고 있다. 또 이 시스템의 예측 분석 기능을 통해 환자와 관련된 성과를 개선하고 있다.

피보탈의 소프트웨어는 이노발론이 제휴한 약국 체인인 월그린에 효과를 전달하고 있다. 전국의 월그린 약국들이 이노발이 개발한 e패스(ePass)라는 소프트웨어를 사용하고 있다. 예측 분석을 바탕으로 환자의 상태를 파악하고, 의료적인 처치가 필요하다고 경고를 해주는 소프트웨어다. 이노발론의 조 로스톡 CTO는 피보탈의 비즈니스 등급 기술이 있었기에 이런 기능을 구현할 수 있었다고 강조했다.

로스톡은 "헬스케어 생태계의 데이터 배포와 관리에 있어 하둡 같은 데이터베이스 기술은 그리 큰 영향력을 갖고 있지 않다. 그러나 우리 회사의 데이터 과학자들은 데이터 이용과 관리에, 생산 엔지니어들은 분석을 통한 데이터 처리에 피봇 툴을 사용하고 있다"라고 말했다.

'보안 문제'
앱 개발을 간소화 해주는 툴에서 비즈니스 정보를 추출하는 소프트웨어 계층으로 발전하는 하둡 생태계는 점점 더 비즈니스 친화적인 기술로 변신하고 있다. 그러나 여전히 보안 문제가 하둡 도입을 방해하는 양상이다.

일단 전통적인 빅 데이터 환경에서는 경계선 보안 툴이 필요하다. 그러나 분산형 아키텍처인 하둡은 그 특성상 복잡한 계층 하나를 새로 추가해 보안 처리를 더욱 어렵도록 만드는 특성을 지닌다.

더 나아가, 데이터는 하둡 노드 사이를 더 빠르게 이동한다. 누가 중요한 비밀 데이터를 이용할 수 있는지 관리하는 역할 기반 제어 및 정책 집행이 어려워지는 것이다. 마지막으로, 하둡에는 보안 애드온이 늦게 추가 됐는데, 이것이 보안을 중시하는 IT 종사자들에게 부정적인 인식을 심어주고 있다.

프로페셔널 하둡 솔루션스(Professional Hadoop Solutions)의 저자인 노베타 솔루션스(Novetta Solutions)의 케빈 스미스 기술 디렉터는 "아파치 하둡은 원래 보안을 염두에 두지 않고 개발됐다. 우리가 알고 있는 하둡의 보안 기능 대부분은 불과 몇 년 전 구현이 된 것들이다. 그 결과 하둡의 보안 기능에는 보안에 전문성이 없는 많은 IT 종사자들에게 혼동을 초래하는 복잡성이 자리잡고 있다"라고 지적했다.

다행히, 새롭고 이용하기 쉬운 보안 툴을 개발하는 벤더의 수가 증가하고 있는 추세다. 제타세트 오케스트레이터(Zettaset Orchestrator)를 예로 들 수 있다. 빅 데이터 관리 및 보안용 응용 소프트웨어인 오케스트레이터는 현재 호튼웍스의 데이터 플랫폼 2.1을 지원하고 있다.

오케스트레이터는 하둡 배치를 간소화하는 관리계층으로 기능을 하면서, 하둡의 보안성을 높이기 위해 암호화, 엑세스 제어, 정책 집행, 지속적인 데이터베이스 업타임을 전달한다.

제타세트의 짐 보그트 CEO는 "CIO와 CSO들이 보안에 단호한 태도를 취하고 있다. 하둡은 오늘 날 데이터센터 기술과 동일한 수준의 보안 기능을 제공할 수 있도록 강화되어야 한다"라고 강조했다.

하둡의 보안 성능 개선을 주도하는 또 다른 움직임도 있다. 최근 호튼웍스가 하둡용 보안 및 정책 관리 공급업체인 XA 시큐어(XA Secure)를 인수한 것이다. 호튼웍스는 XA 시큐어의 기술을 호튼웍스 데이터 플랫폼에 통합하고, 동시에 오픈소스 기반 아파치 공동체에 이를 제시할 계획을 갖고 있다. XA 시큐어 소프트웨어는 데이터 보안 기능을 중앙화해 거버넌스를 더 쉽게 만든다는 장점을 갖고 있다.

'새롭게 개선된 POC(Proof of Concept, 개념증명)'
호튼웍스 같은 회사들이 각자의 배포판을 강화하는 노력을 기울이고 있지만, 여전히 하둡 보안을 걱정하는 사용자들이 많다.

캘리포니아 산타모니카(Santa Monica)에서 흥정 없이 자동차를 구매할 수 있는 서비스를 제공하는 자동차 데이터 회사인 트루카(TrueCar)에서 플랫폼 운용 부문을 담당하는 존 윌리엄스 수석 부사장은 "하둡의 보안은 여전히 초기 단계다"라고 진단했다.

트루카는 소비자의 차량 결정을 도울 수 있는 데이터를 처리해 분석하고 있다. 이 회사는 매일 신차 모델, 중고차 재고, 경매 데이터 등 1차 비구조화 데이터 700 기가바이트와 1억 개의 이미지 데이터를 처리하고 있다. 윌리엄스는 "우리는 방대한 데이터 생태계를 보유하고 있다"고 말했다.

트루카는 처리 데이터의 해석과 분석을 개선하기 위해 호튼웍스의 하둡 배포판을 선택했다. 신제품 개발 프로세스를 앞당기고, 인프라스트럭처 경상비를 절감하는 등의 장점이 있었다. 더 중요하게, 제한된 크기의 SQL 인프라스트럭처에 데이터를 집어 넣을 필요가 없어졌다.

그는 "하둡은 데이터를 삭제하지 않아도 경제성을 유지할 수 있게 해줬다. 그 결과 비즈니스에 있어 모든 데이터를 풍부하게 유지할 수 있게 됐다. 그러나 보안 문제 때문에 고객의 이름, 주소, 전화번호 같은 고객 데이터는 하둡으로 POC를 할 수 없음을 깨달았다. 아직까지는 준비가 되어있지 않은 것이다"라고 말했다.

브라운은 컴스코어에서도 하둡의 보안이 큰 문제라고 말했다. 그는 자신의 회사가 데이터 보안 수준을 높이기 위해 상당한 노력을 기울였다고 강조했다. 그는 "우리는 데이터를 수집하는 네트워크 세트 하나, 데이터를 처리하는 네트워크 세트 하나를 보유하고 있다"고 설명했다. 또 표준 액티브 디렉토리(Active Directory) 보안 인프라스트럭처를 활용하고, 현장에서의 비밀 데이터 암호화에도 만전을 기울이고 있다고 덧붙였다.

그렇다면, 비즈니스 친화적인 하둡 시스템의 장점이 이 플랫폼의 보안 위험을 앞서는 지점은 어떻게 판단할 수 있을까? 많은 기업들의 경우, 하둡과 관련 툴을 기존 아키텍처와 통합할 수 있음을 입증하는 POC가 정답이다.

예를 들어, 트루카는 아파치 하이브(Apache Hive) 데이터 웨어하우스 소프트웨어에서 소수 쿼리를 실행시키는 간단한 방법으로 하드웨어를 테스트할 수 있었다. 그러나 이를 접고 '틀에 박히지 않은' 실험을 선택했다. 하둡에서 수만의 데이터 파일을 대량으로 병렬 처리한 방법이었다. 윌리엄스는 "이 POC 가 성공하면서 모든 사람들을 흥분시켰다"라고 말했다.

'미들맨을 없애주는 간소화'
무척 특이한 POC도 쉬워지고 있는 단계이다. 하둡 생태계의 간소화 덕분이다. 아틀랜타 소재 소아과 병원인 칠드런스 헬스케어(Children's Healthcare)는 2013년 여름, 클라우데라의 하둡 배포판을 테스트하기 시작했다.

하둡을 도입한 다른 기업이나 조직들과 달리, 칠드런스 헬스케어가 보유한 데이터의 양은 2.5TB에 불과했다. 그러나 매주 75GB씩 증가하고 있는 추세였다. 이 병원은 조지아 공대와 제휴해 병상 옆 모니터링 장치의 조명, 음성, 알람 데이터가 환자의 생리에 어떤 영향을 미치는지 실험하기 원했다. 또 의료 절차가 환자의 바이탈 사인(활력 징후)와 건강에 미치는 영향을 분석하는 프로젝트를 추진했다.

칠드런스 헬스케어의 BI 및 데이터 웨어하우징 매니저인 토드 데이비스는 하둡에서의 POC 수행이 쉬웠다고 전했다. 그는 "1TB 드라이브 6개에 600달러를 투자했다. 하드웨어 교체 덕분에 놀고 있는 워크스테이션도 있었다. 또 주말을 활용하면 됐다"고 말했다.

데이비스는 클러스터에 프랭큰두프(Frankendoop)라는 별명을 붙였다고 설명했다. 개인 신용카드로 구매한 데스크톱 워크스테이션을 분해해 구축했기 때문이다. 또 "단 4주가 소요됐고, POC를 실시할 툴을 갖고 있었다"고 덧붙였다.

샌드박스 환경에서 생산 현장으로의 이전도 간단했다. 칠드런스 헬스케어는 8대의 HP 서버와 클라우데라 라이선스를 구입한 후, 생산 단계로 전환하기 이전에 몇 달 동안 시스템 업타임을 테스트하고, 성능을 검증했다. 여기에는 '많은 보수를 지불해야 하는' 데이터 과학자가 관여하지 않았다. 데이비스는 "매일 틈나는 대로 시간을 투자해 하둡 시스템의 구성요소와 기술을 학습했다"라고 말했다.

'하둡 간소화에서 인력 조직 재편으로'
하둡 테스트에 있어 새로운 소프트웨어 툴이자 신선한 방식인 앱 갤러리가 간소화의 '열쇠'다. 그러나 통합 및 빅 데이터 컨설팅 서비스를 제공하는 씽크 빅 애널리틱스(Think Big Analytics)의 설립자인 론 보드킨은 "하둡 도입에 있어 가장 큰 도전은 '조직구조'다. 비즈니스 문제 해결에 적합한 기술을 실제 활용하도록 인력을 재편하는 것이 중요하다”라고 말했다.

보드킨은 프로그래머들이 각자의 이해에 따라 경쟁을 하도록 방치하는 대신 하둡을 한 사람이 관리할 수 있도록 최고 데이터 책임자 자리를 만들었다고 설명했다. COE(Center of Excellence) 팀을 통해 중요한 조직적 변화를 도모할 수 있다. 비즈니스 애널리스트를 IT 전문가와 통합시킨 부서를 만들어 협력을 촉진하고, 업무를 조율하는 방식이다.

그러나 모든 회사가 하둡 수용을 위해 조직구조를 바꿀 의지를 갖고 있는 것은 아니다. 하지만 호튼웍스, 클라우데라, 맵R 등 벤더들이 자신들의 하둡 배포판에서 보안 기능, BI 툴, 관리 계층을 확대하면, 보안이나 '인재유치'에 대한 걱정 없이 하둡을 수용하는 기업들이 증가할 것으로 관측된다.

스미스는 "현재 많은 기업들은 하둡과 관련된 '내용 전문가'가 필요한 단계이다. 그러나 하둡을 쉽게 이용할 수 있는 애플리케이션이 등장하고 있다. 이는 기업에서의 하둡 도입을 견인하는 요소가 될 것이다. 이것이 미래의 모델이다"라고 강조했다.

*Waxer는 프리랜서 저널리스트다. 이코노미스트, MIT 테크놀로지 리뷰, CNN머니 등에 기고하고 있다.



※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지


[원문출처 : http://www.ciokorea.com/news/22029]

맨 위로
맨 위로