본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

인메모리 분석이 뜨는 이유 ‘빅 데이터 & 값싼 스토리지’

OSS 게시글 작성 시각 2012-12-11 15:26:02 게시글 조회수 5422
ⓒ CIO Korea, Allen Bernard | CIO
2012년 12월 10일 (월)



인메모리 분석은 사실 최신 기술이 아니다. 가상화나 클라우드와 같이 새롭게 조명받는 ‘오래된 아이디어’에 가깝다.

빅 데이터에 관심을 두고 있다면, 최근 인메모리(in-memory) 분석이나 인메모리 기술 등의 용어들을 들어봤을 것이다. 사실 인메모리는 역사가 메인프레임 시절까지 거슬러 올라가는 제법 오래된 개념이다. 시대적 여건으로 인해 부활한 서버 가상화와 클라우드와 같은 기술들처럼, 인메모리라는 용어는 빅 데이터의 부상과 DRAM 같이 값싸고 빠른 스토리지 기술의 출현으로 인해 부활한 것일 뿐이다.

오픈소스 프로그래밍 언어 R을 위한, 소프트웨어와 서비스의 상업적 제공자 레볼루션 애널리틱스(Revolution Analytics)의 마케팅 부회장 데이브 스미스는 “인메모리는 오랫동안 있어왔다”라며, “이제 우리는 빅 데이터를 확보했고, 테라바이트 시스템과 거대한 병렬 프로세싱이 인메모리를 더욱 흥미롭게 만들어가고 있다”라고 말했다.

SAP 하나(HANA)와 오라클 엑사리틱스(Exalytics) 등과 같이 빅 데이터와 분석을 한번에 모아놓은 상품들이 출현하고 있다. 또 이제는 아마존 웹 서비스나 SAP 넷위버(NetWeaver) 플랫폼의 클라우드 안에서 지원되는 플랫폼으로 하나(HANA)를 선택할 수도 있다.

그러나 인메모리 데이터베이스 소프트웨어AG 회사 테라코타(Terracotta)의 전무이사 개리 나카무라는, 인메모리 열풍에 편승하고자 기존 제품 스위트에 단순히 기능을 추가한 등장한 제품도 있다고 지적했다.

그는 “제품에 10GB 메모리를 넣었다며 인메모리 솔루션이라고 부르는 이들이 있다. 하지만 그게 그 제품이 감당할 수 있는 최대치인 경우다’”라며, 과연 그것들이 현업의 문제들과 데이터 플로우를 감당해낼 수 있을 정도로 확장이 가능한지가 의문이라고 덧붙였다.

인메모리 기술, 즉각적 분석을 구현
오페라 솔루션(Opera Solutions)의 판매부문 수석 부회장이자 전무이사인 숀 블레빈스는 인메모리 분석에 대해 “데이터뿐 아니라 데이터모델 그 자체를 스테이지할 수 있는 실제 레이어를 가지게 되는 것”이라고 말했다.

비즈니스적 관점에서 볼 때, 이 점이 바로 핵심이다. 인메모리 기술은 빠르게 복잡해지고 있다. 모든 디지털 정보가 어떻게 정렬되는지 이해하고 싶다면, IT 전문가들과 장기간의 기술적 토론을 해야만 할 것이다. 그러나 인메모리가 왜 오늘날 주목 받고 있는지 이해하고 싶다면, 이는 훨씬 간단하다. 인메모리가 현실적으로 비즈니스 통찰을 제공할 수 있기 때문이다.

즉 인메모리 분석 기술은 무엇보다도 생산 시스템에서 수집된 성과 메트릭을 기업이 활용할 수 있게 해주며, 무언가 해볼 수 있는 KPI로 전환시킬 수 있게 해준다.

데이터 컨설팅 회사 뉴밴티지 파트너(NewVantage Partners)의 공동창업자 폴 바스는 “인메모리 분석에서는 분석 과정이 모두 검색에 관련되었다”라며, 이를테면 파란 자동차 소유주와 거주지역간의 상관 관계 등, 얼마나 다양한 조합들을 시도해볼 수 있게 되는 것이라고 말했다.

그 모든 연관 관계에서, 데이터를 끄집어내고, 관계 지어 묶고, 종속물들을 파악하고, 하나의 변수가 다른 것들에 의해 얼마나 강하게 영향을 받는지 보는 데는 어느 정도 시간이 걸리기 마련이다. 무언가 새로운 것을 찾거나 명확성을 얻기 위해 그 테이블을 돌릴 때마다, 데이터가 움직이면서 재조직된다. 지금까지는 그 과정에서 바로 지연 문제가 발생했었다. 그리고 정확히 그 문제를 극복하기 위해 인메모리 분석이 설계됐다.

현재로서는 고빈도, 저연산 분석
빅 데이터 분석의 진정한 관건은 이제 발견(discovery)이다. 데이터 포인트들 사이에 연관성을 보기 위해 반복 실행을 돌리면, 밀리초 정도의 지연이 수백 만 번 (혹은 수십 억 번)의 반복 과정 동안 계속 일어나게 된다. 메모리 안에서의 작업은 디스크에서의 것보다 세자리 수 정도는 더 빠르다. 속도가 비교할 수 없이 빨라지면서 새로운 차원의 작업이 가능해진 것이다.

당신의 사진이 올라오자마자 페이스북이 어떻게 당신을 태그할 수 있는지 궁금했던 적이 있는가? 사진은 큰 파일이고, 페이스북은 사진파일들을 엑사바이트(Exabytes)급으로 보유하고 있다. 페이스북은 모든 사진에 알고리즘을 실행하여 얼굴들을 찾아내고, 그 얼굴들을 몇 가지 데이터 포인트로 축약한다.

레볼루션의 스미스는 이를 통해 40MB의 사진의 정보가 40 바이트로 줄어든다며, 그 줄어든 데이터가 “블랙 박스”로 들어가는데, 여기에서 누구의 얼굴인지 결정하고, 태그하고, 그 사람의 계정은 물론 그 사람과 관계된 모든 계정을 검색하여 관계된 모두에게 메시지를 보낸다고 설명했다.

이것이 빅 데이터가 작동하는 모습이면서, 또한 어떻게 인메모리 분석이 빅 데이터를 작동시키는지 보여주는 한 예다. 현재 대부분의 사람들은 자바의 제약 때문에, 한번에 인메모리 캐시에 100MB이상 넣지 않는다. 타카무라는 메모리에 더 많은 데이터를 넣을수록, 자바 가상화 기기를 더 많이 조율해야 한다며, “빨라지기는커녕 더 느려지는데, 이 문제는 특히 성능이 관건일 경우 문제가 된다”라고 말했다.

지금으로선, 이러한 문제로 인해 인메모리 분석은 고-빈도, 저-연산 숫자 입력에 아주 적합하다. 테라바이트급 데이터로 실시간 분석을 실행할 때에는 양상이 달라질 수 있다. 하지만 이런 경우, 기술이 그 요구사항을 충족시켜야지, 요구사항을 기술에 맞출 순 없다. 현재 이러한 수요와, 데이터는 이미 존재하고 있으며, 기술은 빠르게 발전하고 있다.


※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지



[원문출처 : http://www.ciokorea.com/news/14984]

맨 위로
맨 위로