본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

빅데이터 처리 기술 ‘맵리듀스’ 사라지나..

OSS 게시글 작성 시각 2014-08-12 16:03:06 게시글 조회수 3366

2014년 08월 08일 (금)

ⓒ 임베디드월드, 최영재기자


- 구글 개발자 컨퍼런스서 플럼자바, 밀휠 기술 개발 공개
- 하둡도 DAG 기술 기반 병렬처리 엔진 등장



구글이 개발자 컨퍼런스인 ‘Google I/O 2014’에서 빅데이터 처리를 위한 클라우드 서비스인 ‘구글 클라우드 데이터플로우(Google Cloud Dataflow)’를 공개했다. 클라우드 데이터플로우는 '맵리듀스(MapReduce)'의 후속 기술 기반으로 제공되며 일괄 처리와 함께 스트림 처리, 실시간 처리를 수행할 수 있는 것이 특징이다.


구글 I/O 2014에서 기조연설을 맡은 구글의 우르스 수석 부사장은 “구글은 최근 수년간 병렬 파이프라인 처리 기술인 플럼자바(FlumeJava)나 대규모 스트림 처리 기술인 밀휠(MillWheel) 등 새로운 기술을 개발 중에 있다”며 “구글 클라우드 데이터플로우 역시 플럼자바와 밀휠 기반의 기술”이라고 설명했다.


이는 현재 구글이 지난 2004년 논문에서 발표된 기술인 맵리듀스를 현재 내부적으로 사용하고 있지 않는다고 공개한 것이다. 그는 클라우드 데이터플로우의 장점으로 ▲엑사바이트급 데이터 처리 능력 ▲파이프라인 작성의 용이성 ▲일괄 처리와 스트림 처리를 같은 문법으로 기술할 수 있는 것 등을 들었다.



한편 오픈소스 소프트웨어(OSS)인 하둡(Hadoop)도 최근 맵리듀스 이외의 처리 방식을 지원하기 시작했다. 현재 아파치 소프트웨어 제단(ASF)이 하둡의 표준 처리방식에 맵리듀스 이외의 방식을 지원하는 ‘하둡2’를 선보인 이래 하둡에서 사용 가능한 작업 방식은 증가하고 있는 추세다.


특히 일괄처리용으로 개발된 맵리듀스에 비해 SQL 쿠리 및 기계학습 등의 작업을 빠르게 수행할 수 있는 ‘방향성 비순환 그래프(Directed Acyclic Graph, DAG)' 기술 기반의 병렬처리 엔진이 등장하고 있는 점은 눈길을 끈다. 현재 맵리듀스를 대체할 병렬처리 엔진으로 개발 중인 테즈(Tez)나 스파크(Spark) 모두 DAG 기술을 채택하고 있다.


맵리듀스는 SQL 퀴리 등을 포함한 모든 처리를 비교적 큰 단위로 분할해 병렬 실행하는 반면 테즈와 스파크는 SQL 퀴리 등을 기존보다 작은 처리 단위로 분할해 적합한 순서대로 실행한다. 맵리듀스는 Map 처리와 Reduce 처리 프로세스 마다 디스크 쓰기가 발생하지만 테즈와 스파크에서는 인메모리 처리가 가능해 스트림 처리, 반복계산이 많은 기계학습 처리 및 그래프 처리 등의 속도를 높일 수 있는 것이 특징이다.


한편 클라우드데라의 임팔라(Impala)와 맵알의 드릴(Drill), 피보탈의 HAWQ 등 테즈와 스파크를 사용하지 않는 SQL 엔진의 개발도 현재 진행 중에 있어 하둡의 적용 분야는 앞으로 더욱 확산될 전망이다.



※ 본 내용은 (주)테크월드(http://www.embeddedworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ Techworld, Inc. 무단전재 및 재배포 금지


[원문출처 : http://www.embeddedworld.co.kr/atl/view.asp?a_id=8011]

맨 위로
맨 위로