본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

새기술 속속 등장...진화하는 하둡 생태계

OSS 게시글 작성 시각 2015-07-21 16:25:08 게시글 조회수 3431

2015년 07월 20일 (월)

ⓒ 지디넷코리아, 김우용 기자 yong2@zdnet.co.kr



최근 아파치소프트웨어재단은 아틀라스, 파케이 등의 프로젝트 새 버전 출시를 알렸다. 그리고 하둡 생태계 형성 초기, 클라우드 기반 하둡을 위해 만들어졌던 프로젝트는 공식 은퇴 조치됐다.


17일(현지시간) 미국 지디넷에 따르면, 아파치소프트웨어재단(ASF)은 인큐베이터 프로젝트인 ‘아틀라스(Atlas)’의 0.5 버전을 발표했다. 비슷한 시기 HDFS용 컬럼스토어 파일 포맷인 ‘아파치 파케이(Parquet)’의 새 버전도 공개됐다.


아틀라스는 호튼웍스의 데이터거버넌스이니셔티브(DGI)에서 핵심 프로젝트다. 하둡을 위한 데이터 거버넌스 및 메타데이터 프레임워크로 만들어지고 있다.



새로 공개된 0.5버전은 마이너 수정만 포함한다. 하지만, 호튼웍스가 DGI를 발표한 건 올해 1월말이었다. 반년만에 0.5 버전으로 끌어올린 것에서 나타나듯 엔터프라이즈급 기술을 목표로 빠르게 만들어지고 있다는 점을 알 수 있다.


아틀라스의 기술 설명에 의하면, 아틀라스는 하둡에 대해 엔터프라이즈에서 요구하는 컴플라이언스를 효율적으로 충족키기고, 엔터프라이즈 데이터의 전체 에코시스템을 통합하게 해주는 기술이다.


메타데이터와 마스터데이터관리, 교차스택 보안과 데이터 혈통 등은 지난 2년 사이 매우 민감한 문제로 거론되고 있다. 초기 하둡의 경우 엔터프라이즈 기업이 다루기 어렵다는 이미지가 있었다. 하지만 주류 기술 단계로 막 접어들면서, 클러스터 관리와 성능에 대한 난해함보다 기업 내 기준정보와 보안을 관리하기 까다롭다는 인식을 준다.


아틀라스는 하둡이 엔터프라이즈 미션크리티컬 시장 주류로 깊숙이 편입하기 위해 필요한 기술로 묘사된다. 아틀라스가 데이터 관리를 위해 필요한 기술이라면, 파케이는 하둡의 성능을 끌어오기 위한 주요 기술로 꼽힌다.


파케이는 HDFS의 데이터를 컬럼 기반으로 저장하는 파일 포맷이다. 파케이를 통해 하둡 개별 노드의 처리성능은 물론, 전체 클러스터의 쿼리 성능을 대폭 끌어올릴 수 있다. 하둡의 쿼리 분석 성능을 고가의 DW 수준으로 끌어올리는데 중요한 부분을 차지한다. 클라우데라가 주도해서 개발해왔고, 컬럼 기반 데이터처리 엔진인 클라우데라 임팔라, 아파치 하이브 같은 하둡 DW 기술에 활용되기 위해 만들어졌다.


클라우데라와 함께 트위터가 핵심 기여자이며, 아파치 타조, 드릴, 스파크 등도 지원하는 등 관련업계에서 가장 중요한 표준으로 성장하고 있다. 새로 공개된 건 파케이파일과 함께 작동하는 자바라이브러리 세트인 파케이MR 1.80버전이다. 파케이 파일에 오염을 야기하는 버그들을 수정한 것이다. 프로젝트팀은 제기되는 버그를 빠르게 해결하는 모습을 보이고 있다.


이에 비해 하둡 클러스터를 클라우드 서비스로 활용하도록 해주는 아파치의 오픈소스가 공식적으로 폐기됐다. 이 기술의 이름은 ‘워(Whirr)’다. 하둡은 원래 구축형 소프트웨어로 설계됐기 때문에, 생태계 초기 클라우드 서비스로 만들기 위한 시도가 이어졌다. 비전문가의 하둡 클러스터 관리 복잡성이 IT산업계 전반에서 제기되자, 손쉽게 하둡을 이용하게 하자는 취지로 시작된 것이다.


워는 클라우드 기반 인프라에서 하둡노드 배포를 자동화하고, 클라우드플랫폼 독립적으로 작동하게 하는 API를 제공한다. 2010년 아파치 인큐베이터 프로젝트로 시작해 2011년 톱레벨 프로젝트로 승격됐다. 이후 알티스케일, 큐볼 같은 회사가 서비스형 하둡(Hadoop as a Service)을 제공하고, 주요 하둡 배보판 업체가 아마존웹서비스와 마이크로소프트 애저 등을 위해 별도 버전을 제공하게 되면서 존재의미가 퇴색됐다.


결국 ASF는 최근 워 프로젝트를 종료된 프로젝트(Attic)로 분류했다. 계속 사용할 수 있지만, 기술 개발은 중단한다는 뜻이다. 미국 지디넷의 컬럼니스트 엔듀르 브루스트는 “워가 사용되던 2012년 정도만 해도 데이터 거버넌스와 노드 레벨의 쿼리 성능은 중요하지 않은 문제였다”며 “그러나 하둡과 빅데이터 분석을 원한다면 데이터거버넌스와 쿼리 성능은 중요한 문제가 된다”라고 분석했다.




※ 본 내용은 (주)메가뉴스(http://www.zdnet.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 지디넷코리아. 무단전재 및 재배포 금지


[원문출처 : http://www.zdnet.co.kr/news/news_view.asp?artice_id=20150720122709]

맨 위로
맨 위로