본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

하둡 성능 향상하려면?… 4가지 조건

OSS 게시글 작성 시각 2013-12-16 13:44:58 게시글 조회수 3942

2013년 12월 13일 (금)

ⓒ 지디넷코리아, 미쉘 넴쉬프 맵알 부사장



빅데이터 시대가 열렸다.

IT업계 분석가들에 따르면 내년도 IT분야 주요 트렌드 중 하나는 빅데이터의 실용화이다.한국에서도 이미 유통,제조, 공공 분야에까지 빅데이터를 활용하려는 노력이 활발한 것으로 알고 있다. 기업들은 혁신을 촉진하고 경쟁 우위에 필요한 통찰력을 얻기 위한 혜택을 인지하고 엄청난 양의 정보를 분석하고 있다.

이러한 시점에서 오픈소스 기술인 하둡(Hadoop)은 빅데이터를 다루는 가장 중요한 고-투(go-to) 소프트웨어 솔루션이다.


▲ 미쉘 넴쉬프 맵알 마케팅 담당 부사장
하둡을 도입해서 빅데이터를 분석하고자 하는 기업들이라면 하둡 분야 전문가이자 '바보를 위한 하둡'의 저자인 로버트 D, 슈나이더(Robert D. Schneider)가 '하둡 구매자를 위한 가이드'에서 소개한 내용을 눈여겨봐야 할 것이다.

우분투(Ubuntu)가 제공한 가이드에 따라, 하둡 플랫폼 성능과 확장성을 확보하기 위한 필수 요소 4가지는 다음과 같이 정리할 수 있다.

첫번째는 아키텍처 원리를 따라 성능에 긍정적인 영향을 미칠 수 있는 아키텍처 전제조건을 파악하라는 것이다. 그 중 하나는 C, C++과 같은 시스템 언어에 내장된 주요 구성 요소이다.

자바로 작성된 오픈소스 아파치 하둡 배포에는 예측 불가능성과 불필요한 데이터 수집 지연과 같이 성능을 저하시킬 수 있는 자바(Java)와 관련된 많은 문제들이 존재한다. C, C++은 거의 모든 엔터프라이즈급 소프트웨어에 일관되게 쓰이는 시스템 언어로, 이를 통해 지연 문제를 제거할 수 있다.

소프트웨어 계층이 '유동 계층'으로 비유되면서, 더 많은 소프트웨어 계층 시스템이 있을수록 성능과 안정성을 저해하는 요인이 된다. 소프트웨어 계층을 최소화함으로써 로컬 리눅스 파일 시스템, 자바 가상 머신, H베이스 마스터 및 지역 서버와 같이 별도 레이어를 탐색할 필요를 없게 해줘 하둡 자원을 더 여유롭게 할 수 있다.

그리고 엄청난 양의 정보를 실행하는 하둡은 관리자가 별도 애플리케이션을 수용하기 위해 분리된 인스턴스를 생성하지 않으면 추가로 일을 할 수 없다. 더 나은 성능을 보장하기 위해 모든 빅데이터 애플리케이션을 수행할 수 있는 능력을 갖춘 단일 환경 플랫폼을 추천한다.

아키텍처 전제 조건 중 중요한 마지막 요소는 유명한 퍼블릭 클라우드 플랫폼이 제공하는 탄력성과 확장성을 활용하라는 것이다. 기업 방화벽 내에서 하둡을 실행 하는 것은 옳지 않다.

성능을 최대화하기 위해 하둡 배포판은 아마존 웹 서비스와 구글 컴퓨팅 엔진과 같이 널리 알려진 클라우드 환경에서 실행 해야 한다.

다음은 스트리밍 기록이다. 하둡은 엄청난 양의 정보를 포함한 일을 실행하기 때문에가능한 한 데이터 로딩 및 언로딩이 효율적으로 실행되어야 한다. 특히 기가바이트와 테라바이트에 해당하는 데이터 볼륨에 직면했을 때 복잡하고 번거로운 중간 스트리밍 과정을 피하는 것이 좋다.

하둡 실행을 위한 가장 좋은 방법은 애플리케이션이 클러스터에 직접 접근하는 표준 파일 인터페이스를 노출시키는 것이다. 그러면 애플리케이션 서버들은 정보를 압축하고 임의적으로 읽기와 기록 액세스를 즉시 사용할 수 있는 하둡 클러스터에 바로 기록할 수 있다. 신속함과 스트리밍 데이터에서 실시간 또는 비실시간 정보 분석 등과 같은 성능은 신속한 의사 결정을 위해 중요하다.

세번째는 확장성을 고려해야한다. 빅데이터를 완벽하게 활용하고 싶은 IT 기업들 중 몇몇 기업들은 하드웨어와 불필요한 자원에 돈을 낭비하는 경우도 있다.빅데이터의 장점을 완전히 이해하지 못한 채 기존의 컴퓨팅 자원만으로 해결하려고 노력하는 경우도 있으나, 하둡 플랫폼이 제공하는 유연하고 용이한 확장성을 통해 기업들은 예산을 넘지 않는 범위에서 모든 데이터를 활용할 수 있다.

마지막 필수 요소는 실시간 NoSQL이다. 그 어느 때보다도 많은 기업들이 중요한 비즈니스 운영을 위해 NoSQL 기반의 솔루션에 의존하고 있다. 그러나 대부분의 NoSQL 솔루션들은 응답시간에 따른 변동이 심해 짧은 지연 시간에 의존하는 핵심 사업 운영에는 적합하지 않다.

이를 해결하기 위한 최선의 선택은 하둡에 구축된 NoSQL 솔루션인 아파치 H베이스이다. H베이스는 스토리지, 실시간 분석 및 하둡을 활용한 맵리듀스를 이용할 수 있는 것이 장점이다. H베이스가 성능과 의존성에 제한이 있다 해도 대부분의 온라인 응용 프로그램들 및 분석에 대한 엄격한 요구사항을 충족한다.

지금까지 언급한 하둡 성능과 확장성에 대한 4가지 요소들이 빅데이터를 비즈니스에 활용하고자 하는 기업들이 고려해야 하는 최소한의 기준이다. 이는 오픈소스 하둡이 빅데이터 분석 면에서 소프트웨어 솔루션을 장악하고 있는 확실한 증거이기도 하다.



※ 본 내용은 (주)메가뉴스(http://www.zdnet.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 지디넷코리아. 무단전재 및 재배포 금지


[원문출처 : http://www.zdnet.co.kr/column/column_view.asp?artice_id=20131212164600]

맨 위로
맨 위로