본문 바로가기

[정보통신산업진흥원] 빅데이터의 핵심 플랫폼, 기업용 하둡 동향

OSS 게시글 작성 시각 2013-02-19 15:47:58 게시글 조회수 2660

[IT 기획시리즈 ]

펜타시스템테크놀러지(주) 고등기술연구소 소장

김동한 picollo@penta.co.kr


빅데이터가 언급될 때 자연스럽게 빠지지 않고 같이 등장하는 기술이 하둡(Hadoop)이다. 하둡은 클라우드 컴퓨팅과 빅데이터가 IT 업계의 핵심 화두로 떠오르면서, 가장 ‘핫’한 오픈 소스 기술 중 하나로 자리매김하고 있다. 이에 본 고에서 현재 통용되는 있는 빅데이터의 정의 및 관련 시장 동향, 빅데이터 구현을 위한 핵심 데이터 처리 플랫폼으로 떠오른 하둡의 개념 및 주목 받게 된 배경을 살펴보고, 실제 일부 기업 환경에 적용되어 사용되고 있거나 기업들이 관심을 가지고 도입을 고려하고 있는 대표적인 하둡 상용 버전들에 대해 살펴보고자 한다. 마지막으로는 하둡 관련 이슈 사항과 향후 전망을 정리하는 것으로 마무리 하고자 한다.

[출처 : 정보통신산업진흥원]



[내용 요약]


□ 빅데이터 트렌드


가. 빅데이터의 정의

빅데이터를 바라보는 관점과 해석은 다양하지만, 일반적인 개념 요소로는 정보의 집적(데이터의 양을 고도화), 정보의 결합(다양한 형태의 데이터 연결), 정보의 분석(원래 데이터 이상의 가치 창출)이라 요약하여 정의함


[기관별 빅데이터의 정의]

기관 빅데이터 정의 시사점
McKinsey
(2011)
일반적인 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 데이터 규모에 초점(정량적 측면 강조)
IDC
(2011)
다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 데이터 규모가 아닌 업무 수행에 초점,
특징으로 3V(Variety, Velocity, Volume) 또는 4V(3V+Value)
Wikipedia 기존 데이터베이스 관리도구의 체디터 수집·저장·관리·분석의 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술 데이터 규모 및 업무 수행의 관점에서 통합된 정의
Gartner 기존 3V(Variety, Velocity, Volume)에 복잡성(Complexity) 추가 구조화되지 않은 데이터, 데이터 저장방식 차이, 중복성 문제 등 데이터 관리 및 처리 복잡성 심화로 복잡성을 특성으로 추가
IBM 기존 3V(Variety, Velocity, Volume)에 데이터의 진실성(Veracity) 추가 진실성이 확보된 데이터를 바탕으로 분석해야 한다는 데이터 품질 측면의 특성 추가
최근 동향 수많은 정형 데이터 혹은 비정형 데이터를 수집하면, 분명한 패턴이 나오게 되며, 이를 통해 수집된 데이터를 기반으로 한 예측 분석 매출 증가, 비용 절감, 고객만족 증대라는 비즈니스의 가치를 창출할 수 있는 패턴 발견에 집중


나. 빅데이터 시장 동향

- 가트너 : 2012년 280억 달러(약 31조 원) 추정, 2013년 340억 달러(약 37조 6000억 원)로 60억 달러가 늘어날 것으로 전망

- IDC : 2010년 32억 달러에서 연평균 39.4% 성장, 2015년에는 169 억 달러 규모 전망(향후 5년간 연평균 46.8% 고 성장세 전망)

- 위키본 : 2011년 52억 달러 추산, 2013년 102억 달러, 2017년 530억 달러 규모로 성장 전망


[빅데이터 업계 지도]


[국내 빅데이터 시장 플레이어]

구분 시장 접근 대표 기업 동향
기존 데이터 분석 시장을 중심으로 한 솔루션 벤더 기존 시장을 보호하기 위해 포장, 데이터 분석 쪽에 초점을 맞춤 IBM, EMC, SAP, Oracle, 테라데이터, SAS, HP 등 BI, 데이터 웨어하우스(DW), 데이터베이스 벤더들이 기존의 강점과 전문성을 빅데이터 영역으로 확장, 새로운 서비스와 솔루션 개발
오픈소스를 중심으로 한 기술 중심 업체 오픈소스 기술을 중심으로 데이터 플랫폼 구현, 빅데이터 수집/저장/분석/표현의 전체 처리과정을 통합적으로 처리할 수 있는 빅데이터 플랫폼 구축 및 토털 솔루션 서비스 제공 KT Cloudware(구 NexR), 그루터, 클라우다인 등 국내 빅데이터 관련 실적의 대부분을 수행, 대외적인 움직임은 두드러지지 않으나 주요 산업군에 POC 및 레퍼런스 확보에 주력
IT 서비스 업체 기존에 소위 '솔루션'으로 구현됐던 시스템을 하둡 기반으로 마이그레이션, 특정 서비스를 구현하기 위해 기술 개발 삼성SDS(하둡 활용, 바이오인포메틱스 플랫폼 구축),
LG CNS('스마트 빅데이터 플랫폼(SBP)' : 하둡 표준 배포판 '빅팩(BigPack)' 포함),
SK C&C(비즈니스 분석 솔루션 사업) 등
업체 특성상 기술 내재화보다 외주 용역을 중심으로 움직임.
사업성을 중심으로 움직일 것으로 예상



기업용 하둡 동향


가. 하둡의 이해

하둡은 빅데이터 구성 요소 중 정보의 집적 부분에 대응되는 기술로 대용량 데이터 처리 분석을 위한 대규모 분산 컴퓨팅 지원 프레임워크


[하둡 프로젝트 구성]



나. 하둡 상용버전 동향


[글로벌 SW벤더 하둡 상용 버전]

기업 제품명
(하둡 상용 버전)
특징 비고
IBM Infosphere BigInsight
(자체 하둡, CDH)
자체 하둡 에디션 공급(베이직, 엔터프라이즈 에디션)
-
베이직 에디션: 하둡, 하이브, 마훗, 우지, 주키퍼, 휴와 다른 오픈소스 도구 포함, IBM 인스톨러 베이직 버전과 데이터 액세스 도구 제공
-
엔터프라이즈 에디션: 정교한 작업관리 도구, 주요 데이터 소스와 통합되는 데이터 액세스 계층, 클러스터에서 데이터 조작을 위한 스프레드시트 같은 빅시트(BigSheets) 추가
데이터 분석 패키지로 하둡 통합,
완전한 Hadoop 어플라이언스로는 부족, 비주얼 Map Reduce 모델링 도구 제공하지 않음, 자사 CEP 기술을 Hadoop 포트폴리오에 완전히 통합하지 않은 상태,
클라우데라와 파트너십 체결
(CDH; Coudera's Distribution Including Apache Hadoop)
Oracle Oracle Big Data Appliance(CDH) 자체 어플라이언스에 통계 패키지 R, Oracle Enterprise Linux5.6 운영체제 및 CDH 포함 클라우데라와 협력, 어플라이언스에 CDH 탑재
EMC Greenplum
(Greenplum HD,
GreenPlume MR)
정형 데이터 분석을 위한 DB 모듈과 비정형 데이터 분석을 위한 하둡 모듈을 어플라이언스로 지원(Apache Hadoop, MapR R5) MapR과 제휴(OEM),
Greenplum MR(MapR M5, SW-only 제품)
SAP SAP HANA
(자체 하둡 없음)
자체 하둡 버전 없으며 하둡 상용 버전 공급사 제휴 예상 SAP Integrator를 통해 Hadoop 연계 지원
Teradata Teradata Aster Big Analytics Appliance
(HDP + Aster Data)
애스터(맵리듀스와 SQL을 결합한 분석 플랫폼)와 호튼웍스와 협력을 통해 애스터 SQL-H를 개발, 어플라이언스에 통합 자사 데이터 처리 방식에 하둡 기술을 담음, 호튼웍스와 협력

 


[외국 전문 벤터 하둡 사용 버전]

기업명 하둡 상용 버전 특징 비고
클라우데라
(Cloudera)
CDH,
Cloudera Manager
CDH: 하둡, 하이브, 마춧, 우지, 피그, 주키퍼, 휴와 다른 오픈소스 도구 포함, 고유 제품 포함하지 않음
클라우데라 매니저: CDH 환경 관리 도구(CDH 배포 및 모니터링을 지원, 무료와 엔터프라이즈 버전)
-
프리 에디션: CDH 포함, 최대 50개 노드 클러스터 지원, 하둡 인프라 서비스 및 설정 관리 외 부가 기능 제한
-
엔터프라이즈 에디션: CDH 포함, 무제한의 노드 클러스터 지원, 능동적 모니터, 추가 데이터 분석 도구 결합
하둡 기본 소프트웨어는 무료, 클라우데라 매니저 엔터프라이즈 에디션에 대한 라이선스료(서브스크립션 방식)와 지원을 판매, Hadoop 모델링 도구 제공하지 않으며 실시간/대기 시간을 단축하는 데이터 통합도 제공하지 않음
호튼웍스
(Hortonworks)
호튼웍스 데이터
플랫폼
(HDP)
하둡, 하이브, 마춧, 우지, 피그, 주키퍼, 휴와 다른 오픈소스 도구 포함, 업체 고유 제품 포함하지 않음, 모든 소프트웨어 무료 제공, 교육과 지원 프로그램 통해 수익 Hadoop 모델링/개발 도구, Hadoop 비즈니스 애플리케이션 또는 MapReduce 모델 라이브러리 제공하지 않음, Hadoop 데이터베이스 옵션과 함께 작동하지 않음
맵알 테크놀로지스
(MapR Technologies)
M3,
M5,
M7
하둡, 하이브, 마훗, 우지, 주키퍼, 휴와 다른 오픈소스 도구 포함
-
M3: 무료 버전, NFS access, 통합 관리 UI, 향상된 확장성 등 제공
-
M5: 유료버전(서브스크립션), no single points of failure, mirroring, snapshots, NFS HA, data placement control 등의 기능 제공
-
M7: HBase 개선, 속도, 확장성과 안정성 향상
ODBC 지원하는 자사 기술이 가장 개방적인 하둡 배포판이라 주장, 기본적으로 HDFS를 탑재하지 않음, HDFS API 지원, 다양한 EDW와 통합, 탄탄한 하둡 모델링 도구와 파트너십과 OEM 파트너 보유

 


[국내 전문 벤터 하둡 상용 버전]

기업명 하둡 상용 버전 특징 비고
KT Cloudware
(구 넥스알)
HDAP,
RHive
NDAP(NexR Data Analytics Platform): 빅데이터 분석을 위한 모든 작업(수집/저장/분석/검색/관리 등) 및 실시간 데이터 질의를 처리할 수 있는 소프트웨어 플랫폼(All-In-One 솔루션)
RHive: 빅데이터 분석 플랫폼, 가장 대중적인 분석 도구인 R과 검증된 대용량 분산 DW 시스템인 Hive를 결합, 군집 분석/회귀 분석/기계 학습/이상 징후 예측 분석/시계열 분석 등의 고급 분석 가능
낮은 TCO와 손쉬운 확장, 빠른 분석 성능 등이 장점, 국내 실제 적용 사례 보유.
빅데이터 플랫폼 구축 및 컨설팅 서비스 제공
그루터
(Gruter)
Qoobah,
Cloumon
쿠바: 자체 하둡, 수집, 실시간 분석, 저장, 배치에 이르는 덷이터 처리 과정을 관리하는 소프트웨어 스택 솔루션(HDFS, Hive, HBase, 카산드라를 활용해 PB 이상의 원본 데이터와 수백억 건 이상의 실시간 트랜잭션 처리)
클라우몬: 데이터를 손쉽게 관리, 하둡 생태계를 이루는 각 개별 요소에 대한 모니터링 기능 뿐만 아니라 하둡의 파일/작업관리, 주키퍼의 노드 고나리, 플럼의 데이터 플로우 관리, 하이브 쿼리 워크벤치 등과 같은 관리 기능을 제공하는 플랫폼(하둡과 하둡 에코 시스템 관리도구, 쿠바와 연동)
빅데이터 플랫폼 구축 및 컨설팅 서비스, 빅데이터 분석 및 데이터 제공 서비스, 빅데이터 분석 플랫폼 제공 서비스 구축)
클라우다인
(Cloudine)
플라밍고 하둡 매니저
(Flamingo Hadoop Manager)
빅데이터 처리와 분석을 위한 웹 관리 도구로 누구나 빅데이터 기술을 활용해 데이터를 가공할 수 있는 개발·운영 환경을 제공 커뮤니티 버전과 커머셜 버전 제공,
Hadoop 관련 다양한 오픈소스를 지원하는 Ajax Rich Web Interface + Workflow Engine + Data Source Engine을 조합


공개SW 가이드/보고서 - 번호, 제목, 작성자, 조회수, 작성
번호 제목 작성자 조회수 작성
공지 [2024년] 오픈소스SW 라이선스 가이드 개정판 발간 file support 4920 2024-01-03
공지 [2024년] 기업 오픈소스SW 거버넌스 가이드 개정판 발간 file support 4003 2024-01-03
공지 [2024년] 공공 오픈소스SW 거버넌스 가이드 개정판 발간 file support 4003 2024-01-03
공지 공개 소프트웨어 연구개발(R&D) 실무 가이드라인 배포 file support 16435 2022-07-28
공지 공개소프트웨어 연구개발 수행 가이드라인 file OSS 16215 2018-04-26
141 [한-주요국간 FTA가 공개SW에 미치는 영향력 분석 연구] FTA와 공개SW 분석(2) OSS 1369 2013-04-11
140 [한-주요국간 FTA가 공개SW에 미치는 영향력 분석 연구] FTA와 공개SW 분석(1) OSS 1522 2013-04-09
139 [한-주요국간 FTA가 공개SW에 미치는 영향력 분석 연구] FTA 이전의 소프트웨어 분쟁 OSS 1680 2013-04-04
138 [공개SW 백서] 한 눈에 보는 2012 공개소프트웨어산업 통계 (임베디드) OSS 1307 2013-04-04
137 [공개SW 백서] 한 눈에 보는 2012 공개소프트웨어산업 통계 OSS 1629 2013-04-03
136 [정보통신산업진흥원] 공개소프트웨어 백서 (Open Source Software white Paper korea 2012) file OSS 1685 2013-04-02
135 [한-주요국간 FTA가 공개SW에 미치는 영향력 분석 연구] 소프트웨어의 국제적 보호 OSS 1447 2013-03-26
134 [정보통신산업진흥원] 공개소프트웨어/상용소프트웨어 총소유비용 비교 연구 file OSS 1537 2013-03-08
133 [한-주요국간 FTA가 공개SW에 미치는 영향력 분석 연구] 우리나라의 FTA 체결현황 OSS 1895 2013-03-06
132 [정보통신산업진흥원] 빅데이터의 핵심 플랫폼, 기업용 하둡 동향 file OSS 2660 2013-02-19
맨 위로
맨 위로