본문 바로가기

[1월 월간 브리핑] 하둡을 잇는 오픈소스 분석 시장 신흥 강자 기술들

support 게시글 작성 시각 2023-01-20 16:55:57 게시글 조회수 3200
 
[1월 월간 브리핑] 하둡을 잇는 오픈소스 분석 시장 신흥 강자 기술들
 
- Open UP -

 

1. 빅데이터는  업계 10년 전부터 ‘하둡’ 을 포함한 오픈소스 분석 기술을  중심으로  탄탄한  오픈소스 생태계 보유

- 빅데이터 오픈소스 생태계는 더욱 확산해 프레임워크, 시각화, 엔진, 검색, 오케스트레이션

  등으로 세분화되고 있으며, 2030년까지 오픈소스 기반 데이터 분석 시장 성장률은 28%로 기대

 

2. 최근 스트리밍 데이터 분석과 데이터 레이크 분야에서 오픈소스 기술이 확산

  1. 대표적으로 아파치 플링크, 아파치 삼자, 아파치 빔, 델타 레이크, 아파치 아이스버그 수요 증가

 

□ 빅데이터 분석 시장은 전통적으로 엔터프라이즈 기업이 시장을 선도했지만 10년 전부터 기업용 오픈소스 및 커뮤니티 기반 오픈소스 기술의 영향력도 증가

 

- 시장 조사업체 커스텀 마켓 인사이트(Custom Market Insights)에 따르면, 오픈소스 기반 데이터 분석 시장 규모는 2021년 기준 5천만 달러로 2030년까지 성장률은 28%로 전망했으며 공공과 금융에서 특히 수요가 높다고 평가

오픈소스 기반 분석 시장 산업 규모
출처:커스텀 마켓 인사이트

 

- 오픈소스 기술은 세부적으로 프레임워크, 검색, 시각화, 보안 등 다양하게 존재하지만, 그중 빅데이터 처리 기술이 가장 대중화되고 각광받음

 

- 빅데이터 처리 및 분석 시장을 대표하는 오픈소스 기술은 과거에는 하둡이었지만, 오래된 역사를 가진만큼 하둡의 문제점을 보완하는 새로운 오픈소스 기술도 다수 등장해 시장 성장을 촉진 

 

 

  • 데이터 분야 오픈소스 기술들
    출처: 퍼스트마크 벤처캐피털 자료

  •  

- 아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)은 대량 데이터를 분산 처리하는 자바 기반의 오픈소스 프레임워크로 2006년 처음 출시 후 기업용 오프소스 기술을 제공하던 클라우데라, 호튼웍스, 맵알이 하둡 시장을 확대를 주도
* 최근 클라우드 시대로 접어들고 기존 하둡 기업들이 영향력이 감소하면서 하둡 대체 기술에 대한 관심이 집중되고 있으며, 대표적으로 스트리밍 분석 기술과 데이터 레이크 기술 도입도 업계에서 증가

 

- 스트리밍 분석은 실시간 데이터를 빠르게 처리할 때 활용되며, 아마존 키네시스(Amazon Kinesis) 같은 상용 기술도 있지만, 아파치 플링크(Apache Flink), 아파치 삼자(Samza), 아파치 빔(Apache Beam) 같은 오픈소스 기술의 활용도도 높아짐

 

- 아파치 플링크는 데이터 스트림 관련 상태 저장 계산을 위한 프레임워크 및 분산 처리 엔진이며, 모든 공통 클러스터 환경에서 실행되도록 설계되고, 메모리 내 속도와 규모에 관계없이 계산 수행
* 아파치 플링크 기술 자체는 2011년에 등장했으며, 우버, 알리바바 등 글로벌 기업이 도입한 후 급격히 활용 사례가 증가되고 있으며, 지연 발생이 적고 처리량은 높으며 비교적 사용하기 쉬운 이점이 있다고 평가받음

 
  • 아파치 플링크 기술 구조
    출처: https://flink.apache.org/


  •  

- 아파치 삼자는 2013년 링크드인이 만들어 공개한 오픈소스 기술로 아파치 카프카 개발 중에 아이디어를 얻어 탄생했으며, 카프카를 포함한 여러 소스로부터 실시간으로 데이터를 처리하는 상태 저장 응용 프로그램을 구축할 때 사용

* 아파치 하둡이나 아파치 스파크와 같은 배치 시스템과는 달리, 지속적인 계산과 출력을 제공하여 1초 미만의 응답 시간을 제공하는 것이 특징 

 

- 아파치 빔은 구글에서 만들어 2016년에 공개된 기술로 ETL, 일괄 처리 및 스트림 처리를 포함한 데이터 처리 파이프라인을 정의하고 실행하는 오픈소스 통합 프로그래밍 모델

* 특히 데이터 세트 샤딩 및 기타 작업과 같은 분산 처리의 낮은 수준 세부 정보로부터 격리하는 유용한 추상화를 제공하며, 러너(Runner-아파치 스파크, 플링크, 삼자, 구글 클라우드 데이터플로우 등)라고 불리는 타 기술을 쉽게 연동해 사용할 수 있음

 

□ 하둡이 이끄는 분야가 데이터 웨어하우스(Data Warehouse)라면 최근 이와 구별되는 데이터 레이크(Data Lake) 기술이 급성장하고 있으며, 해당 분야 오픈소스로는 델타 레이크(Delta Lake), 아파치 아이스버그, 카이로 등이 포함    

 

- 데이터 웨어하우스는 미리 분류한 체계에 따라 데이터를 저장하는 것에 반해 데이터 레이크는 분류나 분석을 사전에 진행하지 않고, 마치 호수에 물을 저장하듯 데이터를 다양한 곳에서 모아 저장하고 나중에 분석할 때마다 꺼내 쓰는 구조를 추구  


- 델타레이크는 데이터 및 AI 기업 데이터브릭스가 만든 기술이며, 데이터브릭스는 근래 나온 오픈소스 기업 중에 기업 가치 평가액이 가장 높은 곳 
* 데이터브릭스의 핵심 인력은 UC버클리대 교수 및 연구원들이 주를 이루며, 당시 데이터 분석 오픈소스  기술인 아파치 스파크를 만들다가 2013년 데이터브릭스를 창업했으며, 현재까지 35억 달러가 넘는

투자금을 유치하는 데 성공하고,이후  데이터 레이크에 개념을 대중화하며 관련 오픈소스 인프라 ‘델타 레이크’를 제공 


* 데이터 브릭스의 경쟁 기업 중 하나인 스노우플레이크(Snowflake)는 비슷한 오픈소스 기술 아파치 아이스버그(Apache Iceberg)를 적극 서비스 내 통합하며, 데이터 레이크 시장 내 오픈소스 입지를 구축하고 있으며, 스타버스트(Starburst)와 드리미오(Dremio) 같은 타 오픈소스 기술 기반 스타트업도 적극적으로 기업용 아파치 아이스버그를 개발해 관련 생태계가 확장 중 


* 한때 스노우플레이크는 데이터브릭스의 델타 레이크가 실제 기술을 세부적으로 공개하지 않아 오픈소스 기술이 아니라 오픈 코드에 가깝다며 비판했으며, 클라우데라, 드리미오, 구글, 마이크로소프트, 오라클, SAP, AWS, HPE 같은 경쟁사도 비판에 동참해 논란이 발생, 이후 델타 레이크는 현재 API로 공개하면서 기술의 개방성을 강화하는 조치를 취함


- 카이로는 2017년 테라데이터에서 개발한 오픈소스 데이터 레이크 기술이나 후발주자로 데이터브릭스만큼의 성과는 나오지 않은 상태

 
  • 카이로 구조
    출처 https://kylo.io/

  •  

□ 시사점

 

- 데이터 분석 시장은 기술 트렌드에 발전함에 따라 기업 및 커뮤니티 구분 없이 다수의 오픈소스 프로젝트가 등장, 이에 따라 견고한 오픈소스 기술 생태계를 보유하여 데이터 모델 및 데이터 흐름, 프로세스를 시각적으로 설명할 수 있는 방법도 늘어날 것으로 예측


- 오픈소스 데이터 분석 업계는 수십 개의 기술이 경쟁하고 있으며 이에 교육과 레퍼런스 사례가 함께 지원되어야 기술 성숙도가 높아지고 프로덕션 수준에서 기술이 활발히 도입될 수 있을 것으로 전망

 


※ 출처


1) https://www.globenewswire.com/en/news-release/2022/09/13/2515324/0/en/Global-Open-Source-Intelligence-OSINT-Market-Size-Worth-36-241-24-Billion-by-2030-at-a-28-33-CAGR-Custom-Market-Insights-Share-Report-Outlook-Growth-Trends-Segmentation.html
2) https://mattturck.com/wp-content/uploads/2020/09/2020-Data-and-AI-Landscape-Matt-Turck-at-FirstMark-v1.pdf
3) https://www.samsungsds.com/kr/insights/flink.html

.
.
2023
공개SW 가이드/보고서 - 번호, 제목, 작성자, 조회수, 작성
번호 제목 작성자 조회수 작성
공지 [2024년] 오픈소스SW 라이선스 가이드 개정판 발간 file support 4425 2024-01-03
공지 [2024년] 기업 오픈소스SW 거버넌스 가이드 개정판 발간 file support 3571 2024-01-03
공지 [2024년] 공공 오픈소스SW 거버넌스 가이드 개정판 발간 file support 3555 2024-01-03
공지 공개 소프트웨어 연구개발(R&D) 실무 가이드라인 배포 file support 15996 2022-07-28
공지 공개소프트웨어 연구개발 수행 가이드라인 file OSS 15858 2018-04-26
448 [3월 월간브리핑] 3D 프린팅의 흐름을 바꾼 오픈소스 프로젝트 support 5226 2023-03-27
447 [기획] OpenAI-ChatGPT의 오픈소스 대안 support 7500 2023-02-20
446 [기획기사] 최근 자연어 처리 (NLP) 오픈소스 기술 현황 support 6933 2023-02-20
445 [2월 월간 브리핑] 한국어 자연어 처리(NLP) 오픈소스 프로젝트 support 10201 2023-02-20
444 [기획기사] 실시간 데이터 처리 분석 붐 중심에 선 오픈소스 support 2821 2023-01-20
443 [1월 월간 브리핑] 하둡을 잇는 오픈소스 분석 시장 신흥 강자 기술들 support 3200 2023-01-20
442 [기획] 오픈소스 데이터 시각화 도구 TOP 4 support 8142 2023-01-20
441 [12월 월간브리핑]자율주행 개발을 위한 오픈소스 모형차 플랫폼 현황 support 2114 2022-12-26
440 [기획] 자율주행 오픈소스 데이터셋 TOP 5 소개 support 8535 2022-12-26
439 [기획기사]자율주행기술을 주도하는 오픈소스 프로젝트와 기술 support 1834 2022-12-26
맨 위로
맨 위로