본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

2021.09.14.
ⓒCIO Korea / 캐스버 왕 | IDG Connect

 

기업들이 방대한 양의 데이터를 수집하고 있다. 이를 제대로 활용하기 위해서는 수십, 수천 개의 서로 다른 데이터 소스와 여러 다른 데이터 형식으로부터 통찰을 추출해낼 수 있어야 한다. 이러한 가운데 오픈 데이터 생태계와 관련된 빅데이터 기술이 눈길을 끌고 있다. 오픈 데이터 생태계가 부상하는 이유가 뭘까? 그리고 이 기술 트렌드가 기업의 미래 경쟁력으로 어떻게 이어질 수 있을까?

수준 높은 애널리틱스와 AI 이니셔티브를 추진함으로써 대량의 데이터를 분석해 우수한 고객 통찰을 도출하고 가치 있는 질문들을 해결할 수 있기를 수많은 기업들이 바라고 있다. 이러나 이러한 결과를 실현하려면 기업은 우선 구조적 및 비구조적이고, 다양한 형식인 이질적 데이터 출처와 씨름하면서 통찰을 도출해야 한다. 그리고 이는 간단한 일이 아니다. 

지난 20년 동안 여러 기술이 이 문제를 해결할 수 있다고 약속했고 실패했다. 대표적인 것이 2000년대 중반의 하둡(Hadoop)이다. 

하둡 이전의 유일한 선택지는 거대한 리소스를 가진 온-프레미스 데이터베이스였다. 이는 데이터를 신중하게 모델링하고, 스토리지를 관리하고, 가치를 평가하고, 이들을 연결하는 방법을 파악하는 일을 요구했다. 

이와 달리 하둡은 데이터 레이크, 오픈 데이터 표준, 모듈식 첨단 소프트웨어 스택, 그리고 고객을 위해 가치를 견인하는 경쟁적인 데이터 관리 벤더로 이루어진 오픈 데이터 생태계를 주창했다. 

하둡 운동과 아파치 유형의 프로젝트는 오픈 데이터 생태계라는 발상을 진전시켰지만 아래의 3가지 이유 때문에 궁극적으로 실패했다. 

• 하드웨어를 구입하고 확장하고 관리하는 비용이 지나치게 비쌈
• 애플리케이션과 데이터 레이크 간의 공통 데이터 포맷의 결여로 인한 데이터 관리 및 이용의 난해함 
• 데이터 관리에 이용할 수 있는 툴 및 스킬의 부족 

하둡의 성과는 실망스러웠지만 그럼에도 불구하고 오픈 데이터는 다시 부상하고 있다. 그리고 이번에는 새로운 오픈 데이터 생태계 기술이 하둡의 단점을 해소하며 기업 내의 모든 데이터 범위를 아우르고 있다. 

그렇다면 왜 지금 이런 일이 일어나는가? 4가지 핵심적인 기술 동향이 오픈 데이터 생태계의 부활을 이끌고 있기 때문이다. 

1. 클라우드 스토리지의 성장 
클라우드 데이터 스토리지, 다시 말해 아마존 S3, 애저 데이터 레이크 스토리지(ADLS), 구글 클라우드 스토리지(GCS)의 급속한 성장은 구조적 및 비구조적 데이터 레이크를 대량으로 수용할 수 있음을 의미한다. 

1세대 시스템은 온프레미스 연산 및 스토리지 시스템을 구축하는 데 큰 자본을 요구했다. 유지 관리가 값비쌌고 확장하는 데에는 훨씬 더 많은 비용이 들었다. 

그러나 클라우드 스토리지는 데이터 스토리지 문제로부터 값비싼 온프레미스 하드웨어를 제거했다. 대신 리소스 기준 과금이 도입되면서 기업들은 사용한 스토리지에 대해서만 비용을 지불하면 된다. 그리고 가격이 하락하면서 클라우드 스토리지 서비스는 데이터의 기본 정착지가 되었다. 범용적인 기록 시스템(System of Record, SoR)이 되는 것이다.

오늘날의 기업에게 클라우드의 예측 가능한 성능 및 유연성은 가속 쿼리 이행 등의 데이터 역량을 현실화하고, 복제를 회피하고, 데이터 레이크의 감독 및 관리를 개선하는 데 있어서 핵심적이다. 

2. 대세화된 오픈소스 데이터 포맷 
프로그래밍 언어 및 구현물 전반을 아우르는 데이터 호환성을 위해 오픈 데이터 포맷을 채택하는 기업이 많아지고 있다. 

오픈 스토리지 데이터 포맷, 예를 들어 아파치 파케이(Apache Parquet: 컬럼 지향 데이터 스토리지), 아파치 애로우(Apache Arrow: 애널리틱스, 인공지능, 머신러닝을 위한 메모리 포맷), 아파치 아이스버그(Apache Iceberg: 표 포맷/트랜잭션 레이어) 등은 현재 및 미래의 모든 툴에서 데이터를 이용할 수 있음을 의미하고, 비호환성으로 인한 벤더 속박을 해소한다. 

기업들은 즉시 이용할 수 있는 오픈 포맷으로 데이터를 대량으로 저장할 수 있고, 이와 연관된 비즈니스 애널리틱스와 AI 워크로드를 직접 실행할 수 있다. 데이터 변환을 요하는 길고도 값비싼 소프트웨어 구현이 필요하지 않다. 

이는 오늘날의 기업에게 특히 매력적이다. 왜냐하면 API ‘플러그 앤 플레이’ 데이터 분석 및 AI 툴, 예를 들어 H20, 데이터로봇(DataRobot) 등은 구현하고 결과를 보는 것이 빠르고 쉽기 때문이다. 

3. 클라우드 네이티브 벤더 지원의 성장 
2000년대 중반 하둡은 데이터 스키마, 소비, 및 관리에 구애받지 않고 데이터를 레이크에 무차별적으로 투척할 수 있게 해주었다. 

기업들은 아키텍처 설계, 액세스, 애널리틱스, 지속가능성을 고려하지 않은 채 더 많은 데이터를 수집하는 데에만 열중했다. 이들은 데이터 레이크 안에 무엇이 있는지 알지 못했고, 이들을 관리하거나 가치를 추출하는 법도 알지 못했다. 이런 문제를 해결할 툴이 나오지 않은 상황에서 데이터 레이크는 데이터 늪으로 변했다. 

그러나 오늘날 특정한 데이터 관리 문제를 처리하는 데 도움을 주는 벤더와 툴이 수없이 생겨났다. 데이터 관리 분야는 급속히 성장 중이고, 데이터 스트리밍, 변환, 가시성, 품질, 거버넌스, 최종 이용자의 소비에 걸쳐 솔루션이 속속 가세하고 있다. 

드레미오(Dremio), 트리노(Trino) 같은 회사는 클라우드 데이터 레이크에서 SQL 쿼리를 직접 운영한다. 세그먼트(Segment), 마틸리온(Matillion) 등의 회사가 가진 기술은 데이터를 흡수해 오픈 포맷으로 작성한다. 그리고 에어플로우(Airflow), 퍼펙트(Perfect), 대그스터(Dagster) 등의 플랫폼은 데이터 오케스트레이션을 취급한다. 이들 벤더들이 경쟁하면서 오픈 데이터 생태계에서의 운영은 갈수록 쉬워지고 있다.
(후략)

 

[원문 기사 : https://www.ciokorea.com/news/207757 ]

 

※ 본 내용은 한국아이디지(주) (https://www.idg.co.kr/)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 2020 International Data Group. 무단전재 및 재배포 금지. 

맨 위로
맨 위로