2018년 08월 24일      

ⓒ CIO Korea, Matt Asay | InfoWorld

 

여기 한 기업이 있다. 100마일 이상 떨어진 3개 데이터센터를 넘나들며 애널리틱스와 워크로드를 실행하는 클라우드 인프라스트럭처가 필요하다. 더구나 매일 100페타바이트 이상의 데이터가 밀려들고 있다. 이 기업에 있어, 전통적 대형 IT 업체로부터 제품을 구매하는 것은 비용과 성능 측면에서 신뢰할 수 있는 대안이 아니다. 오늘날 이 정도의 요건을 만족하는 대안은 하나뿐이다. 바로 오픈소스다.
 

Credit: Getty Images Bank



이 기업은 가상이 아니다. 중국의 우버라 불리는 디디추싱(Didi Chuxing)의 실제 상황이다. 디디의 빅데이터 담당 기술 이사인 리 루오는 "이 정도 규모로 데이터센터를 운영하는 기업의 문제를 완벽하게 해결하는 상용 소프트웨어는 없다. 더구나 우리는 소스코드에 접근해 업데이트하고 시장의 변화에 대응하기 위해 빈번하게 소스를 수정해야 한다. 이런 요건이라면 오픈소스가 '옳은 선택'이다"라고 말했다. 그러나 이는 '겸손한' 표현이다. 실제로는 오픈소스가 '유일한' 대안이다.

5년전 클라우데라(Cloudera)의 공동 창업자인 마이크 올슨은 "지난 10년간 상용 소프트웨어 영역에서 지배적인 플랫폼 수준의 소프트웨어 인프라스트럭처는 전혀 개발되지 못했다"라고 말했다. 그의 발언은 웹 스케일에서의 운영 현실을 지적한 것이다. 즉, 상용 하드웨어와 소프트웨어 시스템은 이를 확장하는 데 드는 (기술적 비용이 아니라) 재무적 비용이 너무 비싸다는 것이다. 그래서 구글과 페이스북 같은 기업은 오픈소스 커뮤니티에 자사의 개발 성과를 공유하며 혁신을 가속하고, 데이터 인프라스트럭처 부문에서 상용 업체의 역량을 뛰어 넘었다. 디디가 오라클 같은 대형 업체의 제품을 추가로 구매해 확장하지 않은 이유도 이와 같다.

돈으로 살 수 없는 확장성
차량 공유 시장을 둘러싼 전 세계 경쟁이 점점 치열해지는 가운데, 사람들은 보통 가장 먼저 우버를 떠올릴 것이다. 그러나 디디의 기업 가치는 560억 달러에 달한다. 유치한 투자 규모도 현재까지 200억 달러로, 우버의 20억 달러를 훌쩍 넘어선다. 디디의 사용자는 5억 명 이상이며, 전 세계 1000개 이상 도시에서 서비스를 제공한다. 전 세계 인구의 80%가 디디를 이용할 수 있는 지역에 거주한다. 디디의 사업과 IT 인프라 규모를 짐작할 수 있는 단적인 수치다.

이러한 디디의 거대한 클라우드 인프라는 무엇으로 구성돼 있을까? 바로 오픈소스다. 리와 그의 팀이 디디의 데이터 플랫폼을 완전히 재설계해 폭발적으로 증가하는 머신러닝 워크로드까지 수용하는 데 성공했다. 그전까지는 데이터를 HDS에 넣기 위해 비싸고 느린 ETL 툴을 사용해야 했다. 이렇게 저장한 데이터는 드라이버와 승객을 연결해주거나 다른 작업을 처리하는 빅데이터 애플리케이션에 사용된다. 새 아키텍처와 함께 디디는 표준 오픈소스 빅데이터 애플리케이션을 도입했다. 아파치 스파크와 프레스토(Presto), 하이브(Hive), 플린크(Flink) 등이다. 애널리틱스와 쿼리에는 드루이드(Druid)를 선택했다.

이런 솔루션을 사용하는 비용은? 0원이다. 물론 이 업체는 다른 방식으로 비용을 지출한다. 세상에 공짜는 없다. 오픈소스 자체는 비용이 들지 않을 수 있지만, 사람들이 이를 개발하는 것은 공짜가 아니다. 이 지점에서 디디가 깨달은 것은 숙련된 개발자가 차별화된 경쟁력을 갖추는 데 필수적이라는 사실이다. 개발자에 투자하는 기업이 실제로는 많지 않다. 그러나 데이터를 심각하게 생각하는 기업이라면 바로 도입해 사용할 수 있는 '기성품' 빅데이터 솔루션은 사실상 없다. 결국 필수적인 것이 개발자고, 개발자는 오픈소스를 필요로 한다.
 

오픈소스 혁신의 허브
디디가 사용하는 오픈소스 플랫폼 '얼루시오(Alluxio)'는 본래 UC 버클리의 AMP랩에서 처음 개발됐다. 디디의 레거시 ETL 솔루션 관련 치명적인 문제를 풀어주는 가교 구실을 한다. 얼루시오는 데이터센터의 모든 데이터를 공유 메모리 내에서 관리하므로, ETL 없이도 많은 작업을 실시간으로 처리한다. 또한, 거대한 공유 데이터 풀을 넘나 들며 여러가지 업무와 애플리케이션을 동시에 실행할 수 있다.

새로 추가하는 애플리케이션은 '플러그 앤 플레이' 방식으로 실행된다. 서로 다른 데이터 포맷과 파일 시스템이어도 상관없다. 이전까지는 단일 네임 노드를 얻기 위해 거대한 HDFS 클러스터를 사용해야 했지만 이제는 분산 데이터 소스를 확보하면서도 단일 네임스페이스를 유지하는 것이 가능하게 됐다.

그렇다면 리는 왜 오픈소스에 '통큰' 배팅을 한 것일까? 그는 "오픈소스를 사용하면 대부분의 경우 혁신의 속도를 따라잡기 위해 노력할 필요가 없기 때문이다. 우리가 사용하는 프로젝트 내에서 많은 기여자를 통해 혁신의 성과를 누릴 수 있다. 기존 오픈소스 프로젝트가 새 것으로 대체되는 것에 대해서도 전혀 걱정하지 않는다. 우리의 임무는 궁극적으로 회사의 비즈니스 문제를 해결하는 것이고, 오픈소스는 우리가 이 문제를 더 효율적으로 풀 수 있도록 도와준다. 이것이 우리가 오픈소스를 쓰는 이유다"라고 말했다.

디디는 그동안 혁신의 '공유'를 통해 기존 혁신의 경계를 확장하는 행보를 보여왔다. 이러한 공유는 디디가 혁신의 유일한 관리자가 아니라 커뮤니티가 함께 움직일 수 있도록 하는 메커니즘을 강화한다. 오픈소스는 이런 방식으로 디디에 혁신과 관리 모든 측면에서 협업할 방법을 제시했다. 어떤 의미에서는 매우 영리한 방식이다.

리리에 따르면, 오픈소스는 많은 커스텀 코드를 작성하고 유지할 필요도 없애준다. 복잡한 통합 문제에서도 벗어날 수 있다. 예를 들어 얼루시오를 사용하면 HDFS와 오브젝트 스토어를 포함한 거의 모든 소스에서 데이터를 추출해 전통적인 스토리지 시스템으로 옮길 수 있다. 이전까지는 이를 HDFS에서 실행하려면 ETL에 의존해 개별 애플리케이션마다 많은 커스텀 통합 작업을 해야 했다. 데이터를 통합하는 첫 단계부터가 난관이었던 것이다.

리는 디디처럼 초대형 아키텍처를 새로 만드는 기업을 위해 조언도 내놓았다. 그는 "해결하고자 하는 문제를 실제로 이해하는 것이 선행돼야 한다. 그 이후에 오픈소스는 미래 경쟁력을 확보하는 결정을 내리는 데 도움이 될 것이다. 결국 가장 중요한 것은 데이터에 대한 고객의 기대에 부응하는 것이다. 최고의 방법을 찾아 인프라스트럭처를 변화하는 비즈니스 요건에 맞춰 쉽게 업데이트할 수 있도록 해야 한다"라고 말했다. 물론 개별 기업이 찾은 방법을 다시 오픈소스 커뮤니티에 공유하는 것은 당연하다. ciokr@idg.co.kr

 

 

※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지

[원문출처 : http://www.ciokorea.com/news/39336]

2018
맨 위로
맨 위로