본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

넷플릭스의 데이터 과학 툴 '메타플로우' 오픈소스로 공개

OSS관리자1 게시글 작성 시각 2019-12-12 19:04:08 게시글 조회수 4218

12월 9일

ⓒ CIO Korea, Serdar Yegulalp | InfoWorld

 

넷플릭스가 자체 개발해 사용해 온 메타플로우(Metaflow)를 오픈소스로 공개했다. 파이썬 기반 데이터 과학 프로젝트를 개발, 관리하는 툴이다. 메타플로우는 프로토타입부터 모델 배포까지 전체 데이터 과학 워크플로우에서 사용할 수 있다. 또한, AWS 클라우드 서비스로의 통합을 내장 기능으로 제공한다.

 

머신러닝과 데이터 과학 프로젝트에는 코드와 데이터, 모델 개발 과정을 추적하는 메커니즘이 필요하다. 이를 모두 수작업을 처리하면 오류가 발생하기 쉽지만, 깃(Git) 같은 기존 소스 코드 관리 툴은 이런 작업에 적합하지 않다. 메타플로우는 데이터 과학 워크플로우 과정에서 사용되는 전체 기술에 대해 파이썬 API를 제공한다. 컴퓨트 리소스를 통한 데이터 액세스부터 버저닝, 모델 학습, 스케줄링, 모델 배포까지 포함된다.

메타플로우 소개 문서에 따르면, 넷플릭스는 자체 데이터 사이언티스트와 개발자에게 데이터 사이언스 프로젝트에 필요한 인프라 스택용 통합 API를 제공하기 위해 메타플로우를 만들었다. 이를 통해 매우 다양한 머신러닝 활용 사례에 집중할 수 있도록 지원한다는 구상이었다. 이런 사례 대부분은 중소 규모여서 많은 기업이 일상적으로 직면하는 작업에 해당한다.

 

메타플로우에 적합한 특정 머신러닝 프레임워크 혹은 데이터 사이언스 라이브러리는 없다. 메타플로우 프로젝트는 단순한 파이썬 코드일 뿐이고, 프로젝트 각 단계의 데이터 흐름을 일반적인 파이썬 프로그래밍 문법으로 표현한 것이다. 메타플로우 프로젝트를 실행할 때마다 생성하는 데이터에는 고유의 ID가 부여되는데, 이 ID나 사용자가 할당된 메타테이터를 참조하는 방식으로 실행 시, 혹은 실행의 단계마다 데이터에 액세스할 수 있다.

 

넷플릭스는 메타플로우를 AWS에서 사용할 것을 권고한다. 또한, 개발자가 이 프레임워크를 테스트할 수 있도록 스토리지와 데이터 수명을 제한한 메타플로우 샌드박스 버전도 제공한다. 메타플로우의 첫 퍼블릭 릴리즈는 메타플로우 2.0이다. R 언어 지원, 데이터프레임(DataFrames) 방식의 대용량 데이터 인메모리 처리 등 넷플릭스가 내부적으로 사용하는 기능 중 일부는 빠졌다. 넷플릭스는 추후 이를 지원할 예정이다.

 

 

※ 본 내용은 CIO Korea (http://www.ciokorea.com)의 저작권 동의에 의해 공유되고 있습니다.

Copyright ⓒ CIO Korea. 무단전재 및 재배포 금지

[원문출처 : http://www.ciokorea.com/news/138654]

맨 위로
맨 위로