본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

[오픈테크넷서밋 2017] 인공지능 개발에 유용한 오픈소스 프로젝트 10선

OSS 게시글 작성 시각 2017-06-23 09:11:51 게시글 조회수 5534

2017년 6월 21일 (수)

ⓒ 디지털데일리, 백지영 jyp@ddaily.co.kr




일반적으로 인공지능(AI)을 개발하기 위해선 다섯단계의 개발 프로세스를 밟게 된다.


우선 해당 영역과 지식, 목표 등을 이해한 다음 데이터를 통합하고 선택, 클렌징하는 등의 전처리 과정을 거친 이후 러닝 모델(알고리즘)을 만든다. 이후 도출된 결과를 기반으로 실제 서비스에 연동하는 과정이 무한 반복된다.


이중에서도 특히 두 번째 단계, 무수한 데이터를 통합하고 선택, 클렌징하는 과정은 가장 시간이 많이 걸리는 시기다. 다행히도 현재 전세계에는 이러한 데이터 전처리를 손쉽게 할 수 있는 다양한 오픈소스 프로젝트가 존재한다. 이를 잘 활용하면 보다 손쉽게 AI를 위한 머신러닝 모델을 만들 수 있다.


이와 관련, 안명호 딥넘버스 대표는 21일 <디지털데일리> 주최로 쉐라톤 디큐브시티 호텔에서 열린 ‘오픈테크넷서밋 2017’에서 “AI 개발은 정원을 가꾸는 것과 유사하게 노력과 시간이 많이 필요하다”며 “좋은 AI를 만들기 위해선 양질의 데이터와 기능 엔지니어링, 자동화와 같은 기술이 중요하다”고 설명했다.


그가 운영하는 딥넘버스는 머신러닝을 활용해 알고리즘 트레이딩 솔루션 등을 개발하는 업체다. 그 역시 주가 데이터를 기반으로 머신러닝 모델을 만드는 과정에서 데이터 전처리 분야에서 많은 애를 먹었다. 이 과정에서 이와 관련한 다양한 오픈소스 프로젝트를 접했고, 큰 도움을 받았다.


이날 그가 소개한 오픈소스 프로젝트는 10여개다. 먼저 데이터 병렬처리나 분석, 클러스터 운영을 위한 대표적인 오픈소스로는 아파치 스파크(Apache Spark)와 아파치 스톰(Storm), 아파치 플링크(Flink), 삼자(Samza) 등이 있다. 


아파치 스파크는 이미 대세가 된 대용량 데이터 처리를 위한 프로젝트다. 통합된 고급 데이터 분석이나 데이터 병렬처리, MLLib을 통해 머신러닝 기능도 제공한다.


모든 데이터를 스트리밍 데이터로 처리하는 프레임워크 ‘아파치 플링크’도 유용한 오픈소스 프레임워크다. 매우 빠른 데이터 처리 속도나 대규모 클러스터 운영이 가능한 것도 장점이다. 플링크ML을 통한 머신러닝 기능도 제공한다. 머신러닝 프레임워크에 특하된 ‘H2O’도 주목받는 오픈소스 프로젝트다.


머신러닝 알고리즘에 적합한 형태로 데이터를 가공해주는 ‘기능 엔지니어링’ 측면에서도 오픈소스 프로젝트가 활발히 진행 중이다.


이 분야의 대표 오픈소스 프로젝트는 데이터 마이닝과 분석을 제공하는 ‘SK-런(Learn)’이다. 안 대표는 이를 “(딥러닝을 제외하곤) 머신러닝을 위한 종합선물세트”라고 표현했다. SK-런은 학계와 산업계가 모두 참여하기 때문에 이론과 실제가 검증된 기술(기능)이 다수 포함돼 있는 것이 특징이다. 다만 파이썬만 지원한다는 단점이 있다.


탐색적 데이터 분석(EDA)를 쉽게 해주는 ‘도라(DORA)’나 헷지펀드에서 시작된 시각화 솔루션 ‘비커(Beaker)’도 최근 인기를 끌고 있는 프로젝트다.


이밖에 머신러닝을 위한 데이터 수집, 처리 및 평가 과정을 자동화해주는 오픈소스로 ‘에어플로우(Airflow)’와 ‘루이지(Luigi)’ 등이 있다. 에어플로우는 에어비앤비에서 필요해서 만들었다가 아파치 재단에 헌납한 기술이다. 루이지 역시 음원 스트리밍 서비스업체인 스포티파이에서 개발이 시작됐다가 오픈소스로 전환됐다.


안 대표는 “현재 머신러닝 분야의 오픈소스 프로젝트는 자고 일어나면 또 하나가 새롭게 생겨날 정도로 폭발적으로 늘어나고 있다”며 “6개월, 1년 뒤에 어떤 오픈소스 기술이 대세가 될지 판단하기 힘들지만, 선택할 때는 현재 아닌 미래를 보고 해야 한다”고 조언했다.


그는 이어 “오픈소스 프로젝트를 선택 시에는 커뮤니티의 열정이나 기여자, 코드수 등을 봐야 한다”며 “당장은 기능이 부족하더라도 해당 오픈소스 커뮤니티에 참여하는 사람들이 열정적이라면 시간이 지날수록 원하는 혹은 좋은 기능이 추가될 것”이라고 덧붙였다.




※ 본 내용은 (주)디지털데일리(http://www.ddaily.co.kr)의 저작권 동의에 의해 공유되고 있습니다.

Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지


[원문출처 : http://www.ddaily.co.kr/news/article.html?no=157291]

공개SW 소식 - 번호, 제목, 조회수, 작성
번호 제목 조회수 작성
공지 [Open UP 활용가이드] 공개SW 활용 및 개발, 창업, 교육 "Open UP을 활용하세요" 292958 2020-10-27
공지 [Open UP 소개] 공개SW 개발·공유·활용 원스톱 지원 Open UP이 함께합니다 283608 2020-10-27
6942 [오픈테크넷서밋 2017] KT, “빅데이터로 축제 열고 감염병 막는다” 4393 2017-06-23
6941 [오픈테크넷서밋 2017] 인공지능 개발에 유용한 오픈소스 프로젝트 10선 5534 2017-06-23
6940 [오픈테크넷서밋 2017] LG CNS “챗봇 서비스, 지능형만이 답 아니다” 4667 2017-06-23
6939 [오픈테크넷서밋 2017] 네이버, 웨일 브라우저 ‘사이드바’로 표준화 노린다 5702 2017-06-23
6938 [오픈테크넷서밋 2017] 나임네트웍스, "인천유시티, SDDC기반 데이터센터 구축으로 100억원 비용절감" 5746 2017-06-23
6937 [오픈테크넷서밋 2017] “오픈소스 SW, 보안 취약점까지 고려해야” 4846 2017-06-23
6936 [오픈테크넷서밋 2017] 삼성전자 박수홍 박사 "오픈소스 근본은 수익창출..신중히 접근해야" 5436 2017-06-23
6935 “공유·개방·참여의 오픈소스 정신 확산돼야”…오픈테크넷 서밋 2017에 쏠린 관심 5048 2017-06-23
6934 [주간 OSS 동향 리포트] 국방 무기체계 개발에 공개SW 적용 확대 4636 2017-06-20
6933 포레스터가 정리한 '6가지 클라우드 전략 트렌드' 4975 2017-06-20
맨 위로
맨 위로