Flip: 데이터의 통계적 특징을 아주 빠르게 계산하는 라이브러리
Flip
학생
"Flip은 데이터 스트림의 다양한 통계적 특징을, 적은 메모리만을 사용해, 빠르고 정확하게 계산하는 라이브러리
* 시연동영상 : https://youtu.be/PLQTxHgvp5I"
대상_과기정통부장관상
2018 년
빅데이터

<목적>
데이터 스트림의 다양한 통계적 특징을, 적은 메모리만을 사용해, 빠르고 정확하게 계산하기 위함.
<특징>
• 데이터 스트림으로부터 확률 밀도 함수(PDF)를 추정.
• 추정된 PDF에서 평균, 표준편차 등 다양한 통계적 특징을 추출.
• 둘 이상의 PDF의 유사도 측정.
<차별성> 
• 현재 가장 널리 쓰이는 방법론인 KDE(kernel density estimation)에 비해 수만 배 빠르고, 가장 빠른 선행 알고리즘(oKDE)에 비해서도 16배 빠른 계산 성능.
• 비정상적(non-stationary) 데이터 스트림을 다룰 때 oKDE에 비해 5배 높은 정확도 보장.
• 6 KB의 낮은 메모리 사용량.
• 함수형 라이브러리로서 참조 투명성을 보장하기 때문에, 프로그래밍, 예외 처리, 디버깅에 유리.
• 단순한 사용법 및 풍부한 사전 정의 함수 등으로, 사용하기 쉽고 편리.
• 유일하게 실무에 곧바로 적용할 정도의 완성도를 가진 자바 호환 밀도 추정 알고리즘 오픈소스.
<중요도> 
• 밀도 추정 알고리즘(히스토그램, KDE 등)은 통계 분석을 위해 광범위한 분야에서 사용되고 있는 방법론.
• 하지만, 종래의 밀도 추정 알고리즘은 느리고, 부정확하고, 메모리를 많이 소모했음. 따라서, 통계 처리 알고리즘의 성능 감소에 큰 영향을 미침.
• 종래의 밀도 추정 알고리즘의 계산 속도를 수십 배에서 수만 배까지 향상시킴으로써, 모든 통계 처리 알고리즘의 성능 향상에 사용될 수 있음.
<시장성>
오늘날, 많은 경우 빅데이터를 다루는 것을 요구함. 따라서, 데이터의 통계적 특성을 분석하기 위해, 보다 빠르고 작은 메모리를 소모하는 방법론이 필요함. Flip은 빅데이터의 통계를 분석하기 위한 라이브러리로서, 통계 분석을 위한 모든 알고리즘의 성능을 향상시킬 수 있음.
특히, 이 라이브러리는 자바와 호환되므로, 하둡, 스파크, 아카 등의 빅데이터 처리를 위한 프레임워크와 함께 활용될 수 있음.

맨 위로
맨 위로