본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

데이터 과학자 설문조사 "다양해진 데이터 출처·하둡 한계에 좌절"

OSS 게시글 작성 시각 2014-07-17 17:27:32 게시글 조회수 4480

2014년 07월 07일 (월)

ⓒ CIO Korea, Thor Olavsrud | CIO



데이터 과학자들을 대상으로 진행된 한 설문은 오늘날 그들이 마주하고 있는 일련의 어려움을 잘 반영하고 있었다.

대다수의 응답자들이 데이터 소스의 증대에서 어려움을 느낀다고 보고했고, 애널리틱스 작업에 있어 하둡에 대한 아쉬움을 호소하는 이들도 전체의 1/4 수준에 달했다.

빅 데이터 애널리틱스에 대한 기업들의 관심과 의존도가 높아져감에 따라 데이터 과학자들의 어깨엔 더욱 많은 부담이 가해지고 있다.

오픈소스 계산형 데이터베이스 관리 시스템 사이DB(SciDB)의 제작사인 패러다임4(Paradigm4)는 데이터 과학자 100 인 이상을 대상으로 설문을 진행해 지난 주 보고서를 발간했다.

보고서에 따르면 응답자의 71%가 데이터 과학자의 직무가 점점 더 어려워지고 있다고 생각하고 있음이 확인됐다. 그들이 호소하는 어려움은 데이터 규모보다는 소스의 다양성에서 비롯된 측면이 많았다.

또한 주목해봐야 할 점은 오직 48%의 응답자만이 자신들의 업무에 하둡(Hadoop)이나 스파크(Spark)를 이용하고 있다고 응답했다는 사실이다. 또 하둡이 너무 느리고 프로그래밍에 너무 많은 노력을 요하는 등 각종 한계를 가지고 있다고 응답한 비율은 76%에 달했다.

패러다임4의 CEO 마릴린 매츠는 “데이터 소스 다양성의 증대는 데이터 과학자들에게 그들이 보유한 데이터와 자금을 놓쳐버리게 만드는 원인으로 작용하고 있다. 데이터 규모에 집중하는 것은 오늘날 애널리틱스 과정에 내재하는 진짜 위협을 인지하지 못하게 하는 요인이다. 애널리틱스의 거대한 잠재력을 온전히 활용하기 위해선 데이터 유형 다양성의 문제를 해결해야만 한다”라고 강조했다.

하둡 플랫폼을 둘러싼 각종 어려움에도 불구하고 이것을 완전히 배제하기는 어려운 것이 현실이다. 절반에 가까운(49%) 응답자들은 보유 데이터를 관계형 데이터베이스 테이블에 배치하는 과정의 어려움을 호소했다.

응답자의 59%는 자신들의 기관이 이미 복합적 애널리틱스(공분산, 클러스터링, 기기 학습, 주요 요인 분석, 그래프 운영 등의 수학 기능)를 데이터 분석에 활용하고 있었다.

향후 1년 내 복합적 애널리틱스를 도입할 예정인 기업은 전체의 15%였으며 16%는 향후 2년 내 이를 도입할 것이라 응답했다. 이와 관련한 아무런 계획도 없는 기업은 4%에 불과했다.

패러다임4는 이러한 응답이 빅 데이터의 ‘손쉬운 목표'가 모두 성취된 상황에서 보다 고급의 가치를 추구하는 것이 시장의 전반적인 경향으로 자리 잡았음을 보여주는 결과라고 평가했다.

보고서에서 이들 기관은 “보다 복잡한 애널리틱스를 추구하는 방향으로의 변화는 시장의 애널리틱스 요구가 확대되고 있음을 의미한다. 이제 기업들은 단일 서버 메모리만으로 구현하기 어려운 기능성까지를 추구하며 보다 희소한 가치를, 그리고 혼합된 샘플링 주파수(sampling frequency)를 적절히 다룰 수 있길 원하고 있다. 이와 같은 복합적 애널리틱스 방법론은 또한 데이터 과학자들에게 모든 데이터가 각자의 목소리를 내는 비지도식, 가설 무관형 접근법을 제공할 것이다”라고 설명했다.

때론 하둡만으로 충분치 않다
패러다임4는 또한 하둡이 쌓아온 보편적, 변혁적 빅 데이터 솔루션으로서의 명성에 비현실적으로 과장된 부분이 많다는 지적 역시 덧붙였다. 복합적 애널리틱스를 필요로 하는 일부 활용 사례에 있어서는 실용적인 솔루션이 아니라는 것이 그 이유다.

이 기관은 “기초적인 애널리틱스 작업들은 처치 곤란 병렬(embarrassingly parallel, 종종 ‘데이터 병렬(data parallel)’이라고 지칭된다)이다. 그러나 복합적 애널리틱스로 넘어가면 이야기는 달라진다”라고 설명했다.

처치 곤란 병렬의 문제는 병렬적으로 발생하는 다수의 독립적 하부 문제들로 분리될 수 있다. 이 경우 작업들 사이에는 의존 관계가 거의, 때론 전혀 없기 때문에 모든 데이터에 대한 동시적 접근은 필요치 않다. 바로 하둡 맵리듀스(MapReduce)가 데이터를 처리하는 방식이다.

반면 처치 곤란 병렬이 아닌 애널리틱스 작업들(다양한 복합형 애널리틱스 문제들과 같은)은 모든 데이터의 동시적 활용과 공유를 필요로 하며 프로세스 중간 결과물 사이의 커뮤니케이션을 요구한다.

패러다임4의 설문에 참여한 데이터 과학자의 22%는 하둡과 스파크가 자신들의 애널리틱스 활동에 적합한 솔루션이 아니라고 생각하고 있었으며, 이들 솔루션의 사용을 중단할 시도를 해본 데이터 과학자의 비율은 35%에 달했다.

패러다임4의 이번 설문 연구는 미국 내 111명의 데이터 과학자를 진행으로 2014년 4월 23일에서 5월 27일까지 진행되었으며 설문 결과 취합은 독립 연구 기관 이노베이션 엔터프라이즈(Innovation Enterprise)가 대행했다.



※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지


[원문출처 : http://www.ciokorea.com/news/21545]

맨 위로
맨 위로