Home > 열린마당 > 공개SW 소식

공개SW 소식

2013년 08월 07일 (수)

ⓒ 디지털타임스, 강대기 동서대 컴퓨터정보공학부 교수



빅데이터, 오픈소스, 강대기 동서대 컴퓨터정보공학부 교수
동서대 컴퓨터정보공학부
강대기 교수


얼마 전부터 빅 데이터라는 용어가 유행처럼 번지고 있다.


사실 유행처럼 번지고 있다기보다는 이미 수많은 IT인들 간에 회자돼 이젠 식상해지는 수준이다.


이제는 데이터 과학(Data Science)이라는 용어도 심심찮게 오르내리기 시작한다.


과거 인공지능이나 최근의 로봇에 대한 연구도 그랬지만 특정 용어가 식상해지거나 비판의 대상이 되는 이유는, 만족할만한 결과를 내기 어려운 기술적인 어려움이 가장 큰 이유겠지만, 스스로가 역량이 되지도 않으면서 유행하는 용어를 사용하며 연구를 하겠다고 제안한 사람들도 이러한 경향에 다소 기여했을 거라고 본다.


빅 데이터라는 이름을 단 일부 제안서들을 보면, 클라우드니 하둡이나 NoSQL, 컬럼기반 데이터베이스 등을 언급한다.


통계 또는 수치해석 프로그램인 R이나 매트랩 등을 말하며, 마치 그런 오픈 소스 내지 상업용 제품들을 이것저것 가져다 붙이면 바로 뭔가 굉장한 결과가 나올 것처럼 서술해 놓았다.


그러나 빅 데이터는 기술이라기보다는 현실이다.


IBM의 통계에 따르면 하루 250경 바이트의 비정형 정보, 매달 10억 여개의 트윗, 매달 300억 여개의 페이스북 메시지가 생성되고 있다고 한다.


이 통계는 이 글을 쓰는 지금도 계속 증가하고 있다.


사람들 또는 기업들이 빅 데이터에 관심을 가지는 이유는 결국 그 활용 사례 때문이다.


빅 데이터의 성공 사례들은 매우 다양해서 체계적으로 정리해서 열거하기 어려울 정도이다.


빅 데이터는 주로 미래 예측, 상황 분석, 분위기 측정, 이상 감지 등을 통해 품질 개선, 공정 개선, 신상품 개발, 고객 행동 패턴 분석, 부정 행위 판별 등에 활용되고 있다.


빅 데이터에서 사람들이 원하는 것은 세가지 과정으로 나눌 수 있다.


첫 번째로 지금 이 시점에도 빠르게 증가하는 대용량이며, 복잡하게 상호 연결돼 있는 정형/비정형의 데이터를 효과적으로 분산 저장하고 필요할 때 빠르게 검색할 수 있게 하는 것이다.


두 번째로는 이렇게 저장된 데이터에 대해 빠르고 지능화된 알고리즘이 데이터 내부의 변수들 또는 숨어있는 변수(hidden variable)와의 알려지지 않은 연관 관계 더 나아가 인과 관계를 찾아내는 것이다.


마지막으로 세 번째는 이렇게 찾아낸 연관 관계 또는 인과 관계를 토대로 데이터 과학자와 비즈니스 전문가들이 사업적 가치가 있는 것을 찾아내는 것이다.


여기서 재미있는 점은 최근 빅 데이터에 대해 크게 떠드는 사람들 중 다수가 첫 번째 과정에 있는 사람들이라는 점이다.


그들의 주장에 따르면 궁극적으로 데이터는 당연히 클라우드에 집어넣어야 하고, 맵리듀스를 하기 위해 하둡을 설치해야 하고, 궁극적으로는 NoSQL을 따라야 한다.


그리고 나서, 데이터가 채워지기 시작하면 그 다음은 어떻게 해야하냐라는 질문에는 R을 얘기하고 매트랩을 얘기하고, 또는 Python을 언급하지만 그 이상 구체적인 것은 말하지 못한다.


두 번째 과정에 전문적인 분들은 사실 과거 기계 학습, 통계, 데이터 마이닝 쪽의 전문가들이다.


재미있는 건 이러한 사람들의 대부분은 빅 데이터에 대해 크게 떠들지 않거나 오히려 다소 비판적으로 보고 있다는 점이다.


그 이유는 이제서야 빅 데이터라고 떠들지만 사실 그를 위한 학습 및 추론 알고리즘은 옛날부터 연구돼 왔기 때문이다.


현실적으로 가장 중요한 부분은 세 번째 과정일 것이다.


그런데 이 세 번째 과정은 과거의 사례들에 대한 체계적인 연구가 존재한다면 비교적 용이한 부분일 수 있다.


실제로 국내의 많은 업체들이 세계적인 기업들에 의해 검증된 길을 따라가는 미투(me too) 전략을 구사하는 것도 이러한 경우이다.


궁극적으로 이 세 번째 과정은 기술이라고 보다는 결국 여전히 사업적인 감각이나 운의 영역일 수도 있다.


감각이나 운이란 표현의 의미는 결국 여전히 기업의 의사결정자나 관련 실무자는 자신이 처한 불확실한 상황에 대해 도전해야 한다는 것이다.


이러한 의사 결정을 했을 때, 과연 효과가 있을 것인가 하는 질문에 대해 그들은 소위 빅 데이터가 자동으로 해결해 주었으면 하고 바랄 것이다.


그럼에도 불구하고 두 번째 과정은 여전히 중요할 것이다.


두 번째 과정은 제대로 수행된다면, 불확실성을 아예 없앨 수는 없을지 몰라도 상당히 줄여줄 것이기 때문이다.


의사 결정을 하는 기업 관계자나 이해 당사자가 좀 덜 위험한 결정을 할 수 있도록 지원할 수도 있다.


그런 의미에서 앞으로의 빅 데이터 논의는 무엇을 설치하고 구성할지 보다, 데이터에서 진정으로 무엇을 어떻게 찾아야 할지에 대한 보다 근본적인 논의가 되었으면 한다.




※ 본 내용은 (주)디지털타임스(http://www.dt.co.kr/)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 디지털타임스. 무단전재 및 재배포 금지


[원문출처 : http://www.dt.co.kr/contents.html?article_no=2013080702012351742002]

맨 위로
맨 위로