본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

[알아봅시다] 빅데이터 분석 기술

OSS 게시글 작성 시각 2013-11-05 14:01:00 게시글 조회수 2966

2013년 11월 05일 (화)

ⓒ 디지털타임스, 심화영 기자 dorothy@dt.co.kr


실시간 정보 분산처리… 경영ㆍ마케팅 ‘새 돌파구’


최근 ICT기술의 발전으로 빅데이터에 많은 관심이 집중되고 있습니다.


`빅데이터(Big Data)'란 흔히 4V인 용량(Volume), 속도(Velocity), 다양성(Variety), 가치(Value)의 특성을 가지는 데이터입니다.


기존 데이터에 비해 크기가 커서 이전 방법이나 도구로 수집, 저장, 검색, 분석, 시각화 등이 어려운 정형 및 비정형 데이터를 의미합니다.


빅데이터는 제조, 금융, 물류, 유통, 통신ㆍ미디어, 보건, 은행, 에너지, 교육, 운송ㆍ교통, 공공 등 다양한 산업 분야에서 기업의 경영관리, 영업 마케팅 등 혁신을 불러올 ICT융합 기술로 주목을 받고 있습니다.


이러한 빅데이터의 사용에 있어서 하둡(Hadoop)을 빼놓을 수 없습니다.


하둡은 분산 파일시스템인 HDFS(Hadoop Distributed File System)와 분산처리를 위한 맵리듀스(MapReduce)로 구성된 플랫폼입니다.


하둡을 중심으로 기업과 기술간의 다양한 공생관계(에코시스템)가 구축됨에 따라 이제 하둡은 빅데이터에 있어 산업계 표준이라고도 불립니다.


하지만 이러한 하둡에도 한계가 있습니다.


일정 기간 동안 저장한 데이터를 일괄처리(Batch) 방식으로 처리하기 때문에 실시간 데이터 처리가 안 되는 문제점을 갖고 있습니다.


한편 최근 산업계에서는 제조관리, 에너지관리, 네트워크, RFID, 통신, 금융 애플리케이션, 웹 로그 & 클릭 스트림 분석 등은 실시간 빅데이터 처리 기술을 필요로 합니다.


가상의 공장을 예로 들어볼까요. 공장에서는 센서와 공장 자동화 시스템 등에서 쉴 새 없이 데이터들이 생성되고 있습니다.


이러한 데이터는 제품의 품질관리, 공장의 설비 및 고장 관리에 유용하게 사용될 수 있습니다.


하지만 데이터를 저장한 후 분석해 활용하기에는 시간이 부족해 신속한 판단을 할 수 없습니다.


하둡을 사용해 실시간 분석을 하기 위해서는 추가적인 플랫폼 구축 과정이 필요합니다.


최근 이러한 실시간 빅데이터 처리문제를 해결하기 위해서 다양한 요소기술과 플랫폼의 적용이 각광 받고 있다.


이를 `스트리밍데이터 처리 솔루션'이라고 합니다.


대표적인 `스트리밍데이터 처리 솔루션'으로 야후(Yahoo)의 검색 엔진에 사용하는 아파치(Apache)의 S4 기술이나 SNS로 잘 알려진 트위터의 스톰(Storm) 기술, 기존 시스템 운영자에게 친숙한 언어를 사용하는 에스퍼(Esper) 기술, 하둡에서 실시간으로 데이터 스트리밍을 처리할 수 있는 H스트리밍(HStreaming) 기술 등을 들 수 있습니다.


이 기술들은 하둡과 유사하게 분산 처리 환경이지만 스트리밍 데이터를 저장하지 않고, 실시간으로 처리 및 분석해 결과를 산출하기 때문에 신속한 의사 결정에 도움을 줍니다.


또 하둡과 같이 일회성 질의에 한정되는 것이 아니라 한번 정해 놓은 질의문이 지속적으로 적용되므로, 장기적인 분석에도 탁월한 성능을 발휘합니다.


실제로 트위터는 스톰 기술을 사용해 하루에 10억건이 넘는 트윗들을 실시간으로 분석해 시스템을 최적화시켰고, 트윗의 안티 스팸(Anti-Spam) 정책에 활용하고 있습니다.


국내의 예를 들어보면, 금호타이어는 국내 공장에서 타이어 생산시 제품에 RFID태그를 부착해 타이어의 생산 공정부터 유통, 입ㆍ출고 정보, 최종 판매 단계까지의 제품 이력을 추적 관리하고 품질과 성능 정보까지 관리하고 있습니다.


수백대의 RFID 기기에서 수집되는 태그 데이터들은 스트리밍 데이터 성격을 갖고 있기에 해당 데이터를 실시간 처리 기술 기반으로 품질관리까지 적용한 것입니다.


공장 내 효율적인 에너지 관리를 위한 시스템인 공장에너지관리솔루션(FEMS, Factory Energy Management System)에서도 수백개의 센서 데이터를 스트림 데이터로 수집해 실시간 분석을 통해 에너지 수요 판단 및 적정한 에너지 사용한계를 넘지 않도록 제어처리를 합니다.


항공 분야에서는 항공운송사업에 영향을 주는 환율, 유가, 기상 상태 및 천재지변과 같은 국가적 이슈사항들의 변수를 인터넷상에서 실시간으로 수집해 운송스케줄 및 예약 확정의 예측을 통해 이윤을 극대화 할 수 있는 운송물류예약시스템의 적용이 가능합니다.


통신과 인터넷 등 ICT기술의 발달로 정보가 급증하면서, 일상 생활과 각종 산업 분야에서 쏟아져 나오는 가공되지 않은 데이터의 양은 급증하고 있습니다.


대용량 데이터의 실시간 분석 기술은 산업 분야에서 발생하는 무한한 데이터를 실시간으로 분석하고 중요한 영향을 미치는 변수를 찾아 업무 효율화와 기업의 의사결정을 지원하게 될 것입니다.


더불어 이러한 의미있는 실시간 정보는 산업의 경쟁력을 키우고 위기관리를 가능케 할 핵심 요소가 될 것입니다.




※ 본 내용은 (주)디지털타임스(http://www.dt.co.kr/)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 디지털타임스. 무단전재 및 재배포 금지


[원문출처 : http://www.dt.co.kr/contents.html?article_no=2013110502011860727002]

맨 위로
맨 위로