본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

[빅데이터1년] HP “검색엔진 기술이 핵심”

OSS 게시글 작성 시각 2013-03-20 18:32:41 게시글 조회수 4976

2013년 03월 18일 (월)

ⓒ 블로터닷넷, 이지영 기자 izziene@bloter.net



‘빅데이터’. 국내외 대다수의 기업이 2013년에도 주목하겠다고 꼽은 단어다. 근데, 걱정이 앞선다. 이미 너무 많은 매체가 지난 한 해 빅데이터를 주목했다. 빅데이터 시장성, 가능성, 사례 등을 얘기했다. 갑자기 쏟아진 빅데이터에 사람들은 ‘귀에 딱지가 않겠다’라는 반응을 보였다. 그럼에도 불구하고 빅데이터는 여전히 뜨거운 감자다. 많은 기업이 빅데이터를 주목하고 나섰으며, 빅데이터의 가치를 얘기하려고 한다. 그래서 1년전 ‘빅데이터’와 지금의 ‘빅데이터’는 뭐가 다른지 살펴봤다.

“시장에서 고객이 이해하기 쉽도록 빅데이터란 단어를 사용하긴 하지만, HP가 추구하는 빅데이터 전략 핵심은 오히려 정보 관리에 있습니다.”


김종흔 한국HP 이사는 자사 빅데이터 전략을 설명하면서 굳이 ‘빅데이터’란 단어를 강조하지 않았다. 데이터란 단어가 갑자기 등장한 것도 아니고 이미 기업은 오래전부터 데이터를 활용해 전략을 꾸렸으며, 최근에서야 사회관계망 서비스(SNS), 웹서비스 같은 분야에서 데이터가 급증하면서 이를 주목하기 시작했다는 이유에서다. HP 관점에서 과거에 발생한 데이터와 지금 시장이 부르는 빅데이터는 큰 차이가 없다.


“기업이 주목해야 할 데이터 종류와 크기가 조금 달라졌을 뿐입니다. 데이터를 다루는 그 기술 자체는 크게 변화한 게 없지요. HP는 자사가 가지고 있는 솔루션과 서비스로 어떻게 하면 새롭게 등장한 음성, 이미지, 동영상, 웹로그 등과 같은 데이터를 처리할 수 있는지로 빅데이터 시장에 접근하고 있습니다.”


김종흔 이사 설명에 따르면, HP의 빅데이터 시장 접근 방법은 단순하다. 기존 관계형 데이터베이스(RDB)에서 내세운 데이터 처리환경을 비정형 데이터 처리 환경에 고스란히 가져온다는 계획이다. 이를 위해서 HP는 지난 2011년 인수한 데이터웨어하우스(DW) 솔루션인 버티카와 지능형 검색엔진 솔루션인 오토노미 기술을 통합했다.


hp autonomy


“HP는 오토노미의 검색엔진 기술을 바탕으로 정보를 처리하는 플랫폼을 만들어 나갈 계획입니다. 자동관리, 자동사용이 가능한 환경을 구축해 정보 처리와 분석에 최적화된 데이터 플랫폼을 고객에게 전달할 계획입니다.”


HP는 우선 버티카로 대량의 데이터를 실시간으로 분석할 수 있는 환경을 제공할 방침이다. 대용량 데이터 분산처리 기술로 잘 알려진 하둡은 대용량 데이터 처리 능력을 갖췄으나 실시간 분석에는 적합하지 않다는 단점이 있다. HP는 이를 별도의 메모리 영역을 활용해 트랜잭션 처리가 가능한 하이브리드 데이터 저장 아키텍처를 구성해, 실시간 분석돼야 하는 데이터를 메모리 영역에서 빠르게 처리한다는 방침이다. 여기에 하둡 연동을 위한 커넥터와 하둡 데이터를 인식해 사용할 수 있는 테이블 기능도 추가했다. 오픈소스 통계 애플리케이션인 R, 상용통계솔루션인 SAS와의 연동도 고려했다.


버티카가 대용량 데이터를 담는 그릇 역할을 했다면, 담겨진 그릇을 처리하는 방법에는 오토노미 기술이 사용된다. 한국HP는 영상, 텍스트, 음성 등 다양한 종류의 데이터를 의미기반으로 분석해주는 오토노미의 핵심 검색 기술인 ‘IDOL(Inteligent Data Operating Layer)’을 통해 감성적 분석까지 가능하다고 설명했다.


“예를 들어 집에 책이 1천권 있다고 생각해보세요. 그 중 조선시대 왕에 대해서 글을 써야 한다면 어떤 작업부터 해야 할까요. 조선왕조 관련 책을 찾고, 그 책에서 적합한 정보를 추출하고, 쉽게 읽을 수 있게 재가공해야겠지요. 오토노미는 이 모든 데이터 처리 과정을 순식간에 처리할 수 있게 도와줍니다.”


원하는 데이터를 검색하고, 색인화해서 분석하는 과정은 기존 정형 데이터를 처리할 때도 존재한 방식이다. 새삼스러운 게 아니다. 그러나 김종흔 이사는 이같은 HP의 오토노미 검색엔진은 ‘음성’과 같은 비정형 데이터를 분석하는 데 특화돼 있어 콜센터, SNS 분석을 통해 마케팅 전략을 수립하려는 기업에 유리하게 작용한다고 설명했다.


“여타 검색엔진과 달리 오토노미 솔루션은 음성 데이터를 풀어 각 음성안에 담긴 정보도 분석할 수 있게 도와주는 시스템을 갖고 있습니다. 듣기엔 이게 어떻게 데이터를 분석하는지 감이 안 오실 겁니다.”


100명이 있는 콜센터에서 각 직원이 하루에 전화를 100통만 받아도 약 1만건의 음성 데이터가 발생한다. 콜센터는 서비스 품질 개선을 위해서 고객과의 통화 내용을 녹음한다. 지금까지는 이렇게 녹음된 데이터 중 일부를 표본으로 추출해 들었다. 모든 통화 내용을 분석해서 듣는 건 무리였다. 시간도 시간이었지만, 음성을 텍스트로 변환해 이를 다시 원하는 키워드에 맞게 분석하는 데 시간이 오래 걸렸다.


“모든 기업이 빅데이터 관련 기술이라고 떠듭니다. 하지만 서버나 스토리지 같은 하드웨어 장비 못지않게 소프트웨어 기술도 중요하지요. 어떻게 데이터를 분석해서 볼 것인가가 빅데이터 시장에서 고객이 원하는 점이니까요. HP는 오토노미라는 특화된 검색엔진 솔루션을 갖고 있습니다.”


김종흔 이사 설명에 따르면 오토노미는 녹음된 내용을 자동 태깅해 분류하고, 앞뒤 단어를 바탕으로 의미를 추측하고 추론해 분석 결과를 보여주는 데 최적화 돼 있다. 아직은 영어에 국한돼 있지만, 국내 제휴업체와도 협력해 한국어 분석에도 최적화할 예정이라고 한다. HP의 빅데이터 플랫폼 바탕에는 오토노미의 검색엔진 기술이 녹아 있는 셈이다. HP 자사 보안 솔루션에도 오토노미 기술을 연동해 보다 빠르게 위기를 감지하고 추적할 수 있는 기능을 마련했다.


“이제 시작입니다. 그동안 인수한 솔루션을 바탕으로 여러 종류의 비정형 데이터를 분석해 새로운 비즈니스 가치를 창출하고 기업의 의사결정에 필요한 정보를 즉시 제공할 수 있을 것으로 기대하고 있습니다.”




※ 본 내용은 (주)블로터 앤 미디어(http://www.bloter.net)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 블로터 앤 미디어. 무단전재 및 재배포 금지



[원문출처 : http://www.bloter.net/archives/146935]

맨 위로
맨 위로