Home > 열린마당 > 공개SW 소식

공개SW 소식

2013년 09월 04일 (수)

ⓒ 블로터닷넷, 이지영 기자 izziene@bloter.net





트위터가 자사 실시간 검색 처리 기술을 오픈소스로 공개했다. 트위터는 9월3일(미국 현지시간) 블로그를 통해 “스톰과 하둡을 결합한 스트리밍 맵리듀스 시스템, ‘서밍버드’를 오픈소스로 기증하겠다”라고 밝혔다.


서밍버드는 배치시스템과 스트리밍을 모두 요구하는 애플리케이션을 실행할 수 있게 도와준다. 서밍버드를 이용하면 배치와 스트리밍 작업을 한 시스템 안에서 처리할 수 있다. 한정된 컴퓨팅 자원을 가지고 더 많은 데이터를 처리할 수 있단 얘기다. 스톰과 하둡의 장점을 본따 개발된 덕분이다.


summingbird

트위터는 세계에서 가장 많은 트래픽이 실시간으로 오가는 서비스 중 하나다. 트위터 검색엔진은 하루에도 10억건이 넘는 검색어를 처리한다. 겉보기엔 쉬워 보이지만, 실제로 ‘실시간 검색’을 구현하기란 만만찮다. 트위터 검색엔진팀은 장애없이 수많은 사람들이 트윗을 날릴 수 있도록 검색서비스 가용성을 개선하기 위해 부지런히 검색엔진을 매만진다.


하둡과 스톰도 여기에 적용한 기술 중 일부였다. 스톰은 지난 2010년 트위터가 백타입이라는 회사를 인수하면서 오픈소스로 내놓은 기술로, 실시간 분산 데이터 처리를 돕는다. 하둡은 일정 기간 데이터를 저장하고 분석하는 배치 방식이다. 지금까지 트위터는 스톰과 하둡을 적절히 활용해 대용량 데이터를 관리했다.


곧 문제가 생겼다. 쌓이는 데이터 속도가 급증하면서 실시간으로 처리해야 하는 데이터가 늘었다. 트위터는 대용량 데이터를 실시간으로 다룰 수 있는 기술의 필요성을 느꼈고, 그 결과물이 서밍버드다.


트위터 검색엔진팀은 “서밍보드를 활용하면 수 초 안에 사람들의 검색의도를 파악해 의도에 맞는 검색 결과를 제시할 수 있다”라며 “하둡과 스톰의 단점을 서밍버드가 해결해 줄 것으로 기대한다”라고 말했다.

서밍버드 소스코드는 깃허브에서 볼 수 있다.



※ 본 내용은 (주)블로터 앤 미디어(http://www.bloter.net)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 블로터 앤 미디어. 무단전재 및 재배포 금지



[원문출처 : http://www.bloter.net/archives/163202]

맨 위로
맨 위로