본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

구글, 서버 모니터링 신기원 이룬다

OSS 게시글 작성 시각 2013-04-18 11:15:26 게시글 조회수 3987

2013년 04월 16일 (화)

ⓒ 지디넷코리아, 김우용 기자 yong2@zdnet.co.kr



구글이 서버 모니터링의 신기원을 이루겠다는 포부를 밝혔다. 전 세계 100만대 서버를 칩레벨까지 모니터해 성능저하를 사전차단하고, 빅데이터 분석 플랫폼과도 연계한다는 계획이다.

최근 외신에 따르면, 구글은 최근 발표한 논문을 통해 세계 각지에 흩어진 모든 구글 데이터센터 내 서버의 CPU, 메모리, 입출력(I/O) 모듈 등을 관리할 수 있는 기술을 개발했다.

구글은 단일 기업으로 세계서 가장 많은 100만대 이상의 서버 환경을 운영하는 회사다. 각 지역별로 산재된 데이터센터 내 서버마다 워크로드가 복잡하게 얽혀 운영된다. 


▲ 구글 데이터센터 내부 서버실

구글은 각 서버에서 운영되는 모든 워크로드에 대해 부품단계까지 관리한다는 계획이다. 운영중인 특정 지점에 워크로드가 몰리는 과부하를 방지하고, 원활한 로드밸런싱을 유지하려면, 칩 레벨의 상세한 모니터링이 필요하다는 판단에서다.

논문은 리눅스 기반 인프라스트럭처 클라우드를 칩레벨로 감시하기 위한 기술이 설명된다. 저자들은 "성능 격리는 클라우드 컴퓨팅에서 핵심 도전과제다"라며 "불행히도, 리눅스는 프로세서 캐시와 메모리 버스 같은 공유된 리소스의 성능 간섭을 방지하는 기능을 거의 갖지 못했다"라고 설명했다. 이어 "이는 다른 프로그램의 활동에 의해 예측할 수 없는 성능문제를 일으키게 된다"라고 덧붙였다.

구글은 CPI2(cycles-per-instruction)란 기술을 해법으로 사용했다. 하드웨어 성능 카운터로 획득된 명령어당 클릭 사이클(CPI) 데이터를 통해 문제점을 식별하고, 가해요소를 선택해 해당 요소를 억제할 수 있다.

이를 통해 문제를 겪은 부분은 예측 가능한 성능으로 회복된다. 이는 동일 업무 내 다양한 작업으로부터 데이터를 통합해 자동으로 평상시와 변칙적인 행동을 학습한다.


▲ 구글 CPI 데이터 파이프라인

CPI2는 구글 엔지니어가 수천개 규모의 클러스터 속에서 한 프로세서에서 작동하는 한 작업단위로 빈약한 퍼포먼스를 절연하게 해준다.

0.1초 이상의 CPU 오버헤드 없이 작업 성능이 저하되는 클러스터를 드릴다운(계층별로 점차 세부적으로 파고드는 것)하며 상태를 관리할 수 있다. CPI2는 특별한 하드웨어가 필요없고, 리눅스 환경에서 돌아가는 SW로 작동한다.

구글은 개개의 작업별로 CPU CPI를 예측하고, 이 데이터를 통해 표준 리소스 프로필을 작성한다. 이 프로필은 특정 작업이 예상보다 더 많은 CPI를 보이거나, 작업 중단을 일으키는 안타고니스트로써 해당 부품을 식별하게 해준다.

소프트웨어 에이전트는 그 안타고니스트를 절연함으로써 장애를 중단시켜, 평상시 업무상태로 복귀시킨다.

논문에 따르면, 구글의 서버 대다수는 다양한 작업을 동시에 수행한다. 구글 서버는 레이턴시에 민감한 작업과 배치작업을 한번에 수행하고 있다. 구글 서버에서 돌아가는 96%의 작업이 적어도 10개 작업과 연관돼 한 업무의 부분을 이룬다. 87%의 작업이 100개 이상의 작업과 연관돼 한 업무를 이룬다.

이처럼 복잡한 작업 구성은 프로세서 캐시를 엉망으로 만들고, 메모리 올로케이션 문제를 일으켜 각 작업을 방해할 수 있다.

CPI2 활용으로 구글은 0.1% 미만의 시스템 CPU 오버헤드를 기록하고, 눈에 띄는 레이턴시 충격을 방지한다.

구글은 CPI2를 전세계 서버 단위로 적용을 확대할 계획이다. 물리적인 클러스터는 거대한 규모의 CPI 플랫폼 속에서 구동된다. 이 작업이 완료되면 구글의 모든 서버는 특정 작업의 장애 시 수초 안에 정상화될 수 있다.

구글 CPI2 논문 저자로는 이 회사의 대규모 인프라 매니지먼트 시스템 '오메가' 개발자도 참여했다. 또한 구글 내부의 데이터 분석도구인 '드레멜(Dremel)'과 연결돼 시스템 장애 실시간쿼리 분석 용도로 활용된다.

드레멜은 맵리듀스 인프라스트럭처 기반에서 실시간 SQL 쿼리를 이용해 빠른 분석을 하게 해주는 기술이다. 구글 빅쿼리가 드레멜을 사용한다. 또한 하둡 진영의 클라우데라가 임팔라란 이름으로 하둡 기반의 유사 기술을 개발하고 있으며, 한국 개발자들이 주도하는 아파치 재단의 '타조'도 드레멜과 같은 목표로 개발되고 있다.



※ 본 내용은 (주)메가뉴스(http://www.zdnet.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 지디넷코리아. 무단전재 및 재배포 금지


[원문출처 : http://www.zdnet.co.kr/news/news_view.asp?artice_id=20130415104812]

맨 위로
맨 위로