본문 바로가기

Home > 정보마당 > 공개SW 활용 성공사례

공개SW 활용 성공사례

[공개SW 활용 성공사례 168] 구글 - 공개SW 기반인 오픈플로우 도입해 SDN 구축

OSS 게시글 작성 시각 2015-01-06 18:45:01 게시글 조회수 2153
90% 이상의 네트워크 트래픽 향상 효과

구글은 오픈플로우를 도입한 ‘지스케일(G-Scale) 프로젝트를 통해 전 세계에 흩어져있는 자사 데이터센터 백본(Backbone) 구간을 전부 SDN 기반 라우터와 스위치로 구축했다. 특정 네트워크 업체의 제품이 아닌 필요한 기능들만 담아낸 자체 개발 장비를 사용해 90% 이상의 네트워크 트래픽 효율성을 끌어올렸다.

- 기     관 구글
- 수행년도 2010년 ~ 2012년
- 도입배경 특정 밴더에 종속된 네트워크 장비 문제, 내/외부 네트워크 문제 발생 시 데이터 패킷 손상 및 누락, 내부 트래픽 스케줄링 제어 과정에서의 트래픽 엔지니어링의 어려움 인식
- 솔 루 션 오픈플로우(OpenFlow), 콰가(Quagga, BGP/ISIS) 외 다수
- 도입효과 : 비용절감은 물론 효율성 개선

구글은 세계 최대의 검색엔진으로 영어권에서 독보적인 점유율을 보이고 있는 업체다. 직접 방대한 양의 DB를 확보하고 이 DB에 누구나 쉽게 접근해 이용할 수 있도록 하고자 한다. 특히 이를 바탕으로 새로운 데이터를 수집, 체계화하는 것을 경영방침으로 내세우고 있다. 그 만큼 검색엔진 시장에서의 우위는 독보적이다. 2014년 9월 기준, 전 세계 검색 엔진 시장점유율의 85% 이상을 석권하고 있으며, 지금도 점유율은 꾸준히 늘어가고 있다.


특히 구글은 검색엔진 이외에도 G메일, 구글 뉴스, 구글 어스, 구글 맵스, 유튜브, 피카사(디지털 사진 공유), 구글 북스(발행된 모든 책 검색) 구글 트렌드(검색량 통계 제공), 오컷(인맥, 친목사이트) 그리고 데스크톱이나 문서도구 같은 클라우드 컴퓨팅 응용 프로그램까지 제공하고 있다. 여기에 넥서스, 크롬북 같은 HW 사업도 병행하고 있는 그야말로 글로벌 IT 거대 공룡이라는 표현이 딱 들어맞는 기업이다.


구글 측은 지난 2008년, 미국 증권거래위원회에 보낸 공개문서에서 "우리는 기술회사로 시작해서 소프트웨어, 기술, 인터넷, 광고, 미디어 회사가 모두 하나로 합해진 기업으로 진화했다"고 말했다.



구글 서비스의 중심, 네트워크

이러한 방대한 사업을 위해 구글이 가장 중요하게 판단하고 있는 영역이 바로 네트워크다. 전송해야 할 데이터를 올바로 선별하고 보다 중요한 트래픽을 처리하기 위함이다. 특히 트래픽 처리를 위해선 중앙집중화된 네트워킹이 반드시 필요했고 이를 가능케 하는 기술이 오픈플로우(OpenFlow)다.



▲ SDN 아키텍처


오픈플로우는 SDN(Software Defined Network)을 구현하기 위해 제정된 표준 인터페이스로써 오픈플로우 스위치(OpenFlow Switch)와 오픈플로우 컨트롤러(openFlow Controller)로 구성된다. 흐름(Flow) 정보를 제어해 패킷의 전달 경로 및 방식을 결정한다. 흐름은 ‘특정 시간 도안 네트워크 상의 지정된 관찰 지점을 지나가는 패킷의 집합’으로 정의되며 쉽게 ‘패킷의 출발지와 목적지 정보 등을 가진 데이터’라고 표현할 수 있다.




▲ 구글 SDN 아키텍처



즉, 오픈플로우는 패킷을 제어하는 기능과 전달하는 기능을 분리하고 프로그래밍을 통해 네트워크를 제어하는 기술로써 네트워킹이 보다 더 소프트웨어 애플리케이션처럼 작동할 수 있도록 하는 것이다.




▲ 오픈플로우 시스템 구성



현재의 네트워킹 장비들은 벤더 종속적이다. 각 업체들마다 서로 다른 방식을 사용하고 있기 때문에 기능을 100% 활용할 수 없을 뿐 아니라 전체 네트워크 스위치들에 대한 컨트롤이 불가능하다. 특히 네트워킹 하드웨어로부터 네트워크 작동을 추상화할 수 있는 방법이 없다.


오픈플로우를 도입하면 네트워크 전체를 프로그래밍 할 수 있으며, 그에 따라 알고리즘이 작동되고 이를 통해 비즈니스적 혹은 기술적인 목표 달성이 가능해질 수 있다.



라우팅 프로토콜 에뮬레이터, 콰가

구글이 오픈플로우를 위해 활용한 공개SW는 수없이 많지만 현재까지 알려진 바로는 콰가(Quagga)가 유일하다.


콰가는 라우팅 프로토콜을 에뮬레이팅하는 공개SW로 최단 경로 우선 프로토콜(OSPF), 라우팅 정보 프로토콜(RIP), 경계 경로 프로토콜(BGP)를 구현하는 네트워크 라우팅 소프트웨어다.


제브라(Zebra)에서 발전한 오픈소스 네트워크 운영체제 플랫폼인 콰가는 경량이 최대 장점이다. 라우팅 테이블을 관리하는 제브라 데몬을 통해 기본적인 L3 프로토콜 기능(RIP, OSPF, BGP) 등을 지원하며 시스코 ISO명령어 체계와 유사한 스타일의 명령어 체계를 제공한다. 특히 콰가는 공개SW 특성상 많은 기능 추가와 안정화가 필요하다.


실제 구글의 경우, 콰가의 기능과 안정성을 확보하기 위해 상당한 투자를 진행했으며, 수백 명의 엔지니어 인력이 소요됐던 것으로 알려졌다.


우르스 휠즐 구글 기술 인프라 부책임자는 “네트워크 역량을 100% 활용할 수 있고 트래픽 속도가 극적으로 향상된다는 점을 감안할 때 이 정도의 투자는 충분히 할 만한 가치가 있다”고 강조했다.



구글의 글로벌 데이터센터를 연결해주는 G스케일


그럼 구글은 왜 오픈플로우를 도입했을까. 이는 전 세계에 분포돼 있는 구글의 글로벌 데이터센터 때문이며 이들을 각각 연결해 주는 네트워크가 가장 중요하기 때문이다.




▲ 구글 지스케일 프로젝트를 통해 구축된 데이터센터 연결



구글은 현재 미국을 비롯해 유럽, 아시아 등지에 데이터센터를 고루 분포해 놓고 있다. 그 데이터센터에서는 매일 200억 웹페이지가 인덱싱되고 있다. 30억 건 이상의 검색이 매일 이뤄지며 실시간 경매 수백만 건이 처리된다. 4억 2500만명의 지메일 사용자들은 무료로 저장 스토리지를 제공받고 있으며 매일같이 수천만 명의 시청자들이 유튜브를 통해 비디오를 시청한다. 심지어 사용자가 검색어를 미처 다 치기도 전에 결과를 보여주고 있다.


이 같은 서비스가 가능하기 위해선 반드시 따라줘야 하는 것이 전송해야 할 데이터를 올바로 선별하고 보다 중요한 트래픽을 처리하기 위한 중앙 집중화된 네트워킹이다.


구글의 네트워크는 크게 2개로 나뉜다. 하나는 사용자들을 구글 서비스로 연결하는 망(사용자 네트워크)이고, 다른 하나는 구글의 데이터센터들을 상호 연결하는 망(내부 백본 네트워크)이다.




▲ 구글 데이터센터 내부 전경



두 개의 큰 네트워크는 데이터 흐름에 있어 서로 다른 특징과 수요를 갖고 있다. 사용자 네트워크는 매끄러운 데이터 흐름이 반드시 필요하다. 만약 서비스가 느리다면 참을성 없는 사용자들은 떠나버릴 것이고 모든 데이터 패킷이 손상되지 않고 전달되어야 한다. 만약 문서나 이메일의 핵심 문장이 누락된다면 문제가 발생할 수 밖에 없기 때문이다.


내부 백본 네트워크의 경우는 횟수가 간헐적이기는 하지만, 한번 움직일 때 엄청난 양의 데이터가 움직이게 된다. 때문에 구글은 내부 트래픽의 스케줄링 제어 과정에서 트래픽 엔지니어링에 어려움을 겪고 있었다. 또 전체 웹의 색인과 지메일의 백업 복사본 등 수십에서 수백 PB(페타바이트)의 데이터가 한 데이터센터에서 다른 데이터센터로 옮겨지는 등의 작업이 이뤄져 어려움이 발생할 수 밖에 없었다.


휠즐 부책임자는 “수많은 데이터센터 사이의 트래픽은 모두 제 각각의 비즈니스 우선 순위를 가지고 있기 때문에 이를 올바로 처리하는 것은 매운 어려운 일”이라며, “오픈플로우에서 해답을 모색했다”고 설명했다.



네트워크 활용 100% 근접

구글은 전체 내부 네트워크를 SDN 기반의 오픈플로우로 작동하도록 재구축함으로서 다양한 장점을 얻었다. 빅데이터 이동을 계획할 때 단 하나의 네트워크 스위치에 접속할 필요 없이 모든 것을 정확도를 높여 실제와 매우 근접한 수준으로 시뮬레이션 할 수 있게 됐다.


또 제품 및 서비스의 제공을 보다 빠르게 전개하는 것이 가능해 졌다. 또 네트워킹 장비는 보다 단순해지고 내구성이 좋아졌으며 관리에 드는 비용과 시간을 절감할 수 있게 됐다. 가장 큰 효과는 바로 네트워크 트래픽 효율성이다.


업계에서는 네트워크 자원 활용의 평균을 40~50%로 보고 있다. 하지만 구글은 오픈플로우를 통해 100%에 가까운 네트워크 활용 및 효율성을 얻은 것으로 평가되고 있다.




- 공개SW 역량프라자
맨 위로
맨 위로