본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

구글과 아마존이 거대한 IT 인프라를 관리, 확장하는 방법

OSS 게시글 작성 시각 2013-12-02 17:39:29 게시글 조회수 3301

2013년 11월 30일 (토)

ⓒ ITWorld, Joab Jackson | Computerworld



구글과 아마존 같은 인터넷 분야의 거인들은 대다수 기업은 상상조차 못 할 거대한 규모로 IT를 운영한다. 그러나 이들이 거대 시스템을 관리하면서 터득한 교훈은 산업 내 다른 기업들에도 도움이 될 수 있다.

구글과 아마존의 엔지니어들은 최근 몇 주 동안 개최된 몇몇 컨퍼런스에서 관리 문제를 최소화하면서 시스템을 확장한 방법 일부를 소개했다. 먼저 구글의 사이트 신뢰성 엔지니어인 토드 언더우드는 워싱턴에서 개최된 유즈닉스 LISA(Large Installation Systems Administration) 컨퍼런스에서 '경제성' 문제를 설명했다. 그는 이날 컨퍼런스의 청중인 시스템 관리자들에게 "구글이 가장 중시하는 부분은 경제성이며 ‘미친 듯이' 비용을 통제해야 한다”며 "수요와 함께 확장되는 기술들이 저렴하지 않을 경우 재앙이 될 수 있다는 교훈을 터득했기 때문”이라고 말했다.

언더우드는 서비스가 증가하면, 비용은 '그 아래 선'으로 증가를 해야 한다고 말했다. 예를 들어 100만 명의 사용자가 추가될 때 비용은 항목과 관계없이 1,000단위 이하가 돼야 한다는 것이다. 여기서 비용은 시간, 컴퓨터 자원, 연산력(Power)을 의미한다. 구글은 이 때문에 시스코나 주니퍼 같은 기업의 완제품 라우팅 장비를 구매하지 않는다. 많은 포트가 필요하므로 자체적으로 구축해야 비용을 절약할 수 있다.

구글 같은 대기업만 이런 어려움을 겪는 것이 아니다. 예를 들어, 구글은 지메일(Gmail)과 구글 플러스(Google+) 같이 작고 많은 서비스로 구성되어 있다. 언더우드는 "구글 전체를 놓고 본 확장과 각 사업 부문의 대다수 애플리케이션 개발자들이 처리하는 확장은 다르다”며 "그러나 이들은 서로, 그리고 모든 사람이 이해하는 방법으로 시스템을 운영한다"고 말했다. 이어 "구글은 또 가능한 모든 것을 자동화하고 있다”며 "기계가 정말 많은 일을 처리한다"고 덧붙였다.

궁극적으로 기업은 시스템 관리 기능을 없애야 한다. 다른 이들이 제공하는 기존 서비스를 혁신하거나 이를 기반으로 구축해야 한다. 그러나 언더우드는 아직은 이러한 단계는 실현 불가능하다고 인정했다. 그는 "시스템 관리 업무를 이제 중단해야 한다는 것은 의심할 여지 없는 사실”이라며 “그동안 우리는 시스템 관리에 지나치게 의존해 온 측면이 있다”고 말했다.

구글의 가장 큰 경쟁자는 빙(Bing), 애플(Apple), 페이스북(Facebook)이 아니다. 구글 자신이다. 구글의 엔지니어들은 가능한 신뢰할 수 있는 제품을 만드는 것을 목표로 하고 있다. 그러나 이것이 유일한 과업은 아니다. 제품의 신뢰도가 지나치게 높으면, 즉 99.999% 이상이 되면, 비용 측면에서는 '돈 낭비'를 하는 서비스가 된다.

언더우드는 "100%의 가용성 달성이 중요한 것이 아니고 목표로 삼은 가용성을 가능한 한 빨리 달성하는 것이 중요하다”며 "목표를 지나치게 초과하면 '돈 낭비'를 하는 것이다"고 지적했다. 이어 "기회비용이야말로 구글의 가장 큰 경쟁자이다”라고 덧붙였다.

한편 뒤이어 라스베이거스에서 열렸던 아마존 웹 서비스(AWS)의 리인벤트(re:Invent) 컨퍼런스에서는 AWS의 부사장이자 공훈(distinguished) 엔지니어인 제임스 해밀톤이 아마존의 확장 비법을 공개했다. 아마존은 모든 정보를 공개하고 있지는 않다. 그러나 AWS가 놀라운 속도로 성장하고 있다는 점은 분명하다. 매일 2000년의 총량에 해당하는 (서버, 라우터, 데이터 센터 장치 등) 컴퓨터 자원이 추가되고 있다. 해밀톤은 이를 ‘과거와는 다른 유형의 확장’이라고 소개했다.

2006년 런칭된 AWS의 핵심은 아키텍처 설계이다. 해밀톤은 아마존이 운 좋게 출발부터 AWS 아키텍처를 바로 잡을 수 있었다고 말했다. 그는 "고속 성장을 하면, 아키텍처를 학습하게 되는데 아키텍처에 문제가 있고, 애플리케이션에 오류가 발생하고, 고객이 이를 대규모로 이용하고 있다면, 서비스 중단을 비롯한 많은 문제가 발생한다"고 말했다.

해밀톤은 AWS에서 서비스를 배치하는 비용은 크게 기반 셋업과 배치 비용으로 나뉜다고 설명했다. 대다수 기업에서 IT 기반은 사업의 핵심이 아닌 비용이다. 그러나 AWS의 엔지니어들은 전적으로 기반 관련 비용을 낮추는데 초점을 맞추고 있다. 아마존은 구글과 마찬가지로 서버 같은 장치를 독자 구축하는 경우가 많다. 일반적인 대기업에 모두 통하는 방법은 아니지만, AWS 정도의 규모로 운영할 경우에는 효과적이다.

해밀톤은 "수만 대의 서버가 같은 작업을 처리하는 데 하드웨어를 최적화하지 않으면 결국 고객이 손해를 본다”며 “그는 통상의 IT 하드웨어 유통 채널을 통해 판매되는 서버 가격은 제조업체에서 개별 부품을 구매하는 것보다 약 30%가 비싸다”고 말했다. AWS는 이런 방법을 통해 고객에게 이전이 될 비용을 줄이고, 부품 제조업체와 직접 대화를 하면서 AWS에 도움이 될 개선 방법을 찾고 있다. 해밀톤은 "경제적일뿐더러 혁신 측면에서도 장점이 많다."고 말했다.

기계 한 대가 수천 개의 노드와 노드별로 수십 개의 프로세서로 구성된 슈퍼컴퓨팅은 클라우드 컴퓨팅 못지않게 확장성 관련 도전이 많은 분야이다. SC13 슈퍼컴퓨터 컨퍼런스 마지막 날, 운영자와 업체들로 구성된 패널이 슈퍼컴퓨팅의 확장성 문제를 논의했다.

일리노이 주립대학 어반나 샴페인 분교(University of Illinois at Urbana Champaign)에 NCSA(National Center for Supercomputing Application)가 지원한 슈퍼컴퓨터인 블루 워터스(Blue Waters)를 책임지고 있는 윌리엄 크래머는 슈퍼컴퓨팅이 크게 성장하면서, 투자 효과를 최대화하는 새로운 워크로드 스케줄링 툴에 대한 수요를 견인하고 있다고 말했다.

그는 “15년 전만 하더라도 몇 개의 시스템으로 스케줄링을 처리했지만, 지금은 작은 실리콘 조각인 칩이 이를 처리하고 있다”며 "미래에는 운영 시스템이나 프로그래머가 우리가 지금 담당하고 있는 스케줄링 작업 일체를 처리할 것”이라고 말했다.

과거 슈퍼컴퓨팅 출력을 측정했던 매트릭스 또한 생명을 다한 것으로 보인다. 올해, SC500 리스트의 컴퓨터를 비교하는 린팩(Linpack) 이라는 벤치마크의 개발자 중 한 명이었던 잭 돈가라는 새로운 매트릭스가 필요하다고 목소리를 높였다. 슈퍼컴퓨터의 효과성을 더 정확히 측정할 필요가 있기 때문이다.

물론 시스템의 효율성을 정확히 측정하기란 어렵다. 크래머는 "단순하게 각 노드의 효용률을 측정하는 것이 아니라, 일정 기간 시스템을 통해 처리한 작업량을 측정해 한다"고 말했다. 그는 기업들이 각 노드의 사용 비율을 측정해 시스템 효용률을 측정할 수 있다고 말했다. 그러나 이 방법에는 문제가 있다. 워크로드를 늦춰 효용률을 높일 수 있기 때문이다. 이 경우 시스템이 처리한 작업량은 줄어든다.

인텔의 HPC 마케팅 디렉터인 존 헨게벨드는 슈퍼컴퓨팅 분야의 종사자들이 항공기 제트 엔진 제조업체에서 '힌트'를 얻을 수 있다고 말했다. 그는 "롤스로이스 같은 경우 제트기 엔진이 아닌 항공에서의 제트기 추진 시간을 금액으로 환산해 대금을 지급한다”며 "칩을 사는 것이 아니라 '결과'를 사는 것인데 이런 방법을 활용할 수 있을 것으로 생각한다”고 말했다.



※ 본 내용은 한국IDG(주)(http://www.itworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒITWORLD. 무단전재 및 재배포 금지


[원문출처 : http://www.itworld.co.kr/news/84913]

맨 위로
맨 위로