Home > 정보마당 > 공개SW 활용 성공사례

공개SW 활용 성공사례

2013
하둡(Hadoop), 하이브(Hive), 주키퍼(Zookeeper), 플럼(Flume), 레디스(Redis), 스톰(Storm), 스파크(Spark), 임팔라(Impala), 타조(Tajo), 갱글리아(Ganglia), 패브릭(Fabric), MariaDB(마리아DB), 알(R)
전면적인 공개SW 도입 통해 대량 데이터 수집 및 분석 가능

올해로 창사 30주년을 맞은 SK텔레콤은 새로운 화두로 ‘ICT노믹스’를 제시, 앞으로의 30주년을 위한 성장 비전을 세웠다. 통신으로부터 발생되는 무수한 데이터를 활용하는 빅데이터 기술을 미래의 성장 기반 요소로 낙점하고 이를 위해서 인프라 구축에 돌입했다. SK텔레콤은 비용 대비 높은 성능이 기대되는 공개SW로 빅데이터 인프라 구축을 결정 한 후  성공적인 구축은 물론이고 기술내재화를 실현했다고 밝혔다.

- 기     관 SK텔레콤
- 수행년도 2013년
- 도입배경 대량 데이터 수집 및 분석 위한 인프라 확보 필요성 인식
- 솔 루 션 하둡(Hadoop), 하이브(Hive), 주키퍼(Zookeeper), 플럼(Flume), 레디스(Redis), 스톰(Storm), 스파크(Spark), 임팔라(Impala), 타조(Tajo), 갱글리아(Ganglia), 패브릭(Fabric), MariaDB(마리아DB), 알(R)
- 도입효과 : 개발비 절감, 벤더종속성 탈피 및 기술내재화를 통한 유지보수 역량 확보

SKT 로고

1984년 차량전화(AMPS 방식)로 사업을 개시한 SK텔레콤은 1996년 CDMA 상용화 이후 대표적인 이동통신사로 자리매김 했다. 이후 광대역 LTE-A가 서비스되는 지금까지 시장점유율 50% 이상을 확보하는 등 국내 통신업계 손꼽히는 기업 중 하나이다.


올해로 창사 30주년을 맞아 향후 30년을 위한 비전으로 ‘ICT노믹스(ICT + Economics)’를 제시했다. 관계자에 따르면 ‘ICT노믹스’는 ICT가 생산과 소비뿐만 아니라 사회 전반에 걸쳐 혁명적 변화의 촉매로 작용하는 새로운 형태의 경제를 일켣는다고. SK텔레콤은 비전을 실현하기 위한 새로운 성장 기반을 닦는데 한창이다. 그 중 빅데이터 인프라와 인공지능 기술이 융합된 지능형 플랫폼을 향후 10년간 최대 성장 분야로 전망하고 빅데이터 인프라 구축을 서둘러 진행했다.



공개SW 전면 도입


그동안 버려졌던 데이터들까지 활용 가능한 인프라 구축을 계획한 후, 회사도 처음에는 기존에 사용하던 버티카(Vertica)를 대신해 클라우데라의 하둡 시스템 구입을 고려했다고 SK텔레콤 성장기술원 데이터테크 랩 안성화 부장은 설명한다. 하지만 서버 당 연간 400만 원에 가까웠던 가격은 대규모 시스템을 구축하는데 상당히 부담스러운 액수였다. 게다가 다른 공개SW를 추가적으로 활용하기 어려운 점 등 호환성에 제약이 있다는 단점도 존재했다.


이에 따라, 성장기술원의 데이터테크 랩(Data Tech. Lab)은 공개SW로 빅데이터 인프라를 구축하기로 의견을 모았다고. 2013년부터 본격적으로 사업에 착수했다. 하둡(Hadoop) 서버를 기존 40대에서 1,100대까지 늘리면서 주키퍼(Zookeeper), Flume(플럼), 스톰(Storm), 스파크(Spark) 등을 구비하는 한편, SQL 온 하둡(SQL on Hadoop)으로 기존에 사용하던 하이브(Hive)에 더해 임팔라(Impala)와 타조(Tajo)도 도입했다.



안팀장은 구축 당시 임팔라와 타조 외에는 BMT(벤치마크 테스트) 결과만 제시되는 등 선택이 쉽지는 않았다고 한다. 고려대학교 정보통신대학 컴퓨터학과 DB연구실에서 개발되기 시작해서 최근 호튼웍스의 하둡 배포판에도 포함된 타조의 경우, SK텔레콤에서 그 가능성을 인정하고 초기부터 시범적으로 적용하면서 프로젝트를 함께 발전시켜왔다. 처리속도는 빠르지만 접근하려는 데이터양이 일정 수준 이상 올라가면 작동하지 않거나 불안정해지는 임팔라와 달리, 타조는 맵리듀스보다는 속도면에서 우수하기도 하고 접근하려는 데이터양이 많아져도 안정적이란 점에서 선택하게 되었다는 것이다. 현재는 하이브와 함께 각각의 용도에 맞춰 사용하고 있다고 덧붙여 말했다.


하둡 위주의 구성에 램캐시도 사용하는 효율적인 시스템 구성이지만, 최종적으로 정제된 일부 데이터를 위한 RDBMS로는 소수의 마리아DB(MariaDB)를 사용하고 있다. 기존에는 MySQL을 사용했으나, 썬마이크로시스템즈가 오라클에 인수되면서 혹시 모를 라이선스 정책에 대비하기 위해 마리아DB로 대체한 것이다.



공개SW로만 빅데이터 인프라를 구성



▲ SKT 빅데이터 아키텍처


SK텔레콤의 빅데이터 아키텍처는 일반적인 하둡 에코시스템과 대동소이하다. 먼저 통신기지국을 예를 들면, 상태와 장애여부, 장애의 원인까지 신호를 보내온다. 이전엔 장애원인을 알아내기 위해서는 사람이 직접 기지국에 가서 파악해야 했지만, 이 로그를 활용하면서부터 그런 수고를 덜 수 있게 되었다.


이러한 로(Raw) 데이터를 플럼으로 수집, 분석을 위해 하둡으로 옮긴다. 주키퍼는 이 과정에서 노드들을 조정해주는 역할을 맡는다. 통신량 급증 지역을 파악해 이동기지국 차량을 파견하기 위해서는 실시간 분석이 요구된다. 이러한 스트리밍 데이터 처리를 위해 스톰 또는 스파크로 옮긴다. 이때 스톰의 경우에는 레디스가 중간 매개체 역할을 맡아 데이터를 보다 빠르게 받도록 돕는다. 기존에는 스톰만 쓰다가, 머신 러닝도 지원하는 스파크가 등장하면서 각각 적용해보고 있다.


하둡에 적재된 로그데이터들은 먼저 구성해놓은 하이브를 통해 표준화되며 1차적으로 정제된다. 이후 2차적으로는 각 클러스터에서 하이브, 임팔라, 타조 등을 통해 용도에 맞게 다시 정제된다. 속도보다 다각도의 접근방법이 필요한 경우에는 다양한 기능을 제공하는 하이브를, 작은 데이터에 대해 빠르게 결과를 도출하기 위해서는 임팔라를, 안정적으로 정형화된 리포트를 만들기 위해서는 타조를 활용한다.


이밖에 갱글리아는 이러한 과정들을 전체 클러스터 관점에서 모니터링해주고, 서버 매니지먼트 툴인 패브릭은 프로비져닝을 지원한다. 시스템에서는 하루에 2만 7천여 개의 잡이 처리되고, 가공을 마친 데이터는 별도의 분석 파트로 옮겨져 R 등의 프로그램을 통해 분석에 활용된다.


분석 파트로 데이터를 보내기 전까지 일련의 과정은 관제·프로파일링의 5명과 클러스터별 개발의 10명이 담당해 SK텔레콤 내부에서 직접 관리하고 있다. 여기에 SK C&C, 그루터, 모비젠 등 협력사 인력 15명까지 총 30명이 근무 중이다.



빅데이터를 향한 한걸음, 기술 내재화를 통한 경쟁력 확보


회사 관계자는 SK텔레콤이 이러한 분석결과를 기지국 관리, 유동인구 분석, 통화품질 관리, VoC 분석, 전환이탈(Churn-Out) 예측 등 다양하게 활용중이라고 말한다. 초기부터 전면적인 공개SW 도입을 구상했기에 이러한 대규모 시스템을 구축할 수 있었고, 이를 상용SW로 구축하려면 수백억 원으로도 부족할 수 있으므로 어쩌면 시작조차 못했을 일이라고.


더붙여 안부장은 “빅데이터는 우리 손으로 직접 한다”는 생각으로 다양한 기술을 접목하면서 역량을 강화, 기술 내재화를 이룰 수 있었다고 말한다. 이를 통해 벤더종속을 탈피, 자체적으로 꾸준한 업그레이드가 가능해져 저비용이나 고효율로 원하는 데이터를 빠르게 얻을 수 있는 기반을 갖추게 되었다는 것이다. 회사는 앞으로도 지속적으로 시스템 구축에 공개SW를 활용을 더욱 확대해 나갈 계획을 밝혔다.


[인터뷰]


“공개SW 활용이 경쟁력을 높이는 길”

안성화 SKT 성장기술원 데이터테크 랩 부장


안성화 SKT 성장기술원 데이터테크 랩 부장

공개SW 도입을 통한 빅데이터 인프라 구축 시 어려웠던 점은?

하둡만 도입하면 대량의 데이터가 잘 처리되는 것은 아니다. 가장 먼저 했었던 일은 리눅스를 튜닝해 페이지 캐시(page cache) 할당을 효율적으로 개선했던 것이다. 이를 통해 속도가 약 100배 정도 빨라졌다. 리눅스를 잘 모르면 하둡을 다루는데 한계가 있다.


경영진에서는 처음부터 믿어주고 지원해줬기 때문에 공개 SW 도입 자체에 큰 어려움은 없었다. 이머징 테크놀로지라 가능하면 직접 하는 게 좋기도 하고, 또 다룰 수 있는 이들이 데이터테크 랩에 모였다고 생각한다. 오히려 이후 추가적인 기능을 구현하는 부분에서 선택이 어려웠지만 개별 기술에 대한 충분한 분석과 커뮤니케이션을 통해 만족스런 성과를 낼 수 있었던 것 같다.



공개SW 활용의 이점은 무엇인가?

밴더에 종속되면 시스템 유지 보수에 예산, 시간이 많이 소요된다. 공개SW도 경우에 따라서는 비용이 발생하지만 상용SW에 비해 부담이 적은 편이고, 자체 구축의 경우 비용이 거의 들지 않는다. 원하는 때에는 별도의 비용 없이 즉시 개선 및 보완이 가능하다는 것이 가장 큰 장점이다. 또 수많은 사람들의 협력을 통해 발전해나가는 모델이므로 새로운 기능을 보다 빠르게 적용할 수 있는 측면도 있다. 이렇게 기술을 다양하게 접목시켜 풍부한 경험을 얻을 수 있고, 이를 통해 기술 내재화를 이룰 수 있다. 자체적으로 공개SW를 다룰 역량이 부족하다면 전문 업체와의 협력을 통해 기술력을 습득하는 것을 추천한다.


공개SW를 활용하면 개인의 경쟁력도 높아진다. 항상 시스템을 공부하게 되고, 문제에 접근할 때도 세밀하게 접근할 수 있게 된다. 지난 12년 동안은 다양한 곳에서 공개SW만을 다뤄왔고, 공개SW는 문제를 찾는데 아주 좋은 도구라고 생각한다. 앞으로는 공개SW 생태계에 더 많이 기여하고자 한다.



요즘에는 사회 전반에서 데이터 수집에 대해 민감해진 측면도 있다. 개인정보는 어떻게 처리하는지 궁금하다?

SK텔레콤은 개인정보보호법을 준수, 빅데이터 시스템에서는 신원을 식별할 수 있는 모든 정보를 로그 수집 단계에서부터 제외시킨다. 가입자관리번호 등 문제가 발생할 수 있는 모든 정보를 기계적으로 누락시킨 채로 수집과 분석을 시작하니, 오해가 있다면 안심해도 된다.




- 공개SW 역량프라자
맨 위로
맨 위로