본문 바로가기

Home > 정보마당 > 공개SW 활용 성공사례

공개SW 활용 성공사례

[공개SW 활용 성공사례 134] 뉴스젤리 – 공개SW 기반 파이썬 라이브러리 구축

OSS 게시글 작성 시각 2014-06-03 15:35:49 게시글 조회수 1957
공개SW로 만든‘말랑말랑한 데이터 저널리즘’

뉴스젤리는 빅데이터를 분석하는 한편 이를 활용해 인포그래픽을 비롯한 시각화 정보로 제공하는 데이터 저널리즘을 추구하는 회사다. 젤리처럼 말랑말랑한 뉴스를 제공하겠다는 취지로 만든 뉴스젤리는 방대한 뉴스 콘텐츠의 빅데이터 분석을 위한 시스템 전체를 공개SW와 공개 라이브러리만으로 구축했다. 신생 스타트업 입장에선 구축에 들어간 소프트웨어와 라이브러리 비용이 제로라는 것이 엄청난 비용 절감 효과로 이어졌다는 설명이다.

- 기     관 뉴스젤리
- 수행년도 2013년
- 도입배경 이미 다수 존재하는 공개 라이브러리 활용으로 라이브러리 구축 비용 절감 가능성 제기, 공개SW 활용으로 빅데이터 구축에 따른 비용부담 해소 절실
- 솔 루 션 파이썬(Phthon), 아사나(Asana), 트렐로(Trello), 깃(Git), 비트버킷(Bitbucket), 마이SQL(MySQL), 몽고DB(MongoDB)
- 도입효과 : 라이브러리와 프로그래밍 언어, DB 등 개발과 시스템 관련 내용을 모두 공개SW로 택해 관련 소요비용 제로 실현, 공개 라이브러리의 적극적 활용으로 개발 부담을 줄이는 등 업무 효율성 향상

빅데이터의 대중화가 목표

뉴스젤리(http://newsjel.ly/)는 데이터 저널리즘을 추구하는 회사다. 구글 에릭 슈미트 회장은 “인류가 시작된 이후 2003년까지 모든 데이터양은 최근 이틀치 데이터량과 같다”고 말할 만큼 엄청난 데이터가 쏟아지고 있다. 데이터 저널리즘이 뜨는 이유도 여기에 있다.

빅데이터나 데이터를 활용한 저널리즘에 대한 관심은 이미 몇 년 전부터 높아진 상태다. 하지만 뉴스젤리는 이런 딱딱한 데이터를 “젤리처럼 말랑말랑한 뉴스로 제공하겠다”는 컨셉트를 내걸었다.

 

이 회사 정병준 공동 대표는 같은 한양대 인공지능연구실 출신 개발자인 임준원 씨와 지난해 12월 말랑말랑한 아이디어를 담은 뉴스젤리 베타 서비스를 오픈한 데 이어 올해 3월 30일 법인화를 하면서 본격적인 사업을 시작했다. 데이터 분석과 인포그래픽으로 대표되는 시각화를 더한 서비스를 목표로 삼았다.

 

▲ 뉴스젤리의 인포그래픽 기사

서비스 전체에 공개SW 활용

뉴스젤리는 공공데이터를 비롯해 주요 포털과 카페, 커뮤니티, 블로그 등 일반 인터넷 데이터까지 다양한 데이터마이닝을 통해 데이터간 상호 연관성과 패턴 등을 찾아 이를 태그 클라우드나 인터랙티브 차트, 인포그래픽 등 다양한 데이터 시각화 형태로 보여준다. 당연히 핵심은 데이터 분석 과정이다.

 

뉴스젤리는 이를 위해 공개SW를 적극적으로 사용하고 있다. 정 대표는 “시스템 내에서 쓰는 건 모두 공개SW라고 보면 된다”고 말할 정도다. 서버 같은 물리적인 형태를 빼곤 구축 비용은 제로인 셈이다. 시스템은 개발자 출신인 정 대표와 직원 2명이 달려들어 직접 구축했다.

 

이런 말랑말랑한 데이터 분석 처리를 위한 시스템 구축에 이용한 프로그래밍 언어는 파이썬(Python)이다. 파이썬은 지난 1991년 네덜란드 프로그래머인 귀도 반 로섬(Guido van Rossum)이 만든 동적 타이핑 프로그래밍 언어로 구글이 만든 소프트웨어 가운데 50% 이상은 파이썬으로 만들었다고 한다. 유명 클라우드 서비스인 드롭박스도 마찬가지다.

 

물론 프로그래밍 언어의 선택 자체만 놓고 말하면 직접 비용 자체가 크게 달라지는 부분은 없지만 장점이 더 많다. “흔히 말하는 것처럼 공동 작업이나 유지 보수가 쉽고 문법도 간결해 가독성이 좋습니다” 정 대표는 이런 파이썬의 장점이 사람이 보기 쉬운 스크립트 방식 언어인 덕에, 대응이 수월할 뿐 아니라 개발자가 배우거나 적응하기도 쉬운 장점이 있다는 설명이다. 정 대표의 말처럼 실제로 파이썬은 인간다운 언어라고 불린다.

 

“C언어는 교육 기간이 길죠. 하지만 파이썬의 경우에는 새로 배우는 데 그리 오랜 시간이 걸리지 않아요.” 정 대표는 또 공개SW 라이브러리도 파이썬으로 되어 있는 게 많고 프레임 워크가 잘 되어 있다는 점 등이 파이썬을 채택한 이유라고 덧붙였다.

 

뉴스젤리가 이용 중인 파이썬 버전은 2.x다. 3.x 버전도 나오긴 했지만 보통 잘 안 쓴다고 한다. 기존 라이브러리가 2.x 버전과 호환성이 좋기 때문이라는 설명. “예를 들자면 데이터를 처리하려다 보니 분산 네트워킹을 위해서 파이썬 라이브러리인 셀러리(Celery)를 이용 중인데요. 이것도 2.x 버전과의 호환성이 좋아요.”
정 대표는 시스템을 구성하면서 뉴스젤리를 구성하는 다른 요소도 모두 공개SW로 개발했다. “죄다 공개SW, 오픈 라이브러리를 쓴다고 생각하면 됩니다.” DB만 해도 SQL라이트나 MySQL, MongoDB 등 다양한 걸 활용 중이다. DB 성능이나 효용성이 다르기 때문이라는 설명이다.

 

“DB가 관리하는 데이터에 따라 달라져요. DB 성능이라는 게 조금씩 다르죠. 어떤 건 데이터 입력이 빠르고 어떤 건 데이터 획득이 빠르죠. 툴 제공이나 다양한 성격에 따라서 DB를 선택해서 쓰고 있어요” 정 대표는 “이렇게 시스템에 들어가는 모든 게 공개SW인 만큼 엄청난 비용 절감 효과가 있다”고 말한다. “기능적인 건 물론이고 비용적인 장점이 정말 크죠. 상용 SW를 쓴다는 건 스타트업 입장에선 상당한 부담이기도 하고요”

 

뉴스젤리는 시스템 구축 뿐 아니라 프로젝트 개발이나 콘텐츠 기획을 할 때에도 공개SW 기반 협업 툴을 적극적으로 활용하고 있다.

구글독스 외에 프로젝트 관리에는 아사나(Asana), 콘텐츠 기획과 운영 관리에는 트렐로(Trello), 버전 관리에는 깃(Git)과 비트버킷(Bitbucket) 등을 이용하고 있다. 공개SW 기반 온라인 협업 툴을 적극적으로 쓰는 이유는 간단하다. “뉴스젤리 성격상 콘텐츠를 제작하려면 기획이 필요해요. 그런데 데이터와 시각화 2가지가 다 필요하니 디자이너나 기획팀 모두 협업이 필요하죠. 이럴 때 온라인 협업 툴을 이용하는 거죠.” 적극적인 온라인 협업 툴 활용은 서로 다른 업무를 하는 직원끼리 진행 상황을 확인할 수 있는 등 작업 효율성을 끌어올려주는 역할을 한다.

 


▲ 뉴스젤리의 시스템 구조

 

누구나 쓸 수 있는 데이터 시각화 솔루션 만들 것

뉴스젤리는 데이터 저널리즘에서 중요한 요소 가운데 하나인 공공데이터 활용에도 열심이다. 지난 4월에는 서울시와 공공데이터 관련 MOU를 맺고 공공데이터를 주제로 그 안에서 볼 수 있는 인사이트를 콘텐츠화해서 제공 중이다. 정부도 정부 3.0이 되면서 열린 정부를 강조하는 등 공공데이터를 제공하는 데 열성적이라는 설명이다.
물론 몇 가지 아쉬운 것도 있다. “아직 정리가 안 되어 있거나 오픈이 안 된 것도 여전히 있다”는 것. 공공데이터에 있는 정보를 실제로 찍어보니 실제값과 다른 것도 있었다고 한다. “실제 데이터를 정리하는 공무원도 자주 자리를 옮기게 되면 그때마다 교육을 반복하는 상황도 있는 것 같다”고 말한다. 정 대표는 공공데이터도 오픈API가 있는 만큼 오픈API를 통해 제공되는 공공데이터는 표준화해서 제공하는 것이라 활용하기도 좋다고 말한다. 다만 일부는 여전히 파일 형태로 제공하기도 한다. 이럴 때에는 활용하는 쪽에선 일일이 파일을 열어서 옮기는 수작업을 반복해야 하는 번거로움이 있다는 설명이다.

 

뉴스젤리는 공개SW와 공개 라이브러리를 활용해 구축한 시스템을 더 확장할 계획이다. 올 연말까지 데이터 시각화 솔루션을 선보일 예정인 것. 사이트 내에 있는 젤리랩을 통해 일단 6월에는 트위터 데이터를 수집해서 원하는 걸 추출할 수 있는 기능을 추가한다. 순차적으로 몇 개 오픈하면 데이터 시각화 솔루션이 된다.

 

“누구나 원하는 키워드로 데이터를 크롤링하고 간단한 분석기를 돌려서 그 안에서 분석 결과를 얻을 수 있게 하는 거죠.”

분석 결과는 보고 싶은 시각화 도구를 이용해 볼 수 있게 해주는 것까지 진행할 계획이다.

 


▲ 뉴스젤리 홈페이지

 

분석 방법에도 차별화를 꾀한다. “예를 들어 긍정·부정을 판별해주는 기능이라면 이런 판단은 텍스트 기반 데이터를 키워드 분석해서 빈도수나 단어 의미 등으로 판단하는 텍스트 기반”이라면서 뉴스젤리는 단순히 텍스트 기반 뿐 아니라 수치화된 데이터 분석까지 가능한 기술을 개발 중이라고 밝혔다. “데이터 마이닝 기법이나 통계적 방법도 도입하고 있어요. 음성 신호를 통계적 모델로 표현하는 마코프 모델(Markov Model) 같은 것도 활용해서 상황 예측 등이 가능한 모듈을 만드는 식이죠.”

 

정 대표가 빅데이터의 대중화를 강조한다. “보통 외산 시각화 솔루션은 비싸거나 사용하기 어렵지만 뉴스젤리는 더 저렴하게 많은 사람이 빅데이터를 이용할 수 있게 하겠다”는 것이다. 차별화 포인트 가운데 하나는 시각화 자체를 더 다양하게 가져가는 것이다. “지금 나온 시각화 솔루션이라는 게 차트를 좀더 예쁘게 보여주거나 아니면 연결 관계를 잘 보여준다든지 데이터 자체를 단순히 시각화하는 수준”이라는 것. 뉴스젤리는 콘텐츠를 제작하는 입장에서 콘텐츠 템플릿으로도 제공이 가능하다고 생각하고 있다. 사람들이 관심 가는 대상을 검색하고 결과물을 다양한 시각화를 통해 자신의 블로그나 홈페이지 등에 올릴 수 있게 콘텐츠 템플릿을 제공하겠다는 것이다.

 

이런 기능 자체를 한데 묶게 될 데이터 시각화 솔루션은 고도화된 일부는 유료로 지불하는 형태지만 기본 기능 자체는 모두 무료로 제공할 계획이다. “최대한 아무런 배경 지식이 없는 사람도 쉽게 쓸 수 있게 만드는 것. 누구나 빅데이터를 쉽고 저렴하게 사용할 수 있게 하는 걸 목표로 삼을 생각입니다.”

 

 

[인터뷰]


“보안 확보는 물론 수억 원 대의 절감 효과 기대”

뉴스젤리 정병준 대표


뉴스젤리 정병준 대표
▲ 뉴스젤리 정병준 대표

Q. 파이썬 기반 공개SW 프로그래밍 언어를 택한 이유는?

A. 파이썬이라는 프로그래밍 언어가 잘 되어 있고 오픈소스 라이브러리가 파이썬으로 된 게 많죠. 프레임워크도 잘 되어 있구요. 그 뿐 아니라 온라인 협업 툴도 많이 활용하는데 아사나나 트렐로, 구글독스 등을 적극적으로 쓰고 있습니다. 아사나는 프로젝트를 진행할 때 관리를 위해서 쓰고 트렐로는 콘텐츠 기획, 구글독스는 문서 작업 등에 활용하고 있어요. 깃이나 비트버킷 같은 서비스를 이용해서 소스 관리나 버전 관리에도 적합합니다.

 

Q. 비용적인 측면에의 장점은 없었나

A. 당연히 비용적인 측면이 크죠. 스타트업 입장에선 상용SW를 쓰면 나가는 비용 부담이 크니까요. 온라인 협업 툴의 경우에는 웹서비스 자체가 무료인 게 많아요. 상용으로 그런 걸 쓰기에는 규모가 작은 스타트업 입장에선 굳이 그럴 필요도 없는 것이고요.

 

Q. 비용적인 면에서만 장점이 있었나

A. 그렇지 않죠. 기능도 떨어질 게 전혀 없어요. 실제로 뉴스젤리는 죄다 공개SW도 만들었다고 생각하시면 되요. 파이썬의 경우에는 실제로 공동 작업이나 유지 보수가 쉽고 문법이 간결하고 가독성도 좋습니다. 실제로 파이썬은 사람이 더 보기 쉬운 스트립트 방식 언어여서 더 좋아요. 대응도 수월해서 운영, 관리적인 측면에서도 장점이 많습니다.




- 공개SW 역량프라자
맨 위로
맨 위로