본문 바로가기

Home > 정보마당 > 공개SW 활용 성공사례

공개SW 활용 성공사례

서울대학교 차세대융합기술연구원 - 빅데이터 기반 뉴스 서비스 개발

보도자료를 복사해서 붙여넣은 것 같은 꼭 닮은 뉴스. 정보 전달보다는 사용자 트래픽을 모으는 게 목적인 자극적이거나 선정적인 내용의 뉴스들이 넘쳐나는 요즘이다. 심지어 사실 확인조차 되지 않아 신뢰도가 낮은 뉴스들이 버젓이 뉴스 사이트와 포털사이트, SNS를 통해 걷잡을 수 없이 쏟아져 나온다.

서울대학교 차세대융합기술연구원(이하 융기원) 컨소시엄은 미래창조과학부 산하 한국정보화진흥원 빅데이터 시범사업의 일환으로 기존 뉴스 시스템의 문제점인 ‘중복 기사’와 ‘기사의 낚시성 및 선정성’을 개선하고, 논쟁과 사실 중심의 신뢰성 있는 뉴스 기사를 제공하기 위해 서울대학교 차세대융합기술연구원(이하 융기원)과 함께 신개념 뉴스 제공 웹 애플리케이션 ‘뉴스소스(News Source)’를 개발했다.

- 기     관 차세대융합기술연구원
- 수행년도 2013년
- 도입배경 많은 양의 기사 데이터의 신뢰도 높은 실시간 분석 처리
- 솔 루 션 리눅스, 하둡, HBase, MapReduce Framework, Hive, Zookeeper
- 도입효과 : 안정적인 데이터베이스 분석 및 데이터 처리 속도 개선

요즘은 말 그대로 ‘무슨 기사를 봐야 할지 모를 세상’이다. 수없이 쏟아져 나오는 뉴스 기사들을 핵심 내용만 요약해서 알려주고, 관련 내용은 다시 별도의 참고 링크로 제공해 주면 어떨까? ‘뉴스소스(News Source)’는 바로 그런 고민의 결과다.
뉴스소스는 저널리즘의 가치 반영과 알고리즘에 기초한 뉴스 큐레이션 서비스 개발을 통해 온라인 뉴스 서비스의 품질과 산업적 가치를 고양시키기 위한 목적으로 개발되었으며, 현재 한국언론진흥재단 미디어가온(www.mediagaon.oe.kr)를 통해 베타 서비스를 제공 중이다.

 


▲ 한국언론진흥재단 미디어가온에 서비스 중

 

신개념 뉴스 큐레이션 서비스

뉴스소스는 세 가지 핵심 기능을 가지고 있는데 그 첫 번째가 바로 오늘의 뉴스다. 오늘의 뉴스는 하루의 기사를 5개의 주요 카테고리로 분류하고, 유사한 기사를 묶어서 중요한 기사 위주로 요약해주는 서비스다. 이때, 중요한 기사나 대표 기사를 선정하기 위해 정보원과 문장의 내용, 기사 검색 결과 등에 따라 가중치를 부여하고, 기사를 문장 단위로 비교 분석하여 중복 기사를 하나의 그룹으로 만들고, 그룹핑 된 기사 중 대표 기사를 선정한다.
요약 기사를 클릭하면 기사 전문을 확인하거나 해당 기사와 관련된 정보원들의 인용문을 확인할 수도 있다.

 


▲ 오늘의 뉴스

 

두 번째는 검색 기능인데, 원하는 검색어를 입력하여 해당 내용에 대한 정보원의 소속별 의견을 대조해 볼 수 있다. 예를 들어, ‘창조경제’를 검색어로 입력하면 정치, 경제, 사회, 문화 각계의 주요 인물들이 창조경제에 대해 발언했던 기사의 인용문들이 중요도 순으로 자동 분류 요약되어 표시된다.

 


▲ 뉴스 검색

 

마지막으로 전문가 기능을 제공하는데, 특정 기간의 기사들을 분석하여 시계열 뉴스정보원 연결망과 정형화자료를 제공하는 기능이다. 이 기능을 이용하면 기간별 관심 이슈에 대한 정보원들의 관계 그래프가 표시되고, 각 정보원의 이름을 선택해서 해당 정보원의 인용문도 확인할 수 있다.

 


▲ 전문가 검색 기능

 

또한 HTML5 기반 반응형 웹으로 서비스를 개발하여 PC는 물론, 스마트폰과 태블릿PC에서도 최적화된 사용 환경을 제공한다.

 

효과적인 빅데이터 처리 방안 모색

박대민 차세대융합기술원 컨소시엄 뉴스팀장은 “뉴스소스는 한국언론진흥재단 카인즈(www.kinds.or.kr)와의 제휴를 통해 1990년부터 현재까지 총 66개 매체에 게재된 2천9백만 건에 달하는 기사들을 데이터로 활용한다”며, “기사 하나 당 10~15문장으로만 구성됐다고 가정하면 분석해야 하는 문장만 3억 줄이 훌쩍 넘는다”고 강조한다. 게다가 기사의 내용 자체가 비정형 데이터인 탓에 자연어처리와 분석 과정까지 거쳐야 한다. 기존에 사용하던 시스템에서는 보유하고 있는 뉴스기사를 처리하는 데에만 약 49일이 걸릴 지경이었기 때문에, 안정적이고 효과적인 빅데이터 처리 방안의 모색이 성공적인 서비스 개발의 중요한 초석이었음은 두말할 나위가 없다.

 

공개SW 기반 빅데이터 분산처리 플랫폼 구축

효과적인 빅데이터 처리를 위한 분산처리 플랫폼 개발에는 공개SW를 주로 활용했다. 먼저, 빅데이터의 분산처리를 가능하게 할 수 있도록 하기 위해 리눅스와 하둡 분산 파일 시스템을 설치하고, 데이터 노드들에 분산 저장되어 있는 데이터를 병렬처리하기 위한 맵리듀스 프레임워크와 빠른 빅데이터 분석 전처리를 위한 용도로는 하이브를 활용했다.

 

빅데이터를 저장하고 관리할 때 실시간 응답속도를 보장할 수 있도록 하기 위한 데이터베이스로는 HBase NoSQL을 활용하고 있으며, 클러스터 시스템 관리 소프트웨어로는 주키퍼를 적용하여 공개SW 위주의 빅데이터 분산처리 플랫폼을 구축할 수 있었다.

 

여기에 빅데이터 기반의 자연어 처리 기술을 개발하고, 한 대의 네임노드와 8대의 데이터노드로 구성된 빅데이터 처리 시스템에서 맵리듀스 분산 처리를 할 수 있도록 하여 처기 시간을 7배가량 향상시켰다.

 


▲ 뉴스소스의 빅데이터 처리 시스템 구성도

 

다양한 분야에 활용 가능

지난해 영국의 고등학생인 닉 댈로이시오(18세)가 자신이 개발한 뉴스 요약 서비스인 ‘섬리(Sumlly)’를 야후에 3천만 달러에 넘겨 화제가 된 적이 있다. 넘쳐나는 정보의 홍수 속에서 필요한 정보를 요약 제공하는 것이 얼마나 중요한지를 잘 보여주는 대목이다. 뉴스소스는 단일 기사를 요약하는 섬리와 달리, 유사한 여러 기사들을 묶어서 대표 기사와 함께 인용문이나 수치 등 주요 사실을 분석하여 함께 제공한다는 면에서 섬리보다 진일보한 기능을 구현했다고 볼 수 있다. 특히, 체계적 분석을 통해 낚시성 기사나 연예계의 가십 기사 등을 필터링하고, 사실에 충실하고 논쟁적인 기사 위주로 제공한다는 점도 큰 특징이다.

 

융기원은 한국언론진흥재단과 함께 디자인과 서비스 품질, 분석 결과의 완성도 제고를 위해 지속적으로 뉴스소스 서비스를 개선해 나갈 계획이다.



[인터뷰]


“뉴스소스의 활용 범위 넓어”

박대민 차세대융합기술원 컨소시엄 뉴스팀장


박대민 차세대융합기술원 컨소시엄 뉴스팀장
▲ 박대민 팀장

Q> 뉴스소스의 기술을 다른 분야에도 활용할 수 있을까?

뉴스소스가 기자나 언론학 연구자 등에게만 유용할 것으로 생각할 수 있지만 꼭 이런 직업군을 가진 사람이 아니더라도 다양한 분야에서 활용할 수 있다. 가령 새로운 시장을 개척하기 위한 신규 프로젝트 참여자가 해당 분야의 전문가를 찾거나 전문가들의 의견을 검토하는 데에도 유용하게 활용될 수 있다. 또한, 특정 이슈에 민감한 기업 홍보실이나 컨설턴트들이나, 어떤 주제에 대해 언론에 보도된 사실을 바탕으로 보고서를 작성해야 하는 학생이나 직장인 등 다양한 분야에서 활용이 가능할 것으로 예상하고 있다.

 

Q> 자연어 처리를 위해 추천할만한 공개SW가 있나?

뉴스소스의 한글기사 처리를 위해 ‘꼬꼬마 형태소 분석기(kkma.snu.ac.kr)’를 활용하고 있다. 꼬꼬마 형태소 분석기는 말뭉치 통계 정보 조회와 말뭉치 검색 등의 주요 기능을 제공하며, GPL 2.0을 따르는 공개SW다. 기사뿐만 아니라 문법에 맞지 않는 비문의 자연어 처리에서도 탁월한 성능을 발휘하기 때문에, 블로그나 SNS 등의 문장을 분석하는 데에도 유용하게 활용할 수 있다.




- 공개SW 역량프라자
맨 위로
맨 위로