본문 바로가기

Home > 정보마당 > 공개SW 활용 성공사례

공개SW 활용 성공사례

공개SW로 구축한 공공도서관 빅데이터 플랫폼

 

문화관광부 산하에선 R&D 관련해 7∼8개 분과가 있다. 도서관 빅데이터 분석 활용 체계 구축 사업도 이 가운데 하나다. 기술 트렌드를 접목하겠다는 취지로 빅데이터 관련 사업으로 추진한 것. 한국과학기술정보연구원(KISTI) 정보서비스센터 NDSL 서비스실 김완종 박사는 “콘텐츠와 서비스를 IT 기술 트렌드에 접목하자는 취지를 반영한 결과”라고 말한다.

 

 

- 기관 한국과학기술정보연구원
- 수행년도 2015년
- 도입배경 도서관 빅데이터 수집과 분석, 활용 체계의 효율적 구축을 위해 공개SW 기반 분산형 빅데이터 플랫폼 구축
- 솔 루 션 Hadoop, Mahout, MySQL, Solr, R
- 도입효과 전국 282개 공공 도서관을 대상으로 한 공개SW 기반 빅데이터 플랫폼 7개월 만에 구축 완료. 정형 및 비형정, 도서관 데이터 등 다양한 데이터를 효율적으로 처리할 수 있는 기반 조성

 

 

kisti_ci.png

도서관 빅데이터 분석 활용 체계 구축 사업이 시작된 건 지난 2014년 2월 1일이다. 5년 계획으로 시작해 2015년 2년차를 맞은 것이다. 공공 도서관을 대상으로 빅데이터를 수집하고 분석해 활용할 수 있는 체계를 만들어 도서관 경영 과학화와 이용자 서비스의 품질을 끌어올릴 목적으로 삼는다.

 

공공도서관과 빅데이터가 만나면

 

그렇다면 빅데이터와 도서관을 접목하면 어떤 ‘활용’이 가능할까. 김 연구원은 이 사업이 크게 3가지로 나뉜다고 설명한다. 첫째는 사서의사결정지원시스템. 공공 도서관 회원 분석과 장서 활용도 평가, 도서관 비교 분석을 바탕으로 한 도서관 경영을 지원하겠다는 것이다. 도서관이 보유한 장서 정보는 물론 매일 이곳을 드나드는 대출자가 어떤 책을 대출하고 있는지, 또 이런 지역별 도서관에선 어떤 책이 인기를 끌고 있는지 다양한 정보를 24시간 기준으로 빅데이터로 수집, 분석하는 것이다.

 

그런데 왜 24시간일까. 왜 실시간 수집을 하지 않냐고 반문해봤다. “공공 도서관마다 데이터 제공 범위나 실시간 제공 여부 등 공개를 얼마나 하는지가 제각각이기 때문”이라는 설명이다. 여기에는 서버 노후화도 작용한다. 공공 도서관에 들어간 시스템 자체가 노후화된 곳도 있다 보니 사실 빅데이터 분석 활용 체계에 사용하는 DB라고 해봐야 텍스트여서 서버 부하 걱정을 할 필요는 없지만 담당 사서나 전산직 관리자가 낮 시간을 꺼리는 경우도 많다는 것. 상황이 이렇다 보니 실시간보다는 일 단위로 데이터를 끌어와서 분석 작업을 거친 뒤 다음날 아침 담당 사서 등이 분석 결과를 활용할 수 있게 한 것이다.

 

김 연구원 설명을 빌리면 전국에 있는 공공 도서관 수는 900여 개. KISTI는 이 중 올해 282개 공공 도서관의 데이터를 수집하는 작업을 진행했다. 전국 공공 도서관 중 3분의 1을 대상한 것이다. 5년차 과제인 데다 이미 내년 진행 계획도 잡혀 있는 만큼 2016년 말이면 최소한 전국 공공 도서관 중 절반 가량의 빅데이터는 활용 가능 상태가 되는 셈이다. 물론 연구개발과제 기간이 끝나도 국립중앙도서관 등으로 이전되는 식으로 서비스는 계속 이용할 수 있게 된다. 빅데이터는 분석만큼이나 중요한 게 바로 활용이다. 두 번째 시스템이 대답이다. “이용자 맞춤형 도서 추천 서비스죠. 책콕콕이라고 하는데요. 도서 대출 패턴이나 개인별 선호 도서, 독서 취향 등을 분석해주는 것입니다.”

 

사서의사결정지원시스템이 도서관 빅데이터 수집을 통한 사서의 경영 지원에 초점을 맞췄다면 책콕콕은 대출자, 그러니까 일반 사용자를 위한 것이다. 책콕콕은 분석 결과를 활용해 누구나 활용할 수 있도록 스마트앱으로 서비스한다. 기본 구성은 마찬가지로 빅데이터를 바탕으로 개인화 책 추천 서비스를 하는 모바일앱인 북맥과 비슷하다. 하지만 책에 대해 평점을 매기고 장르별 선호도를 뽑는 등 개인별 패턴 분석이 그것. 하지만 북맥이 자체 소셜네트워킹 기능을 갖춘 데 비해 책콕콕은 이보다는 SNS 공유 기능에 초점을 맞추고 있다.

 

“또 다른 점이라면 공공 도서관과 연동되어 있다는 것이예요. 책콕콕은 도서관에서 활용하는 사용자 정보와 대조, 인증하는 절차만 거치면 개인별 도서관 대출 목록을 확인할 수도 있습니다.” 물론 인증 과정에서 보안에 민감한 개인사용자정보는 가져오지 않는다. 지역 확인을 위한 우편번호 등 최소한의 식별 정보만 이용하기 때문에 개인정보 걱정도 없다는 설명이다.

 

세 번째는 도서관 데이터 공유센터다. 전국 공공 도서관에서 수집한 데이터를 개방해 사서나 관련 연구자가 새로운 서비스를 할 수 있도록 지원하겠다는 것이다. 김 연구원은 “정부 3.0 취지를 담은 것으로 정보 공개 창구화 역할을 하는 것”이라면서 서지 데이터와 대출 기록은 물론 다양한 도서관 빅데이터를 오픈API로 제공하고 있다고 설명했다.

 

kisti_01.png
▲ 빅데이터 분석 플랫폼 구성도

 

공개SW 쓴 이유? “모든 걸 공개하겠다는 취지 반영한 것”

 

도서관 빅데이터 분석 활용 체계 구축 사업은 앞서 설명했듯 2014년 2월 사업을 시작했다. 연구과제개발을 맡은 KISTI 7명과 외주 용역 업체 6명을 투입했다. 시장 조사와 테스트 등을 거쳐 2015년 4월 중순부터 개발에 들어가 12월까지 7개월 동안 개발을 진행했고 12월 정식 오픈했다. 김 연구원은 도서관 빅데이터 분석 활용을 한 예는 해외에서도 찾아보기 어렵다고 말한다. 싱가포르국립도서관에 비슷한 사례가 있긴 하지만 아직 구축 중이라고 한다. 물론 단순하게 첫 구축 사례라는 의미만 있는 건 아니다. 정식 오픈을 앞둔 11월 공공 도서관 사서를 대상으로 조사한 결과 긍정적 호응이 많았고 최근 실시한 앱 사용성 평가에서도 만족도가 높았다는 것.

 

도서관 빅데이터 분석 활용 체계 구축 사업의 또 다른 특징 가운데 하나는 ‘공개성’에 있다. 김 연구원은 “처음부터 이 사업을 통해 구축한 모든 건 공개하겠다는 취지에 따라 진행했다”고 한다. 자연스레 데이터 분석을 위한 플랫폼에도 모두 공개SW를 사용했다. 구축 사업에 쓰인 공개SW는 다 설명하기도 쉽지 않을 만큼 많다.

 

저가 서버 등을 이용해서도 빅데이터를 손쉽게 활용, 처리할 수 있게 해주는 분산 파일 시스템인 하둡(Hadoop)과 데이터 마이닝은 물론 기계학습을 위한 공개SW인 아파치 머아웃(apache mahout) 등을 이용해 분석 플랫폼을 구축한 것. 데이터베이스는 마이SQL(MySQL)을 채택했고 공개SW 검색 엔진인 솔라(SOLR)를 이용해 검색엔진으로 색인을 잡아 속도를 높였다. 여기에 공개SW 통계 프로그래밍 언어인 R 기반으로 통계를 분석한다.
다만 R은 커맨드 방식이다. R에 대한 사전 지식이 있어야 이용이 가능한 것이다. 당연히 모르면 이용하기가 쉽지 않다. 김 연구원은 이를 감안해 R을 기반으로 여기에 GUI 인터페이스를 더한 통계분석 프로그램인 레이달(RADAL)을 개발하게 됐다고 설명했다.

 

kisti_02.png
▲ 도서관 빅데이터 분석 활용 체계 플랫폼 구조도



kisti_03.png

레이달은 GUI 인터페이스 뿐 아니라 일종의 하이브리드 분산 처리도 한다. 공개SW DB로 PC에 설치하는 SQ라이트를 이용해 데이터를 서버 뿐 아니라 PC에서도 분산 처리할 수 있도록 한 것이다. 김 연구원은 관련 특허를 지난 2014년 12월 출원했다고 밝혔다.

 

레이달은 2016년 2월 정식 버전을 선보일 예정이다. 김 연구원은 “모든 걸 공개하겠다는 원칙에 따라서 레이달 역시 인스톨 파일 버전을 일종의 프리웨어로 무상 배포하는 건 물론 소스 역시 깃허브 등을 통해 공개SW로 공개할 것”이라고 설명했다. 물론 해당 기술을 기업에도 이전, 해당 기업이 레이달을 기반으로 기능을 더한 프로 버전을 만들어 중국 시장 공략에 나설 수 있도록 했다고 한다.

 

현재 도서관 빅데이터 분석 활용 체계 구축 사업을 통해 분석한 도서관 빅데이터 정보는 빈도 분석 위주다. 김 연구원은 여기에 예측 분석도 내후년쯤 가능할지 검토하는 단계라고 밝혔다. 책콕콕 앱에는 평점 외에 책 리뷰도 실을 수 있는데 이런 비정형 데이터를 분석해 해당 서적에 대한 독자의 감정적 평가를 추출, 기계학습을 통해 분석해 제공하겠다는 것이다. 김 연구원은 이를 위한 알고리즘 구조는 이미 특허 출원에 들어간 상태라고 설명했다. 김 연구원은 이런 연구과제 개발이나 빅데이터 활용이 향하는 최종 목적지는 분명하다고 말한다. “결국 좋은 책을 추천하기 위한 것”이라는 얘기다. “개인적으로는 기술을 접목한 이들 시스템이 책을 조금이라도 더 읽게 해줄 수 있는 계기가 되기를 기대하고 있습니다.”

 

책콕콕에는 서적별 주요 키워드나 별점 같은 독자 데이터를 입력할 수 있다. 지금은 빈도 분석 위주지만 앞으로 리뷰 데이터를 기계학습으로 분석, 독자의 감정적 분석도 포함할 예정이다.

 

[인터뷰]

“공개SW 발전하려면 제도적·문화적으로 성숙한 접근 필요해”

한국과학기술정보연구원 김완종 박사

 
한국과학기술정보연구원 김완종 박사

Q. 공개SW의 장단점이 있다면 어떤 게 있을까

A. 장점은 비용이 안 든다(정확하게 말하자면 덜 든다)는 것이다. 적은 비용으로 더 많은 혜택을 줄 수 있다는 것이 아닐까 싶다. 물론 단점도 있다. 정부 과제의 경우 100% 자체 개발이 아닌 만큼 용역업체의 도움을 받게 된다. 문제는 원하는 공개SW에 익숙한 업체를 찾기가 쉽지 않다는 것이다. 또 공개SW이다 보니 시각화 툴 사용이나 GUI 같은 편의성 구조에 대한 제약이 있는 경우도 있다. 예를 들어 이번 과제에서도 차트로 구글차트 등을 썼다. 만족스러운 것도 많았지만 일부 디테일에선 떨어질 수도 있는 부분은 직접 해야 한다.

 

Q. 공개SW 발전을 위해 필요한 부분을 조언한다면

A. 제도적 보완이 필요하지 않을까 싶다. 공개SW라는 것 자체는 자발적인 생태계다. 하지만 공개SW라고 해서 저작권이 없는 건 아닌데 이에 대한 보호가 부족한 경우도 많다. 상용SW에 대해선 단속이 심하지만 공개SW는 무료라는 이유로 이런 대상이 아닌 경우도 많다는 것이다. 또 다른 측면으로는 문화적 측면에서 좀 더 성숙해질 필요가 있다. 해외에선 기부 등 다양한 공개SW에 대한 성숙한 문화가 있지만 국내에선 아직 이런 문화가 부족하다. 결국 제도적, 문화적 측면에서 모두 공개SW에 대한 성숙한 접근이 필요하지 않을까 싶다.

 



 

- 공개SW 역량프라자

 

맨 위로
맨 위로