Home > 열린마당 > 공개SW 소식

공개SW 소식

2012년 05월 13일 (일)

ⓒ 블로터닷넷, 이지영 기자 izziene@bloter.net


빅데이터 관련 인재를 키우는 프로그램이 곳곳에서 눈에 띈다. 한국테라데이타는 투이컨설팅과 협력해 데이터과학자 육성 프로그램을 준비하고 있으며, 한국EMC 역시 산학협력 프로그램인 EAA(EMC Academic Aliance)를 통해 데이타 과학자 육성에 관심을 보이고 있다. 레볼루션애널리틱스도 ‘R테크센터’에서 R을 활용한 분석가를 키우겠다고 밝혔다.


기업만 데이터 과학자를 육성하란 법은 없다. 대학교도 빅데이터 관련 인재 육성에 적극적이다. 서울대학교를 비롯한 각 대학교들은 기존 데이터마이낭 학과와 정보통계처리학과 교육 영역을 확장해 빅데이터를 다루고 있다. 그 중 충북대학교는 국내에서 처음으로 ‘비즈니스 데이터 융합학과’ 대학원을 개설해 전문적으로 데이터 과학자를 키워내겠다고 나섰다.


비즈니스 데이터 융합학과는 지난 3월 처음 문을 열었다. 총 2년 4학기의 과정으로 학문 연구 외에도 산학워크숍, 인턴십, 졸업논문을 통한 실습과 실무 중심의 강의를 준비했다. 조완섭 비즈니스데이터 융합학과 학과장은 “이론보다는 실제로 데이터를 경험하고 만질 줄 아는 인재가 더 도움이 될 거라는 판단에서 실무 중심으로 교육과정을 만들었다”라며 “개설한 강의의 50% 이상을 기업체 실무 전문가가 참여해서 교육할 수 있게 노력했다”라고 말했다.


비즈니스 데이터 융합학과에 개설된 수강 과목은 총 17개로 대용량 데이터베이스, 기업프로세스, 통합적 분석, 빅데이터 EDA, 대용량 멀티미디어 자료처리, 분산병렬처리, 빅데이터 세미나, 비즈니스 데이터 분석, 정보 검색과 활용, 기업정보 시스템 구축, 비즈니스 인텔리전스, IT 산업과 빅데이터 컴퓨팅, R-데이터마이닝, ABAP 프로그래밍, 클라우드시스템, 인턴십, 연구과제이다. 이 중 대용량 데이터베이스, 빅데이터 세미나, 인턴십, 연구과제는 모든 학생이 필수로 꼭 들어야 한다.


이번에 총 11명의 학생이 입학해 비즈니스 데이터 분석, 빅데이터 분석, 통계분석, 3차원 이미지 분야를 공부하면서 데이터 과학자로서의 꿈을 키워나가고 있다. 전사적자원관리(ERP), 데이터마이닝, 인공지능, 통계분석, 정보검색, 자연어처리, SNS 분석, 이미지그래픽스를 전공한 9명의 교수들이 이들을 데이터 과학자의 길로 인도중이다.

모처럼 학교를 벗어나 근교에 위치한 자연휴양림에서 워크숍 중이라는 이들을 만나기 위해 길을 나섰다. 조완섭 학과장이 마중을 나왔다. “비즈니스 융합학과를 지원하는 기업체와 함께 10일부터 1박2일 워크숍을 왔습니다. 현장에서는 빅데이터를 둘러싸고 어떤 이야기가 나오고 있는지를 학생들에게 알려주고 싶은 마음에서 이번 자리를 마련했습니다.”


비즈니스 융합학과 학생들은 입학과 함께 입사할 기업의 근로계약서를 작성한다. 방학에는 자신이 일할 기업을 방문해 졸업후 어떤 데이터를 다루고 분석해야 하는지를 미리 접한다. 졸업 후 3년은 해당 회사에서 일하면서 실무 능력을 다진다. 데이터 과학자로서 활동하고자 하는 학생들에게는 취업 고민을 덜어주고, 빅데이터 분석에 관심이 많은 업체들엔 관련 분야를 공부하는 학생들을 미리 찜할 기회를 제공하는 셈이다.


이번 워크숍에서 근로계약서 작성 후 학생들이 자신들이 일할 기업 관계자와 만나기 위해 모처럼 준비된 자리다. 이 자리를 통해 학생들은 향후 자신이 일할 회사에서 데이터 분석을 위해 무엇을 공부해야 하는지, 기업들은 학생들이 무엇을 공부하고 있는지를 알 수 있다. 소프트웨어 교육에서 문제로 지적됐던 실무와 학문 간 간극을 좁히려는 학교측의 노력이 엿보이는 워크숍이다.


나종화 교수와 조완섭 학과장은 수업 시간 외에도 어떻게 하면 데이터를 다르게 볼 수 있는지, 기존 데이터를 어떻게 하면 다르게 해석할 수 있는지를 끊임없이 고민하라고 학생들에게 주문한다. 이들에게 빅데이터라는 용어 그 자체가 중요한 게 아니기 때문이다. 기존 기업이 보유하고 있는 데이터라도 다르게 생각하고 바라볼 수 있는 시각, 재해석 할 수 있는 능력이 빅데이터 여부를 떠나 더 중요하다고 내다봤다.


국내에 데이터 과학자 학부가 따로 없는 만큼 대학원에서 만난 학생들의 학부 전공은 다양했다. 김영준 학생과 이정은 학생은 학부에서 지금은 소프트웨어학과로 명칭이 바뀐 컴퓨터공학부를 전공했다. 전성현 학생과 양민혁 학생은 정보통계학을 전공했다. 이들 모두 데이터 과학자에 대한 관심에서 비즈니스 융합학과를 선택했다.


• 일시 : 2012년 5월11일 금요일 오후 12시

• 장소 : 좌구산 휴양림

• 참석자 : 조완섭 비즈니스데이터 융합학과 학과장, 나종화 정보통계학과 교수, 김영준/이정은/전성현/양민혁 비즈니스데이터 융합학과 대학원생, 이지영 블로터닷넷 기자

이지영 : 비즈니스 융합학과 수업은 어떻게 진행되고 있는지, 빅데이터 분석을 위한 수업이라는 게 무엇인지 궁금하다. 학생들은 또 왜 데이터 과학자가 되려고 하는지도 알고 싶고요.


조완섭 학과장 : 주로 연구 분야가 빅데이터와 비즈니스에서 발생하는 데이터 분석쪽이다. 빅데이터를 저장할 수 있는 저장공간, 이를 처리할 수 있는 하둡, 대용량 비즈니스 데이터 분석 방법, SNS 분석 방법, 유비쿼터스 과정에서 나오는 데이터를 처리하는 쪽을 이 과에서 배울 수 있다. 업체들 중에는 그루터처럼 하둡 기반의 데이터를 중심으로 하는 업체와 SAP처럼 기업용 데이터를 분석하는 업체들이 있는데, 비즈니스 데이터 융합학과에서는 이 두 분야를 다 아우를 수 있도록 학생들을 가르친다는 방침이다.


김영준 학생 : 교수님은 빅데이터를 염두하고 수업을 진행하고, 학생은 빅데이터를 떠올리며 수업을 듣는다. 쉽게 표현하면, 기존 데이터베이스 수업을 들었을 때는 원하는 데이터를 찾고, 불러오고, 해석하는 식으로 도구를 설계하는 선에서 이해하고 수업을 들었다. 말 그대로 기존 데이터를 다루는 방식이다. 빅데이터를 염두한다는 점은 이 다음에서 달라진다. 지금 살펴보는 데이터가 어떻게 하면 또 다른 데이터와 결합할 수 있는지, 새로운 데이터 가치를 만들어 내려면 무슨 데이터를 또 살펴봐야 할지 고민한다고 할까. 과에 들어와서 데이터를 좀 더 크고 넓게, 멀리 보는 방식을 배웠다.


나종화 교수 : 수강과목이 17개나 되지만 학생들이 이 과목을 모두 다 들을 필요는 없다. 학부 때 배워온 지식이 서로 다양한만큼 본인이 부족하다고 판단되는 과목을 수강해서 들으면 된다. R를 아는 학생들은 대학원생 과정에서 R를 배울 필요는 없다. 마찬가지로 데이터베이스 부문 지식이 있는 학생은 다른 수업을 수강해서 들으면 된다. 물론 많은 과목을 수강신청해서 듣는 것도 중요하다. 보통 학생들이 3과목씩 수강하기도 하는데, 이번 학기에 한 학생은 5과목을 수강해서 듣기도 한다. 자기 하기 나름이다.


조완섭 : 학부 과정에서 빅데이터 학과가 따로 없다 보니, 기존에 배운 지식들을 비즈니스 데이터 융합학과에서 합치는 식이다. 물론 각자가 배경이 다르기에 학생들이 수업을 이해하는데 어려움이 발생한다. 정보통계학과 학생들은 컴퓨터 지식이 약하고, 컴퓨터 지식이 있는 학생들은 통계 분석에 약한 식이다. 그러나 전공한 과목이 달라서 힘들거라는 단점은 다 같이 모여 있으면 장점이 된다. 교수님이 하나씩 가르쳐주는 과목 외 학생들 스스로 스터디를 통해서 서로 단점을 보완한다. 각자 서로 약점을 메워 성장하는 것도 우리 대학원의 학습 방침이다.


양민혁 학생 : 대학원 과정에서 이해 못하는 수업은 학부에서 청강하는 식으로 듣기도 한다. 전 전공이 정보통계분야다 보니 컴퓨터 프로그래밍 이해도는 상대적으로 부족하다. 자바부터 시작해서 개념을 익히기 위해 학과생 수업을 듣기도 하고, 친구들끼리 스터디를 통해서 배워나가는 중이다. 어렵긴 하지만 힘들다고는 생각하지 않는다. 자신이 모르는 것을 아는 재미에 빠지게 됐다고 할까. 조금이라도 더 많은 데이터들을 이해하기 위해 공부중이다. 우리 과에서 하는 수업들은 융합이라는 특성을 살렸다고 볼 수 있다. 요즘은 자바와 아밥(ABAP)를 공부중이다.


조완섭 : 자체 제작한 클라우드 시스템을 이용해 데이터를 불러오고 처리하는 작업을 진행한다. 컴퓨터 30대를 연결해서 데이터를 처리한다. 정말 큰 데이터까지는 아니지만 사회관계망 서비스(SNS) 데이터를 불러와 처리하는 데 문제가 없다. 이 과정 역시 학생들이 직접 시스템을 구축하고 유지보수도 학생들이 직접하는 식이다. 시스템 한계가 없다고 말하려는 것은 아니다. 한계는 있지만, 최대한 학교 예산을 통해서 구축할 수 있는 환경을 만들고 있다.


이지영 : 학과 과정에서 배웠던 과목과 대학원 과정에서 배웠던 과목 중 겹치는 과목이 있을 텐데, 차이는 없는지 궁금하다. 배웠던 과목 그대로 교수님이 가르쳐 주실 것 같지는 않다.


전성현 학생 : 물론 대학원 과정에 개설된 과목들 중 일부를 학과에서 듣기도 했다. 통계학 데이터 같은 과목은 R를 통해 회귀분석, 시계열분석 같은 통계 분석에 초점을 맞췄다. 비즈니스 융합학과로 와서 빅데이터와 접목을 하면서 R로 데이터를 불러 들이고 어떻게 하면 다른 데이터와 접목시켜서 결과를 만들어 낼 수 있는지를 배웠다. 학부 과정에서처럼 세세한 통계 지식 분야를 다시 배우는 게 아니다. 교수님이 가장 많이 해주시는 말씀 중 하나는 ‘데이터를 망원경과 현미경 시점에서 보라’이다. 무조건 멀리만 보는게 빅데이터 분석은 아니라고 본다. 적절한 상황에 맞게 활용할 수 있게 데이터를 자세히 살펴보기도 하고, 거시적인 관점에서 멀리 떨어져서 볼 필요가 있다고 강조한다. 지식을 배운다기보다는 빅데이터를 맞아 이에 대한 어떤 마음가짐을 가져야 하는지를 주로 배운다. 이를 위해서 상당히 많은 스터디와 학과 공부가 필요하다.


나종화 : 전공 분야 외 따로 무언가를 준비하는 식은 아니다. 수업에서 특별히 준비하는 건 없다. SPSS, R도 기존 방식대로 가르친다. 다만 기존 전공 수업에 현장감을 더해주기 위해 노력하는 식이다. 세미나 활동을 통해서 거기서 들은 빅데이터 관련 동향을 전공 수업에 결합시킨다. 가르치는 학생들 배경이 다 다르다 보니 깊게 파고 들어서 가르치기에는 한계가 있기 마련이다. 물론 학과에서 개설된 과목과는 차별화된 점이 있다. 방법적인 문제에만 얽매이지 말고 최대한 많은 데이터를 경험할 수 있게 노력하려고 한다.


이지영 : 듣기에는 학생들 수업 강도가 만만치 않아 보인다. 비즈니스 융합학과에서 가르치는 교과목들은 컴퓨터 프로그래밍, 경영정보관리 같은 학부 과정 지식을 요구할 뿐 아니라, 남들이 4년에 걸쳐 배우는 학문들은 단기간 안에 이해해야 하지 않은가. 힘들지 않은가.


김영준 : 몇 시간 공부했는지를 물어보는 것보다 몇 시간 잤는지를 물어보는 게 더 빠르다. 그렇다고 잠을 제대로 자는 것도 아니다 아니다. 노트북을 끌어안고 졸 때도 있다.


전성현 : 거의 잠들지 못한다. 잠자는 시간도 아까울 정도다. 다들 자기 자리에서 움직이지 않는다. 오죽하면 ‘우리 뭐 먹으러 가자’라고 누가 강의실에서 제안해도 다들 ‘그래, 그래’ 말만하고 움직이는 않는 식이다. 다들 “이것만 하면 갈 수 있어. 이것만 하고 갈게”라고 대답하곤 한다. 이번 워크숍도 정말 힘들게 왔다. 교수님이 진행하지 않으셨다면, 우리 학과는 말로만 MT를 떠났을지도 모른다.


양민혁 : 하루는 꿈에서 R이 등장해 ‘Who am I’를 외치면서 쫒아왔다. 만약 내가 싫어하는 분야를 공부했다면 모든 상황이 힘들게 느껴졌을지 모른다. 하지만 재미있다. 잠을 줄이면서 공부하는 일도, 친구들과 정보를 공유하는 방식도 다 재미있게 느껴진다. 강제적으로 배우는 게 아니다. 자연스럽게 주변 사람들을 보면서 공부하고 지식을 접하면서 스스로 찾아 공부하다보니 잠을 못자도 즐겁다. 자기 전공이 아니어서 괴롭다고 호소하는 친구들을 찾기 어렵다. 이 과에서는 할 게 없다고 말하는 게 비정상일 정도로 일이 쏟아진다.


이지영 : 학생들 전공 지식이 다르면 시험 내기가 어려울 것 같다. 이번 중간고사는 어떻게 마쳤나.


조완섭 : 자기가 잘 아는 과목에 대해서는 학생들이 수업을 듣지 않는다. 그렇다보니 시험 문제 난이도는 문제가 없다. 대학원에서 이뤄지는 수업은 전공 과목에 대한 수업보다 자신의 연구 목적을 세우고 진행하는 논문이 더 중요하다.


김영준 : 중간고사는 발표로 많이 대체됐다.


양민혁 : 이번 중간고사에서 들은 ‘IT산업과 빅데이터 컴퓨팅’이라는 수업에서는 빅데이터 분석 사례를 선정한 뒤 장점과 단점에 대해서 분석하고, 국내에 해당 사례를 도입했을 때 어떤 효과가 있을지를 설명하는 발표가 중간고사였다. 기말고사는 어떻게 될지 모르겠지만, 중간고사 수업은 다 발표였을 것으로 본다.


이지영 : 교수님들께 궁금한 점이 있다. 국내에 ‘빅데이터는 없다’라는 말이 나오고 있는데, 이런 상황에서 데이터 과학자가 어떻게 능력을 발휘해야 한다고 생각하는가. 아니, 빅데이터가 국내에 존재하는지에 대한 생각부터 듣고 싶다.

조완섭 : 빅데이터는 필연적으로 발생할 것으로 본다. 지금은 빅데이터라고 부르지 않을 수 있지만, 유비쿼터스 도시를 만들면서 발생하는 센서 데이터, 감시카메라 설치에서 나오는 데이터 등 덜 쌓였을 뿐이지 꾸준히 증가한다. 데이터는 연간 40% 증가한다. 어느 나라든 빅데이터 시대로 가고 있다고 생각한다. 그런 시대가 안 올거라고는 생각하지 않는다. 정보화를 거부하지 않는 이상 국내도 반드시 빅데이터가 발생하고 이를 분석하는 사람들의 역량이 중요해질 것으로 보인다.


이지영 : 그렇다면 교수님은 어떤 데이터 과학자를 키워내고 싶은 건지 알고 싶다.


나종화 : 우리는 학생들이 기업에서 요구하는 다양한 형태의 데이터들에 대해 거부감이 없었으면 한다. 분석 기술 뿐 아니라 분석 기술 주변에 있는 IT 인프라, 대용량 DB 체계를 골고루 습특해서 전투력이 강한 데이터 과학자가 됐으면 한다. 주로 기업들이 데이터 분석에 관심이 높은 만큼 비즈니스를 최적화해서 통찰력을 주는 데이터 과학자들이 많이 등장했으면 한다.


조완섭 : 결국 빅데이터 분석 마지막 단계는 고도 통계 분석을 통해 의사 결정에 되는 도움이 되는 정보를 실시간을 표현해 내는 것에 달려 있다고 본다. 데이터 과학자는 이 분야 일을 맡게 될 것이다. 이 규모도 감당할 수 있어야 한다. 이를 위해서는 시각화 능력도 필수다. 분석된 결과를 잘 전달할 수 있어야 하기 때문이다. 이 모든 능력을 갖춘 데이터 과학자를 키우고 싶다.


이지영 : 데이터 과학자들이 사회에 진출해서 어떤 분야에서 활약할 것으로 보는가.


조완섭 : 취직 기업을 묻는 것은 아닌 걸로 알겠다. 우리 과 학생들은 입학과 동시에 취업할 회사 근로계약서를 작성하고 입학하니 말이다. 데이터 과학자가 활약한 분야는 많다. 테러 방지, 제철소 생산정보 최적화 방안을 연구하는 관리자로서도 갈 수 있다. 나갈 분야는 무궁무진하다. 본인이 어떤 일을 하고 싶은지는 학생들 개인 역량에 달려 있다고 본다. 어떤 데이터를 가지고 수렴할지가 기대된다.



이지영 : 조금 더 솔직한 대화를 위해 학생들하고만 시간을 가지려고 하는데, 교수님들 양해를 구하고 싶다. (다행히도 두 교수님들은 혼쾌히 자리를 비켜주셨다.) 비즈니스 데이터 융합학과에는 어떻게 들어왔고, 들어오기 전 기대감과 지금이 어떻게 다른지 솔직한 의견을 듣고 싶다. 기존 학부 수업과 대학원 수업이 많이 다른가.


김영준 : 다르지 않다. 학부 때 배웠던 지식이 쓰일 뿐이다. 컴퓨터 공학 출신이지만 빅데이터에 관심이 있어 자리를 함께 했다. 데이터 분석에 관심이 있었는데, 이를 통합적으로 다룰 수 있는 분야가 비즈니스 융합학과이다보니 관심을 갖고 오게 됐다.


양민혁 : 김영준 군과 같은 생각이다. 데이터 분석도 통계학의 연장선에 있다고 생각한다. 다만 기존에 있는 통계 법칙에서 자료 양이 커졌을 뿐이다. 분석하는 방법도 데이터 크기가 커지면서 그에 맞는 새로운 방법이 등장했을 뿐이다.


이지영 : 이 과에서 더 배우고 싶은 분야는 무엇이 있는지 알고 싶다. 배우는 과정에서 고민은 없는가.


양민혁 : 데이터를 분석하는 쪽 분야 수업은 정말 많다. 그러나 데이터를 처리하는 쪽 수업도 많았으면 한다. 하둡 바탕의 DB시스템도 배우고 싶고, 이를 바탕으로 SNS 비정형 데이터도 분석하고 싶다. 트위터 자료를 뽑아내려고 노력중인데, 아직 헤매고 있는 건 사실이다. 하둡으로 로그 수집 뽑고 이를 실시간으로 긁어왔으면 하는데, 쉽지 않다. 석사 1년차에서 전체적인 흐름을 배우고 2년차에는 데이터 분석을 더 심도 있게 할 줄 알았다. 욕심이 너무 컸다. 배우는 과정이 머리를 따라가지 못하고 있다고 할까. 현재 이를 오픈소스 기반으로 만들려고 노력중이다.


김영준 : 알고리즘에 분야도 많이 배웠으면 한다. 전사적자원관리(ERP) 솔루션이 중요하지 않다는 말이 아니다. 본디 컴퓨터 공학 출신이다 보니 프로그래밍에 관심이 많은 게 사실이다. 그래서 수업 보충을 위해 하둡과 맵리듀스에 관심을 가지고, R를 추가로 살피면서 균형을 맞추고 있다.


이정은 학생 : ERP 솔루션을 공부하고 있는데, 이를 어떻게 데이터 분석에 활용할지고 고민이다. 기업이 단순한 ERP 분석을 내게 요구하는 건 아닌 것 같다. 솔루션을 다룰 수 있는 사람은 정말 많다. 어떤 새로운 가치를 만들어 낼지가 가장 큰 고민이다.


전성현 : 이번 워크숍에서 일할 기업 관계자분을 만나면서 그분이 내게 요구하는 능력이 ERP 솔루션을 다루는 능력이 아닌, 보다 근본적으로 데이터를 다루는 능력을 원한다는 걸 알았다. 마음이 급하다. 이정은 학생과 마찬가지로 어떻게 하면 보다 심도 있게 데이터를 다룰 수 있는지를 고민중이다. ‘분석’에 맞춘 역량을 키워내려고 노력한다.


이지영 : 산학협력으로 기업에서 수업을 해주시는 분이 있다고 들었다. 그분들 수업은 어떤가.


양민혁 : 실무에서 직접 데이터를 만지는 분들의 이야기를 듣는 게 수업에 많은 도움이 되는 것 같다. 이번 학기 한국전자통신연구원에서 오신 분이 수업을 맡으셨는데, 업계 동향을 파악할 수 있어서 좋았다.


이정은 : 시장에서 요구하는 게 무엇인지를 알 수 있어서 좋았던 것 같다. ‘기업 프로세서 통합적 분석’에는 중간고사 이후 웅진홀딩스에서 근무하시는 분이 오셔서 실제로 기업이 만지고 담당하는 회계 데이터에는 무엇이 있는지 알려주고 설명해준다 해서 기대하고 있다.


이지영 : 향후 어떤 데이터 과학자가 됐으면 하는지 포부를 말해달라.


양민혁 : 잠재된 고객을 찾을 수 있도록 데이터를 살펴볼 수 있어으면 한다. 비즈니스인텔리전스(BI), SNS 분석 솔루션 못지 않게 기존 데이터에서 유의미한 데이터를 쉽고 빠르게 찾는것도 데이터 과학자의 몫이라고 생각한다. 이를 위해 오픈소스로 데이터 분석 솔루션을 만들려고 한다.


김영준 : 아직 정확하게 정해진 건 아니지만, 비정형 데이터를 빠르게 통합시키고 분석하는 쪽을 연구하는 방향으로 고민 중이다. 빅데이터가 초기 단계다 보니 차근차근 공부해 나가려고 한다. 겉보기엔 사람들이 이상적이라고 볼 수있다. 하지만 이상이라는 목표를 무시할 순 없다. 데이터 과학 분야에서 빛을 발하고 싶다.


※ 본 내용은 (주)블로터 앤 미디어(http://www.bloter.net)의 저작권 동의에 의해 공유되고 있습니다.


[원문출처 : http://www.bloter.net/archives/109660]

맨 위로
맨 위로