본문 바로가기

2017
CCTV뉴스


글: 이나리 기자 narilee@epnc.co.kr / 2017-04-26



구글, 마이크로소프트 선두, 네이버, 한컴은 한국어 특화된 알고리즘 개발


2007년 구글이 웹 기반 자동번역기를 무료로 공개했을 때, 사람들은 클릭 한번으로 여러 문장들이 순식간에 번역되는 기능을 보고 놀라움을 금치 못했었다. 하지만 예전의 번역기는 동음이의어와 다의어를 구별 못하거나 어순과 표현이 많이 어색해 마치 외래어처럼 번역되는 경우가 많았다. 이처럼 번역기는 번역 결과가 만족스럽지 않았음에도 불구하고 모든 문장을 사람이 직접 번역하는 것보다 시간을 절약할 수 있었기 때문에 지금까지 유용하게 사용돼 왔다.


그러나 최근 번역기는 딥러닝과 신경망 기술이 적용된 신경망 기계번역(GNMT, Google’s Neural Machine Translation)으로 발전되면서 변역 결과물이 눈에 띄게 향상됐다. 예전보다 번역의 오류 가능성이 대폭 감소하고, 보다 자연스러운 번역이 가능해졌다.


더 나아가 번역 기술은 텍스트 뿐 아니라 음성 번역, 이미지 번역까지 가능해지면서 음성인식 기술도 함께 급부상하고 있다. 향후 통번역 서비스는 스마트폰, 스마트워치, HMD, 가정용 음성로봇 서비스 등 다양한 디바이스에 접목돼 국제회의, 여행, 교육 등 다양한 산업에서 활용될 것으로 기대된다. 신경망 번역 기술을 지원하기 위해서는 데이터베이스의 확보와 인공지능을 지원하는 알고리즘과 플랫폼 개발 등이 뒷받침돼야 한다.


기계 번역 시장과 국내‧외 기업별 번역기술 현황, 번역기술로 인해 파생되는 산업 전망에 대해 1, 2, 3회에 걸쳐 알아보겠다.



◇ 인공신경망 번역 기술 확보 경쟁은 지금부터!


신경망 기계번역 기술은 이제 막 걸음마를 땠다고 볼 수 있다. 구글은 2016년 9월 세계 최초로 신경망 번역 서비스를 8개 언어로 시작했고, 2016년 11월 한국어를 포함한 8개 언어(영어-프랑스어, 영어-독일어, 영어-스페인어, 영어-포르투갈어, 영어-중국어, 영어-일본어, 영어-한국어, 영어-터키어)를 추가하면서 현재 총 16개 언어 통역을 지원하고 있다.


지난 2월 9일 구글코리아에서 진행된 기자 간담회에서 구글의 신경망 기계번역 시스템을 개발한 마이크 슈스터(Mike Schuster) 구글 리서치 박사는 “과거 구글이 10년 동안 사용한 번역 시스템에서는 번역의 품질이 0.1만 향상돼도 새로운 버전 출시가 가능하다고 판단했다. 그러나 이번 새로운 신경망 번역 시스템에서는 언어별로 평균 0.5점 이상의 개선 결과 나타났고 일부 언어는 1점 이상으로 향상됐다”며 “일례로 한국어와 영어는 0.94점 개선됐으며, 중국어와 영어는 0.6점 개선됐다”고 설명했다.


구글은 신경망 번역기술 도입 후, 위키피디아와 뉴스 매체의 샘플 문장을 기준으로 주요 언어 조합을 평가했을 때 번역 오류가 기존의 구문기반 번역보다 55%~85% 가량 줄어들었다고 밝혔다. 그러나 신경망 번역 시스템의 품질 개선은 시작에 불과하다. 신경망 번역 시스템은 머신러닝을 통해 학습 내용을 축적해 시간이 갈수록 더 자연스러운 번역을 제공할 수 있기 때문이다.


구글은 더 다양한 언어에 신경망 기계번역 기술을 지원하기 위해 단일 시스템에서 여러 언어 간 번역이 가능하도록 하는 방식인 제로샷 번역(Zero-Shot Translation)을 개발했다. 이는 다중 언어 트레이닝을 통해 실제 테스트하지 않은 여러 언어 조합의 번역도 데이터를 활용해서 가능하게 하는 기술이다. 예를 들어 영어-한국어, 영어-일본어 간의 신경망 기계번역 지식을 통해 한국어-일본어 조합의 번역을 제공할 수 있다.

다중 언어 시스템이 그림에 파란색 실선으로 표시된 일본어-영어, 한국어-영어 사례를 학습한다고 가정했을 때, 구글의 신경망 기계번역 시스템과 동일한 규모의 구글 다중 언어 시스템은 매개변수를 공유해 4개의 언어 조합 간 번역을 진행한다. 이를 통해 특정 언어 조합에서 학습한 ‘번역 지식’은 다른 언어 조합으로 전이될 수 있다. 현재 구글의 다중 언어 시스템은 최근 추가된 16개 신경망 기계번역 언어 조합 중 10개를 지원하고 있다.



▲ 단일 시스템에서 여러 언어 간 번역이 가능한 구글의 제로샷 번역 (자료: 구글)


구글에 이어 2016년 11월 마이크로소프트도 자사의 인공지능 기술을 활용한 신경망 기계번역 시스템을 선보였다. 초기 마이크로소프트의 신경망 기계번역은 영어, 독일어, 아랍어, 중국어, 일본어 등 10가지 언어를 지원했으며 2017년 3월 11번째 언어로 한국어를 포함시켰다. 마이크로소프트의 신경망 기계 번역 기술은 마이크로소프트 트랜슬레이터(Microsoft Translator)와 채팅 애플리케이션인 스카이프(Skype)의 실시간 번역 기능을 통해 사용할 수 있다.


이 외에도 마이크로소프트는 말하는 동시에 글로 표시되고, 다시 음성으로 번역되는 음성 번역 기술 개발에도 적극적이다. 개발자의 경우에는 마이크로소프트의 신경망 기계번역 기능의 음성 API를 자사의 서비스에 추가 비용 없이 적용시킬 수 있다. 마이크로소프트는 자사의 번역 기술이 확산됨에 따라 추후에 번역 관련 사업 확대에 유용할 것으로 기대하고 있다.


프랑스 등 유럽 시장에서 좋은 성과를 보이고 있는 자동번역 솔루션 기업 시스트란도 인공신경망 기계 번역 엔진(PNMT) 판매를 2016년 하반기에 시작했다. 참고로 시스트란은 한국의 번역 소프트웨어 기업 씨엘스엘아이(CSLi)로부터 2014년 550억 원에 인수된 기업이며, 인수 후 사명이 시스트란인터내셔널로 변경됐다.


시스트란은 2016년 8월 프랑스와 유럽 국가에서 인공신경망 기계 번역 엔진을 공개했고 2016년 11월 한국과 아시아 시장으로 확대시켜 현재 32개 언어 간의 번역을 지원하고 있다. 시스트란은 올해 상반기까지 약 90개 언어의 번역 엔진을 출시할 예정이다.


시스트란은 여러 언어의 데이터를 확보하기 위해 국가별 거점 강화에 힘쓰고 있다. 일례로 일본의 경우 2014년 말 NTT도코모 그룹과 합작법인을 설립해 NCIT라는 일본 국책 연구기관 등과 모듈 개발 등 다양한 분야에서 협업하고 있으며, 한국의 경우에는 2015년 한글과컴퓨터와 ‘한컴인터프리’라는 합작법인을 설립하고, 한국전자통신연구원(ETRI)과 협업하고 있다. 중국은 킹소프트와 협력 중이다.


구글, 네이버, 마이크로소프트 등이 일반인 대상으로 번역 서비스를 제공하는 것과 달리 시스트란은 각 산업 분야별 사전과 데이터를 바탕으로 기업에 특화된 인공 신경망번역 엔진을 유료로 제공하고 있다. 따라서 시스트란은 문학보다는 정치, 법률, 경제 등의 산업을 타깃으로 번역 서비스를 제공한다는 계획이다.


2016년 상반기 구글이 인공지능 알파고를 활용해 인간과 바둑대결을 펼쳤듯이, 시스트란은 2017년 2월 국제통역번역협회(IITA)와 세종대학교, 세종사이버대학교가 공동 주최한 ‘인간 번역사와 인공지능 기계번역 솔루션 간 번역 대결’에 참가해 향상된 번역 기술을 입증한 바 있다.



▲ ‘인간 번역사와 인공지능 기계번역 솔루션 간 번역 대결’에 참가한 시스트란


◇ ‘한국어 특화’된 신경망 번역 기술 개발 나선 국내 기업들


한국어에 특화된 번역 서비스를 위해, 국내에서는 대표적으로 네이버가 번역기 파파고를 통해서 인공 신경망 기계번역 기술을 선보이고 있다. 한국어는 영어, 중국어, 스페인어, 불어 등과 비교해 전세계에서 사용되는 인구수가 적은편이다.


이 때문에 구글을 비롯한 글로벌 기업은 한국어 번역 개발을 우선시하지 않는 실정이다. 이에 따라 네이버의 네이버랩스는 신경망 기술이 적용된 번역 앱 파파고를 2016년 10월 한국어-영어, 한국어-일본어 서비스를 시작했고, 12월에는 업계 최초로 한국어-중국어 간에 신경망 번역을 적용시켰다.


특히 영어와 한국어처럼 어순이 다른 언어는 번역하는 것이 어려운 편인데, 네이버는 한국어에 집중한 결과 구글 번역보다도 더 자연스러운 한국어 관련 번역을 제공한다고 평가받고 있다.


네이버에 따르면 인공신경망 기계번역이 일반 대중들에게 출시된 지 불과 1년도 안됐는데, 10년 이상 진화해온 기존 방식인 통계 기반 번역 보다 약 2배 이상의 정확도가 상승됐다고 밝혔다. 번역 평가 기준이 100점이 만점이라면, 통계 기반 번역은 30점대 수준, 인공신경망 기계번역은 60점대 수준이다. 예로, 파파고의 번역 시스템은 한국어→영어 번역이 34.75점 상승했고, 영어→한국어 번역은 26.6점 상승했다.



▲ 네이버의 인공신경망 번역 기술이 적용된 번역 앱 ‘파파고’


현재 네이버 파파고에서 지원하는 번역은 한국어, 영어, 중국어(간체), 일본어이다. 네이버는 올해 스페인어, 프랑스어, 인도네시아어, 태국어, 중국어(번체), 베트남어 등 6개 언어 번역을 추가할 계획이라고 밝혔다.


파파고는 현재 전문 번역업체, 제휴, 이용자 CS 등을 바탕으로 학습에 필요한 데이터를 보강해 정확도를 높여나가고 있으며, 번역 품질 외에도 OCR 인식 정확도를 높이는 작업을 진행 중이다. 이런 콘텐츠들은 일상생활에서 실제로 쓰이거나 젊은 층이 주로 사용하는 표현이 많기 때문에 구어체에 있어서 구글 번역기 대비 강점을 보인다. 또 파파고는 일본어나 중국어의 발음 기호 정보를 함께 보여주는 부분도 서비스할 계획이다.


그밖에 네이버는 파파고에 적용된 인공신경망 번역 기술을 네이버 서비스 전반에 확대 적용할 계획이다. 네이버의 파파고 개발을 총괄하고 있는 김준석 네이버랩스 리더는 “번역 앱은 여행을 하거나 일상생활에서 외국인을 만났을 때 통역해주는 커뮤니케이션 도구로 자리잡아가고 있다. 따라서 파파고는 다른 앱과 제휴를 통해 서비스 영역을 확장해 나가는 것이 목표”라며 “현재 많은 업체에서 파파고와의 서비스 제휴를 검토하고 있으며 몇 개 업체와는 계약 직전 최종 단계를 밟고 있다”고 전했다.


더 나아가 네이버는 텍스트 번역뿐 아니라 음성 번역 기술을 개발하기 위해 지난 2월 미국 실리콘밸리 음성인식기업인 사운드하운드에 전략적 투자를 진행하고 있다. 사운드하운드는 화자의 음성을 인식해 텍스트로 변환하는 ASR(Automatic Speech Recognition), 자연어 처리를 통해 화자가 말한 내용과 의도를 이해하는 NLU(Natural Language Understanding) 기술 등 10년간 음성인식 분야에서 축적한 R&D 기술을 보유한 기업이다. 



▲ 한글과컴퓨터의 인공신경망 기계 번역 서비스 ‘한컴 말랑말랑 지니톡’


한글과컴퓨터도 한국어에 특화된 인공신경망 기계 번역 서비스 ‘한컴 말랑말랑 지니톡(이하 지니톡)’을 지난 2월 공개했다. 한국전자통신연구원(ETRI)과 공동으로 개발된 지니톡은 2016년 4월에 출시돼 8개 언어를 지원하고 있었으나, 인공신경망 기계번역 기술이 도입되면서 현재 한국어-영어, 한국어-중국어, 한국어-일본어 기능을 지원하고 있다.


특히 지니톡은 ‘2018 평창동계올림픽’ 공식 번역 소프트웨어로 선정돼 4만 명의 선수들과 기자단, VIP들의 통번역 서비스를 담당하게 된다. 올림픽 기간 동안 한컴은 퓨처로봇과 공동 개발한 ’통역하는 안내로봇‘ 등 대한민국 첨단 IT 기술력을 선보일 계획이다.


한컴 측은 “급성장하고 있는 통번역서비스 시장에서 궁극적인 목표는 네트워크가 연결되지 않은 곳에서도 자동통역 서비스를 사용할 수 있도록 USB, 에그 등의 단말기 형태의 오프라인 통역기 개발”이라고 밝혔다. 이에 따라 한컴은 지난 1월 스페인에서 개최된 ‘MWC 2017‘에서 넥밴드, 이어셋 형식의 웨어러블 통번역기와 인터넷 없이도 사용할 수 있는 통번역 단말기(OTG)을 선보였으며, 번역 전문 플랫폼 지니 트랜스 등 다양한 서비스로도 확대해 나갈 예정이다.




※ 본 내용은 (주)테크월드(http://www.ibeddedworld.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
    Copyright ⓒ Techworld, Inc. 무단전재 및 재배포 금지


[원문출처 : http://www.cctvnews.co.kr/news/articleView.html?idxno=68166]

맨 위로
맨 위로