Home > 열린마당 > 공개SW 소식

공개SW 소식

9월 5일

ⓒ지디넷코리아, 임민철 기자 / imc@zdnet.co.kr

 

LG CNS는 인공지능(AI) 스피커와 챗봇 개발을 위한 자연어이해(NLU) 학습용 한국어 표준데이터 '코쿼드(KorQuAD) 2.0'을 제작해 누구나 활용할 수 있게 공개했다고 5일 밝혔다.

 

AI 스피커와 챗봇은 개발 과정에 NLU 학습용 표준 데이터를 필요로 한다. 영어권에는 미국 스탠포드대학과 마이크로소프트 등이 제작한 영문 표준 데이터가 존재해 AI 개발에 활용되고 있으나, 한국에는 표준 데이터가 없어 영문을 번역하거나 자체 데이터를 마련해야 했다. LG CNS는 표준 데이터를 제작해 자사 AI 개발에만 활용하는 게 아니라 외부에 개방해 AI 연구자들간 시너지를 통한 국내 기술발전에 기여하기로 했다.

 

LG CNS는 지난해 12월 위키백과 정보 기반으로 AI 학습용 한국어 표준데이터 7만건을 포함한 '코쿼드 1.0'을 제작해 공개했다. 코쿼드라는 이름은 한국어 질의응답 데이터셋(Korea Question Answering Dataset)이라는 어구를 축약해 만들어졌다. 회사는 코쿼드 1.0 공개에 텐서플로코리아와 같은 AI 연구 커뮤니티에서 큰 호응을 보였고, 네이버와 카카오 등 AI 기술 기업과 종사자 그룹 50여 팀이 코쿼드를 사용한 AI 개발에 나섰다고 자평했다.

 

코쿼드2.0은 표제어와 그 설명을 담은 '정보' 4만건과, 그 내용을 기반으로 만들어진 단문 및 장문의 '질의응답' 10만건으로 구성돼 있다. 질의응답 10만건 중 약 9만건은 AI 학습용이고 1만건은 개발된 AI의 추론 성능 평가용이다. 코쿼드2.0 한국어 표준 데이터를 깃허브의 웹사이트(https://korquad.github.io)를 통해 누구나 내려받을 수 있다. 코쿼드2.0은 코쿼드1.0 대비 한국어 표준데이터 규모를 7만개에서 10만개로 늘렸고, 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 보강한 버전이다.

LG CNS 설명에 따르면 코쿼드1.0 학습으로 '대한민국의 수도와 그 면적은?'이란 질문에 '서울특별시, 605.25㎢입니다'라고 답하는 AI를 개발할 수 있었다. 코쿼드2.0 학습으로 '서울특별시의 특징은?'이라는 질문에 '도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인…'이라고 답하는 AI를 개발할 수 있게 됐다. 또 코쿼드2.0은 AI가 표나 리스트 형태에 담긴 정보를 읽어 답변할 수 있도록 표준 데이터 범위를 확대했다.

 

코쿼드 학습으로 개발된 AI는 코쿼드 홈페이지에 등록해 성능평가를 받을 수 있다. 등록된 AI의 평가결과는 '리더보드'에 등재돼 그 수준이 다른 AI와 대조될 수도 있다. 성능 평가 결과를 실제 정답과 정확하게 일치하는 비율을 의미하는 'EM' 점수와, 정답과 유사한 답변을 내놓는 비율을 의미하는 'F1' 점수로 나타낼 수 있다. 사람은 EM 점수 80.17점, F1 점수 91.20점이 평균이다. 현재 리더보드에는 네이버가 코쿼드를 사용해 개발한 AI의 EM 점수 86.84점, F1 점수 94.75점이 1위로 기록돼 있다.

 

이날 LG CNS는 서울 강서구 마곡 LG사이언스파크에 국내 AI 전문가 300여명을 초청해 'AI테크톡 포 NLU'라는 AI커뮤니티행사를 열어 코쿼드2.0 공개 소식을 내놨다. 현장에 한국전자통신연구원(ETRI), 서울대학교, 한국과학기술원(KAIST) 등의 연구진과 교수진이 연사로 참석해 AI 연구성과와 최신기술 동향을 공유했다. LG CNS 코쿼드를 사용해 개발한 AI 모델 성능평가를 받고 리더보드에 등재된 50여 팀 가운데 선두인 네이버 '클로바AI' 팀이 참석해 AI 제작기를 발표했다.

 

LG CNS 최고기술책임자(CTO) 현신균 부사장은 "응용분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 AI 업계 전체에 개방해 국내 AI 연구자들 간 상생을 위한 AI 개방형 생태계 조성에 기여코자 한다"고 말했다.

 

※ 본 내용은 (주)메가뉴스(http://www.zdnet.co.kr)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 지디넷코리아. 무단전재 및 재배포 금지

[원문출처 : http://www.zdnet.co.kr/view/?no=20190905134921]

공개SW 소식 게시물 리스트 표
번호 제목 조회수 작성
공지 [주간 OSS 동향 리포트] 금융권 통합 오픈API 플랫폼 선보여 …오픈소스 기반 자체개발 주목 26 2019-11-17
공지 [주간 OSS 동향 리포트] 디지털 정부혁신, 오픈소스 중심의 개방형 생태계 마련 462 2019-11-10
공지 [주간 OSS 동향 리포트] 서울 중랑구, 오픈소스 기반 IoT 통합 플랫폼 구축사업 추진 787 2019-10-29
공지 [주간 OSS 동향 리포트] 기업이 오픈소스를 꼭 이용해야 하는 이유 802 2019-10-23
공지 [주간 OSS 동향 리포트] "살상 무기에 오픈소스 쓰지 말라"··· '히포크라테스 라이선스' 제안 화제 849 2019-10-15
8620 MS 팀즈, 리눅스 지원한다 139 2019-09-14
8619 KISA, 인터넷 블랙아웃 '클라우드'로 막는다 94 2019-09-14
8618 칼럼 | 최저 생계비 또는 그 이상··· 오픈소스 개발자 '보상 모델' 고찰 101 2019-09-14
8617 클라우드 핵심 키워드가 된 '컨테이너'…왜 쓰냐고 물으신다면… 166 2019-09-14
8616 [주간 OSS 동향 리포트] 기업의 성장과 개방화 전략 가속화 666 2019-09-10
8615 LG CNS, AI 학습용 한국어 데이터 '코쿼드2.0' 공개 file 166 2019-09-10
8614 '공개SW 컨트리뷰톤' 열린다...7일 발대식 file 155 2019-09-09
8613 몽고DB "데이터 작업방식, 개발자 친화적으로 바꾸겠다" 165 2019-09-07
8612 클라우드 시대 빅뱅 IBM·레드햇..."오픈 플랫폼으로 이루겠다" 169 2019-09-07
8611 [社告] 클라우드와 오픈소스 전략, 어떻게?… '오픈 테크넷' 컨퍼런스 19일 개최 241 2019-09-07
맨 위로
맨 위로