자연어 처리 혁신의 최첨단을 이끄는 AI 스타트업 3곳
2021.06.09.
ⓒITWorld / Ian Pointer | InfoWorld
자연어 처리(Natural Language Processing, NLP)는 컴퓨터 과학자들의 오랜 꿈으로, 그 기원은 ELIZA 시절, 더 멀게는 컴퓨팅의 시초(튜링 테스트)까지 거슬러 올라간다. NLP는 지난 몇 년에 걸쳐 비약적인 혁신을 이루었으며, 이 과정에서 예전의 통계적 방법 대신 딥러닝 또는 신경망에 기초한 새로운 접근 방법이 대세로 자리 잡았다.
NLP에 딥러닝을 적용하면서 사람이 쓴 글과 전혀 구분이 불가능한 텍스트를 생성할 수 있는, GPT-3과 같은 방대하고 정교한 범용 언어 모델이 탄생했다. 예를 들어 자연어로 질의를 입력하면 백엔드가 코드를 생성하는(엑셀 구문을 기반으로 하는 파워 Fx 식) 마이크로소프트의 새로운 “노코드” 파워 앱(Power Apps) 플랫폼에 있는 여러 기능의 기반이 바로 GPT-3이다.
NLP는 기업 전반에서 방대한 잠재력을 지녔으며, 구글이나 마이크로소프트 같은 거대 기업만 참여하는 것도 아니다. 여기서는 자체 맞춤형 NLP 솔루션을 구축하기 위한 구성요소로 다양한 AI 기반 솔루션을 제공하는 스타트업 3곳을 소개한다.
익스플로전(Explosion)
NLP 분야에서 일하는 대부분의 개발자는 인기 있는 파이썬용 NLP 파이브러리인 스페이시(spaCy)를 사용하겠지만, 정작 익스플로전에 대해 들어본 사람은 그렇게 많지 않을 것이다. 익스플로전은 매튜 하니발과 아이네스 몬타니가 만든 회사로 스페이시와 상용 주석 툴인 프로디지(Prodigy)의 개발사다.
오래 전부터 주요 NLP 툴킷 중 하나인 스페이시가 비슷한 연령대의 다른 라이브러리와 뚜렷하게 구분되는 특징은 방대한 프로덕션 워크로드를 가볍게 처리할 수 있다는 점이다. 스페이시를 오랜만에 다시 접한 사람에게는 놀라울 정도로, 스페이시는 NLP의 최신 기술과 보조를 잘 맞춘다. BERT와 같은 사전 훈련된 트랜스포머(Transformer) 모델을 기반으로 한 파이프라인을 사용하고, 파이토치(PyTorch) 또는 텐서플로우(TensorFlow)의 맞춤형 모델을 통합할 수 있으며 50개 이상의 언어를 기본적으로 지원한다.
스페이시는 오픈소스이지만 익스플로전은 유료 상품인 프로디지도 제공한다. 프로디지의 목표는 데이터 과학자의 툴킷에서 필수 요소가 되는 것이며, 스페이시와의 긴밀한 상호작용 루프뿐만 아니라 이미지, 오디오, 비디오 주석을 위한 포괄적인 지원을 통해 풍부한 표현의 스크립팅 가능한 데이터 집합 주석을 가능하게 해준다. 프로디지에는 분류, 전사, 바운딩 박스 및 기타 다양한 용도의 파이프라인 구축을 위한 레시피가 함께 제공된다. 데이터 과학자는 효율적인 데이터 집합 주석에서 더 적극적인 역할을 할 수 있으며 그 결과 풍부한 입력 데이터를 구축하고 더 나은 모델을 만드는 데 따르는 비용이 줄어든다.
허깅페이스(Huggingface)
텐서플로우 기반 NLP 모델 구현을 제공한 파이토치 라이브러리와 라이트 위드 트랜스포머(Write With Transformer) 웹사이트를 만든 회사에서 NLP의 절대강자인 현재의 허깅페이스(????)가 되기까지, 흥미로운 변천사를 가진 회사다. 허깅페이스의 트랜스포머 라이브러리는 지금 텍스트 처리 분야에서 사실상의 표준이다. 또한 새로운 논문이나 기법이 발견될 경우 이를 몇 주가 아닌 며칠만에 라이브러리에 집어넣을 정도로 움직임이 빠르다.
허깅페이스 모델 모음은 온갖 종류의 모델(영역, 언어, 크기 등의 주제 포함)을 위한 모델 허브 이상으로 확장되어 많은 모델의 가속화된 구현을 자랑하는 호스팅되는 추론 API, 그리고 다양한 데이터 집합을 다루는 사용하기 쉬운 API를 구성한다. 또한 수많은 기업이 허깅페이스를 사용한다. 그래멀리(Grammarly) 등에서도 사용되고 마이크로소프트, 구글, 페이스북에서 연구 용도로도 사용된다. 또한 허깅페이스는 머신러닝 생태계에 작은 규모의 다른 여러 라이브러리를 기여한다. 최근에 기여한 라이브러리의 예로, 여러 분산 머신에 걸쳐 대규모 모델 학습의 부담을 대부분 덜어내는 액셀러레이트(Accelerate) 라이브러리가 있다.
허깅페이스는 발전의 속도를 늦추지 않고 있다. 최근 몇 개월 동안 오디오 및 이미지 모델을 플랫폼에 추가했다. 트랜스포머 아키텍처가 무서운 기세로 딥러닝 영역으로 뻗어 나가면서 그 길의 모든 것을 정복하고 있는 만큼, 앞으로 이 분야의 최전선에서 늘 허깅페이스를 보게 될 것이다.
존 스노우 랩스(John Snow Labs)
존 스노우 랩스는 아파치 스파크를 기반으로 하는 오픈소스 NLP 프레임워크인 스파크(Spark) NLP의 관리 주체다. 기업에서 폭발적인 인기를 얻고 있으며, 명명된 개체 인식(NER), 정보 검출, 분류, 감정 분석과 같은 응용 분야의 다양한 NLP 파이프라인에서 기반으로 사용된다. 스페이시와 마찬가지로 NLP의 새로운 패러다임에 맞도록 발전되어 표준으로 사용되며, 방대한 수의 딥러닝 모델(700개 이상)과 다양한 응용 분야를 위한 400개 이상의 파이프라인이 있다. 또한 대다수 경쟁 플랫폼보다 용이한 분산 배포를 위해 아파치 스파크의 확장성을 활용한다.
한 가지 흥미로운 부분은 존 스노우 랩스는 3가지 유료 상품으로 스파크 NLP를 구축하는데, 이 중 2개는 의료 분야 전용이라고 할 수 있고 나머지 1개는 의료 분야를 주 영역으로 하면서 다른 영역에서도 사용할 수 있다는 점이다.
(후략)
[원문 기사 : https://www.itworld.co.kr/news/196889 ]
※ 본 내용은 한국아이디지(주) (https://www.idg.co.kr/)의 저작권 동의에 의해 공유되고 있습니다.
Copyright ⓒ 2020 International Data Group. 무단전재 및 재배포 금지.
번호 | 제목 | 조회수 | 작성 |
---|---|---|---|
공지 | [Open UP 활용가이드] 공개SW 활용 및 개발, 창업, 교육 "Open UP을 활용하세요" | 364052 | 2020-10-27 |
공지 | [Open UP 소개] 공개SW 개발·공유·활용 원스톱 지원 Open UP이 함께합니다 | 353837 | 2020-10-27 |
9420 | [인터뷰] ”국내 기업도 AI 칩 만들 수 있다” | 4728 | 2021-06-15 |
9419 | 쿤텍, NHN 클라우드 마켓플레이스서 오픈소스 점검 서비스 시작 | 4369 | 2021-06-15 |
9418 | SK, 개발자 소통 커뮤니티 ‘데보션’ 론칭 | 4939 | 2021-06-15 |
9417 | 티맥스오에스, 구름OS 기반 PC 운영체제 '티맥스 구름' 출시 | 4707 | 2021-06-15 |
9416 | [주간 OSS 동향 리포트] 네이버클라우드, 오픈소스 후원자에서 참여자로 변신 | 4987 | 2021-06-15 |
9415 | 네이버클라우드, 오픈소스 후원자에서 참여자로 변신 | 5239 | 2021-06-11 |
9414 | “불확실성, 확실히 잡아줄게" ..IBM, AI 불확실성에 초점 맞춘 툴킷 ‘UQ360’ 공개 | 5002 | 2021-06-11 |
9413 | 네이버는 왜 5년 전 AI 반도체 스타트업에 투자했나 | 4494 | 2021-06-11 |
9412 | 자연어 처리 혁신의 최첨단을 이끄는 AI 스타트업 3곳 | 5179 | 2021-06-11 |
9411 | 질병 진단 속도와 정확도 두마리 토끼 잡았다...기계연, 초음파 영상 진단 장비에 머신러닝 접목 | 4662 | 2021-06-09 |
0개 댓글