본문 바로가기

[기획기사] 생성형 AI 시대, 새로운 전략 도구 오픈소스

support 게시글 작성 시각 2023-06-26 18:10:32 게시글 조회수 4034

생성형 AI 시대, 새로운 전략 도구 오픈소스

 

- 이지현 IT 전문기자(j.lee.reporter@gmail.com) -

 

2023년은 말 그대로 생성형 AI의 해다. 오픈AI의 챗GPT가 나온 이후 많은 IT 기업들이 생성형 AI를 기반으로 한 새로운 전략과 서비스를 공개하고 있다. 생성형 AI 기술의 핵심 기술인 ‘대형 언어 모델(Large Language Model, LLM)’을 선제적으로 개발한 빅테크 기업은 API 형태로 LLM을 공개하고 있다. 덕분에 이제 비용만 있다면 GPT-4같은 모델을 누구나 이용할 수 있는 시대가 오고 있다. 여기에 오픈소스 기반 LLM 모델이 최근 늘어나 생성형 AI 개발의 접근성은 더욱 높아지고 있다.

 

생성형 AI의 두 가지 접근법, API와 오픈소스

생성형 AI의 ‘두뇌’라고 불리는 LLM은 모든 기업이 만들 수 있는 것이 아니다. 높은 기술력, 적절한 인재, 엄청난 하드웨어 자원이 있어야 개발할 수 있기 때문이다. 가령 IT 전문 컨설팅 기업 트렌드포스(Trendforce)는1) 2020년에 GPT 모델이 훈련 데이터를 처리하는 데 필요한 GPU 수는 약 2만 개였으며, 챗GPT 같은 GPT 모델을 상용화하는 데 필요한 GPU(엔비디아 A100 제품 기준) 개수는 최소 3만 개일 것으로 추정했다. 분석 업체인 세미애널리시스(Semianalysis)는 챗GPT 운영 과정에서 드는 컴퓨팅 하드웨어 비용이 하루 약 70만 달러(약 9억 원)라고 설명2)했다. 이런 비용과 인프라를 감당할 수 있는 기업은 많이 없다. 왜 빅테크 기업 위주로 LLM을 만들고 있는지 알 수 있는 대목이다.

 

이런 구조 속에 오픈AI는 비용을 내면 API 형태로 자사의 생성형 AI 모델을 접근할 수 있게 열어두었다. 작은 기업이라도 AI 기능 개발 과정에서 오픈AI의 모델을 빌릴 수 있는 셈이다. 오픈AI가 시작한 이런 접근법은 다른 빅테크 기업에도 확산되고 있다. 물론 API 이용 규모에 따라 요금을 부과하기 때문에 LLM을 소유한 빅테크들은 새로운 수익 창구를 만들고 있다.

 

가령 마이크로소프트는 애저와 오픈AI와 결합하는 전략을 취하고 있다. 고객이 애저에 데이터를 올리고 오픈AI의 모델을 활용해서 원하는 AI 기술을 만들 수 있게 열어둔 것이다. 구글 클라우드의 경우 올 6월 머신러닝 플랫폼 ‘버텍스AI(Vertex AI)’를 공식 출시하고 구글의 각종 AI 모델을 결합한 애플리케이션을 누구나 개발할 수 있게 도와주고 있다.

 

빅테크는 아니지만 오픈AI 임원 출신이 만든 스타트업 앤트로픽(Anthropic)3)이나 구글 출신 연구원들이 만들고 엔비디아와 구글의 투자를 받은 스타트업 코히어(Cohere)4)가 만든 AI 모델도 시장에서 주목받고 있다. 아마존의 경우 직접 만든 AI 모델뿐만 아니라 이런 외부에서 만든 AI 모델까지 아마존웹서비스(AWS)에서 지원하고 있다. ‘아마존 베드록’이라는 이 서비스는 AI21랩스, 스태빌리티AI, 앤스로픽(Anthropic) 같은 외부 기업들의 AI 모델을 API를 제공한다. 한국에서도 네이버와 카카오가 생성형 AI 기술을 적극적으로 대비하고 있는 모양새다. 특히 네이버는 자사 AI 모델인 하이퍼클로바X를 기반으로 이미 외부 기업과 제휴해 각종 콘텐츠 작성 과정에서 AI 기술을 활용할 수 있게 도와주고 있다.

 

 주요 LLM 모델
[그림 1] 주요 LLM 모델 (출처 : https://arxiv.org/abs/2303.18223)

 

AI 모델이 중요해지면서, 오픈소스 진영에서도 비슷한 기술을 개발하려는 운동이 확산하고 있다. 특히 오픈소스 기반 AI 모델은 AI 기술의 투명성과 신뢰성을 높이는 데 기여하고 있다.

 

오픈소스 기반 AI 모델을 이끄는 기업에는 일단 메타(구 페이스북)가 있다. 메타는 ‘라마(Large Language Model Meta AI, LLaMa)’라는 이름의 대규모 인공지능 언어모델을 올 2월 공개했다. 당시 마크 주커버그 메타 CEO는 다른 연구자나 엔지니어들이 이용할 수 있도록 오픈소스로 공개한다고 밝혔다. 여기에 음성과 문자를 상호 변환하는 ‘대규모 다국어 음성인식(MMS)5)’ AI 모델을 오픈소스로 공개하거나, 음악을 생성하는 AI 기술 ‘뮤직젠(MusicGen) 6)’도 오픈소스로 배포하며 주목을 받았다.

 

오픈소스 AI 업계를 대표하는 또 다른 기업에는 스테이빌리티AI(Stability AI)가 있다. 스테이빌리티AI는 AI 이미지 생성 기술 ‘스테이블 디퓨전(Stable Diffusion)’을 만들면서 유명세를 떨쳤으며, 지금은 AI 이미지와 관련된 각종 이미지 기술을 오픈소스화하며 시장에 높은 영향력을 행사하고 있다. AI 이미지 기술의 대중화에 기여한 스테이빌리티AI는 오픈소스 기반 언어모델 스테이블LM(StableLM)를 출시하기도 했는데, 이는 비영리 연구 기관이 일루써AI(EleutherAI)가 개발한 기술을 기반으로 만들어졌다.

 

스테이빌리티AI는 수익화를 위해 포토샵이나 그림판처럼 간편하게 AI 그림 생성 도구 ‘드림스튜디오(DreamStudio)’라는 것을 별도로 만들었는데, 이 기술조차 스테이블스튜디오(StableStudio)라는 이름으로 오픈소스화했다. 스테이빌리티AI는 공식 보도자료7)를 통해 “스테이블스튜디오로 하나의 기업에서 주도하는 AI 프로젝트보다 훨씬 뛰어난 프로젝트를 육성하는 데 기여하고 싶다”라며 “폐쇄형 제품으로 기술 개발 과정을 알리지 않는 것보다는 커뮤니티 중심으로 개방형 기술을 개발하는 것이 이미지 생성 AI 기술 확장하는 가장 좋은 방법”이라며 오픈소스 기술을 발표하는 이유를 밝히기도 했다.

 

마지막으로 AI 오픈소스 이끄는 핵심 기업에 허깅페이스(Hugging Face)가 있다. 프랑스 출신 창업자들이 모여 만든 허깅페이스는 머신러닝 애플리케이션에 필요한 여러 개발 도구를 제공하고 있다. 허깅페이스 창업자들은 오픈소스 개발에 워낙 오랫동안 몸담은 인물들이기 때문에 허깅페이스 서비스 자체도 오픈소스 기반 머신러닝 모델을 쉽게 구축할 수 있게 만들었다. 실제로 허깅페이스는 ‘AI 버전의 깃허브(The GitHub of AI)’라는 별명을 갖고 있기도 하다.8)

 

2021년 4월 허깅페이스는 ‘빅사이언스 리서치 워크숍(BigScience Research Workshop)’이라는 프로젝트를 출범하고 외부 여러 연구자 및 개발자와 협력해 오픈소스 기반 LLM을 만들겠다고 발표했다. 이런 노력의 결과로 만든 것이 ‘블룸(BLOOM)’이며, 현재 블룸은 오픈소스 진영을 대표하는 LLM로 자리잡았고, 애저, AWS 등 주요 클라우드 서비스에서 이용할 수 있다.

 

LLM 모델은 초기 시장인 만큼 API와 오픈소스 모델이 함께 사용되고 있다. 분명 오픈소스의 이익보다는 API가 더 편의성이 있다. 생성형 AI 기술의 핵심인 오픈AI가 API를 모델로 제공하고 있기에 실제 기업들은 API 방식의 모델을 도입하는 경우가 많다.

 

다만 얼마 전 오픈소스 중심의 AI 모델이 시장에서 중요하게 작용할 것이라고 분석한 구글의 내부 문서9)가 유출되면서 오픈소스 AI 모델에 대한 기대감이 높아지고 있다. 해당 문서에 구글은 “당장은 구글은 오픈AI와 경쟁하고 있는 것처럼 보이지만 오픈소스 AI 기술이 시장에서 앞서고 있다. 오픈소스 모델은 더 빠르고, 더 사용자 정의할 수 있고, 내부용으로 활용하기 더 좋으며, 훨씬 더 뛰어난 성능을 제공한다”라고 설명했다.

 

GPT-JT, 오픈챗키트(OpenChatKit), 레드파자마(RedPajama) 같은 오픈소스 AI 모델을 주도한 AI 스타트업 투게더 10)는 테크크런치와의 인터뷰를 통해 “기업이 생성형 AI 전략을 구축할 때 개인정보 보호, 투명성, 사용자 지정 및 배포 용이성을 고려하기 마련이다. 폐쇄형 모델과 폐쇄형 데이터를 사용하는 현재의 AI 클라우드 서비스는 이러한 요구사항을 충족하지 못한다”라며 “규제를 많이 받는 기업은 오픈소스 AI 모델의 핵심 고객이 될 것이다. 그런 유형의 기업은 오픈 데이터로 학습된 오픈소스 모델을 구체적으로 검사해야 하고, 자체 애플리케이션에 맞게 조정하는 것을 원하기 때문”이라고 오픈소스 AI 모델의 장점을 설명했다.11)

 

미래 개발자 필수품? 확산되는 AI 코딩 도구

생성형 AI는 무엇인가 ‘생성’해주는 기술이다. 이미지, 음악, 영상, 글 등 인간이 창작하던 수많은 것을 AI가 만드는 것이다. 수많은 생성형 AI 도구 중 현재 활용성이 높은 것으로 평가받는 것이 바로 코드 생성 도구다.

 

AI 기반 코딩 도구는 코드를 분석하고 오류를 찾아내거나 직접 코드 제안까지 한다. 복잡한 명령어는 입력할 필요가 없다. 그저 동료 직원에게 말하듯이 ‘결제 지원하는 웹사이트를 만들어줘’라고 말하거나 ‘A 데이터를 가져와 시각화를 해줘’ 같은 요구사항을 입력하면 코드가 생성된다.

 

AI 코딩 도구 시장을 선도하고 있는 기술은 단연 깃허브의 코파일럿(Copilot)이다. 오픈AI의 GPT-3 언어모델을 이용해 만든 코파일럿은 챗GPT가 나오기 전인 2021년 10월 출시되었으며 공개 직후부터 엄청난 관심을 받았다. 당시에는 신청서를 제출한 개발자에게만 코파일럿 프리뷰 버전을 공개했는데, 2022년 6월 공식 버전이 나오기 전까지 권한을 요청한 사용자는 약 120만 명이었다고 한다.

 

깃허브 코파일럿 예시
[그림2] 깃허브 코파일럿 예시(출처 : https://github.com/features/copilot)

 

깃허브 프로덕트 부문 VP 라이언 살바는 IT 언론사 벤처비트와의 인터뷰를 통해 “코파일럿 프리뷰 버전을 이용한 1만 7,000명에게 설문 조사를 진행한 결과, 75%의 개발자가 코파일럿으로 반복적인 업무를 처리하는 시간을 줄였다”라고 밝혔다. 특히 설문 조사 응답자 절반 이상이 HTTP 서버 코드를 코파일럿으로 작성했다고 한다.12)

 

최근 조사 결과에도 비슷한 반응 볼 수 있다. 올해 6월 공개된 깃허브와 웨이크필드 리서치가 미국 개발자 500명을 상대로 설문 조사한 결과 13), 응답자 중 92%가 AI 기반 코딩도구를 사용하고 있었다. 비슷하게 코드 검색 및 관리 기술 업체 소스그래프(Sourcegraph)가 4월에 발간한 보고서에 따르면, 1,000명 응답자 중 95%가 깃허브 코파일럿, 챗GPT 등 AI 코딩 도구를 이용하고 있었다.14)

 

AI 코딩 도구가 이렇게 인기 있는 이유는 일단 프로그래밍이 가진 특성과 관련 있다. 애초에 코드라는 것은 컴퓨터가 잘 이해하도록 쓰인 언어이기에 AI가 분석하기 좋고 서비스화하기 좋다. 또한 모든 AI 도구는 인간의 일자리를 대체할 수 있다는 비판을 받을 수 있는데, AI 코딩 도구 솔루션 기업은 이를 귀찮고 반복적인 작업을 줄여주는 도구로 마케팅하며 개발자의 반감을 줄이고 있다.

 

AI 코딩 도구 업체인 탭나인의 CEO 드로 와이스는 벤처비트와의 인터뷰에서 “현존하는 코드 중 90%는 이미 쓰여진 코드를 참고해서 만든 것”이라며 “이미 있는 코드를 활용하지 않고 굳이 처음부터 다시 쓸 이유는 없다”라고 설명했다.15)

 

깃허브 CEO 토마스 돔케는 테크크런치와 인터뷰16)를 통해 “코파일럿X(깃허브 코파일럿의 차세대 버전-자연어 검색 능력을 높인 것이 특징)를 테스트한 결과 며칠 밤을 새워가며 활용할 만큼 정말 재미있었다. 앞으로 튜토리얼을 찾을 필요도 없고 어떤 튜토리얼에 내가 얻고 싶은 답이 있는지 알아낼 필요 없다. 학생이나 어린이들한테 많은 영향력을 줄 것이다. 무엇이든 질문할 수 있기 때문에 계속 이용하고 싶도록 만든다”라고 설명하며 AI 코딩 도구가 교육 도구로 활용할 수 있다는 점을 시사했다. 또한 “보일러플레이트(반복적으로 사용되는 코드)를 좋아하는 사람은 아무도 없다. 지루하고 사소한 일이기 때문이다. 코드든 풀 리퀘스트이든 이제 코파일럿X가 지루한 업무를 대신해줄 수 있다”라며 “코파일럿X로 개발자의 생산성은 최대 10배 높아질 것”이라고 설명했다.

 

AI 코딩 도구 경쟁은 치열하다. 깃허브 코파일럿을 비롯해 수많은 IDE 및 개발도구 기업이 AI 기반 코딩 생성 도구를 내놓고 있다. 마이크로소프트는 자회사 깃허브를 통해 코파일럿X을 통해 비쥬얼 스튜디오에서 코파일럿X 기능을 확장하고 있다.

 

구글의 경우 계열사였던 딥마인드에서 알파코드(AlphaCode)를 2022년 공개했다. 여기에 지난 5월 구글 연례 개발자 행사 I/O에서 대화형 AI 바드에서 코드 문의 답변 강화한 기능을 공개하고, 구글 안드로이드 스튜디오에서 쓰는 코드 생성 도구 ‘스튜디오 봇(Studio Bot)’을 발표했다. 아마존웹서비스(AWS)는 ‘코드위스퍼러’라는 AI 코딩 도구를 내놓았다.

 

빅테크 외에도 스타트업에서도 코딩 도구 기술을 제공하는 사례를 많이 볼 수 있다. 퀄컴, 삼성 등으로부터 투자를 받은 탭나인(Tabnine)은 플러그인 형태로 코드 생성 기능을 제공하는 기술을 지원하고 있으며, 허깅페이스와 서비스나우는 AI 코딩 도구 ‘스타코더(StarCoder)’를 2023년 4월 오픈소스로 공개했다.17)

 

이런 인기에도 불구하고 현재 AI 코딩 도구에서 치명적인 문제가 하나 있다. 바로 AI가 오픈소스 코드를 학습했다는 부분이다. 깃허브의 공개된 오픈소스 코드를 학습한 코파일럿이 특히 비난의 대상이 되고 있다.

 

예를 들어 자유 소프트웨어 재단(Free Software Foundation, FSF)은 “FSF 관점에서 코파일럿 기술은 용납할 수 없고 부당한 기술이다. 코파일럿은 오픈소스 기술을 사용했음에도 비주얼 스튜디오 같은 상용 프로그램을 사용하기를 강요한다”라고 지적했다.18)작년 말에는 아예 깃허브를 대상으로 미국 샌프란시스코의 연방 법원에 집단소송이 제기됐다. 소장에서는 “코파일럿이 수천, 어쩌면 수백만 명의 소프트웨어 개발자가 제공하는 라이선스를 무시, 위반, 삭제해 전례 없는 규모로 소프트웨어를 불법 복제하고 있다”라며 손해 배상을 요구했다.

 

물론 오픈소스 코드 활용이 적법한 것인지는 아직 결론이 나지 않았다. 오픈소스 업계에서도 코드 활용에 대한 의견이 분분한 상태다. 오픈소스 이니셔티브(Open Source Initiative, OSI)의 책임 디렉터 스테파노 마풀리는 지디넷과의 인터뷰 19)에서 오픈소스 업계의 반발을 이해하나 “깃허브는 법적으로 해당 데이터를 활용할 권리가 어느 정도 있다. 다만 공정성 관점에서 사회 전체에 영향을 미치는 문제가 분명히 존재한다”라고 의견을 밝혔다.

 

그런 면에서 오픈소스 AI 코딩 도구로 개발된 스타코더는 주목할 만한다. 스타코더를 만든 허깅페이스와 서비스나우는 “스타코더는 ‘빅코드(Bigcode)’라는 프로젝트를 통해 개발됐으며, 이는 개방적이자 책임 있는 방식으로 AI 시스템을 만드는 것을 목표로 두고 있다”라며 “스타코더는 사용 허가를 받은 소스 코드를 기반으로 훈련됐으며, 80개의 프로그래밍 언어 자료를 활용했다”라고 밝혔다.

 

※ 참고문헌

 

.
.
2023
공개SW 가이드/보고서 - 번호, 제목, 작성자, 조회수, 작성
번호 제목 작성자 조회수 작성
공지 [2024년] 오픈소스SW 라이선스 가이드 개정판 발간 file support 2426 2024-01-03
공지 [2024년] 기업 오픈소스SW 거버넌스 가이드 개정판 발간 file support 2107 2024-01-03
공지 [2024년] 공공 오픈소스SW 거버넌스 가이드 개정판 발간 file support 2055 2024-01-03
공지 공개 소프트웨어 연구개발(R&D) 실무 가이드라인 배포 file support 14415 2022-07-28
공지 공개소프트웨어 연구개발 수행 가이드라인 file OSS 14479 2018-04-26
460 2023년 공개SW 개발자대회, 17회째 개최... 오픈소스를 기반으로 디지털 혁신 선도 support 900 2023-07-24
459 [6월 월간브리핑]AI 코드제너레이터와 오픈소스 저작권 분쟁 : 라이선스 검증 필수 support 1331 2023-06-26
458 [기획기사] 생성형 AI 시대, 새로운 전략 도구 오픈소스 support 4034 2023-06-26
457 [기고] 생성형AI 개발도구 Copilot의 오픈소스 라이선스 위반과 저작권 분쟁 support 2657 2023-06-26
456 [기획기사] APM 시각화 기술에 유용한 오픈소스 JUI support 1101 2023-05-25
455 [기획] 오픈소스 APM 핀포인트 도입을 활용한 사례 소개 support 1931 2023-05-25
454 [5월 월간브리핑] 서비스 운영관리에 필수적인 성능관리 오픈소스 솔루션 support 1294 2023-05-25
453 [기획] 암호화폐와는 다른 오픈소스 NFT의 잠재력과 가능성 support 4875 2023-04-24
452 [기획기사] NFT 업계의 오픈소스 활용 support 1646 2023-04-24
451 [4월 월간브리핑] 오픈소스 NFT 최근 산업 동향 support 5188 2023-04-24
맨 위로
맨 위로