본문 바로가기

[기고] 생성형AI 개발도구 Copilot의 오픈소스 라이선스 위반과 저작권 분쟁

support 게시글 작성 시각 2023-06-26 17:06:58 게시글 조회수 3369

[기고] 생성형AI 개발도구 Copilot의 오픈소스 라이선스 위반과 저작권 분쟁

 

- 오에스비씨(주) 이완근 상무(사내변호사) -

 

2022년 11월 30일, 놀라울 정도로 급속도로 인기를 얻고 이제는 널리 사용되고 있는 ChatGPT가 출시되어 시장의 이목을 끌었습니다. 그러나 ChatGPT가 출시되던 바로 그 2022년 11월, ChatGPT를 출시한 마이크로소프트와 OpenAI가 ChatGPT와 유사한 모델의 인공지능에 기반하여 2021년 출시하였던 자동 코드완성 개발 플랫폼 Copilot에 대하여 최초의 인공지능 모델에 대한 저작권 침해 소송이 제기되었다는 사실은 그다지 알려져 있지 않았습니다.

 

학습형 인공지능 모델의 저작권 이슈

 

이미 잘 알려져 있는 바와 같이 ChatGPT는 방대한 텍스트 데이터를 기반으로 학습된 대형 언어 모델(‘Large Language Model; ‘LLM’)을 지속적으로 개량 및 진화시켜 제공하는 서비스입니다. 이와 같은 LLM 기반의 서비스를 제공하기 위하여는 그 학습을 위한 방대한 텍스트 데이터가 필요한데, 마이크로소프트 및 OpenAI에 따르면 ChatGPT는 이 과정에서 인터넷으로 누구나 그 내용을 확인할 수 있는 공개 자료들을 사용하였다고 하고 있으나, 구체적으로 학습 과정에서 사용한 자료가 무엇인지 목록을 공개하지는 않고 있습니다. 이와 같이 LLM의 무차별적이고 방대한 학습 모델에 대하여는 출시 초기부터 저작권과 관련된 우려들이 제기되었습니다. 우선 인터넷을 통하여 자유로이 접근할 수 있는 자료라고 하여도 상당수는 저작권이 있는 자료이고, 그러한 텍스트의 ‘열람’이 자유롭다고 하여 저작권자가 그러한 텍스트를 LLM의 모델 학습에 사용하고 나아가 이를 LLM의 출력 내용에 포함시키는 것이 저작권자의 동의 없이 적법하게 허용되었다고 할 수 있는가 하는 문제점입니다. 그리고 이러한 LLM이 학습한 결과를 출력한 결과물에는 구체적으로 어떠한 근거자료를 사용하였는지에 대한 아무런 설명 혹은 출처 표시가 없기 때문에, 이러한 행위가 저작권의 관점에서 자유로이 허용될 수 있는가에 대한 의문도 제기되었습니다. 이러한 문제제기들은 선풍적인 인기를 몰고 온 최초의 인공지능 서비스인 ChatGPT를 기회로 본격적으로 제기되었지만, 사실은 ChatGPT 뿐만 아니라 인터넷에서 접근 가능한 정보를 이용하는 모든 학습형 인공지능 모델에 동일하게 제기되는 이슈입니다.

 

美 자유 소프트웨어 재단(FSF), GitHub Copilot 결과물에 GPL 라이선스 코드 포함됨에 따라 공정성, 적법성 의문 제기

 

마이크로소프트가 2018년 8조원을 투자하여 전 세계에서 가장 방대한 오픈소스 개발자 커뮤니티인 깃허브(GitHub)를 인수하였을 때, 시장은 마이크로소프트가 오픈소스 친화적인 생태계 구축에 나설 것으로 기대하였습니다. 그러나 마이크로소프트와 OpenAI가 2021년 6월 ChatGPT와 동일한 GPT-3 LLM에 기반한 자동 코드 완성 인공지능인 GitHub Copilot 서비스를 공개하고 2022년 6월 이를 유료화하자, 마이크로소프트의 깃허브 인수의 (전부는 아니더라도) 중요한 목적이 오픈소스 개발 AI의 학습을 위한 레포지토리 확보였으며, 이와 같은 오픈소스 생태계 자료가 폐쇄형 상용 인공지능 서비스의 가장 중요한 기반이 되었다는 사실은 큰 논란을 일으켰습니다. 특히 오픈소스 소프트웨어는 인터넷에 공개된 일반적인 텍스트와 달리 명시적인 라이선스 조건이 부가되어 있고 그에 따른 의무사항이 발생하는데, Copilot의 출력물은 이를 완전히 무시하는 것처럼 보였기 때문에 일반적인 인공지능보다 빠르게 저작권 문제 제기의 대상이 되었습니다. 당시 Copilot 서비스를 통한 결과물에서 GPL 라이선스가 부여된 코드가 포함되어 출력된다는 사실이 밝혀지면서 논란은 더욱 커져 갔습니다. 미국 자유 소프트웨어 재단(Free Software Foundation; FSF)은 Copilot 출시 직후인 2021년 7월 Copilot이 소프트웨어로 AI 신경망을 학습시키는 것이 공정이용이 될 수 있는지, 그리고 Copilot을 통한 사용자의 결과물 생성 과정에서 복사된 코드 조각 등의 요소가 저작권 침해를 초래할 수 있는지 우려를 표하고 이에 대한 백서를 만들 것을 촉구하였으나, 마이크로소프트와 OpenAI는 이에 응하지 않았습니다.

 

GitHub 오픈소스 코드 저작권자들 MS‧GitHub‧OpenAI 상대로 집단소송 제기

 

이와 같은 논란이 지속되던 중, 2022년 11월 GitHub 공개 저장소의 코드 저작권자들 중 일부가 마이크로소프트, OpenAI 및 GitHub 등을 상대로 미국 캘리포니아주 북부 지방법원에 집단 소송(일부 당사자가 제기하지만, 결과가 동일한 이해관계를 가진 사람 모두에게 적용되는 소송제도)을 제기하게 되었습니다. 이 소송의 청구원인은 복잡하지만, 가장 주요한 내용은 Copilot 서비스의 기반인 LLM 모델이 GitHub 공개 저장소의 오픈소스 소프트웨어를 사용하여 학습이 이루어졌을 뿐만 아니라 출력되는 결과물 역시 학습에 사용된 오픈소스 소프트웨어를 사용하고 있지만 출력물에는 오픈소스 소프트웨어 라이선스 의무사항에 따른 표기사항 등이 모두 생략되었다는 것입니다. 이러한 행위는 저작권자 허락 없이 저작권 관리정보를 고의로 제거하는 것을 금하는 미국의 디지털 밀레니엄 저작권법 제1202조 등의 위반일 뿐만 아니라 오픈소스 라이선스 조건인 고지의무 및 공개의무 등을 무시하여 오픈소스 계약 위반에 해당한다는 것입니다.

 

 

OpenAI 등은 이에 대하여 GitHub 레포지토리의 여러 오픈소스 소프트웨어가 학습에 사용된 것은 사실이지만 이는 초거대 AI 학습 모델을 생성 및 발전시키는 데 불가피한 요소로 기술 발전을 위한 공정이용에 해당한다고 주장하고, 출력물에 있어서는 라이선스가 부가된 오픈소스 코드가 직접적으로 사용되는 것이 아니고 LLM의 학습 결과에 따라 새로이 출력된 신규 저작물이라는 취지로 반박하며 원고의 소송을 본안 소송 진행 전에 각하해 달라고 신청(Motion to Dismiss)하였으나, 지난 달 캘리포니아 북부 지방법원은 이와 같은 각하 신청을 기각하고 소송을 증거조사절차로 이행하였습니다.

 

이 소송에서 캘리포니아 북부 지방법원이 OpenAI의 각하신청(Motion to Dismiss)을 기각하였다고 하여 원고의 청구원인이 모두 타당하다고 인정한 것은 아닙니다. 그러나 이 결정을 통하여 LLM 기반의 AI 개발 보조도구가 디지털 밀레니엄 저작권법 위반 및 오픈소스 계약 위반의 소지가 있어 본안에 대한 판단이 필요함이 확인되었기 때문에, 향후 이 소송을 통하여 인공지능 학습을 위하여 인터넷에 공개된 자료를 이용하는 행위가 저작권법 상의 공정이용에 해당하는지 여부 및 그 한계에 대하여 보다 명확한 기준이 세워질 것으로 보입니다. 특히 이 사건에서 문제된 Copilot은 무차별적으로 대량의 데이터를 학습시킨 인공지능을 독점적인 상업 사용 모델에 사용되는 이러한 행위가 기존의 창작물 시장에 영향을 주고 있는 경우에도 공정이용의 범주에 들 수 있는지에 대하여는 치열한 다툼이 예상되며 그 과정에서 인공지능의 공정이용의 기준에 관하여 많은 쟁점이 확인될 것입니다. 그리고 이 사건에서는 출력물로 확인되는 파편화된 코드들이 인공지능을 통한 산출물이 되었을 때 파편화된 코드들의 원 코드 식별 기준과 산출물이 그 코드의 2차 저작물에 해당하는지 여부에 관하여도 깊이 있게 다루어질 것으로 예상됩니다. (실제 Motion to Dismiss 기각 직후 이 사건의 원고들은 OpenAI가 출시한 Copilot이 기존 코드의 확인을 고의적으로 어렵게 하는 방향으로 제품을 업그레이드하고 있다고 주장하며, 관련된 청구를 추가하였습니다.) 또한, 이 사건은 이후에 줄지어 제기된 AI의 저작권 침해에 관한 여러 사건들, 예컨대 이미지 공급 플랫폼인 게티이미지가 AI 기반 이미지 생성도구를 제공하는 스태빌리티AI를 상대로 영국 런던 고등법원에 제기한 저작권 침해소송과 화가 등 이미지 저작권자들이 이미지 생성 AI 회사인 미드저니를 상대로 미국에서 제기한 저작권 침해 소송 등에 큰 영향을 미칠 것입니다.

 

EU의 AI법 본회의 통과, 제정안으로 확정시 전세계 인공지능 관련 규제에 큰 영향을 끼칠 것

 

이와 별도로, 유럽 의회에서 2021년부터 대대적으로 준비하고 있는 AI법(Artificial Intelligence Act)의 법안 심사 역시 본 궤도에 오르고 있습니다. 이 법안은 2023년 6월 14일 본회의를 통과하였습니다. 이 법안은 유럽 연합 전 회원국에 적용될 세계 첫 인공지능 규제 프레임워크로, 종전 개인정보 보호와 관련하여 유럽 의회가 마련하였던 GDPR(General Data Protection Regulation)과 마찬가지로 전 세계적으로 영향력을 미치며 각국의 인공지능 관련 규제의 내용에 큰 영향을 끼칠 것으로 예상됩니다. 본 법안 초안이 본회의에 상정되기 직전 LLM 기반의 생성형 AI의 적법한 사용이 크게 문제되면서 올해 4월, 그에 대한 규제가 추가되었는데, 이에 따르면 생성형 AI의 학습에 사용된 데이터셋을 상세하게 공개하고 생성형 AI가 산출한 컨텐츠에는 인간이 생성한 것이 아니라고 밝힐 의무가 발생하게 됩니다. 현재 제시된 EU AI법 초안의 규제가 제정안으로 확정되는 경우, 폐쇄형 상용 LLM 기반 AI 서비스의 광범위한 데이터 수집이 공정이용에 해당하는 것으로 판단되기 더욱 어려워질 것으로 예상됩니다.

 

향후 LLM에 기반한 인공지능 도구를 업무에 적용하려면 생성형AI에 맞는 새로운 정책이 필요

 

앞으로 산업뿐만 아니라 개개인의 생활에 광범위한 영향을 미칠 AI는 앞으로 더욱 빠르게 발전해 나갈 것이 분명해 보이고, 이 과정에서 이와 같은 AI의 적법한 사용에 관한 분쟁은 매우 빠른 속도로 증가해 나갈 것으로 예상됩니다. 이는 표면적으로는 거대 AI서비스 제공 기업과 저작권자들 사이의 분쟁으로 보이지만, 이러한 서비스가 저작권 위반으로 판명되는 경우 서비스를 제공하는 AI 플랫폼 기업만이 아니라 이를 이용한 생성물을 업무에 적용한 사용자 역시 저작권 위반 문제에서 자유로울 수 없습니다. 예컨대 OpenAI의 Copilot 서비스를 이용한 산출물에 저작권 침해 및 오픈소스 라이선스 계약 위반의 책임이 발생한다면 이 도구를 통하여 코드를 제작하여 배포한 최종사용자 입장 역시도 법적 책임에서 자유로울 수 없습니다. 따라서 향후 LLM에 기반한 인공지능 도구를 업무에 적용하려는 기업들의 경우 이에 대한 적절한 준칙을 세워 나갈 필요가 있으며, 이를 위하여는 현재 진행중인 여러 소송의 진행 경과 및 각국의 규제 동향을 지속적으로 주시할 필요가 있습니다.

 

 

이완근 변호사 이완근 변호사

現 오에스비씨(주) 상무(사내변호사)
前 한국사내변호사회장

 

 

공개SW 가이드/보고서 - 번호, 제목, 작성자, 조회수, 작성
번호 제목 작성자 조회수 작성
공지 [2024년] 오픈소스SW 라이선스 가이드 개정판 발간 file support 4862 2024-01-03
공지 [2024년] 기업 오픈소스SW 거버넌스 가이드 개정판 발간 file support 3952 2024-01-03
공지 [2024년] 공공 오픈소스SW 거버넌스 가이드 개정판 발간 file support 3947 2024-01-03
공지 공개 소프트웨어 연구개발(R&D) 실무 가이드라인 배포 file support 16388 2022-07-28
공지 공개소프트웨어 연구개발 수행 가이드라인 file OSS 16169 2018-04-26
461 2023 오픈소스 컨트리뷰션 아카데미, 협업과 열정으로 개발자의 성장 기회 제공 support 1016 2023-07-24
460 2023년 공개SW 개발자대회, 17회째 개최... 오픈소스를 기반으로 디지털 혁신 선도 support 1118 2023-07-24
459 [6월 월간브리핑]AI 코드제너레이터와 오픈소스 저작권 분쟁 : 라이선스 검증 필수 support 1540 2023-06-26
458 [기획기사] 생성형 AI 시대, 새로운 전략 도구 오픈소스 support 5082 2023-06-26
457 [기고] 생성형AI 개발도구 Copilot의 오픈소스 라이선스 위반과 저작권 분쟁 support 3369 2023-06-26
456 [기획기사] APM 시각화 기술에 유용한 오픈소스 JUI support 1379 2023-05-25
455 [기획] 오픈소스 APM 핀포인트 도입을 활용한 사례 소개 support 2500 2023-05-25
454 [5월 월간브리핑] 서비스 운영관리에 필수적인 성능관리 오픈소스 솔루션 support 1553 2023-05-25
453 [기획] 암호화폐와는 다른 오픈소스 NFT의 잠재력과 가능성 support 5350 2023-04-24
452 [기획기사] NFT 업계의 오픈소스 활용 support 1922 2023-04-24
맨 위로
맨 위로