2026.02.23
[기고] 독자 AI 모델의 라이선스 현황과 쟁점
- 충남대학교 법학전문대학원 이철남 교수 -
들어가며
오늘날 생성형 AI는 단순한 도구를 넘어 지식 생산의 새로운 기제로 자리 잡고 있으며, 이러한 기술적 도약의 중심에는 대규모 언어 모델(LLM)이 존재한다. 초기 인공지능 개발이 소수 거대 기술 기업의 폐쇄적인 생태계를 중심으로 진행되었다면, 2023년 메타의 라마(Llama) 시리즈 출시를 기점으로 모델의 가중치를 공개하는 '오픈 웨이트(Open Weights)' 방식이 확산되면서 기술의 민주화와 생태계 확장이 가속화되고 있다. 하지만 이와 같은 ‘오픈 모델’은 전통적인 오픈소스 소프트웨어(OSS)의 정의와 충돌하며 라이선스의 법적 성격에 대한 전례 없는 혼란을 야기하고 있다. 과거의 오픈소스 라이선스가 주로 인간이 이해할 수 있는 '소스 코드'의 공유와 재배포에 집중했다면, AI 모델은 학습 데이터, 모델 아키텍처, 그리고 학습의 결과물인 가중치라는 세 가지 이질적인 요소가 결합된 형태를 띠고 있어 기존의 저작권 체계만으로는 그 권리 관계를 온전히 설명하기 어렵다. 특히 2026년을 기점으로 한국을 포함한 전 세계 주요 국가들이 인공지능 관련법을 시행하면서, 기업들은 기술적 우위를 넘어 법적 컴플라이언스와 라이선스 전략을 비즈니스의 핵심 생존 요건으로 인식하게 되었다.
1. 오픈소스 소프트웨어와 오픈소스 AI
전통적인 오픈소스 소프트웨어는 1998년 오픈소스 이니셔티브(OSI)가 제정한 오픈소스 정의(OSD)를 따르며, 이는 소스 코드의 접근성, 자유로운 재배포, 파생 저작물의 허용 등을 골자로 한다.1) 그러나 AI 모델은 소스 코드만으로는 그 기능과 성능을 재현하거나 수정할 수 없다는 점에서 소프트웨어와는 궤를 달리한다. 인공지능 모델에서 '수정을 위한 선호되는 형태'는 단순히 가중치 파일(safetensors 등)이 아니라, 해당 모델을 탄생시킨 학습 데이터에 대한 상세한 정보와 이를 처리한 전체 파이프라인 코드를 포함해야 한다. 이러한 정보 없이 공개된 모델은 실무적으로 블랙박스와 다름없으며, 사용자가 모델의 근본적인 편향성을 제거하거나 구조적인 문제를 해결하는 데 한계가 따르기 때문이다.
OSI는 2024년 10월, 오랜 논의 끝에 '오픈소스 AI 정의 1.0'을 공식 발표하며 오픈소스 AI 시스템이 보장해야 할 4가지 핵심 자유(사용, 연구, 수정, 공유)를 명시했다. 이 정의에 따르면 진정한 오픈소스 AI는 사용자가 어떠한 목적으로든 허가 없이 시스템을 사용할 수 있어야 하며, 시스템의 작동 원리를 완전히 이해할 수 있을 만큼의 정보가 제공되어야 한다.2)
하지만 현재 시장에서 '오픈소스'라는 명칭으로 유통되는 많은 모델들은 진정한 의미의 오픈소스 AI로 보기 어렵다. 다수의 모델들이 가중치는 공개하지만, 특히 학습데이터 관련 정보는 공개하지 않고 있다. 나아가 가중치 조차도 전통적인 오픈소스 라이선스로 배포되는 것이 아니라 상업적 이용에 제한을 두거나 경쟁사의 사용을 금지하는 등의 조건을 부과하는 경우도 있다.3) 이와 같은 모습은 전통적인 오픈소스 정의에 위배되며, 전문가들은 이를 마케팅적 이득을 위해 오픈소스의 명성을 이용하는 '오픈워싱(Openwashing)'이라 비판하고 있다.4)
2. 주요 오픈 모델과 라이선스
2026년 2월 현재, 인공지능(AI) 생태계는 폐쇄형 모델과 오픈 모델 간의 성능 격차가 사실상 소멸하는 중대한 변곡점에 도달해 있다. 허깅페이스(Hugging Face) 오픈 LLM 리더보드 v2를 비롯한 다양한 벤치마크 지표들은 이제 오픈 모델들이 추론, 코딩, 에이전트 자동화 등 핵심 영역에서 독점적 시스템들과 대등하거나 심지어 이를 능가하는 성과를 보여주고 있음을 보여준다.5) 2026년 2월의 오픈 LLM 리더보드는 지푸 AI(Zhipu AI), 문샷 AI(Moonshot AI), 알리바바(Alibaba), 메타(Meta), 미스트랄 AI(Mistral AI) 등 글로벌 기술 기업들이 내놓은 고성능 모델들이 상위권을 점유하고 있다.6) 특히 중국계 모델들의 약진이 두드러지며, 이들은 공격적인 성능 향상과 더불어 매우 허용적인 라이선스 정책을 통해 전 세계적인 생태계 확장을 꾀하고 있는 것이 관찰된다.
라이선스는 모델 가중치(Weights)와 소프트웨어 코드의 사용, 수정, 재배포 권한을 규정한다. 2026년 현재 리더보드에서 발견되는 라이선스는 크게 허용적 라이선스(Permissive License), 수정된 오픈소스 라이선스(Modified Open Source License), 그리고 제한적 커뮤니티 라이선스(Restrictive Community License)의 세 가지 범주로 나눌 수 있다.
(1) 허용적 라이선스(Permissive License)
지푸 AI의 GLM 시리즈와 딥시크(DeepSeek)의 V3.2 모델이 채택한 MIT 라이선스는 가장 단순하고, 상업적인 활용을 포함한 넓은 범위의 자유를 제공한다. 사용자는 복제, 수정, 배포, 서브라이선스 부여 및 상업적 판매에 있어 거의 어떠한 제약도 받지 않는다. 유일한 조건은 저작권 고지 및 라이선스 사본을 포함하는 것뿐이다.
Apache 2.0 라이선스는 미스트랄 AI와 알리바바의 Qwen 모델에서 주로 발견된다. MIT와 마찬가지로 매우 허용적이지만, 특허권에 관한 명시적인 조항을 포함하고 있다는 점에 차이가 있다. 의무사항으로는 저작권 고지 및 라이선스 사본 제공 의무와 함께, 모델의 가중치를 미세 조정하거나 아키텍처를 변경하여 재배포할 경우 원본 파일이 수정되었음을 알리는 공지를 포함해야 한다.
(2) 수정된 오픈소스 라이선스(Modified Open Source License)
문샷 AI의 Kimi K2.5 모델이 사용하는 'Modified MIT License'는 매우 독특한 하이브리드 접근법을 취한다. 기본적으로 MIT 라이선스의 자유를 따르지만, 특정 규모 이상의 상업적 성공을 거둔 사용자에게는 제품 또는 서비스의 사용자 인터페이스에 “Kimi K2.5”을 표시하도록 추가적인 의무를 부과한다.7) 이는 오픈 모델의 기술적 혜택을 대중에게 제공하면서도, 상업적 성공을 거둔 서비스를 통해 브랜드 가치를 높이려는 의도로 풀이된다.
(3) 제한적 커뮤니티 라이선스(Restrictive Community License)
메타의 Llama 4는 오픈소스 정의(OSD)를 충족하지 않는 자체적인 커뮤니티 라이선스를 사용한다.8) 배포 시 의무사항으로는 라이선스 사본 제공 의무와 함께, Llama 4를 활용한 서비스나 웹사이트, 앱 페이지에 "Built with Llama"라는 문구 또는 배지를 눈에 잘 띄게 표시해야 할 것과, Llama 4를 튜닝하여 새로운 모델을 배포할 경우 모델 이름의 시작은 반드시 "Llama"로 해야 한다는 것이 포함되어 있다. 아울러 월간 활성 사용자(MAU) 수에 따른 제한이 있는데, 7억 명 이상의 MAU를 보유한 서비스에 대해 메타의 별도 승인을 요구하고 있다.
3. 국내 독자 AI 모델과 라이선스
(1) SKT의 A.X-K1
SKT는 5,190억 개의 파라미터를 보유한 대규모 MoE 모델인 A.X-K1을 전통적인 오픈소스 라이선스인 Apache License 2.0로 공개했다.9) 아파치 라이선스는 대표적인 허용적 오픈소스 라이선스로서, 저작자 표기와 라이선스 사본을 제공하고, 모델을 수정한 경우 수정했다는 사실을 표시하는 등 최소한의 의무사항만 준수하면 상업적인 이용을 포함하여 자유로운 사용이 가능하다.
(2) 업스테이지(Upstage)의 Solar-Open-100B
업스테이지는 Solar-Open-100B를 공개하면서 코드는 Apache License 2.0으로 하되, 모델 가중치(Weights)는 Upstage Solar License로 배포했다.10) Upstage Solar 라이선스는 Apache 2.0을 기반으로 하되, AI 생태계 내에서의 브랜드 자산 보호를 위한 특수한 조건을 결합한 형태를 띤다. 예를 들면, 아파치 라이선스와 같이 자유로운 상업적 이용을 원칙적으로 허용하되, 파생 모델을 배포하는 경우 그 이름을 반드시 “Solar”로 시작해야 하며, 관련 웹사이트 및 UI에 “Built with Solar” 문구를 눈에 띄게 표시해야 한다.11) 업스테이지의 이러한 전략은 기술의 공유를 통해 생태계를 확장하면서도, 해당 기술을 활용해 만들어진 수많은 파생 모델들이 "Solar"라는 브랜드를 강화하는 마케팅 도구로 작동하게 만든다.
(3) LG AI의 K-EXAONE
LG AI의 K-EXAONE은 'K-EXAONE AI Model License Agreement'라는 독자적인 계약 모델을 사용한다.12) 이 라이선스는 사용권의 범위를 매우 정교하게 획정하고 있다.13) 예를 들면, 상업적인 활용과 관련하여 기업 내부적인 목적의 사용 및 수정은 자유롭게 허용하되(2.1조), 모델이나 파생 저작물을 제3자에게 상업적으로 배포하는 경우에는 별도의 합의가 필요하다(2.2조). 모델이나 파생물을 배포하는 경우 라이선스 사본을 함께 제공해야 하며 그 이름은 “K-EXAONE”으로 시작해야 한다(2.1조). LG AI의 라이선스는 기술의 도구적 활용은 장려하되, 기술 자체를 상품화하여 재판매하는 행위는 본사의 통제하에 두겠다는 전략으로 보인다. 이는 기업의 기술 자산이 경쟁사에 의해 상업화되는 것을 방지하기 위한 조치로, K-EXAONE을 활용하려는 기업 실무자는 자사의 비즈니스 모델이 내부 활용인지 외부 서비스 제공인지를 명확히 구분하여 사용 여부를 결정해야 한다.
(4) 네이버의 HyperCLOVA X SEED
네이버는 HyperCLOVA X의 경량화 버전인 SEED 모델(8B Omni 등)을 공개했으며,14) 상업적 이용이 가능한 라이선스를 제공하고 있다.15) 그러나 네이버의 라이선스에는 메타의 라마 라이선스와 유사하게 사용자 규모에 따른 진입 장벽 조항이 포함되어 있다. 네이버 라이선스의 제4조(추가 상업적 조건)에 따르면, 월간 활성 사용자(MAU)가 1,000만 명을 초과하는 제품이나 서비스를 보유한 기업은 네이버로부터 별도의 명시적 승인을 받아야만 해당 모델을 사용할 수 있다. 이 밖에 모델 또는 파생물을 재배포하는 경우 관련 웹사이트나 UI 등에 “Powered by HyperCLOVA X”를 표시해야 하며, 모델을 튜닝하거나 수정하여 새로운 모델(파생 모델)을 만들 경우 모델 이름을 "HyperCLOVA X"로 시작해야 한다.
(5) NC의 VAETKI
NC-AI 컨소시엄이 개발한 VAETKI 모델은 오픈 데이터셋을 학습한 모델로, 모델 리포지토리는 MIT 라이선스로 제공되며,16) 모델에 포함된 제3자 오픈소스 소프트웨어 및 데이터는 각각의 라이선스로 제공된다.17) MIT 라이선스는 아파치 라이선스와 함께 대표적인 허용적 오픈소스 라이선스의 하나로, 저작자 표기와 라이선스 사본을 제공하는 등 최소한의 의무사항만 준수하면 상업적인 이용을 포함하여 자유로운 사용이 가능하다. VAETKI는 타사 모델과 달리 공개된 데이터셋 위주로 학습하고 그 내용을 공개함으로써 데이터 투명성 관점에서 상대적으로 모범적인 사례로 볼 수 있다.
4. 기업의 오픈 AI 활용시 주의 사항
오픈 모델을 채택하고자 하는 기업의 입장에서는 해당 모델의 라이선스를 확인하고 기본적인 의무사항을 준수할 필요가 있다.
우선, MIT와 아파치 라이선스를 포함한 전통적인 오픈소스 라이선스는 상업적 이용을 포함한 넓은 자유를 보장하지만, 최소한의 의무사항으로 저작권 고지 및 라이선스 사본을 제공할 것을 요구하고 있으므로 이를 준수해야 한다. 그리고 Apache 2.0 라이선스의 경우 모델 가중치를 미세 조정하거나 아키텍처를 변경하여 재배포할 경우 원본 파일이 수정되었음을 알리는 공지를 포함해야 한다.
둘째, 최근 기업들이 공개하는 모델들(업스테이지의 Solar나 LG AI의 K-EXAONE 등)은 브랜드 자산 보호를 위해 특수한 명명 규칙을 요구하고 있다. 기업 실무자는 이러한 브랜드 강제 조항이 자사의 독자적인 브랜드 구축 전략과 충돌하지 않는지 검토해야 한다. 예를 들어, 자사의 AI 비서 이름을 독창적으로 짓고 싶더라도 라이선스 조건에 따라 반드시 "Powered by [Original Model Name]"이나 모델명의 시작을 특정 단어로 해야 한다면, 이는 브랜드 독립성을 훼손하는 결과로 이어질 수 있다.
셋째, 메타의 Llama나 네이버의 HyperCLOVA X가 채택하고 있는 사용자 규모에 따른 제한 조항은 성장 가능성이 높은 스타트업이나 대규모 플랫폼 기업에게 중대한 주의 사항이다. 이러한 조항은 초기 도입 시에는 문제가 되지 않으나, 서비스가 글로벌 시장에서 성공을 거두어 임계점을 넘어서는 순간 기술 제공자와의 불리한 협상 테이블에 앉게 되거나, 기술적 인프라를 전면 교체해야 하는 상황을 초래할 수 있다. 따라서 기업은 서비스의 예상 성장 곡선을 고려하여 이러한 규모 기반 제한이 없는 허용적 라이선스 모델을 선택할지, 아니면 초기 성능 우위를 위해 제한적 라이선스를 수용할지에 대한 전략적 의사결정을 내려야 한다.
마지막으로, 오픈 모델의 자사 도입과 함께 외부 서비스를 고려하고 있는 기업의 입장에서는 LG AI의 K-EXAONE 등 일부 모델의 라이선스에서 규정하고 있는 상업적 서비스 제한에 관한 사항을 반드시 숙지해야 한다. 이와 같은 라이선스는 기업이 오픈 모델을 도입하여 상업적으로 활용하는 것은 허용하면서도 제3자에 대한 서비스 제공은 제한하고 있기 때문이다.
마무리하며
OSI가 발표한 오픈소스 AI 정의 1.0은 단순히 모델 가중치(Weights)를 공개하는 것을 넘어, 사용, 연구, 수정, 공유라는 4가지 핵심 자유를 보장할 것을 요구한다. 특히 모델을 재현하고 개선할 수 있도록 학습 데이터에 대한 상세 정보(Data Information)와 학습 코드(Training Code)의 공개를 필수 조건으로 삼고 있다. 이러한 관점에서 현재 오픈 모델로 분류되는 국내외 AI 모델들은 진정한 의미의 오픈소스 AI라기보다는 '오픈 웨이트(Open Weights)' 모델에 해당하며, 라이선스 측면에서도 상당한 제약을 가지고 있다. 특히, 대다수의 오픈 모델은 모델의 가중치는 공개하지만, 핵심적인 학습 데이터 관련 정보는 비공개로 유지하고 있다. OSI 기준에 따르면, 학습 데이터 정보 없이 공개된 모델은 사용자가 근본적인 편향성을 제거하거나 구조적 문제를 해결하는 데 한계가 있는 블랙박스에 불과하며, 진정한 오픈소스 AI로 인정받기 어렵다. 나아가 일부 독자적인 라이선스를 사용하는 모델들은 전통적인 오픈소스 정의에 반하는 여러 제한 조건을 부과하고 있으므로 사용자들의 주의가 필요하다.
나아가 2026년 인공지능 기본법의 시행 등 법적 환경의 변화를 고려할 때, 기업이 오픈 AI 활용 시 발생할 수 있는 리스크를 관리하기 위한 조직 차원의 거버넌스 구축이 필요하다. 예를 들어, 자사 시스템이 고영향 AI나 생성형 AI에 해당하는지 검토하고, 이에 따른 투명성 고지 및 학습 데이터 정보 관리 등을 고려해야 한다. 이러한 컴플라이언스 체계의 구축은 단기적으로는 비용으로 느껴질 수 있으나, 장기적으로는 법적 리스크를 예방하고 브랜드의 지속 가능성을 확보하는 가장 강력한 경쟁 우위가 될 것이다.
|
|
이철남 교수는 충남대학교 법학전문대학원에서 저작권법, 영화방송미디어법, 엔터테인먼트법, IT(컴퓨터)법 등을 강의하고 있다.
고려대학교 법학과를 졸업했으며, 동 대학원에서 MS 등 시장지배적 지적재산권자의 규제에 관한 내용을 주제로 박사학위를 취득했다. 정보통신정책연구원(KISDI) 정보사회법제도연구센터에서 연구원으로 근무했다. 컴퓨터 사이언스와 인터넷 기술이 우리 사회에 미치는 영향과 그에 대한 법제도적 대응에 관심이 많다. 특히 최근에는 AI 기술이 콘텐츠 창작 환경에 미치는 영향을 분석하고 저작권법을 포함한 법제도적 대응 방안에 대해 연구하고 있다. |
댓글 0
댓글 작성
댓글을 작성하려면 게시글 작성 시 입력한 이메일과 패스워드를 입력해주세요.
* 표시는 필수 입력 사항입니다.