이 누리집은 대한민국 공식 전자정부 누리집입니다.

학습 데이터셋 라이선스(비영리) 전염성에 대한 문의

2026.06.16

안녕하세요. 이번에 개인 토이 프로젝트로 소형 LLM을 학습시켜서 깃허브와 허깅페이스에 공개하려고 합니다.

학습을 위해 허깅페이스에서 퀄리티가 좋은 데이터셋을 찾았는데, 라이선스가 CC BY-NC 4.0 (비영리 목적만 허용)이더라고요. 제가 궁금한 점은, 이 비영리 데이터셋을 활용해 학습(Train)시킨 '모델 가중치(Weight)' 파일 자체를 상업적 이용이 가능한 Apache 2.0이나 MIT 라이선스로 배포해도 되는지입니다.

데이터 자체를 그대로 배포하는 건 당연히 안 되겠지만, 데이터를 신경망이 학습해서 만들어낸 파라미터 값에도 원본 데이터의 '비영리' 제약이 전염(Viral)되는 것인지 명확하지가 않습니다. 관련 판례나 오픈소스 생태계에서 사용하는 암묵적인 룰이 있다면 조언 부탁드립니다.

댓글 1

관리자 라이선스 담당자 2026-06-17 14:46
안녕하세요, 오픈소스SW 라이선스 관리자입니다. 문의주신 내용 답변드립니다. 문의주신 내용은 현재 분쟁중이거나 명확히 법률 조항이 없는 상황이라 시기, 지역 별로 다르게 적용될 수 있습니다. 간단히 현 상황에 대해서 문의주신 내용을 말씀드리자면, 학습된 모델 가중치가 원본 데이터셋(비영리 데이터셋)의 2차적 저작물이라고 주장하는 저작권자들의 입장과 학습 데이터는 공정 이용(Fair use)에 해당해서 저작권을 사용하더라도 공공의 이익을 위해 예외를 인정해 준다는 입장이 분쟁 중이라고 보시면 됩니다. 안정적, 보수적인 시각으로, 분쟁 상황의 결론이 날 때까지는 비영리 데이터셋을 학습시킨 모델 가중치는 상업적 이용이 가능한 라이선스로 배포하는 것은 매우 위험할 수 있습니다. 감사합니다. ※ 법적 분쟁 발생시 본 답변은 법률적 해석이나 논리로 활용될 수 없습니다.

댓글 작성

댓글을 작성하려면 게시글 작성 시 입력한 이메일과 패스워드를 입력해주세요.

* 표시는 필수 입력 사항입니다.