2025.08.26
- Open UP -
|
○ LF AI & Data Generative AI Commons는 AI 모델 공개의 불투명성과 오픈 워싱 문제를 해소하고, 투명성과 재현성 확보를 통해 책임 있는 AI 생태계를 촉진하기 위한 MOF(Model Openness Framework, 모델 개방성 프레임워크)를 개발 - MOF는 AI 모델의 완전성과 개방성을 객관적으로 평가·등급화하는 표준 체계로, 오픈사이언스·오픈소스·오픈데이터·오픈액세스 원칙*에 따라, 모델 구성 요소가 적절한 오픈 라이선스와 함께 제공되도록 요구 - MOF는 AI 모델의 17개 핵심 구성 요소와 적절한 오픈 라이선스로 제공했는지 평가해 Class I, II, III* 등급으로 분류 * Class III (Open Model)는 핵심 모델만 공개된 최소 수준의 개방 단계로, 누구나 자유롭게 접근·사용·수정·재배포 가능하며, 이를 통해 제품이나 서비스 개발, 파인튜닝 및 정렬, 모델 최적화와 같은 활용이 가능 * Class II (Open Tooling Model)은 모델뿐만 아니라 학습·검증·테스트 및 추론 과정에 필요한 도구와 코드까지 함께 공개된 단계로, 이 수준에서는 학습 프로세스를 이해할 수 있으며, 벤치마크 검증과 추론 최적화가 가능해 재현성과 활용성이 강화됨 * Class I (Open Science Model)은 연구와 산업 현장에서 모두 활용할 수 있는 완전한 오픈 공개 단계로, 모델과 데이터, 코드 전반이 투명하게 제공되어 이를 통해 완전한 분석과 감사, 유사 모델 재현, 데이터 탐색 및 실험이 가능하여 가장 높은 수준의 개방성과 활용성을 보장 |
□ MOF, AI 모델의 17개 핵심 구성 요소와 라이선스를 평가해 투명성 수준을 등급화
○ 생성형 AI와 대규모 언어 모델(LLM)의 급속한 발전은 자연어 처리, 이미지·영상 생성 등에서 전례 없는 혁신을 이루었지만, 동시에 AI 모델의 불투명성 문제가 심화
- 많은 AI 모델이 ‘오픈’ 또는 ‘오픈소스’를 표방하지만, 실제로는 핵심 구성 요소(데이터셋, 학습 코드 등)를 공개하지 않거나 제한된 라이선스를 사용하는 ‘오픈워싱(Open-Washing)’ 확산
- 오픈워싱 관행은 진정한 오픈소스 생태계에 대한 신뢰를 떨어뜨리고, AI 기술의 책임감 있는 발전을 방해
- 이러한 불완전한 공개는 AI 모델의 성능 검증, 편향·안전성 감사, 재현 가능한 연구 수행이 어려워, 공정하고 책임 있는 AI 사용을 위한 기반을 약화
○ Linux Foundation AI & Data Generative AI Commons는 AI 모델 공개의 불투명성과 오픈 워싱 문제를 해소하고, 투명성과 재현성 확보를 통해 책임 있는 AI 생태계를 촉진하기 위한 MOF(Model Openness Framework, 모델 개방성 프레임워크)를 개발
* Linux Foundation AI & Data (약칭 LF AI & Data) : AI의 오픈 혁신 생태계를 육성하기 위한 리눅스 재단의 전략적 이니셔티브(’24)
[모델 개방성 프레임워크(MOF)의 핵심 목적]
|
목표 |
설명 |
|
오픈워싱 방지 |
핵심 구성 요소가 누락된 모델의 불완전하거나 모호한 공개 관행을 식별·차단 |
|
개방성 확립 |
AI 모델의 모든 구성 요소가 명확한 라이선스 조건과 함께 공개되도록 촉진 |
|
신뢰할 수 있는 |
AI 기술의 공정하고, 법적·윤리적 요건을 충족하는 책임감 있는 사용 유도 |
|
궁극적 목표 |
명확한 표준을 수립하고, 철저하게 검증하며, 사용자가 정보에 기반한 결정을 내릴 수 있도록 교육하여 위의 문제들을 해결하는 것 |
- MOF는 AI 모델의 완전성과 개방성을 객관적으로 평가·등급화하는 표준 체계로, 오픈사이언스·오픈소스·오픈데이터·오픈액세스 원칙*에 따라, 모델 구성 요소가 적절한 오픈 라이선스와 함께 제공되도록 요구
* 오픈사이언스(Open Science): 과학 연구 과정과 결과를 누구나 접근·이용할 수 있게 하는 투명성과 협업, 재현성을 중시하는 과학 문화
오픈소스(Open Source): 소스 코드를 공개하여 누구나 자유롭게 열람, 사용, 수정, 배포할 수 있도록 허용하는 소프트웨어 배포 방식
오픈데이터(Open Data):누구나 자유롭게 사용, 재이용, 공유할 수 있도록 최소한의 라이선스 요구사항으로 공개한 데이터
오픈액세스(Open Access): 학술 정보(논문, 연구 출판물 등)를 누구나 무료로 접근하고 재사용할 수 있도록 하는 원칙
- MOF는 AI 모델의 17개 핵심 구성 요소와 적절한 오픈 라이선스로 제공했는지 평가해 Class I, II, III* 등급으로 분류
[MOF 등급에 따른 공개 수준 및 활용 범위]
|
MOF 등급 |
공개 수준 |
활용 범위 |
|
Class I (Open Science Model) |
연구·산업용 모두 사용 가능 수준의 완전한 오픈 공개 수준 |
• 완전한 분석 및 감사 • 유사 모델 재현 • 데이터 탐색 및 실험 |
|
Class II (Open Tooling Model) |
재현 가능한 도구 및 툴 전체 공개 |
• 학습 프로세스 이해 • 벤치마크 검증 • 추론 최적화 |
|
Class III (Open Model) |
핵심 모델만 공개, 최소 개방 수준 |
• 자유로운 사용 (접근, 사용, 수정, 재배포) • 제품/서비스 개발 • 파인튜닝 및 정렬 • 모델 최적화 |
[MOF 등급별 구성 요소]
|
구성 요소 (Component) |
Class I (Science) |
Class II (Tooling) |
Class III (Model) |
요구 라이선스 유형* |
| 1. 모델 아키텍처 |
o |
o |
o |
OSI‑approved |
| 2. 최종 모델 파라미터 |
o |
o |
o |
Open-data |
| 3. 기술 보고서 (또는 논문) |
o |
o |
o |
Open-content |
| 4. 평가 결과 |
o |
o |
o |
Open-content |
| 5. 모델 카드 |
o |
o |
o |
Open-content |
| 6. 데이터 카드 |
o |
o |
o |
Open-content |
| 7. 샘플 출력 (선택) |
o |
o |
o |
Open-content |
| 8. 학습/검증/테스트 코드 |
o |
o |
|
OSI‑approved |
| 9. 추론 코드 |
o |
o |
|
OSI‑approved |
| 10. 평가 코드 |
o |
o |
|
OSI‑approved |
| 11. 평가 데이터 |
o |
o |
|
Open-data |
| 12. 지원 도구/라이브러리(권장) |
o |
o |
|
OSI‑approved |
| 13. 연구 논문 |
o |
|
|
Open-content |
| 14. 데이터셋 |
o |
|
|
Open-data, Open-content |
| 15. 데이터 전처리 코드 |
o |
|
|
OSI‑approved |
| 16. 중간 모델 파라미터 |
o |
|
|
Open-data |
| 17. 모델 메타데이터 (선택) |
o |
|
|
Open-data |
* OSI‑approved : OSI‑approved license for code로 Apache 2.0, MIT, BSD 등 오픈소스 라이선스,
Open-data : CDLA(Community Data License Agreement) 등 데이터셋 공유 라이선스,
Open-content : CC(Creative Commons) Licenses CC-BY 등 저작자 표시, 상업적 사용 가능 여부
[모델별 MOF 개방형 평가 예시]
|
모델명 |
Aquila-VL-2B |
Polyglot-Ko |
DeepSeek-R1 |
|||
|
매개변수 |
2.18B |
12.8B |
671B |
|||
|
조직 |
베이징 인공지능아카데미 |
EleutherAI |
DeepSeek AI |
|||
|
모델 유형 |
멀티모달모델 |
언어모델 |
언어 모델 |
|||
|
마지막 업데이트 |
2025년 06월 02일 |
2025년 06월 02일 |
2025년 02월 20일 |
|||
|
구성요소 |
라이선스 |
확인 |
라이선스 |
확인 |
라이선스 | 확인 |
| 1. 모델 아키텍처 |
Apache-2.0 |
○ |
Apache-2.0 |
○ |
MIT |
○ |
| 2. 최종 모델 파라미터 |
Apache-2.0 |
○ |
Apache-2.0 |
○ |
MIT |
○ |
| 3. 기술 보고서(논문) |
CC-BY-4.0 |
○ |
Apache-2.0 |
○ |
MIT |
○ |
| 4. 평가 결과 |
Apache-2.0 |
○ |
Apache-2.0 |
○ |
MIT |
○ |
| 5. 모델 카드 |
Apache-2.0 |
○ |
Apache-2.0 |
○ |
MIT |
○ |
| 6. 데이터 카드 |
CC-BY-4.0 |
○ |
Apache-2.0 |
○ |
- |
X |
| 7. 샘플 출력(선택) |
- |
- |
- |
- |
- |
- |
| 8. 학습/검증/테스트 코드 |
Apache-2.0 |
○ |
Apache-2.0 |
○ |
- |
X |
| 9. 추론 코드 |
Apache-2.0 |
○ |
Apache-2.0 |
○ |
MIT |
○ |
| 10. 평가 코드 |
Apache-2.0 |
○ |
Apache-2.0 |
○ |
- |
X |
| 11. 평가 데이터 |
CDLA-Permissive-2.0 |
○ |
Apache-2.0 |
○ |
MIT |
○ |
| 12. 지원도구/라이브러리(권장) |
Apache-2.0 |
○ |
- |
X |
MIT |
○ |
| 13. 연구 논문 |
CC-BY-4.0 |
○ |
CC-BY-SA-4.0 |
○ |
라이선스 미표기 |
△ |
| 14. 데이터셋 |
CC-BY-4.0 |
○ |
Apache-2.0 |
○ |
- |
X |
| 15. 데이터 전처리 코드 |
Apache-2.0 |
○ |
Apache-2.0 |
○ |
- |
X |
| 16. 중간 모델 파라미터 |
CDLA-Permissive-2.0 |
○ |
- |
X |
- |
X |
| 17. 모델 메타데이터(선택) |
- |
- |
|
- |
MIT |
○ |
|
MOF 모델 분류 |
Class I |
Class II |
Class III (충족률 83%) |
|||
○ 오픈소스 이니셔티브(OSI)에서 발표한 오픈소스 AI 정의(OSAID) 1.0과 MOF를 비교해보면,
- 모두 오픈소스 AI 생태계에서 ‘AI의 개발 기준’을 규정하기 위한 기준이지만, 주체, 역할, 방식, 기준에서 뚜렷한 차이가 있음
- OSAID는 AI 시스템 전반을 대상으로 하며, 사용·연구·수정·개선·공유의 4대 자유와 이를 보장하기 위한 데이터 정보, 코드 정보, 매개변수 정보 공개를 필수 요건으로 ‘오픈소스 AI 여부’를 판단하는 선언적 기준
- 반면, MOF는 AI 모델의 개방성을 17개 구성요소(가중치, 아키텍처, 데이터셋, 관련문서 등)과 적용 라이선스를 평가해 Class I~III 등급으로 부여하여 ‘개방성 수준’을 측정하는 평가적 프레임워크
- 두 기준 모두 법적 강제력은 없으나, OSAID는 오픈소스의 명확한 정의를 제공하고, MOF는 개방성 수준을 정량·정성 평가함
[OSAID 와 MOF 비교]
|
항목 |
OSI – OSAID (Open Source AI Definition) |
Linux Foundation – MOF (Model Openness Framework) |
|
주관 조직 |
Open Source Initiative (OSI) |
Linux Foundation AI & Data |
|
출시 시기 |
2024년 10월 |
2024년 4월 |
|
목적 |
오픈소스 AI의 정의 수립 |
AI 모델의 개방성 수준 평가 |
|
적용 대상 |
AI 시스템 전반 (데이터, 모델, 코드, 문서 등) |
주로 AI 모델 중심 (가중치, 아키텍처, 문서 등) |
|
핵심 요소 |
4대 자유 (사용, 연구, 수정·개선, 공유) |
17개 모델 공개 구성요소(모델, 라이선스, 코드, 데이터, 문서) 체크 |
|
필수 공개 항목 : 데이터 정보, 코드 정보, 매개변수 정보 |
공개 범위에 따라 단계적 분류 |
|
|
형태 |
선언적(definitional) 기준 (오픈소스 AI인가 아닌가?) |
평가적(evaluative) 프레임워크 (어느 정도로 개방적인가?) |
|
법적 강제력 |
없음 (비규범적 정의) |
없음 (자율 평가 도구) |
○ 주요 AI 모델을 OSI의 OSAID 1.0과 리눅스 재단 MOF 기준으로 분석한 결과, 일부 모델만이 두 기준을 모두 충족했으며, 대부분은 라이선스 조건이나 학습 데이터·코드 공개 제한으로 완전한 오픈소스 AI에 해당하지 않음
[주요 AI 오픈소스 여부 및 개방성 비교]
|
모델명 |
개발 주체 |
OSI–OSAID (오픈소스) |
MOF 등급 (개방성) |
라이선스 |
|
OLMO |
Allen Institute |
○ |
Class I |
Apache-2.0 |
|
Polyglot-Ko |
EleutherAI |
○ |
Class II |
Apache-2.0 |
|
Granite-34B-Code-Instruct |
IBM |
X |
Class III |
Apache-2.0 |
|
StarCoder |
Hugging Face + ServiceNow (BigCode) |
◐(대부분 충족) *라이선스/법적 조건 변경 시 OASID 조건 통과 가능 |
Class III - 충족률 50% |
코드 : Apache-2.0 모델 : BigCode Open RAIL-M v1 * 윤리적이고 책임 있는 AI 활용 조건이 있는 오픈 라이선스로 OSI 승인한 라이선스 아님 |
|
BLOOM |
BigScience |
◐(대부분 충족) *라이선스/법적 조건 변경 시 OASID 조건 통과 가능 |
Class III - 충족률 33% |
BigScience-BLOOM-RAIL-1.0 * 윤리적이고 책임 있는 AI 활용 조건이 있는 오픈 라이선스로 OSI 승인한 라이선스 아님 |
|
Mistral 7B |
Mistral AI |
✕ |
Class III - 충족률 83% |
Apache-2.0 |
|
Stable Diffusion 3.5 |
Stability AI |
✕ |
Class III - 충족률 17% |
Stability Community License * OSI 승인 라이선스 아님 |
|
GPT-oss |
OpenAI |
✕ |
Class III - 충족률 83% |
Apache-2.0 |
|
Phi-2 |
Microsoft |
✕ |
Class III - 충족률 67% |
MIT |
|
LLaMA 3 |
Meta |
✕ |
미충족 |
Meta Llama 3 Community License * OSI 승인 라이선스 아님 |
|
DeepSeek-R1 |
DeepSeek |
✕ |
Class III - 충족률 83% |
MIT |
|
Qwen3 |
Alibaba |
✕ |
Class III - 충족률 67% |
Apache-2.0 |
|
DeepSeek-V3 |
DeepSeek |
✕ |
Class III - 충족률 17% |
코드 : MIT * OSI 승인 라이선스 아님 |
* MOF 등급은 모델 개방성 평가 툴(https://mot.isitopen.ai/models)을 통해 확인한 결과임
* MOF 등급의 충족률은 해당 등급의 MOF 필수 구성요소의 충족 비율임
□ 시사점
○ 모델 개방성 프레임워크(MOF)는 명확한 표준과 검증 체계로 투명성·재현성을 높이고, 완전성·개방성을 핵심 기준으로 정보 기반 의사결정을 지원해 공정하고 신뢰할 수 있는 AI 생태계 조성 가능
○ MOF 등급과 같은 일관된 공개 원칙을 통해 AI 모델을 공개하면, 산업 현장 적용 시 리스크와 비용을 고려해 단계적 도입 계획 가능
|
※ 참고 Reference
|
댓글 0
댓글 작성
댓글을 작성하려면 게시글 작성 시 입력한 이메일과 패스워드를 입력해주세요.
* 표시는 필수 입력 사항입니다.