이 누리집은 대한민국 공식 전자정부 누리집입니다.

AI 거버넌스의 패러다임 변화와 LG AI연구원의 선도적 역할

2026.01.27

[기고] AI 거버넌스의 패러다임 변화와 LG AI연구원의 선도적 역할

 

LG AI연구원 조정원 변호사

 

1. 서론

 

인공지능(AI) 기술이 산업 전반에 필수적인 요소로 자리 잡으면서, 기술적 성능을 넘어선 '신뢰할 수 있는 인공지능(Trustworthy AI)'에 대한 요구가 전 세계적으로 터져나오고 있다. 생성형 인공지능의 확산은 데이터의 출처, 저작권 침해, 개인정보 노출, 그리고 모델의 편향성 문제를 복합적인 차원으로 끌어올렸으며, 기업들은 단순한 기술 개발 이상의 사회적 책무성을 요구받기 시작했다. 

 

현대 소프트웨어 개발에서 공급망 투명성을 확보하기 위한 핵심 도구였던 SBOM(Software Bill of Materials)은 인공지능 시대를 맞아 AI-BOM으로 확장되며 AI 거버넌스의 기술적 근간이 되고 있다. 기존 SBOM이 오픈소스 라이선스 준수와 보안 취약점 관리에 집중했다면, AI-BOM은 이를 인공지능 시스템의 고유한 특성인 모델 아키텍처, 학습 데이터의 계보(Lineage), 그리고 윤리적 속성까지 포함하는 포괄적인 거버넌스 체계로 발전하고 있다.  

 

SBOM을 중심으로 발전해 온 소프트웨어 공급망 투명성에 대한 요구는 이미 EU CRA(Cyber Resilience Act)와 미국의 행정명령(Executive Order on Improving the Nation’s Cybersecurity), 그리고 산업별 SBOM 제출 규제를 통해 법제화 단계에 진입했으며, 이러한 규제 흐름은 이제 인공지능 영역으로 본격적으로 확장되고 있다. 특히 AI 시스템의 위험은 이제 단순한 보안 취약점에 그치지 않고 학습 데이터의 적법성, 편향 문제, 설명가능성, 인권 침해 가능성까지 함께 고려해야 하는 영역으로 확장되었다. 그에 따라 공급망 투명성 역시 AI 개발과 활용의 전 과정을 아우르는 규범으로 재정의되고 있다. 그 결과, EU의 AI Act, 미국 캘리포니아 주의 AB 2013, 그리고 대한민국의 AI 기본법과 같이 AI 개발·제공·이용 단계에서의 데이터 출처, 학습 방식, 위험 관리 체계를 요구하는 입법이 속속 등장했다. 이러한 흐름 속에서 AI-BOM은 규제 대응의 핵심 기술 인프라로 급부상했다. SPDX와 OWASP는 AI 구성요소와 데이터, 모델 계보를 구조적으로 기술하기 위한 AI-BOM 표준 수립을 논의·구체화하고 있고, Linux Foundation 산하 OpenChain은 기존 오픈소스 컴플라이언스 정책 프레임워크를 확장하여 조직 차원의 AI-BOM 관리 정책과 거버넌스 모델로 발전시키고 있다. 결국 SBOM에서 시작된 공급망 투명성에 대한 요구는 AI 시대에 이르러 법·기술·정책이 결합된 다층적 거버넌스 체계로 진화하고 있으며, AI-BOM은 그 연결 축이자 실질적인 실행 수단으로 자리 잡아가고 있다.

 

이 글은 SBOM에서 출발한 공급망 투명성 개념이 왜 인공지능 시대에 AI-BOM이라는 새로운 거버넌스 체계로 재구성될 수밖에 없는지를 살펴보고, 이를 AI의 시스템적 리스크(Systemic Risk)와 AI/Data 컴플라이언스(Legal Compliance)라는 두 개의 축으로 분석한다. 나아가 이러한 이론적 진화를 실제 조직 운영 수준에서 어떻게 구현할 수 있는지를 LG AI연구원의 윤리영향평가, 데이터 컴플라이언스 프레임워크, 그리고 EXAONE NEXUS와 AI-BOM 통합 사례를 통해 구체적으로 제시한다. 이를 통해 AI-BOM이 단순한 문서나 규제 대응 수단을 넘어, 인공지능 공급망 전반에서 신뢰와 책임을 구조화하는 실행 가능한 거버넌스 인프라로 기능할 수 있음을 다루고자 한다.

 

 

2. SBOM 프레임워크의 진화와 AI 거버넌스의 이중 축: 시스템적 리스크와 법적 컴플라이언스

 

인간이 기술에서 위험을 감지하고 이를 관리하려는 방식에는 일정한 흐름이 있다. 기술이 점점 복잡해지면서 인간이 그 작동 방식을 직접 통제하기 어려워지는 순간, 시스템이 예측할 수 없는 방향으로 움직일 수 있다는 불안이 생긴다. 그리고 그 결과가 자신에게 불리하거나 위험할 수 있다는 점을 본능적으로 인식하게 된다. 디지털 웹ž앱 서비스가 사회 전반에 다양하게 은용되기 시작하면서, 이러한 불안은 보안 취약점, 즉 시스템이 공격받거나 오작동할 수 있는 가능성으로 구체화되었고, 이를 통제하기 위해 SBOM을 설계하여 구조화 시켰다. SBOM은 인간이 감지한 ‘보이지 않는 위험’을 구성 요소 단위로 분해하고, 추적할 수 있게 만들어 통제하려는 시도의 결과물이었다.

 

이러한 위험 인식 메커니즘은 인공지능 환경에서도 본질적으로 동일하게 작동한다. 다만 위험의 성격이 달라졌을 뿐이다. 인공지능은 단순한 코드 실행을 넘어, 데이터를 학습하고 스스로 판단하며 결과를 생성하는 시스템이다. 그 결과 인간이 느끼는 위험 역시 단일한 보안 사고를 넘어, 시스템 전체의 작동 방식에서 비롯되는 시스템적 리스크로 확장된다. 모델이 어떤 데이터에 의존하고 있는지, 그 데이터에 내재된 편향이나 결함이 어떻게 모델의 의사결정 구조에 내재화되는지, 그리고 그 결과가 사회적·윤리적 문제로 증폭될 가능성은 소프트웨어 관점의 취약점 개념만으로는 설명할 수 없다. AI-BOM이 SBOM의 연장선에서 논의되기 시작한 이유는 바로 여기에 있다. 다만 AI-BOM은 SBOM을 단순히 확장한 개념이라기보다, 인간이 인공지능 시스템에서 감지하는 새로운 형태의 불확실성과 위험을 다시 구조화하고, 이를 구성 요소와 의존성의 관점에서 관리 가능하게 만들기 위해 거의 새롭게 정립된 체계에 가깝다.

 

동시에, 또 다른 본질적 불안은 책임의 귀속과 규범 위반 가능성에 대한 것이다. 오픈소스 소프트웨어 환경에서 이는 라이선스 위반이라는 형태로 인식되었고, 컴플라이언스 체계로 제도화되었다. 그러나 인공지능 환경에서는 그 범위가 훨씬 넓어진다. 학습 데이터의 저작권 문제, 개인정보 침해 가능성, 국가별 규제 충돌 등은 더 이상 단순한 라이선스 준수의 문제가 아니라, 조직과 개발자가 법적 책임을 질 수 있는 구조적 위험으로 인식된다. 이 지점에서 오픈소스 컴플라이언스는 인공지능 오픈 학습데이터 컴플라이언스로 진화하며, AI-BOM의 또 다른 축을 형성한다.

결국 SBOM에서 AI-BOM으로의 확장은 기술의 급격한 변화 때문만이 아니라, 위험을 인식하고 이를 관리하려는 인간의 본성적 반응이 새로운 기술 환경에 맞게 재구성된 결과라고 볼 수 있다. SBOM이 소프트웨어 공급망의 취약성과 법적 의무를 동시에 관리해왔듯, AI-BOM 역시 인공지능이라는 새로운 복합 시스템 속에서 시스템적 리스크와 법적 리스크라는 두 개의 축을 동시에 다루는 거버넌스 도구로 확장되고 있다. 이는 단절이 아니라, 동일한 맥락과 문제의식 위에서 이루어진 자연스러운 진화다.

 

SBOM 취약성(Vulnerability) → AI의 시스템적 리스크(Systemic Risk)

전통적인 SBOM이 소프트웨어의 보안 취약점을 탐지하듯, AI-BOM은 인공지능의 시스템적 리스크를 관리한다. 이는 모델의 기술적 결함이나 학습 데이터의 리스크로 인해 발생하는 위험을 의미한다.

- 보안 및 견고성 : 모델 반전 공격이나 데이터 포이즈닝 등 인공지능 공급망 공격에 대한 대응력을 의미하며, AI-BOM은 모델이 의존하는 라이브러리와 아키텍처의 취약점을 추적한다.

- 윤리적 편향 및 안전성 : 학습 데이터에 내재된 편견이 모델을 통해 고착화되는 위험(Bias)이나 모델의 오작동(Hallucination) 등으로부터 발생하는 위험을 포함한다. 이는 SBOM의 취약점 관리가 AI의 윤리적 안전성 평가로 확대해 해석된 결과다.

 

오픈소스 컴플라이언스(Compliance) → AI의 법적 리스크(AI/Data Compliance)

기존의 오픈소스 라이선스 준수 활동은 AI 시대에 이르러 데이터의 저작권, 개인정보 보호, 글로벌 규제 준수를 아우르는 AI/Data 컴플라이언스로 확장된다.

- 데이터 라이선스 : 단순히 오픈소스 라이선스 명칭을 확인 및 고지의 의무 준수를 넘어, 학습 데이터의 수집 과정(Crawling)의 적절성과 생성 결과물의 저작권 침해 가능성까지 포함한다.

- 개인정보 및 규제 대응 : GDPR이나 EU AI Act와 같은 법적 요구사항을 준수하기 위해 데이터셋 내 개인정보 포함 여부와 정보 주체의 동의 상태를 추적한다. 이는 SBOM의 라이선스 관리가 인공지능의 법적 책무성 관리로 진화한 것이다.

 

 

3. LG AI연구원의 AI 거버넌스 실천 모델: AI 시스템적 리스크와 AI/Data 컴플라이언스의 통합

 

이러한 확장 과정에서 AI 거버넌스의 핵심 축은 ‘AI 시스템적 리스크’와 ‘AI/Data Compliance’로 정립되며, 이는 기존 소프트웨어 보안에서도 존재했던 두 축과 직/간접적으로 연결되는 개념이다. 이러한 흐름 속에서 LG AI연구원은 AI 거버넌스를 구체적인 실무 지침으로 구현하기 위한 독자적인 AI 거버넌스 체계를 구축해 왔다.

 

LG AI연구원의 거버넌스 핵심은 ‘AI 시스템적 리스크’와 연결되는 인공지능 윤리영향평가(Ethical Impact Assessment, EIA)의 의무화와 ‘AI/Data의 법적 위험’과 연결되는 데이터 컴플라이언스 프레임워크(Data Compliance Framework)의 개발로 요약된다. 2024년부터 모든 연구개발 과제에 대해 윤리영향평가를 실시함으로써 잠재적 위험을 기획 단계에서부터 식별하고 개선하는 절차를 정착시켰다. 이는 유네스코(UNESCO)의 인공지능 윤리 권고안(Recommendation on the Ethics of Artificial Intelligence)이 제시하는 가치를 기업 차원에서 실천적으로 수용한 사례로 평가받고 있다. 특히 데이터의 위험을 자동으로 분석하는 '데이터 컴플라이언스 에이전트(Data Compliance Agent)'와 이를 대중에게 공개한 'EXAONE NEXUS' 플랫폼은 인공지능 공급망의 투명성을 확보하려는 LG AI연구원의 의지를 명확히 보여준다.

 

나아가 LG AI연구원은 독자적으로 수립한 18개의 데이터 컴플라이언스 평가 항목과 7단계 위험 등급 체계를 분석하고, 이를 소프트웨어 자재명세서(SBOM)의 확장 개념인 AI-BOM과 결합하여 현대적인 AI 거버넌스 모델을 구축해 나가고 있다. 또한, 인공지능 도입 과정에서 발생하는 리스크를 시스템적 측면과 법적 측면으로 정밀하게 구분하여 분석함으로써, 기업이 직면한 불확실성을 해소하고 지속 가능한 인공지능 생태계를 구축하기 위한 AI 거버넌스 프레임워크를 다져가고 있다.

 

 

4. AI 윤리영향평가 2.0: 인공지능 시스템적 위험을 사전에 식별·관리

 

<AI 윤리 조직 구성>

 

LG AI연구원은 인공지능 기술이 인간의 권리를 침해하지 않고 사회에 유익한 가치를 제공할 수 있도록 5대 핵심 원칙을 정의하고 있다. 이 원칙들은 모든 인공지능 연구 및 개발의 근간이 되며, 실질적인 평가 도구인 윤리영향평가와 LG AI연구원 AI 윤리 조직을 통해 구체화된다.

 

LG AI 윤리원칙

원칙

세부 정의 및 실천 방향

인간존중 (Humanity)

LG AI는 인간과 사회에 유익한 가치를 제공합니다.

LG AI는 인간의 권리를 침해하지 않습니다

공정성 (Fairness)

LG AI는 인간의 다양성을 존중하고 공정하게 작동합니다.

LG AI는 개인의 특성에 기초한 부당한 차별을 하지 않습니다.

안전성 (Safety)

LG AI는 안전하고 견고하게 작동합니다.

LG AI는 잠재적 위험을 예측하고 대응합니다.

책임성 (Accountability)

LG AI를 개발하고 활용하는 조직과 구성원의 역할과 책임을 명확히 합니다.

LG AI가 의도된 대로 작동할 수 있도록 책임을 다합니다.

투명성 (Transparency)

LG AI가 도출한 결과를 고객이 이해하고 신뢰할 수 있도록 소통합니다

LG AI의 알고리즘과 데이터는 원칙과 기준에 따라 투명하게 관리합니다

 

윤리영향평가(EIA)의 프로세스와 성과 분석

<윤리영향평가 단계별 내용>

 

인공지능 윤리영향평가는 개발자가 자신의 과제가 윤리 원칙을 준수하고 있는지를 스스로 점검하고, 전문가 그룹의 검토를 거치는 체계적인 프로세스다. LG AI연구원은 2022년과 2023년의 시범 운영을 통해 이 절차를 단계적으로 고도화했으며, 2024년에는 전사 과제를 대상으로 전면 의무화에 도달했다. 그 결과 2024년에 수행된 70여 개의 AI 프로젝트 분석을 통해 총 229건의 잠재적 위험이 사전에 식별·개선되었다.

 

이러한 흐름은 2025년에도 지속·확장되었다. 2025년 한 해 동안 약 60개의 AI 과제를 대상으로 윤리영향평가가 수행되었으며, 총 219건의 잠재적 위험 요소가 과제 기획 단계에서부터 사전에 발견되어 개선 조치로 이어졌다. 특히 내부적으로 진행된 AI윤리 인식 조사 결과, 평가 결과는 단순한 체크리스트 수준을 넘어 각 과제의 데이터·모델·시스템·이해관계자 전반에 걸친 구조적 리스크를 체계적으로 드러내는 데 기여했다.

 

주목할 점은 반복적으로 확인된 리스크의 성격이다. LG AI연구원이 발간한 2024 LG AI 윤리 책무성 보고서에 따르면 2024년에는 전체 잠재적 리스크 중 약 46%가 데이터와 관련된 이슈였으며, 2025년에는 그 비중이 약 60%로 더욱 확대되었다. 이는 학습 데이터의 라이선스, 데이터 대표성 부족 등 학습데이터와 관련된 문제가 여전히 인공지능 모델의 신뢰성과 합법성을 좌우하는 핵심 변수임을 시사한다.

 

리스크 식별 이후에는 개별 데이터셋 전수 조사, 데이터 처리 과정의 문서화, 피드백 및 모니터링 시스템 구축, 사용자 권리 관리 프로세스 정비 등 구체적인 보완 조치가 병행되었다. 이러한 개선 활동은 단발성 조치에 그치지 않고, 이후 과제에 다시 반영되는 선순환 구조로 정착되었다.

 

이와 같은 지속적 운영은 조직 문화에도 가시적인 변화를 가져왔다. AI 윤리 인식 조사 결과, 구성원들의 윤리 필요성에 대한 공감대와 실천 수준이 전년 대비 유의미하게 상승하며, AI 윤리가 연구·개발 과정 전반에 내재화되고 있음을 보여주었다.

 

 

5. 데이터 컴플라이언스 프레임워크: 인공지능 학습 데이터의 법적 안정성과 위험 분류 체계

 

<데이터 컴플라이언스 평가 프로세스>

 

데이터 컴플라이언스 프레임워크: 18개 평가 기준과 법적 안정성

LG AI연구원이 개발한 데이터 컴플라이언스 프레임워크는 인공지능 학습용 데이터셋이 가질 수 있는 법적 위험을 18개의 세부 관점으로 분석한다. 이 프레임워크는 단순히 라이선스의 명칭이나 고지의 의무를 확인하는 수준을 넘어, 데이터의 수집, 가공, 배포 전 과정(Full Lifecycle)에서 발생할 수 있는 법적 리스크를 평가하고 검증하는 데 목적이 있다.

 

데이터 컴플라이언스 18개 세부 평가 항목

LG AI연구원의 프레임워크는 크게 네 가지 카테고리로 구분되며, 각 항목은 실제 전세계 입법 현황, 법적 분쟁 사례와 판례를 바탕으로 AI 전문성을 가진 전세계의 변호사들의 평가를 기반으로 가중치가 부여된다.

카테고리

상세 평가 항목 

법적 쟁점

1. 데이터 사용 권한

1.1 데이터 라이선스 존재 여부 학습 목적으로의 복제 및 이용 권한이 명시적으로 부여되었는가?
1.2 데이터 수정 및 2차 저작물 작성 권한 원본 데이터를 변형하거나 새로운 데이터로 재구성할 수 있는가?
1.3 생성 결과물의 저작권 침해 가능성 모델이 생성한 결과물이 학습 데이터의 창작적 표현을 모방할 위험이 있는가?
1.4 출력물에 대한 권리 귀속 상태 생성된 데이터의 소유권 및 라이선스 조건을 정의하고 있는가?
1.5 데이터 출처 표기 의무 존재 사용 시 저작자를 명시해야 하거나 고지해야 할 구체적 의무가 있는가?

2. 사용 기간 및 지역

2.1 데이터 사용 기간 제한 특정 기간 동안만 데이터 처리가 허용되는 시간적 제약이 있는가?
2.2 라이선스 철회 가능성 제공자가 라이선스를 일방적으로 취소할 수 있는 조건이 있는가?
2.3 AI 모델 서비스 기간 제한 학습된 모델을 서비스로 제공할 수 있는 기간에 제약이 있는가?
2.4 데이터 사용 지역 제한 특정 국가나 지역 내의 서버에서만 데이터의 이용 및 처리가 허용되는 지역적 한계가 있는가?

3. 개인정보 및 보안

3.1 개인정보 포함 여부 이름, 주소, 연락처 등 식별 가능한 개인정보가 데이터셋 내에 포함되었는가?
3.2 정보 주체의 동의 상태 개인정보 데이터 수집 시 인공지능 학습 활용에 대한 명확한 동의를 획득했는가?
3.3 가명정보 포함 및 처리 적절성 적절한 비식별화 처리가 완료되었으며 가명정보 활용 요건을 충족하는가?
3.4 제3자 제공 및 위탁 가능성 데이터를 재배포하거나 제3자에게 제공할 수 있는 근거가 있는가?
3.5 데이터 이용자 범위 제한 특정 연구 목적이나 특정 조직원으로만 사용 대상이 한정되어 있는가?

4. 추가 법적 리스크

4.1 데이터 수집 과정의 적절성 크롤링 시 Robots.txt 위반이나 부정한 방법의 수집 가능성이 존재하는가?
4.2 해당 데이터 관련 분쟁 이력 과거에 저작권 소송이나 프라이버시 침해 등으로 법적 분쟁이 발생되었던 데이터인가?
4.3 라이선스 계약상 기타 위험 비밀유지 의무나 책임 한도 무한 등의 추가 의무 조항이 존재하는가?
4.4 라이선스 조건의 유형 분석 배포 의무 조건에 따라서 데이터가 재배포 되었는가?

이러한 18개의 평가 항목은 인공지능 개발 과정에서 발생하는 법적 위험을 개별 규정이나 단일 행위 차원에서 파악하기 위한 것이 아니라, 데이터가 모델 학습에 투입되고, 가중치에 내재화되며, 이후 서비스 형태로 외부에 노출되는 전 과정을 하나의 연속된 흐름으로 분석하기 위해 설계되었다. 즉, “데이터를 사용했는가”라는 이분법적 질문이 아니라, 어떤 데이터가 어떤 방식으로 결합되어 어떤 결과를 낳을 수 있는지를 구조적으로 평가하는 문제로 전환된다.

 

결과적으로 18개 평가 항목은 각각 독립적인 법적 체크리스트가 아니라, 데이터–모델–서비스로 이어지는 인공지능 가치 사슬(Value Chain) 전반에 걸쳐 법적 위험이 어떻게 발생·전파·증폭될 수 있는지를 계층적으로 식별하기 위한 최소 단위의 법적 리스크 분석 요소로 기능한다. 이러한 구조 없이는 대규모 인공지능 학습 환경에서 발생하는 법적 리스크를 일관되게 분류하거나 자동화된 방식으로 관리하는 것은 사실상 불가능하다.

 

데이터 컴플라이언스 7단계 리스크 등급 산출 및 분류 기준

데이터 컴플라이언스 분석 결과는 최종적으로 7단계의 위험 등급으로 분류되어 AI 연구개발자에게 가이드라인을 제공한다.

- A-1 (최상위 안전 등급): 명시적인 상업적 이용 허가가 있거나 퍼블릭 도메인에 해당하며, 모든 하위 데이터셋(Dependencies) 또한 동일한 수준의 안전성을 확보한 경우다.

- A-2 ~ B-2 (제한적 안전 등급): 연구 목적이나 비영리적 용도로는 안전하지만, 상용화 시에는 추가적인 법적 검토나 조건부 이용이 필요한 그룹이다.

- C-1 ~ C-2 (회색 영역 및 고위험): 라이선스 권리 관계가 불분명하거나, 하위 데이터셋 중 권리가 누락된 노드가 발견되었거나, 민감한 개인정보가 대량 포함되어 법적 리스크가 매우 높은 데이터셋이다.

 

LG AI연구원의 분석에 따르면, 많은 데이터셋이 표면적으로는 상업적 이용이 가능한 라이선스를 표방하고 있음에도 불구하고, 그 하위의 데이터 소스를 추적해 올라가면 학습데이터 이용 권리가 없는 'C' 등급의 데이터가 섞여 있는 경우가 빈번하게 발견된다. 이는 AI 거버넌스에서 '데이터 공급망 추적성'이 왜 필수적인지를 단적으로 증명한다.

 

EXAONE NEXUS: 대규모 데이터 컴플라이언스의 에이전트 기반 자동화

 

 

인공지능 학습 데이터에 대한 법적 컴플라이언스 평가는 본질적으로 사람의 수작업만으로는 수행할 수 없는 영역에 해당한다. 대규모 모델 학습에는 수천에서 수만 개 이상의 데이터셋이 결합되며, 각 데이터셋은 다시 다수의 하위 데이터 소스와 라이선스 조건을 포함한다. 이와 같은 구조에서 데이터 사용 권한, 기간·지역 제한, 개인정보 포함 여부, 수집 경로의 적법성 등을 전수 조사 방식으로 검토하는 것은 현실적으로 한계가 명확하다.

 

EXAONE NEXUS는 이러한 한계를 전제로 설계된 자동화 기반 데이터 컴플라이언스 시스템이다. 이 에이전트 기반 시스템은 인공지능 학습 파이프라인에 투입되는 데이터셋을 자동으로 식별하고, 각 데이터의 메타데이터·라이선스 정보·수집 방식·의존 관계를 기계적으로 추출하여 분석한다. 이를 통해 데이터 단위가 아니라, 데이터 간 결합 구조와 전파 경로 전체를 그래프 형태로 모델링하고, 그 결과를 기반으로 법적 위험을 자동 분류한다.

 

특히 EXAONE NEXUS의 핵심은 사람이 직접 판단할 수 없는 의존성(Dependencies) 기반 리스크 전파를 계산하는 데 있다. 상위 데이터셋이 적법하더라도, 하위 노드 중 하나라도 법적인 권리가 불명확하거나 제한적이면 해당 리스크가 모델 전체로 확산될 수 있다. EXAONE NEXUS는 이러한 리스크 전파를 규칙 기반 및 점수화 로직으로 자동 계산함으로써, 학습 데이터 전체에 대한 법적 위험의 누적 효과를 자동화된 방법으로 산출한다.

 

이와 같은 확장성 있는 체계가 뒷받침되지 않는다면 데이터 컴플라이언스는 실효성 없는 선언적 준수에 머물 수밖에 없다. EXAONE NEXUS는 데이터 규모와 복잡성이 인간의 인지 한계를 넘어서는 환경에서, 컴플라이언스를 기술적으로 실행 가능하게 만드는 필수 인프라로 기능하며 발전하고 있다.

 

 

6. 데이터 출처 이력과 AI-BOM의 통합: 평가 결과를 ‘증빙 가능한 명세’로 전환하기

 

앞서 살펴본 윤리영향평가와 데이터 컴플라이언스 프레임워크는 각각 AI 시스템적 리스크와 AI/Data Compliance를 관리하는 핵심 도구로 기능해 왔다. LG AI연구원은 여기서 한 걸음 더 나아가, AI/Data Compliance의 데이터 출처 이력(Data Provenance)·모델 구성·학습/튜닝 이력·평가 결과를 하나의 구조화된 ‘AI-BOM’으로 결합함으로써 거버넌스를 ‘설명’의 영역에서 ‘검증’의 영역으로 전환하고 있다. 

 

이 통합의 출발점은 데이터 출처 이력의 명세화다. 데이터 컴플라이언스의 18개 평가 항목과 7단계 위험 등급은 그 자체로 강력한 법적 리스크 진단 도구가 될 수 있지만, 소프트웨어 오픈소스와 달리 생성형 AI 시대의 핵심 문제는 ‘개별 데이터셋의 라이선스가 오픈소스 라이선스로 보인다’라는 외관만으로는 충분하지 않다는 점이다. 실제 리스크는 상위 데이터셋이 의존하는 하위 데이터(Dependencies)에서 발생하고, 권리 제한·개인정보·지역/기간 제한 등은 공급망을 따라 전파되며, 어느 지점에서든 결함이 발견되면 전체 공급망의 법적 안정성이 흔들릴 수 있다. 따라서 LG AI연구원이 구축하는 AI-BOM은 데이터셋을 단일 객체로만 다루지 않고, 데이터의 구성 출처와 결합/정제/증강 등 가공 이력을 포함해 ‘Data Provenance Map’으로 표현하고, 각 노드에 대해 “라이선스의 유형, 제한 조건, 개인정보 가능성, 수집 과정의 적절성” 등과 같은 평가 결과를 속성값인 메타데이터(Metadata)로 부착한다. 이렇게 되면 ‘C 등급 데이터가 하위에 섞여 있는지’, ‘Non-commercial 조건이 어느 지점에서부터 상위로 확장되는지’, ‘개인정보 리스크가 어느 구간에서 유입되는지’가 단순 보고가 아니라 구조적으로 탐지·추적될 수 있다.

 

추후 AI-BOM은 모델 자체의 계보를 포함함으로써 ‘데이터-모델-서비스’의 연결 고리를 완성될 수 있다. 특히 생성형 AI의 리스크는 데이터만으로 설명되지 않으며, 모델의 아키텍처 선택, 학습 레시피, 파인튜닝 과정, 외부 오픈소스 라이브러리 의존성, 그리고 배포 환경이 결합되며 시스템적 위험을 만든다. LG AI연구원 관점에서 이는 단순한 보안 취약점의 관리 범위를 넘어, 공급망 공격(데이터 포이즈닝, 모델 반전/추출, 프롬프트 인젝션 등)에 대한 견고성, 그리고 환각·유해 출력·편향의 증폭 같은 안전성 문제까지 포함하는 ‘시스템적 리스크’로 확장하고자 한다. AI-BOM은 이러한 위험을 모델의 구성 요소와 학습 과정에 연결해 기록하고 문서화함으로써, 특정 리스크가 발생했을 때 ‘어떤 데이터/튜닝/구성요소가 그 위험을 강화했는지’를 사후에 추정하는 수준을 넘어 원인 추적과 영향 범위 분석을 가능한 형태로 연결하고 구조화한다.

 

여기서 중요한 것은, AI-BOM이 윤리영향평가의 시스템적 리스크 탐지를 확인이 아닌 기록할 수 있는 형태로 남기는 것이다. 윤리영향평가는 인간존중, 공정성, 안전성, 책임성, 투명성이라는 원칙을 조직의 개발 프로세스에 내재화하는 제도이지만, 외부 이해관계자나 감사 관점에서 실질적으로 의미를 가지려면 ‘어떤 위험을 발견했고 어떤 조치를 했는지’가 증빙 가능한 데이터로 남아야 한다. LG AI연구원은 윤리영향평가에서 식별된 리스크, 가령 특정 집단에 대한 편향 가능성, 안전성 통제 부재 등과 그에 대한 완화 조치인 데이터 전수 조사, 추가 필터링/가드레일 적용, 모니터링 체계 도입 등을AI-BOM에 연결함으로써, 윤리 원칙을 ‘조직의 선언’이 아니라 ‘모델 단위의 통제 이력’으로 전환하고자 한다. 즉, AI-BOM은 윤리영향평가의 결과를 모델·데이터·서비스 구성과 연결된 레이어로 흡수하며, 윤리 거버넌스를 기술적으로 집행 가능할 수 있는 형태로 만든다.

 

이러한 통합은 규제 환경에서 특히 강력한 실무적 효용을 가질 수 있다. 오늘날 규제의 핵심은 ‘AI를 안전하게 만들라’라는 추상적 주문이 아니라, 위험을 식별하고 관리했음을 설명하고 입증할 수 있는 체계를 요구한다는 데 있다. LG AI연구원의 AI-BOM 결합 모델은 바로 그 지점에서, 데이터 컴플라이언스(법적 리스크)와 윤리영향평가(시스템적 리스크)를 하나의 명세로 연결해 위험관리의 일관성을 확보하고자 한다. 예컨대 특정 데이터셋이 개인정보 또는 권리 불명확성으로 인해 등급이 하향될 경우, 해당 데이터가 투입된 모델·파생 모델·서비스 범위가 계보 상에서 즉시 확인되며, 어떤 통제 조치가 적용되었는지까지 함께 추적할 수 있다. 반대로 서비스 단계에서 유해 출력이나 편향 이슈가 발견되었을 때도, 문제를 단순 운영 이슈로 봉합하는 것이 아니라, 데이터 출처 이력과 윤리 평가 결과를 역추적하여 리스크의 기원과 확산 경로를 파악하는 방식으로 대응할 수 있다.

 

LG AI연구원이 추진하는 데이터 출처 이력과 AI 윤리영향평가의 AI-BOM 통합은, 거버넌스를 ‘절차의 준수’로만 관리하는 전통적 접근을 넘어, 인공지능 시스템의 신뢰성을 구성하는 요소들을 하나의 지능형 체계로 재구성하는 혁신적인 시도이다. 이는 기업 내부의 의사결정 속도를 높이고, 외부 규제·감사·파트너 협업에서 요구되는 설명 책임을 강화하며, 사고 발생 시 리스크를 신속하게 탐지, 국소화하고 피해 확산을 줄이는 실질적 효과로 이어진다. 따라서 AI-BOM은 LG AI연구원의 거버넌스 체계에서 단순한 문서 포맷이 아니라, 윤리와 컴플라이언스를 데이터·모델의 생애주기 전체에 걸쳐 관통시키는 ‘실행 가능한 거버넌스 인프라’로 구현해 나가고 있다.

 

 

7. 결론

 

AI 거버넌스는 더 이상 선택의 문제가 아니라, 기업의 생존과 직결된 핵심 리스크 관리 영역으로 자리 잡고 있다. LG AI연구원이 정립해 온 윤리영향평가와 데이터 컴플라이언스 체계, 그리고 이를 AI-BOM 개념으로 확장해 온 일련의 시도는 단순한 내부 통제 모델을 넘어, 인공지능 공급망 전반에서 작동할 수 있는 거버넌스 구조를 모색해 온 과정으로 이해할 수 있다. 이는 특정 플랫폼을 중심으로 한 폐쇄적 전략이 아니라, 독자 AI 모델 EXAONE이라는 기술·거버넌스 축을 매개로 국내외 AI 생태계에서 책임 있는 역할을 정립해 나가는 전략적 접근이다.

 

첫째, ‘학습데이터 중심 거버넌스(Training data-centric Governance)’로의 전환

인공지능 모델의 지능과 위험은 궁극적으로 데이터에서 기인하며, 전체 잠재 리스크의 60%가 데이터 영역에 집중되어 있다는 분석 결과는 데이터 출처 이력(Data provenance) 관리와 AI-BOM 도입이 거버넌스의 출발점이자 최우선 과제임을 분명히 보여준다. LG AI연구원이 수립한 18개의 데이터 컴플라이언스 평가 항목과 Data provenance 기반 평가는 데이터의 수집·가공·학습·배포 전 생애주기를 법적으로 방어할 수 있는 구조를 제공하며, 이를 AI-BOM과 결합함으로써 데이터 리스크가 모델과 서비스 전반으로 어떻게 전파되는지를 공급망 단위에서 추적 가능하게 만든다. 이는 개별 프로젝트의 안전성 확보를 넘어, 기업 차원의 데이터 자산을 전략적으로 관리·재사용할 수 있는 기반으로 기능한다.

 

둘째, ‘확장 가능한 책임 관리(Scalable Accountability)’의 실현

LG AI연구원은 데이터 컴플라이언스 평가와 AI-BOM 분석을 확장 가능한 구조로 설계·자동화 함으로써, 방대한 데이터셋과 복잡한 의존 관계를 기계적으로 분석·분류할 수 있는 기반을 구축해 왔다. 이는 규제 준수에 소요되는 비용과 인적 부담을 줄이는 동시에, 판단의 일관성과 재현성을 확보하는 효과를 가져온다. 나아가 거버넌스를 특정 부서나 개인의 전문성에 의존하지 않고, 조직 전반에서 작동하는 시스템적 책임 관리 체계로 전환한다. 이러한 접근은 향후 개발자, 데이터 제공자, 협력사 등 다양한 주체가 동일한 기준 위에서 참여할 수 있는 개방적 확장성을 전제로 한다.

 

셋째, 인공지능 공급망 생태계에서의 ‘신뢰 역할’ 정립

LG AI연구원의 전략적 특징은 거버넌스를 기업 내부의 방어 수단으로 한정하지 않고, 인공지능 공급망 전반에서 신뢰를 매개하는 역할로 확장하려는 데 있다. EXAONE NEXUS를 통해 축적된 데이터베이스와 AI-BOM 기반 분석 구조는, 특정 플랫폼을 소유하거나 통제하기 위한 수단이 아니라 공통의 언어와 기준을 제시하기 위한 시도에 가깝다. 이는 데이터 제작자, 모델 개발자, 서비스 제공자, 최종 사용자에 이르기까지 각 주체가 서로 다른 이해관계를 가지면서도, 동일한 눈높이의 위험 인식과 평가 체계 위에서 의사결정을 내릴 수 있도록 돕는다. 이러한 맥락에서 LG AI연구원은 EXAONE을 중심으로 형성되는 국내외 AI 생태계 속에서, 단순한 기술 제공자가 아니라 윤리·법적 안정성·시스템 투명성을 연결하는 공급망 참여자로서의 역할을 점진적으로 정립해 나가고 있다.

 

향후 AI 거버넌스는 개별 기업의 내부 규범을 넘어, 글로벌 SBOM·AI-BOM 표준과 더 밀착될 것으로 전망된다. LG AI연구원이 법무, AI연구개발, 윤리, 지식재산권, 오픈소스 컴플라이언스와 협업하여 구축해 온 윤리영향평가, 데이터 컴플라이언스, AI-BOM, 그리고 EXAONE NEXUS 거버넌스 툴 기반의 자동화·공개 전략은 이러한 글로벌 표준 경쟁 속에서 한국 기업이 주도권을 확보할 수 있는 탄탄한 논리적·기술적 기반을 제공한다. 이제 기업들은 AI 거버넌스를 비용이나 규제 대응의 문제로 인식할 것이 아니라, 시스템적 리스크와 법적 리스크의 정밀한 구분, 그리고 AI-BOM 기반의 자동화된 공급망 추적 체계를 통해, 급변하는 규제 환경 속에서도 흔들림 없는 혁신과 생태계 성장을 동시에 달성해야 할 것이다.

 

 

  

조정원 / LG AI research 책임변호사

 

- LG AI연구원 AI Biz. Transformation Unit 책임변호사

- 외국변호사(Washington D.C.)

5개 / 10개

댓글 0

첫 댓글을 작성해보세요!

댓글 작성

댓글을 작성하려면 게시글 작성 시 입력한 이메일과 패스워드를 입력해주세요.