6월 3주 국내외 오픈소스SW 관련 동향을 모아 정리하였습니다.
자세한 내용은 기사 제목을 클릭하시면 보실 수 있습니다.
□ BC카드, 오픈소스 기반 AI 네이티브 전환 사례 공개
BC카드가 6월 10일 디지털데일리와 한국레드햇이 공동 주최·주관한 '실험을 넘어 실전으로, 금융 비즈니스의 가치를 증명하는 AI 실행 전략' 금융 세미나에서 'AI 네이티브 기업으로의 전환 사례'를 공개했습니다. BC카드는 2024년 5월 메타 라마3 8B 기반 ‘BC K-금융 LLM’을 공개한 뒤 BC카드 연구소·국가연구기관·금융지주사·정부기관 등 다양한 출처에서 금융 특화 데이터셋 380만 개를 공개했습니다.이후 독자 모델 개발보다 빅테크 오픈소스 모델을 자사 환경에 최적화하는 방향으로 전략을 전환했습니다. 현재 허깅페이스에 38개 모델과 5개 데이터셋을 공개하고 있으며, vLLM과 양자화, 스펙큘레이티브 디코딩 등을 적용해 GPU 증설 없이 추론 성능을 개선했다고 설명했습니다.
(참고뉴스)
1. "GPU 증설 대신 SW 최적화"…BC카드, 오픈소스 기반 'AI 네이티브' 여정 공개(디지털데일리)
□ 오픈소스 & AI 컨퍼런스 2026, AI 시대 저작권·라이선스·공급망 거버넌스 논의
OSBC가 6월 11일 ‘AI와 오픈소스의 연결, 글로벌 오픈소스 거버넌스’를 주제로 제15회 ‘오픈소스 & AI 컨퍼런스’를 개최했습니다. 행사에는 율촌, LG AI연구원, 삼성전자, 카카오, 안랩, 일본 소니 OSPO, 사이버트러스트재팬, 인사이너리 등 국내외 전문가들이 참석해 생성형 AI 확산에 따른 저작권 분쟁, 오픈소스 라이선스 위반, SBOM·AI-BOM 기반 공급망 관리 필요성을 논의했습니다.
임형주 율촌 AI DC센터장은 AI 산업의 다음 과제가 기술 성능을 넘어 법적리스크와 규제 대응으로 이동하고 있다며, 기업이 데이터 확보 단계부터 저작권·개인정보·영업비밀 리스크를 함께 검토해야 한다고 강조했습니다. 마이크 피테거 인사이너리 CSO는 AI 생성 코드가 오픈소스 코드 조각을 재현할 경우 기존 SCA나 SBOM에 드러나지 않는 숨겨진 의존성이 발생할 수 있다며, AI 생성 코드를 제3자 코드로 보고 코드 조각 단위 검증과 라이선스 관리 체계를 갖춰야 한다고 지적했습니다. 조정원 LG AI연구원 변호사는 AI 모델의 학습 데이터, 모델, 소프트웨어, 라이선스, 보안 요소를 명시하는 ‘AI-BOM’이 필요하다고 설명했으며, LG AI연구원이 2,852개 데이터셋을 분석한 결과 종속 데이터 리스크까지 고려할 때 실제 상업적 이용 가능 데이터셋은 605개, 약 21.21%에 그쳤다고 밝혔습니다.
(참고뉴스)
1. [현장] AI 시대 오픈소스 리스크 커진다…"거버넌스·공급망 관리 강화해야"(ZDNET Korea)
2. “AI가 슬쩍 가져온 오픈소스…관리 없인 법률 리스크 폭탄”(디지털데일리)
3. AI 저작권 문제, ‘AI-BOM’으로 대응…“AI 학습한 데이터 명시해야”(디지털데일리)
□ 오픈소스 검색 AI 에이전트 ‘하네스-1’ 공개
미국 일리노이대학교 어바나-샴페인, UC 버클리, 크로마 연구진이 새로운 검색 AI 에이전트 ‘하네스-1(Harness-1)’을 온라인 아카이브를 통해 공개했습니다. 하네스-1은 오픈소스 모델 ‘gpt-oss-20b’를 기반으로 한 200억 개 매개변수 규모의 검색 전용 AI입니다. 이 모델은 AI가 검색 중 확인한 문서와 증거, 검증 기록을 모두 직접 기억하도록 두지 않고, ‘상태 기반 검색 하네스(Stateful Search Harness)’가 작업 기록과 증거 자료를 별도로 관리하고 AI는 검색과 추론에 집중하도록 설계됐습니다. 연구진은 이처럼 AI의 기억·정리 부담을 하네스가 나눠 맡는 방식을 ‘상태 기반 인지 오프로딩(Stateful Cognitive Offloading)’이라고 설명했습니다. 하네스-1은 이를 위해 후보 문서 저장소, 핵심 문서 집합, 증거 정보, 검증 기록, 증거 그래프 등을 통해 검색 정보를 체계적으로 관리하도록 했습니다. 하네스-1은 SFT용 899개 검색 경로와 강화학습용 3453개 질의 등 약 4400개 데이터만으로 학습됐으며, 8개 검색 벤치마크의 큐레이션 리콜 평균 0.730을 기록해 기존 오픈소스 검색 에이전트 대비 높은 성능을 보였습니다. 모델 가중치와 하네스 코드는 아파치 2.0 라이선스로 허깅페이스와 깃허브에 공개돼 기업의 상업용 서비스나 사내 검색 시스템에도 활용할 수 있습니다.
* pat-jj/harness-1 허깅페이스 저장소 : https://huggingface.co/pat-jj/harness-1
* pat-jj/harness-1 깃허브 저장소 : https://github.com/pat-jj/harness-1
(참고뉴스)
1. "20B로 GPT-5.4 검색 성능 능가"...오픈소스 에이전트 '하네스-1' 공개(AI타임스)
□ 코히어, 오픈소스 코딩 모델 ‘노스 미니 코드’ 공개
캐나다 AI 기업 코히어가 6월 9일 첫 에이전틱 코딩 모델 ‘노스 미니 코드(North Mini Code)’를 오픈소스로 출시했습니다. 노스 미니 코드는 총 30B 파라미터, 활성 3B 파라미터 규모의 혼합전문가(MoE) 구조로 설계됐으며, 컨텍스트 길이는 256K, 최대 생성 길이는 64K입니다. 라이선스는 아파치 2.0으로, 허깅페이스에서 가중치를 내려받거나 코히어 API, 모델 볼트, 오픈라우터 등을 통해 사용할 수 있습니다. 코히어는 이 모델을 코드 생성뿐 아니라 에이전틱 소프트웨어 엔지니어링, 터미널 작업, 코드 리뷰, 시스템 아키텍처 파악 등에 최적화했으며, 최소 하드웨어 사양은 FP8 기준 H100 1개로 제시했습니다. 이번 출시는 기업 개발자가 자체 환경에서 모델을 운영하며 소스코드와 개발 로그, 내부 시스템 구조를 통제하려는 수요를 겨냥한 것으로, 코히어의 소버린 AI 전략이 개발자 도구 영역으로 확장된 사례로 평가됩니다.
(참고뉴스)
1. [AI는 지금] 폐쇄형 코딩 AI 겨냥한 코히어…오픈소스 모델로 개발자 시장 공략(ZDNET Korea)
□ 구글, 확산 방식 텍스트 생성 모델 ‘디퓨전젬마’ 공개
구글이 기존 자동회귀 방식 대신 확산 방식으로 텍스트를 생성하는 오픈소스 AI 모델 ‘디퓨전젬마(DiffusionGemma)’를 공개했습니다. 디퓨전젬마는 단어를 하나씩 순차적으로 출력하는 방식이 아니라 256토큰 블록 단위로 동시에 생성하는 구조로, 같은 크기의 젬마 자동회귀 모델 대비 최대 4배 빠른 추론 속도를 기록했다고 설명했습니다. 현재 공개된 모델은 20억 개 파라미터 규모의 텍스트 전용 모델이며, 구글은 이를 실제 서비스 배포보다 새로운 텍스트 생성 패러다임을 탐색하기 위한 실험적 연구 공개로 분류했습니다. 모델 가중치와 코드는 허깅페이스를 통해 공개됐으며, 아파치 2.0 라이선스로 제공돼 상업적 활용도 허용됩니다. 확산 방식은 토큰 간 양방향 맥락을 활용할 수 있다는 장점이 있지만, 현재 단계에서는 지시 이행이나 정확한 수식 처리 등에서 자동회귀 모델 대비 약점이 있다는 평가도 함께 제시됐습니다.
(참고뉴스)
1. 구글, 텍스트 생성 4배 빠른 오픈소스 AI ‘디퓨전젬마(DiffusionGemma)’ 공개(와우테일)
- Open UP -