[주간 OSS 동향리포트] 세일즈포스, 역대 최대 규모의 AI 학습용 멀티모달 데이터셋 오픈소스 출시
Open UP에서는 지난 한 주의 국내외 공개SW 관련 동향을 모아 정리합니다.
자세한 기사 내용은 아래 기사 내용 중 굵게 표시된 제목을 클릭하시면 보실 수 있습니다.
세일즈포스 AI 리서치와 워싱턴대학교, 스탠포드대학교, 텍사스 오스틴대학교, 캘리포니아대학교 버클리 등이 텍스트 토큰 1조개와 이미지 34억장을 포함한 데이터셋 '민트-1T(Mint-1T)'를 오픈소스로 출시했습니다. 역대 최대 규모의 인공지능(AI) 학습용 멀티모달 데이터셋입니다.
실제 문서를 모방한 형식으로 텍스트와 이미지를 결합한 이 멀티모달 데이터셋으로 구체적으로 텍스트 토큰은 HTML 토큰 9220억개와 PDF 토큰 1060억개, 아카이브 논문 토큰 90억개로 구성됐다. 이미지 역시 HTML과 PDF, 아카이브 논문 등에서 수집한 34억개입니다.
기존 오픈소스 최대였던 오벨릭스(OBELICS)가 텍스트 토큰이 1000억개 정도로 10배나 크게 뛰어넘는 규모다. 폐쇄형 데이터셋도 메타의 '카멜레온'과 애플의 'MM1'은 4000억개 수준입니다.
연구자들은 아카이브에 게재한 논문에서 "데이터셋은 프론티어 대형멀티모달모델(LMM)을 훈련하는 데 필수적이며 오픈소스 LMM의 빠른 발전에도 불구하고, 대규모의 다양한 오픈소스 멀티모달 인터리브 데이터셋은 여전히 현저히 부족하다"라고 밝혔습니다. 또한 모델 학습에 도움이 주기 위해 다양한 소싱 작업과 필터링, 데이터 중복 제거 프로세스를 거쳤으며 다양한 소싱과 처리 방법에 집중했다고 설명했습니다.
MINT-1T 데이터셋은 https://huggingface.co/collections/mlfoundations/mint-1t-6690216ca4d0df7e518dde1c에서 확인할 수 있습니다.
□ 탄생 30주년 맞은 프리도스 "아직 죽지 않았다"(디지털투데이)
도스(DOS) 계열의 오픈소스 운영체제인 프리도스(FreeDOS)가 탄생 30주년을 맞았다.
지난 1994년 6월 29일 첫 선을 보인 프리도스는 당시 개발을 중단한 마이크로소프트 MS-DOS를 대체하기 위해 개발됐으며, 현재까지도 개인은 물론 산업계 전반에 쓰이는 무료 운영체제로 명맥을 이어가고 있다.
□ 글로벌 AI 레이스 변화 바람 부나...中 기업들 오픈소스 AI 두각(디지털투데이)
중국 AI 업체들의 글로벌 시장 공략이 급물살을 타고 있다. 미국 테크 기업들이 주도하는 AI 레이스에 변화를 몰고올지 주목된다. 최근 중국 회사들은 글로벌 시장을 겨냥해 미국 기업들과 경쟁할 수 있는 AI 시스템들을 잇따라 선보였다.
동영상 생성 AI 플랫폼인 클링(Kling)도 그중 하나. 중국 인터넷 회사 쿠아이쇼우(Kuaishou)가 개발한 클링은 사용자가 보유하고 있는 실제 사진을 기반으로 영상을 생성해주는데, 글로벌 사용자들 사이에서 나름 관심을 끄는 모습이다.
- OpenUP -
번호 | 제목 | 조회수 | 작성 |
---|---|---|---|
공지 | [Open UP 활용가이드] 공개SW 활용 및 개발, 창업, 교육 "Open UP을 활용하세요" | 435934 | 2020-10-27 |
공지 | [Open UP 소개] 공개SW 개발·공유·활용 원스톱 지원 Open UP이 함께합니다 | 424762 | 2020-10-27 |
11034 | 큐브리드, 공공 정보화 국산 DBMS 점유율 1위 유지 | 2229 | 2024-08-14 |
11033 | [주간 OSS 동향리포트] LG AI연구원, AI 모델 '엑사원(EXAONE) 3.0' 오픈소스 공개 | 2642 | 2024-08-13 |
11032 | “저렴한데 성능도 비슷”…‘오픈소스’로 AI 주도권 잡기 나선 기업들 | 2088 | 2024-08-13 |
11031 | NIA-업스테이지, '오픈소스 한국어 LLM 리더보드' 평가 지표 개편 | 2022 | 2024-08-13 |
11030 | 알리바바, 수학 전용 모델 '큐원2-매스' 오픈 소스 출시 | 2012 | 2024-08-12 |
11029 | 많은 기업이 사용하는 오픈소스 ERP 시스템 '아파치 OFBiz'에 심각한 보안취약점...사이버공격 주의 | 2037 | 2024-08-12 |
11028 | “2027년 80% 조직, SCA 사용해 오픈소스 관리” | 1925 | 2024-08-12 |
11027 | LG, AI 모델 '엑사원 3.0' 오픈 소스 공개…전 모델 比 성능 56%↑ | 2035 | 2024-08-08 |
11026 | [주간 OSS 동향리포트] 세일즈포스, 역대 최대 규모의 AI 학습용 멀티모달 데이터셋 오픈소스 출시 | 2507 | 2024-08-08 |
11025 | 구글, 오픈소스 Gemma AI 모델 3개 출시 | 2070 | 2024-08-05 |
0개 댓글