[글로벌 오픈소스 기업]허깅페이스, 오픈소스로 AI 생태계를 혁신하다
허깅페이스, 오픈소스로 AI 생태계를 혁신하다
- 이지현 IT 전문기자(j.lee.reporter@gmail.com) -
AI 기술이 소수 기업의 전유물이 되어가는 시대, 프랑스 스타트업 허깅페이스(Hugging Face)가 이에 반기를 들고 있다. 한때 시리와 유사한 챗봇 서비스를 만들던 허깅페이스는 AI 모델 플랫폼을 운영하며 많은 사용자와 투자자의 관심을 받고 있다. 또한 오픈소스 AI의 허브로 자리매김한 허깅페이스는 ‘AI 기술의 민주화’를 선도하며, 중소기업 및 학계의 AI 개발을 지원하는 핵심 주체로 부상하고 있다.
AI 붐으로 제2의 깃허브로 자리잡다
허깅페이스는 머신러닝 모델을 구축, 배포 및 훈련할 수 있도록 지원하는 ML 및 데이터 과학 플랫폼이자 커뮤니티다. 얼핏 간단해 보이는 이 서비스에 수많은 사용자가 최근 몰리고 있다. 2024년 7월 기준 현재 허깅페이스에 등록된 AI 모델은 78만 개이며, 데이터세트는 18만 개다. 유료 고객 수는 1만여 명으로 알려져 있다.1) 더불어 투자자도 높은 관심을 보이고 있는데, 허깅페이스의 누적 투자금은 3억 9,500만 달러(약 5,471억 원)로, 기업가치는 45억 달러(약 5조 원)로 평가받고 있다. 허깅페이스에 투자한 기업에는 구글, 아마존, 퀄컴, 엔비디아, 세일즈포스, AMD, 인텔, IBM 등이 포함됐다. 사실상 마이크로소프트를 제외한 주요 빅테크 기업이 허깅페이스에 베팅을 한 셈이다. 여기에 세콰이어(Sequoia), 코튜 매니지먼트(Coatue Management), 럭스 캐피탈(Lux Capital) 같은 유수의 투자사도 허깅페이스에 투자를 진행했다.
허깅페이스 인기에는 ‘오픈소스’가 주요 요인으로 작용했다. ‘AI 업계의 깃허브’라는 별명이 말해주듯, 실제로 두 플랫폼은 상당히 유사한 역할을 하고 있다. 이를 테면 깃허브가 주로 소스 코드의 관리와 저장을 위한 공간으로 활용된다면, 허깅페이스는 AI 모델과 데이터의 관리 및 저장을 위한 플랫폼으로 자리 잡고 있다. 깃허브의 주 사용자가 소프트웨어 개발자라면, 허깅페이스는 AI 연구원과 개발자다. 두 서비스는 각자의 분야에서 오픈소스 생태계를 육성하고 발전시키는 데 큰 기여를 했다는 점에서도 유사성을 보인다.
[그림1] 허깅페이스 예시
허깅페이스가 설립 초기부터 현재와 같은 커뮤니티 중심의 플랫폼을 운영한 것은 아니었다. 2016년 프랑스에서 설립된 허깅페이스는 애플의 시리와 아마존의 에코 등에 영감을 받아 10대 청소년을 대상으로 하는 챗봇 앱을 개발하는 기업이었다. 해당 앱은 일일 활성 사용자 수(DAU)가 최대 10만 명에 달할 정도로 인기를 얻기도 했다.
그러던 중 2017년 IT 업계에서는 구글이 발표한 ‘Attention is all you need2)’라는 논문이 주목을 받으며 ‘트랜스포머’ 아키텍처가 화두로 떠오른다. 이 아키텍처는 자연어 처리(NLP) 기술을 한 단계 높이는 계기를 마련했으며, GPT를 비롯한 지금의 생성형 AI 기술의 근간이 되었다. 허깅페이스는 당시 이러한 트렌드를 인식하고, 자사의 챗봇 구조를 트랜스포머 아키텍처 중심으로 개선했다. 더 나아가 관련 NLP 기술과 각종 라이브러리를 깃허브에 오픈소스로 공개했는데, 이 시점부터 허깅페이스는 오픈소스 생태계에서 높은 관심을 받기 시작했다. 2024년 기준 허깅페이스가 깃허브에 공개한 ‘트랜스포머스(Transformers)3)’의 포크수는 약 2.5만개, 스타수는 약 13만개다.
트랜스포머스 인기를 확인한 허깅페이스는 본격적으로 AI 모델 및 데이터를 모아 보여주는 지금 모습의 플랫폼 사업을 시작했다. 그리고 이들의 서비스는 ▲버튼 클릭 몇 번만으로 이용 가능한 사용자 친화적인 인터페이스 ▲방대한 모델 라이브러리 ▲협업 및 커뮤니티 기능 ▲API 지원 ▲무료 및 유료 가격 정책 지원 등의 이점을 제공하며, AI 개발자의 필수 플랫폼으로 자리 잡는다. 그 결과 AI 모델이나 데이터를 공개하려는 기업 대부분이 허깅페이스를 찾고 있다. 구글의 BERT, 오픈AI의 GPT-2, 스테이빌리티AI의 스테이블디퓨저, 애플의 오픈ELM, 메타의 라마(Llama) 같은 모델이 허깅페이스에 등록됐다.
애플, 구글, 에어비앤비 등을 투자한 것으로 유명한 VC 기업 세콰이어는 “허깅페이스는 ML 생태계에서 특별한 전략적 위치를 차지하고 있다”라며 “허깅페이스는 최신의 ML 모델을 찾는 개발자들이 가장 먼저 찾는 곳이며, 비영리기관부터 일반 기업까지 NLP 과학자 및 기타 ML 연구자가 모델을 전 세계에 배포하기 위해 방문하는 곳이 되고 있다”라고 설명했다. 4)
‘블랙박스’ AI를 반대하며 오픈소스 AI 혁신 주도하다
허깅페이스는 오픈소스 AI 개발자와 연구원을 위한 플랫폼 역할을 넘어, 오픈소스 AI 생태계 확장에 기여하고 있다. 일단 허깅페이스의 공동설립자겸 CEO 클레멘트 델랑그는 오픈AI와 반대 지점에 있는 오픈소스 기반 AI 모델의 중요성을 지속적으로 외부에 강조하고 있다. 2023년 6월 열린 미 청문회에서 델랑그는 “오픈 사이언스와 오픈소스 AI는 많은 이의 AI 개발을 장려하는 데 매우 필수적이며 미국의 가치와 이익에 매우 부합한다”라고 “오픈 사이언스와 오픈소스 AI는 블랙박스 시스템(내부 구조를 알 수 없고 결과만 볼 수 있는 시스템)을 지양하고 AI 기업의 책임성을 높인다. 또한 AI 기술의 편견 완화, 잘못된 정보 감소, 저작권 증진, 아티스트와 콘텐츠 제작자 보호 등 오늘날의 AI 과제를 해결하는 데 도움이 된다”라고 밝혔다.5)
동시에 허깅페이스는 AI가 인류 역사상 중요한 기술로 자리잡을 만큼, 특정 기업이 AI 시장을 독점적으로 주도하기보단 오픈소스 등으로 많은 이해 관계자가 참여해서 함께 개발해야 한다는 입장을 전하고 있다. 허깅페이스의 수석 윤리학자인 지아다 피스틸리는 “AI의 미래를 한 작은 회사에 맡겨서는 안된다”라며 “심지어 언젠가 기술적으로 AGI(인공 일반 지능)가 만들어질 수 있다고 해도 기술 및 관련 통제권이 여러 조직이나 커뮤니티에 분산되어 되어 있는 것이 더 인류에 유리하다”라고 언론 인터뷰를 통해 밝혔다.6)
이러한 가치하에 허깅페이스는 직접 오픈소스 기반 AI 모델 및 데이터를 만드는 데 참여하고 있다. 대표적으로 2021년 5월부터 2022년 5월까지 1년 동안 60개국, 250개 이상의 기관에서 온 1,000명 이상의 연구자들이 함께 AI 모델을 개발하는 빅사이언스(BigScience)7)라는 프로젝트를 주도했다. 여기에는 허깅페이스 외에 세일즈포스 리서치, 네이버랩스 유럽지사 등이 참여했는데, 이 프로젝트의 결과로 오픈소스 AI 모델 블룸(BLOOM)8)이 나왔다. 이외에도 코딩에 특화된 오픈소스 AI 모델 스타코더2(StarCoder2)9)를 서비스나우, 엔비디아와 공동 개발했으며, 모바일 기기에서 바로 사용 가능한 소형 AI 모델을 ‘스몰LM’10)를 오픈소스로 공개했다.
또한 허깅페이스 오픈LLM 리더보드11)라는 서비스를 공개하고 다양한 AI 및 NLP 모델의 성능을 객관적으로 평가하고 비교할 수 있는 환경을 제공하고 있다. 여기에선 허깅페이스에 등록된 AI 모델들의 순위를 공개함으로써 AI 기술의 투명성을 높이고 혁신을 촉진하며, 개발자들에게 더 우수한 모델 개발의 동기를 부여하고 있다는 점에서 의미가 크다.
[그림2] 허깅페이스 오픈LLM 리더보드 예시
허깅페이스는 여기서 한발 나아가 최근 AI 업계에서 화두인 로봇 기술에 대해서도 투자하고 있다. 이를 위해 올 3월 테슬라에서 휴머노이드 로봇 옵티머스와 자율 주행 기술 오토파일럿을 개발했던 과학자 레미 카덴을 영입했다.12)
마지막으로 허깅페이스는 빅테크 기업 중심의 AI 개발 문화를 변화시키기 위해 노력하고 있다. 대표적으로 2024년 5월 허깅페이스는 ‘제로GPU(ZeroGPU)’라는 프로젝트를 시작하며 소규모 기업에 공유 GPU를 무료로 제공하겠다고 밝혔다. 허깅페이스 CEO 클레멘트 델랑그는 “작은 기업이 클라우드 제공업체와 직접 계약하며 GPU를 필요한 만큼 확보하는 것은 매우 어려운 일이다”라며 “미리 얼마나 많은 GPU가 필요하고 예산이 어느 정도 필요한지 예측하는 것 자체가 어렵다”라며 제로GPU 프로젝트를 시작한 계기를 설명했다.13) 제로GPU 프로젝트에는 1,000만 달러(약 135억 원) 규모의 하드웨어 인프라가 지원될 계획이다.
※ 참고문헌
- Google, Amazon, Nvidia and other tech giants invest in AI startup Hugging Face, sending its valuation to $4.5 billion, 2023년 8월,
https://www.cnbc.com/2023/08/24/google-amazon-nvidia-amd-other-tech-giants-invest-in-hugging-face.html - https://arxiv.org/abs/1706.03762
- https://github.com/huggingface/transformers/blob/main/i18n/README_ko.md
- Partnering with Hugging Face: A Machine Learning Transformation, 2022년 5월,
https://www.sequoiacap.com/article/partnering-with-hugging-face-a-machine-learning-transformation/ - Hugging Face CEO tells US House open-source AI is ‘extremely aligned’ with American interests, 2023년 6월,
https://venturebeat.com/ai/hugging-face-ceo-tells-us-house-open-source-ai-is-extremely-aligned-with-american-interests/ - Hugging Face CEO says he's focused on building a 'sustainable model' for the $4.5 billion open-source-AI startup, 2023년 12월,
https://www.businessinsider.com/hugging-face-open-source-ai-approach-2023-12 - https://bigscience.huggingface.co/
- https://bigscience.notion.site/BLOOM-BigScience-176B-Model-ad073ca07cdf479398d5f95d88e218c4
- https://huggingface.co/bigcode/starcoder2-15b
- SmolLM - blazingly fast and remarkably powerful, 2024년 7월,
https://huggingface.co/blog/smollm - https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
- https://x.com/RemiCadene/status/1765715921388056904
- Hugging Face is sharing $10 million worth of compute to help beat the big AI companies, 2024년5월,
https://www.theverge.com/2024/5/16/24156755/hugging-face-celement-delangue-free-shared-gpus-ai
번호 | 제목 | 조회수 | 작성 |
---|---|---|---|
360 | [글로벌 오픈소스 기업] “관리하는 오픈소스 프로젝트 7천개” 구글, 오픈소스로 기술 생태계 주도하다 | 508 | 2024-09-28 |
359 | [글로벌 오픈소스 기업] 오픈소스 AI 생태계의 거인, 메타의 영향력 | 2392 | 2024-08-26 |
358 | [글로벌 오픈소스 기업]허깅페이스, 오픈소스로 AI 생태계를 혁신하다 | 2788 | 2024-07-29 |
357 | [개발자 인터뷰/엄재웅 개발자] 글로벌 IT기업 원격근무 비결은...'오픈소스' | 2780 | 2024-06-24 |
356 | [개발자 인터뷰/오픈프런티어(멘토) 박정환 개발자] 오픈소스 기여로 함께 성장하는 여정 | 3539 | 2024-05-27 |
355 | [오픈소스 기업/가이아쓰리디 주식회사] 오픈소스GIS 전문기업에서 오픈소스 디지털트윈 전문기업으로, 가이아쓰리디 | 3058 | 2024-04-23 |
354 | [오픈소스 기업/차라투 주식회사] 오픈소스 기반 의학연구지원 기업, 차라투 | 3178 | 2024-03-26 |
353 | [오픈소스 기업/큐브리드] 공공 클라우드 시장 선점한 국내 주도형 오픈소스 DBMS 대표 벤더 | 3102 | 2024-02-26 |
352 | [오픈소스 기업/넷록스 주식회사] 넷록스, 클라우드 네이티브 생태계 구축을 위해 필수적인 Load Balancer 오픈소스로 공개 | 3564 | 2024-01-29 |
351 | [오픈소스 기업/잼투인]오픈소스 기반 캐시 클러스터' ARCUS'를 통한 온라인몰 속도 개선 및 DB 부하 절감... '잼투인(주)' | 3304 | 2023-12-26 |
0개 댓글