본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

2024.04.03

ⓒ인공지능신문/최광민 기자

 

이제 누구나 대형언어모델(LLM)을 자체적으로 평가하고 테스트해 볼 수 있다.
업스테이지(대표 김성훈)는 자사가 개발한 노코드 LLM 종합 평가 플랫폼 ‘이벨버스(Evalverse)’를 무료로 공개한다고 3일 밝혔다. 오픈소스 형태로 깃허브(GitHub)에 공개돼 누구나 쉽게 활용할 수 있다.
통상 LLM 성능 평가에는 특정 데이터셋을 기준으로 응답 정확도를 기록한 ‘벤치마크’ 지표를 활용한다. 모델의 추론, 상식, 언어 이해 능력 등 6가지 부문을 측정하는 허깅페이스 ‘H6’ 지표를 포함, 대화 능력 지표 ‘MT-bench’, 감성 평가 지표 ‘EQ-bench’, 및 지시 이행 능력 지표 ‘IFEval’ 등이 주요 벤치마크로 꼽힌다
(후략)

 

[원본기사 : https://www.aitimes.kr/news/articleView.html?idxno=30810]

 

맨 위로
맨 위로