[NLP] LLM 평가지표와 주요 데이터셋 간단 정리

[NLP] LLM 평가지표와 주요 데이터셋 간단 정리 | MMLU, HellaSwag, HumanEval, G-Eval

sean11

|2024. 12. 5. 12:00

LLM 역시 다른 과업들과 동일하게 텍스트 생성이 잘 이뤄지는지 평가가 필요합니다. LLM은 모델의 특성상 일반적인 태스크(객체 탐지, 분류 등)와 다르기 때문에 평가의 목적, 데이터, 방법론이 달라지게 됩니다. 아래는 그 내용을 요약한 표입니다.

이러한 LLM의 평가 목적 달성을 위해 사용하는 데이터셋은 다를 수 있으나, 벤치마크로 사용하는 유명한 데이터셋이 있습니다. 아래는 그 데이터셋들의 목록, 링크 및 간단한 설명입니다.

데이터셋	목적 및 평가
Massive Multitask Language Understanding	- 범용적인 태스크 수행능력 평가 - 생물, 수학, 정치, 역사 등 57가지 태스크로 구성 - 정답 보기를 생성하면 맞춘 것으로 간주
HellaSwag	- 상식에 대한 평가 (이어질 자연스러운 문장 선택) - 정답 보기를 생성하면 맞춘 것으로 간주
HumanEval	- 코드 생성 능력 평가 - 실행 결과물이 실제값과 일치하면 맞춘 것으로 간주

이러한 벤치마크 데이터를 평가하기 위한 방법론은 아래와 같이 구성됩니다.

정답이 있는 데이터셋은 위와 같이 구성할 수 있지만, 글쓰기와 같은 창조적 활동은 명확한 정답이 있는 것은 아닙니다. 따라서 이에 대해 평가하는 G-Eval 지표가 있습니다. 이는 GPT-4를 이용한 방법으로 다음과 같이 구성할 수 있습니다.

평가 방식에 대한 Instruction을 구성
평가 기준을 제시
평가 단계 생성 : 모델 스스로 추론 단계를 구축하는 프롬프트 방식으로 Auto CoT(Chain of Thought)를 통해 모델이 스스로 평가
1~3에서 만든 문장을 프롬프트로 만들어 요약문에 대한 평가 진행

이미지 생성 모델 간단 정리하기 \| GAN, Autoencoder, Diffusion (1)	2024.12.09
이미지 생성 모델의 평가 지표 정리 \| Inception Score, FID, CLIP Score (1)	2024.12.06
[NLP] 오픈소스 LLM과 학습방법 \| LLaMA, Alpaca (0)	2024.12.05
[NLP] LLM의 효율적인 Fine-Tuning을 진행하는 방법 \| Parameter Efficient Fine-Tuning, PEFT (0)	2024.12.04
[NLP] Large Language Model(LLM)의 학습 방법론 \| LLM Pretrained Models (0)	2024.12.03