[NLP] LLM 평가지표와 주요 데이터셋 간단 정리 | MMLU, HellaSwag, HumanEval, G-Eval
|2024. 12. 5. 12:00
반응형
LLM의 평가
LLM 역시 다른 과업들과 동일하게 텍스트 생성이 잘 이뤄지는지 평가가 필요합니다. LLM은 모델의 특성상 일반적인 태스크(객체 탐지, 분류 등)와 다르기 때문에 평가의 목적, 데이터, 방법론이 달라지게 됩니다. 아래는 그 내용을 요약한 표입니다.
구분 | 일반 평가지표 | LLM 평가 지표 |
목적 | 태스크 수행 능력 | 범용 능력 |
데이터 | 태스크 데이터 | 범용 데이터 |
방법론 | 태스크 평가 파이프라인 및 계산 방법론 | 태스크별 상이 |
LLM 데이터셋
이러한 LLM의 평가 목적 달성을 위해 사용하는 데이터셋은 다를 수 있으나, 벤치마크로 사용하는 유명한 데이터셋이 있습니다. 아래는 그 데이터셋들의 목록, 링크 및 간단한 설명입니다.
데이터셋 | 목적 및 평가 |
Massive Multitask Language Understanding | - 범용적인 태스크 수행능력 평가 - 생물, 수학, 정치, 역사 등 57가지 태스크로 구성 - 정답 보기를 생성하면 맞춘 것으로 간주 |
HellaSwag | - 상식에 대한 평가 (이어질 자연스러운 문장 선택) - 정답 보기를 생성하면 맞춘 것으로 간주 |
HumanEval | - 코드 생성 능력 평가 - 실행 결과물이 실제값과 일치하면 맞춘 것으로 간주 |
이러한 벤치마크 데이터를 평가하기 위한 방법론은 아래와 같이 구성됩니다.
- 몇 개의 예제와 함께 입력
- 각 보기 문장을 생성할 확률 계산
- 확률이 가장 높은 문장을 예측값으로 활용해서 정답 여부 확인
창조적 성과 지표
정답이 있는 데이터셋은 위와 같이 구성할 수 있지만, 글쓰기와 같은 창조적 활동은 명확한 정답이 있는 것은 아닙니다. 따라서 이에 대해 평가하는 G-Eval 지표가 있습니다. 이는 GPT-4를 이용한 방법으로 다음과 같이 구성할 수 있습니다.
- 평가 방식에 대한 Instruction을 구성
- 평가 기준을 제시
- 평가 단계 생성 : 모델 스스로 추론 단계를 구축하는 프롬프트 방식으로 Auto CoT(Chain of Thought)를 통해 모델이 스스로 평가
- 1~3에서 만든 문장을 프롬프트로 만들어 요약문에 대한 평가 진행
반응형
'Note > Deep Learning' 카테고리의 다른 글
이미지 생성 모델 간단 정리하기 | GAN, Autoencoder, Diffusion (0) | 2024.12.09 |
---|---|
이미지 생성 모델의 평가 지표 정리 | Inception Score, FID, CLIP Score (0) | 2024.12.06 |
[NLP] 오픈소스 LLM과 학습방법 | LLaMA, Alpaca (0) | 2024.12.05 |
[NLP] LLM의 효율적인 Fine-Tuning을 진행하는 방법 | Parameter Efficient Fine-Tuning, PEFT (0) | 2024.12.04 |
[NLP] Large Language Model(LLM)의 학습 방법론 | LLM Pretrained Models (0) | 2024.12.03 |