반응형

LLM의 평가

LLM 역시 다른 과업들과 동일하게 텍스트 생성이 잘 이뤄지는지 평가가 필요합니다. LLM은 모델의 특성상 일반적인 태스크(객체 탐지, 분류 등)와 다르기 때문에 평가의 목적, 데이터, 방법론이 달라지게 됩니다. 아래는 그 내용을 요약한 표입니다. 

구분 일반 평가지표 LLM 평가 지표
목적 태스크 수행 능력 범용 능력
데이터 태스크 데이터 범용 데이터
방법론 태스크 평가 파이프라인 및 계산 방법론 태스크별 상이

LLM 데이터셋

이러한 LLM의 평가 목적 달성을 위해 사용하는 데이터셋은 다를 수 있으나, 벤치마크로 사용하는 유명한 데이터셋이 있습니다. 아래는 그 데이터셋들의 목록, 링크 및 간단한 설명입니다. 

데이터셋  목적 및 평가
Massive Multitask Language Understanding - 범용적인 태스크 수행능력 평가
- 생물, 수학, 정치, 역사 등 57가지 태스크로 구성
- 정답 보기를 생성하면 맞춘 것으로 간주
HellaSwag - 상식에 대한 평가 (이어질 자연스러운 문장 선택)
- 정답 보기를 생성하면 맞춘 것으로 간주
HumanEval - 코드 생성 능력 평가
- 실행 결과물이 실제값과 일치하면 맞춘 것으로 간주 

 

이러한 벤치마크 데이터를 평가하기 위한 방법론은 아래와 같이 구성됩니다.

  1. 몇 개의 예제와 함께 입력
  2. 각 보기 문장을 생성할 확률 계산
  3. 확률이 가장 높은 문장을 예측값으로 활용해서 정답 여부 확인

창조적 성과 지표

정답이 있는 데이터셋은 위와 같이 구성할 수 있지만, 글쓰기와 같은 창조적 활동은 명확한 정답이 있는 것은 아닙니다. 따라서 이에 대해 평가하는 G-Eval 지표가 있습니다. 이는 GPT-4를 이용한 방법으로 다음과 같이 구성할 수 있습니다.

  1. 평가 방식에 대한 Instruction을 구성
  2. 평가 기준을 제시
  3. 평가 단계 생성 : 모델 스스로 추론 단계를 구축하는 프롬프트 방식으로 Auto CoT(Chain of Thought)를 통해 모델이 스스로 평가
  4. 1~3에서 만든 문장을 프롬프트로 만들어 요약문에 대한 평가 진행

 

 

 

 

 

 

반응형