반응형

Introduction

최근 LLM 연구는 언어가 아닌 다른 입력을 넣어 인체의 다른 감각적 양상(modality)을 불어넣는 방향으로 이뤄진다. 이를 통해 AI가 여러 형태의 데이터를 입력으로 이해하고 연산 값을 출력할 수 있게 된다. 이러한 방식은 Multi-modal (멀티모달)이라 불리며 연결 모듈이나 LLM 어댑터를 통해 훈련이 가능하다.

 

다만, 이러한 방식에는 특정 작업에 제한되는 문제가 발생한다. 특정 작업에는 잘 작동되지만 범용적으로 사용되기가 제한되는데, 이를 task over-fitting이라 하며 AI의 사용 가능성을 제한하는 요소가 된다. 따라서 많은 문제를 해결하는 AI 적용을 위해서는 훈련을 통해 학습한 것이 아닌 것을 해결하는 것이 필요한데, 이를 emergent ability라고 한다.

 

SALMONN(Speech Audio Language Music Open Neural Network)은 사전학습된 LLM과 오디오 인코더를 통합한 멀티모달 모델이다. LLM이 오디오 입력을 이해하고 처리하도록 도와주면서 새로운 능력인 emergent ability를 나타낼 수 있도록 훈련 방법을 고안했다. 논문에 따르면, 일반적인 오디오 - 텍스트 문제를 해결할 수 있는 최초로 시도된 모델이라고 한다. [각주:1]

SALMONN [1]



Structure

SALMONN은 크게 다음과 같은 요소들로 구성된다.

 

  • 오디오 입력 데이터를 처리하는 인코더
  • 인코더 출력값을 LLM에 입력할 수 있도록 토큰 변환
  • LLM을 통한 출력

 

각 구성 요소별로 아래에서 살펴보자.

 

Dual Auditory Encoders

먼저 음성 데이터를 처리가능하게끔 인코딩해야 하는데, SALMONN에서는 두 개의 인코더(Whisper, BEATs)로 구성된다. 두 개를 도입한 이유는 일반적인 오디오 데이터를 처리하기 위해 스피치와 스피치가 아닌 오디오를 처리할 수 있는 두 종류의 인코더를 활용한다. 인코더는 음성 데이터를 인코딩하는 역할로 직접적인 학습을 수행하지 않는다.

 

Whisper는 스피치 인식 및 번역을 위해 학습된 모델이고, BEATs는 스피치가 아닌 오디오 정보 추출을 가능하도록 학습된 모델이다. 스피치와 다르게 Mel spectogram 을 입력으로 받아 처리를 하게 된다. 두 인코더의 출력은 50 Hz로 동일하기 때문에 총 T개의 프레임으로 합쳐(concatenate)준다.

 

Window-level Q-Former

합쳐진 인코더 출력을 LLM에 입력하기 위한 토큰으로 변환하기 위해 Q-Former를 활용한다. Q-Former는 이미지 인코딩에서 텍스트와 관련된 정보를 추출하고 LLM에 의해 해석 가능하도록 훈련된다. [각주:2] 

 

T개의 인코더 출력 이미지를 N개의 고정된 숫자 쿼리로 변환한다. 여기서 음성은 가변적인 크기를 갖기 때문에 L 크기의 윈도우로 분할하게 되고, 마지막 윈도우는 제로 패딩 처리를 한다. 이를 식으로 나타내면 아래와 같다.

 

LLM & LoRA

SALMONN에서는 LLaMA에서 파생된 언어모델 중 하나인 Vicuna를 활용한다. 그리고 파라미터 효율적인 학습을 위해 LoRA 기법을 활용한다.



Training & Evaluation

Training

먼저, 음성 인식 및 오디오 캡션 생성 데이터로 Q-Former와 LoRA를 사전학습한다. 그리고 본격적인 훈련을 위해 Audio-Text Instruction 쌍으로 구성된 학습을 수행한다. (이를 Instruction Tuning으로 지칭한다) 마지막으로 더 길고 다양한 응답을 생성하기 위해 Zero-shot Instruction(Activation Tuning) 훈련을 진행한다. 이 논문에서 제안한 방법은 스토리텔링이나 질의응답 데이터로 추가 학습을 진행하거나, LoRA의 Scaling factor를 감소시키는 방법이 있다.

 

Evaluation

해당 논문에서는 일반적인 오디오 문제 해결을 평가하기 위해 총 3가지 레벨로 구분한 평가를 제안한다. 우선 Instruction Tuning에서 학습한 문제들을 평가한다. 두번째는 훈련하지 않은 일반적인 NLP 문제들(예를 들어, 키워드 추출, 질의응답, 번역 등)을 평가한다. 마지막으로 좀 더 일반적인 해결 능력을 평가하기 위해 오디오 기반 스토리텔링, 스피치-오디오 추론 등 어려운 작업으로 구성한다.



결론

SALMONN은 일반적인 오디오 문제(Generic hearing)를 처리할 수 있는 모델로 구조를 제안했을 뿐 아니라, 이를 훈련하고 평가하는 방법까지 제안하였다. 특히, 여기서 제안한 Activiation Tuning은 emergent abilities를 갖기 위해서 필요했고, 단순히 LoRA scaling factor를 줄이는 방법만으로도 성능 향상이 나타나는 것을 확인했다.

 

👆 PPT로 살펴보기 

 

참고자료

반응형