기본 디퓨전 모델
여기서 기본 디퓨전 모델은 별도의 조건이 주어지지 않고, 이미지를 생성하는 모델을 말한다.
DDPM (Denoising Diffusion Probabilistic Model)
DDPM은 점진적인 노이즈 추가와 제거 과정을 통해 이미지를 생성한다. 이는 마르코프 체인 기반의 확률적 모델링을 활용한다. 순전파에서는 원본 이미지에 점진적으로 가우시안 노이즈를 추가하고, 역전파에서는 노이즈를 단계적으로 제거하면서 이미지를 복원한다. 이러한 훈련은 U-Net 구조에서 이뤄진다.
Improved DDPM
DDPM에서 노이즈 스케줄링, 가우시안 전이 모델링, 목적함수를 개선하여 나온 모델이다. 이를 통해 샘플링 속도와 학습 효율성을 개선할 수 있었다.
Latent Diffusion Models (LDM)
LDM은 오토인코더를 통해 차원을 축소하고, 저차원의 잠재공간에서 확산 활동이 수행된다. 이를 통해 연산능력에 대한 요구사항이 줄어들고, 더 빠른 학습 및 추론이 가능해졌다. 이로 인해 현재 많이 사용되는 기술인 Stable Diffusion의 기반이 되는 기술이다.
Fast Sampling
여전히 디퓨전 모델은 속도에 관한 문제가 있었고, 이를 극복하기 위해 제안된 것이 샘플링의 속도를 빠르게 하기 위한 노력이 있다.
DDIM (Denoising Diffusion Implicit Models)
DDIM은 이전 이벤트에 의해서 확률이 의존하는 마르코프 프로세스가 아닌 방법으로 샘플링을 진행한다. 이를 통해 샘플링의 속도를 빠르게 하고, 적은 과정만으로도 이미지를 생성할 수 있게 된다.
Progressive Distillation
증류(Distillation)이라는 단어가 있는 것처럼, Teacher - Student 모델을 활용하는 지식 증류에서 방법을 가져와 샘플링 단계를 줄일 수 있다. 먼저 모든 과정으로 학습을 진행하고, 그 다음에는 지식 증류를 수행한다. 이를 반복하면서 전체 스텝을 감소시키고 추론 속도를 향상 시킨다.
Consistency Models
추계 미분 방정식(Stochastic Differential Equation, SDE)을 상미분방정식(Ordinary Differential Equation, ODE)으로 바꾸는 방식이다. SDE를 푸는 것보다는 ODE를 푸는 수치해석적인 방법으로 접근하여 속도를 높이고자 시도하였다.
Text-to-Image Synthesis
쓸만한 이미지를 만들어내는 일은 그동안 예술적인 감각이나 훈련을 받은 사람의 영역이었지만, 이미지 생성 모델이 들어오면서 텍스트만으로 이미지를 생성할 수 있게 되었다.
DALL-E 2
DALL-E 2는 텍스트를 이미지 임베딩으로 바꾸는 Prior와 이미지 임베딩을 실제 이미지로 생성하는 Decoder 두가지 생성 과정을 거친다.
Stable Diffusion
많이 언급되는 모델인 Stable Diffsuion 모델은 CLIP의 잠재 공간에서 확산을 진행하고, VAE를 통해 이미지를 압축하는 구조를 채택해 계층적으로 생성한다.
Imagen
CLIP 대신에 T5 텍스트 인코더를 사용하는 방식으로 생성 크기가 점진적으로 커지는 캐스케이드 방식(64 x 64 ➡️ 256 x 256 ➡️ 1024 x 1024)으로 디퓨전을 실행한다.
Image-to-Image Translation
Image-to-Image Translation은 이미지를 입력으로 다른 이미지를 생성하는 기술이다. 특정 스타일로 변형하는 Stylization, 해상도를 높이는 Super-Resolution 등의 기술이 여기에 속한다.
SDEdit
SDEdit은 대략적인 이미지 (예를 들어, 형태만 갖춘 크로키 같은)에서 정밀한 이미지를 생성할 수 있다. 입력 이미지에서 노이즈를 부분적으로 생성하고 추계 미분방정식을 통한 노이즈를 제거하는 과정을 거치면서 원본의 이미지의 구조는 유지하되, 세부적인 내용만 수정하는 것이 가능하다.
ControlNet
기존 텍스트-이미지 모델에 프롬프팅을 통한 추가적인 제어 기능을 부여해 조금 더 유연하게 이미지를 생성할 수 있도록 한 기술이다. 다른 이미지 해석 문제처럼 엣지, 포즈, Depth map, 이미지 분할 등을 통해 이미지의 구조를 기반으로 텍스트 임베딩을 더해 이미지를 생성한다. 여기서 특징적인 부분은 Zero Convolution을 통해 모델을 확장을 시도했다는 점이다.
Image Customization
Textual inversion
새로운 의미나 개념을 나타내는 토큰(S*)를 학습해 텍스트 임베딩 공간에서 이미지를 생성하는 기술이다. 비교적 적은 수의 이미지로도 학습이 가능하다는 이점이 있다.
DreamBooth
DreamBooth는 특별한 식별자와 클래스의 단어 쌍을 활용하여 특정 주제에 대한 재현과 생성을 가능하게 했다. 클래스 보존을 위해 prior-preservation loss를 도입하였다.
Erasing Concept
생성 이미지는 간혹 저작권이나 적절하지 않은 표현이 발생할 수 있다. 이런 경우에 제거해주는 과정에 대한 연구도 이뤄지고 있다.하나는 학습된 디퓨전 모델에서 특정 개념을 선택적으로 제거하는 기술이다. 제거하고자 하는 개념의 네거티브 샘플을 수집하고, 개념별 마스크를 생성하여 불필요한 개념을 제거하는 것이다. 또 다른 하나는 Regularization을 도입해 전체 모델을 통합적으로 편집하도록 하는 방법이다.
Video Generation
Video Diffusion Model (VDM)
VDM은 이미지 디퓨전 모델에서 비디오로 확장된 버전이다. 주요 변화는 3D U-Net 구조를 사용했고, 시공간에 대한 어텐션 메커니즘을 채택했다.
Video Probabilistic Diffusion Model (VPDM)
VPDM은 압축된 잠재 공간에서 비디오를 생성해 메모리 효율적으로 이뤄진다는 특징이 있다. 이미지보다 복잡해진 상황에서 NeRF와 같이 압축적으로 정보를 표현하는 방식을 도입해 디퓨전이 가능하도록 했다.
Align your Latents: High-Resolution Video Synthesis
VPDM에서 더 나아가 정렬된 잠재 표현을 사용해 비디오를 생성하는 방식이다. 이는 비디오는 이미지(프레임)이 연속적으로 이뤄진 집합체고, 인접한(시간이 거의 비슷한) 장면끼리는 유사하다는 사실을 활용해 높은 시간적 일관성을 달성했다.
3D
DreamFusion
DreamFusion은 텍스트 프롬프트로부터 3D를 생성하는 모델이다. Score Distillation Sampling (SDS)을 사용해 학습하고, NeRF 기반으로 3D를 표현한다.
Zero-1-to-3
하나의 단면인 이미지를 보고 3D 모델을 생성하는 방식이다. 하나의 이미지만 있으면 되기 때문에 제로샷 방식이라고 할 수 있다.
Consistent 1-to-3
위의 Zero 1-to-3에서 더 나아가 프레임 단위로 학습되는 것을 연속성이 있게 만들 수 있도록 수정된 모델이다. Epipolar guided attention과 multi-view attention을 조합하여 사용한다.
참고자료
- 유재준. Recent Applications in Diffusion Models. 부스트캠프.
'Note > Deep Learning' 카테고리의 다른 글
[Review] SALMONN (오디오 - 언어 모델) 논문 리뷰 (0) | 2025.01.13 |
---|---|
[CV] SAM Demo 활용해보기 | 위성사진 탐색, 동영상 객체 트래킹 (0) | 2025.01.01 |
효율적인 딥러닝 학습을 위한 병렬화 기본 개념 정리 | Data, Tensor, Pipeline Parallelism (0) | 2024.12.30 |
PEFT를 위한 AdapterFusion, QLoRA 훑어보기 (0) | 2024.12.27 |
모델 경량화를 위한 양자화 관련 기본 개념 정리 | Quantization (0) | 2024.12.26 |