일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- stable diffusion
- posco 채용
- 포스코 코딩테스트
- dp
- DDPM
- Image Generation
- controlNet
- manganinja
- KT
- 논문 리뷰
- 프로그래머스
- 과제형 코딩테스트
- kt인적성
- classifier-free guidance
- 포스코 채용
- Generative Models
- ip-adapter
- diffusion models
- ddim
- 코딩테스트
- colorization
- Today
- Total
Paul's Grit
DDPM Loss Function 요약 설명 본문
DDPM(Denoising Diffusion Probabilistic Models) 논문에서는 모델을 학습하기 위해 variational lower bound(VLB)를 최적화하는 방식으로 loss function을 정의한다. 논문의 주요 loss function은 다음과 같다.
1. Evidence Lower Bound (ELBO)
DDPM은 데이터 분포 \( q(x_0) \)를 모델링하는 확률 모델이므로, 이를 최적화하기 위해 variational inference을 사용하여 evidence lower bound (ELBO)를 최대화한다. ELBO의 형태는 다음과 같이 정의된다.
\[
L_{\text{VLB}} = \mathbb{E}_q \left[ \log \frac{q(x_{1:T} | x_0)}{p_{\theta}(x_{0:T})} \right]
\]
여기서 \( p_{\theta}(x_{0:T}) \)는 DDPM이 정의하는 확률 분포이며, \( q(x_{1:T} | x_0) \)는 정방향(diffusion) 과정에서 정의된 분포이다.
ELBO를 유도하면 다음과 같은 형태로 분해된다.
\[
L_{\text{VLB}} = L_0 + L_1 + \dots + L_{T-1} + L_T
\]
각 항은 다음과 같다.
- \( L_T \): \( KL(q(x_T | x_0) || p(x_T)) \) (노이즈 분포와 정규분포의 KL divergence)
- \( L_t \) (for \( 1 \leq t \leq T-1 \)): \( KL(q(x_t | x_0) || p_{\theta}(x_t | x_{t+1})) \) (reverse process의 KL divergence)
- \( L_0 \): \( -\mathbb{E}_q [\log p_{\theta}(x_0 | x_1)] \) (복원된 샘플의 log likelihood)
2. Simplified Loss Function
DDPM 논문에서는 Gaussian assumption을 사용하여 KL divergence term을 쉽게 계산할 수 있도록 하고, 특히 reverse process \( p_{\theta}(x_{t-1} | x_t) \)를 parameterized한 후 최적화할 수 있도록 한다.
특히, DDPM은 denoising score matching을 기반으로 loss function을 단순화하여 다음과 같이 정의한다.
\[
L_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon} \left[ \|\epsilon - \epsilon_{\theta}(x_t, t)\|^2 \right]
\]
여기서,
- \( \epsilon \sim \mathcal{N}(0, I) \) (정규 분포에서 샘플링된 노이즈)
- \( x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon \) (정방향 과정에서 샘플링된 noisy image)
- \( \epsilon_{\theta}(x_t, t) \) (모델이 예측한 노이즈)
이 loss function은 MSE(mean squared error)를 사용하여 모델이 정방향 과정에서 추가된 노이즈를 얼마나 잘 예측하는지 학습하도록 한다.
3. Loss Function의 해석
\( L_{\text{simple}} \)는 단순한 denoising objective로 볼 수 있으며, 모델이 주어진 noisy image \( x_t \)에서 원래 노이즈 \( \epsilon \)을 얼마나 잘 복원할 수 있는지를 측정한다.
DDPM 논문에서는 이 loss function을 사용하여 gradient updates를 계산하고, 학습된 모델을 샘플링할 때 reverse diffusion 과정을 수행하여 고품질 이미지를 생성한다.
'논문 리뷰 > Generative models' 카테고리의 다른 글
[논문 리뷰] [DDIM] Denoising Diffusion Implicit Models (0) | 2025.03.09 |
---|---|
[논문 리뷰] Classifier-Free Diffusion Guidance (0) | 2025.03.06 |
[논문 리뷰] Diffusion Models Beat GANs on Image Synthesis (0) | 2025.03.05 |
[논문 리뷰] MangaNinja: Line Art Colorization with Precise Reference Following (0) | 2025.02.18 |
[논문 리뷰] IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models (1) | 2025.01.10 |