일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 프로그래머스
- 코딩테스트
- diffusion models
- ddim
- dp
- 포스코 채용
- controlNet
- manganinja
- colorization
- classifier-free guidance
- 논문 리뷰
- kt인적성
- 포스코 코딩테스트
- 과제형 코딩테스트
- posco 채용
- DDPM
- stable diffusion
- ip-adapter
- KT
- Image Generation
- Generative Models
- Today
- Total
목록논문 리뷰/Generative models (12)
Paul's Grit

Jiaming Song, Chenlin Meng & Stefano ErmonStanford UniversityICLR 2021 [Paper]AbstractDenoising Diffusion Probabilistic Models, DDPM은 샘플을 생성하기 위해 다수의 단계에서 마르코프 체인(Markov chain)을 시뮬레이션해야 한다는 단점이 있다. 샘플링 속도를 향상시키기 위해, 본 논문에서는 DDPM와 동일한 학습 절차를 따르는 보다 효율적인 iterative implicit probabilistic models인 Denoising Diffusion Implicit Models, DDIM을 제안한다. DDPM에서는 생성 과정이 특정한 Markovian diffusion process의 역방향 과정..

DDPM(Denoising Diffusion Probabilistic Models) 논문에서는 모델을 학습하기 위해 variational lower bound(VLB)를 최적화하는 방식으로 loss function을 정의한다. 논문의 주요 loss function은 다음과 같다.1. Evidence Lower Bound (ELBO)DDPM은 데이터 분포 \( q(x_0) \)를 모델링하는 확률 모델이므로, 이를 최적화하기 위해 variational inference을 사용하여 evidence lower bound (ELBO)를 최대화한다. ELBO의 형태는 다음과 같이 정의된다.\[ L_{\text{VLB}} = \mathbb{E}_q \left[ \log \frac{q(x_{1:T} | x_0)}{p_..

[Paper]Jonathan Ho, Tim SalimansNeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications AbstractClassifier guidance는 conditional diffusion models에서 훈련 이후 mode coverage와 sample fidelity를 조절하는 방법으로 최근 도입되었으며, 이는 다른 유형의 생성 모델에서 low temperature sampling 또는 truncation과 유사한 개념이다. Classifier guidance는 diffusion model의 score 추정값과 이미지 분류기의 gradient를 결합하는 방식으로 작동하며, 이를 위해 diffusion mod..

[Paper] [Github] Prafulla Dhariwal, Alex Nichol OpenAI 11 May 2021 Abstract우리는 diffusion models가 현재 최첨단 생성 모델보다 우수한 이미지 샘플 품질을 달성할 수 있음을 보인다. 우리는 일련의 ablation을 통해 더 나은 아키텍처를 찾아 unconditional 이미지 합성에서 이를 달성한다. 조건부 이미지 합성에서는 classifier guidance를 활용하여 샘플 품질을 더욱 향상시키는데, 이는 분류기의 gradient를 사용하여 다양성과 정확성 간의 균형을 조절하는 단순하고 계산 효율적인 방법이다. 우리는 ImageNet 128×128에서 FID 2.97, ImageNet 256×256에서 FID 4.59, ImageN..

https://arxiv.org/abs/2501.08332 MangaNinja: Line Art Colorization with Precise Reference FollowingDerived from diffusion models, MangaNinjia specializes in the task of reference-guided line art colorization. We incorporate two thoughtful designs to ensure precise character detail transcription, including a patch shuffling module to facilitate corresponarxiv.org Abstactdiffusion models에서 파생된 Man..

https://arxiv.org/abs/2308.06721 IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion ModelsRecent years have witnessed the strong power of large text-to-image diffusion models for the impressive generative capability to create high-fidelity images. However, it is very tricky to generate desired images using only text prompt as it often involvesarxiv.org Abstract최근 몇 년 동..

https://arxiv.org/abs/2302.05543 Adding Conditional Control to Text-to-Image Diffusion ModelsWe present ControlNet, a neural network architecture to add spatial conditioning controls to large, pretrained text-to-image diffusion models. ControlNet locks the production-ready large diffusion models, and reuses their deep and robust encoding layers prarxiv.org Abstract대규모 사전학습된 텍스트-이미지 diffusion 모델..

https://arxiv.org/abs/2102.12092 Zero-Shot Text-to-Image GenerationText-to-image generation has traditionally focused on finding better modeling assumptions for training on a fixed dataset. These assumptions might involve complex architectures, auxiliary losses, or side information such as object part labels or segmentatiarxiv.org https://github.com/lucidrains/DALLE-pytorch GitHub - lucidrains/D..