일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- stable diffusion
- Image Generation
- colorization
- diffusion models
- 포스코 코딩테스트
- DDPM
- ip-adapter
- KT
- ddim
- 논문 리뷰
- controlNet
- posco 채용
- kt인적성
- dp
- 과제형 코딩테스트
- 코딩테스트
- classifier-free guidance
- 프로그래머스
- Generative Models
- 포스코 채용
- manganinja
- Today
- Total
목록논문 리뷰 (13)
Paul's Grit

Jiaming Song, Chenlin Meng & Stefano ErmonStanford UniversityICLR 2021 [Paper]AbstractDenoising Diffusion Probabilistic Models, DDPM은 샘플을 생성하기 위해 다수의 단계에서 마르코프 체인(Markov chain)을 시뮬레이션해야 한다는 단점이 있다. 샘플링 속도를 향상시키기 위해, 본 논문에서는 DDPM와 동일한 학습 절차를 따르는 보다 효율적인 iterative implicit probabilistic models인 Denoising Diffusion Implicit Models, DDIM을 제안한다. DDPM에서는 생성 과정이 특정한 Markovian diffusion process의 역방향 과정..

DDPM(Denoising Diffusion Probabilistic Models) 논문에서는 모델을 학습하기 위해 variational lower bound(VLB)를 최적화하는 방식으로 loss function을 정의한다. 논문의 주요 loss function은 다음과 같다.1. Evidence Lower Bound (ELBO)DDPM은 데이터 분포 \( q(x_0) \)를 모델링하는 확률 모델이므로, 이를 최적화하기 위해 variational inference을 사용하여 evidence lower bound (ELBO)를 최대화한다. ELBO의 형태는 다음과 같이 정의된다.\[ L_{\text{VLB}} = \mathbb{E}_q \left[ \log \frac{q(x_{1:T} | x_0)}{p_..

[Paper]Jonathan Ho, Tim SalimansNeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications AbstractClassifier guidance는 conditional diffusion models에서 훈련 이후 mode coverage와 sample fidelity를 조절하는 방법으로 최근 도입되었으며, 이는 다른 유형의 생성 모델에서 low temperature sampling 또는 truncation과 유사한 개념이다. Classifier guidance는 diffusion model의 score 추정값과 이미지 분류기의 gradient를 결합하는 방식으로 작동하며, 이를 위해 diffusion mod..

[Paper] [Github] Prafulla Dhariwal, Alex Nichol OpenAI 11 May 2021 Abstract우리는 diffusion models가 현재 최첨단 생성 모델보다 우수한 이미지 샘플 품질을 달성할 수 있음을 보인다. 우리는 일련의 ablation을 통해 더 나은 아키텍처를 찾아 unconditional 이미지 합성에서 이를 달성한다. 조건부 이미지 합성에서는 classifier guidance를 활용하여 샘플 품질을 더욱 향상시키는데, 이는 분류기의 gradient를 사용하여 다양성과 정확성 간의 균형을 조절하는 단순하고 계산 효율적인 방법이다. 우리는 ImageNet 128×128에서 FID 2.97, ImageNet 256×256에서 FID 4.59, ImageN..

https://arxiv.org/abs/2501.08332 MangaNinja: Line Art Colorization with Precise Reference FollowingDerived from diffusion models, MangaNinjia specializes in the task of reference-guided line art colorization. We incorporate two thoughtful designs to ensure precise character detail transcription, including a patch shuffling module to facilitate corresponarxiv.org Abstactdiffusion models에서 파생된 Man..

https://arxiv.org/abs/2308.06721 IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion ModelsRecent years have witnessed the strong power of large text-to-image diffusion models for the impressive generative capability to create high-fidelity images. However, it is very tricky to generate desired images using only text prompt as it often involvesarxiv.org Abstract최근 몇 년 동..

https://arxiv.org/abs/2302.05543 Adding Conditional Control to Text-to-Image Diffusion ModelsWe present ControlNet, a neural network architecture to add spatial conditioning controls to large, pretrained text-to-image diffusion models. ControlNet locks the production-ready large diffusion models, and reuses their deep and robust encoding layers prarxiv.org Abstract대규모 사전학습된 텍스트-이미지 diffusion 모델..

Paper[ICCV'21] Active Learning for Deep Object Detection via Probabilistic Modelinghttps://arxiv.org/pdf/2103.16130v2 AbstractActive learning은 데이터셋에서 가장 정보량이 많은 샘플만을 선택함으로써 레이블링 비용을 줄이는 것을 목표로 한다. 현재까지 존재하는 몇몇 연구들만이 object detection를 위한 active learning을 다루었다. 이러한 방법들 대부분은 multiple models에 기반하거나, classification 방법을 단순히 확장했기 때문에 이미지의 정보량을 오로지 classification head만을 사용해 추정한다. 본 논문에서는 object detecti..