[논문 리뷰] MangaNinja: Line Art Colorization with Precise Reference Following

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

Paul's Grit

[논문 리뷰] MangaNinja: Line Art Colorization with Precise Reference Following 본문

논문 리뷰/Generative models

[논문 리뷰] MangaNinja: Line Art Colorization with Precise Reference Following

Paul-K 2025. 2. 18. 18:24

https://arxiv.org/abs/2501.08332

MangaNinja: Line Art Colorization with Precise Reference Following

Derived from diffusion models, MangaNinjia specializes in the task of reference-guided line art colorization. We incorporate two thoughtful designs to ensure precise character detail transcription, including a patch shuffling module to facilitate correspon

arxiv.org

Abstact

diffusion models에서 파생된 MangaNinja는 reference-guided 선화 색칠 태스크에 특화되어 있다. 본 논문에서는 정밀한 캐릭터 디테일 전사를 보장하기 위해 두 가지 고안된 설계를 도입하며, reference 색상 이미지와 target 선화 간의 대응 학습을 촉진하는 patch shuffling 모듈과 세밀한 색상 매칭을 가능하게 하는 point-driven control scheme을 포함한다. 자체적으로 수집한 벤치마크 실험을 통해, 본 모델이 정확한 색칠 측면에서 기존 솔루션보다 우수함을 입증한다. 또한, 제안된 interactive point control이 기존 알고리즘으로는 처리하기 어려운 극단적인 포즈나 그림자와 같은 도전적인 사례뿐만 아니라, cross-character colorization, multi-reference harmonization 등의 다양한 작업에서 뛰어난 가능성을 보이는 것을 추가로 시연한다.

1. Introduction

Reference-based 선화 색칠은 reference 이미지와의 일관성을 유지하면서 선화 이미지를 색상 이미지로 변환하는 것을 목표로 한다. 이 기술은 만화, 애니메이션 및 다양한 콘텐츠 제작 애플리케이션에서 높은 수요를 보인다. 스트로크, 팔레트 또는 텍스트 조건만을 활용하는 방법과 달리, reference-based 선화 색칠은 Fig. 1에서 보이는 바와 같이 identity과 semantic meaning를 보존하는 데 탁월하며, 이는 만화에서 필수적인 요소이다. 기존 연구에서는 attention 메커니즘을 결합한 reference-based 색칠을 탐구한 바 있다.

그러나 이러한 방법들은 두 가지 주요 한계를 가진다. 첫째, 선화와 reference 이미지 간의 큰 차이로 인해 의미적 불일치나 색칠 과정에서의 혼동이 발생할 수 있다. 따라서 이러한 접근법은 일반적으로 reference 이미지에 대한 높은 기준을 요구하며, 선화와 매우 유사해야 하는데, 이는 실제 응용에서 비현실적이다. 둘째, 기존 방법들은 정밀한 제어 기능이 부족하여 색칠 과정에서 reference 이미지의 중요한 디테일이 손실되는 문제가 있다.

본 논문에서는 reference와 선화 이미지 간의 대응 관계를 찾기 위해 cross attention을 활용하여 diffusion priors를 효과적으로 이용하는 dual-branch 구조를 갖춘 MangaNinja를 소개한다. 기본적인 dual-branch 설계는 지역적 의미 매칭보다는 전반적인 스타일을 전이하는 경향이 있음을 관찰하고, 이를 보완하기 위해 patch shuffling 모듈을 제안한다. 이 모듈은 reference 이미지를 여러 패치로 분할하여 모델이 지역적 매칭 능력을 학습하도록 유도한다. patch shuffling은 최적화 과정에서 모델이 기존의 "편안한 영역(comfort zone)"을 벗어나도록 강제하며, 입력 선화와 reference 이미지 간의 차이를 효과적으로 처리할 수 있는 암시적 매칭 능력을 학습하도록 돕는다.

그러나 이러한 의미적 대응 학습은 여전히 모호성(ambiguity) 문제를 겪을 수 있다. 예를 들어, 색상 이미지에서 선화로 변환하기 어려운 디테일(예: Fig. 2a의 코 음영), 선화에서 차지하는 면적이 작은 요소(예: Fig. 2a의 어깨 장식 패턴), 혹은 의미적 혼동을 초래할 수 있는 복잡한 구도(예: Fig. 2b의 다수의 캐릭터)가 존재할 수 있다. 이러한 문제를 해결하고 더 정밀한 색상 매칭을 지원하기 위해, 본 논문에서는 PointNet을 기반으로 한 point-driven control scheme을 도입한다. 이는 사용자 정의 신호를 활용한 인터랙티브 방식으로 세밀한 색상 제어를 가능하게 한다. 실험 결과, point control은 모델이 지역적 의미를 인식할 때만 효과적으로 작동하며, 이는 patch shuffling의 중요성과 효과를 더욱 강조한다.

본 연구에서는 anime 비디오에서 자연스럽게 발생하는 의미적 대응 관계와 시각적 변화를 활용하여 훈련 데이터 쌍을 구축한다. 구체적으로, 하나의 비디오에서 두 개의 프레임을 무작위로 선택하여, 하나는 Reference U-Net의 reference 이미지로, 다른 하나는 해당 선화 버전과 함께 Denoising U-Net의 입력 및 target 이미지로 사용한다. 명시적인 대응 관계 학습을 위해, 기존의 off-the-shelf 모델을 사용하여 훈련 이미지 쌍에서 대응 점을 레이블링하고, 이를 PointNet으로 인코딩한 후, attention을 통해 주요 네트워크에 통합한다.

제안된 patch shuffling 전략과 point-driven control scheme을 통해 MangaNinja는 reference와 선화 간의 포즈 변화, 디테일 손실, 다중 reference 입력, 불일치하는 reference 색칠과 같은 어려운 상황을 효과적으로 처리할 수 있다(Sec. 4.3 참조). 또한, 복잡한 색칠 작업에서도 우수한 성능을 보이며, 선화에서 캐릭터의 정체성을 정확하게 보존하면서도 높은 품질의 색칠 결과를 생성한다(Fig. 1 참조). 공정하고 체계적인 평가를 위해 선화 색칠을 위한 포괄적인 벤치마크를 구축하였으며, 정량적·정성적 실험을 통해 본 접근법이 기존 baseline을 능가하며, 시각적 충실도 및 정체성 보존 측면에서 최첨단 성능을 달성함을 입증하였다. 이러한 성과는 만화, 애니메이션, 다양한 콘텐츠 제작 애플리케이션에서 유용하게 활용될 수 있다.

2. Related Work

2.1. Line Art Colorization

선화 색칠은 선화의 빈 영역을 적절한 색상으로 채우는 작업을 목표로 한다. 현재, 여러 사용자 가이드 기반 색칠 기법이 존재하며, 텍스트 프롬프트, 스크리블, reference 이미지 등을 활용하는 방식이 있다. 그러나 텍스트 기반 및 스크리블 방식은 선화 전체에 대해 정밀한 색상 채우기를 달성하는 데 한계가 있다. 기존의 reference-based 색칠 방법들은 특히 reference 이미지와 선화 간의 구조적·의미적 차이가 큰 경우, 정확한 매칭을 수행하지 못해 성능이 제한되는 경우가 많다. 더욱이, 실제 응용에서는 여러 reference 이미지를 활용하여 다양한 요소를 색칠해야 하는 복잡한 상황이 빈번하게 발생한다. 이러한 이유로 인해 기존 선화 색칠 기법을 애니메이션 제작 워크플로우에 원활하게 통합하는 것은 쉽지 않다. 본 연구에서는 사전 학습된 diffusion models의 priors를 활용하고, 비디오 데이터를 학습하여 모델의 매칭 능력을 향상시킴으로써, 사용자가 단순한 포인트 지정을 통해 복잡한 색칠 작업을 수행할 수 있도록 한다.

2.2. Visual Correspondence

컴퓨터 비전에서 대응 관계 (correspondence)는 서로 다른 이미지 간의 관련 특징이나 포인트를 식별하고 매칭하는 작업을 의미하며, 이는 스테레오 비전, 모션 트래킹 등의 태스크에서 자주 사용된다. 기존 기법들은 핸드 크래프트된 특징 을 사용하여 대응 관계를 찾았지만, 최근의 딥러닝 접근법 [12, 22, 28, 30]에서는 라벨링된 데이터를 활용한 지도 학습을 통해 매칭 능력을 학습하는 방식을 채택하고 있다. 그러나 이러한 방법들은 픽셀 수준의 정밀한 주석이 필요하기 때문에 확장성이 부족하며, 상세한 라벨링 작업이 어렵고 비용이 많이 든다. 이에 따라, 연구자들은 약한 지도 학습(weakly supervised) [63] 또는 자기 지도 학습(self-supervised) [24, 64]을 통한 시각적 대응 모델 개발을 탐색하기 시작했다. 최근 연구들 [19, 48, 59]에서는 GAN [17] 및 diffusion [57] 모델과 같은 생성형 사전 학습 모델의 잠재 표현(latent representations)에 내재된 rich prior를 활용하여 시각적 대응 관계를 식별할 수 있음을 보여주었다. 본 연구에서는 사전 학습된 diffusion models의 rich prior를 활용하여 선화와 reference 이미지 간의 매칭을 학습함으로써 reference 기반 색칠을 수행한다.

2.3. Diffusion-based Consistent

사전 학습된 diffusion models을 활용한 일관된 생성 방식은 크게 세 가지 방향으로 분류할 수 있다. 첫 번째 방향은 훈련 없이 또는 빠른 미세 조정(fine-tuning) 전략을 이용한 이미지 편집 기법이다 [3, 5, 6, 20, 26, 34, 36, 42, 43, 56, 61]. 이들은 텍스트 프롬프트를 수정하거나 새로운 가이던스를 도입하여 attention layer를 조정함으로써 글로벌 또는 로컬 편집을 수행한다. 그러나 이러한 방식은 복잡한 상황에서의 견고함이 부족하고, 입력 가이던스 신호에 크게 의존하는 문제가 있다.

두 번째 방향은 사용자 맞춤형 생성(customized generation) 방식이다 [2, 15, 18, 29, 38, 39, 51, 52, 60]. 이 접근법은 일반적으로 하나의 개념(concept)에 대해 3~5개의 예제 이미지를 활용하여 미세 조정을 수행하며, 일부 기법에서는 단일 개념에 대한 학습에 약 30분이 소요될 수 있다.

세 번째 방향은 사전 학습된 diffusion 모델을 특정 도메인의 방대한 데이터로 추가 학습(further training)하여, 인코딩된 이미지 특징을 주된 노이즈 제거 네트워크(denoising network)에 통합하는 방식이다 [46, 68, 74, 77]. 예를 들어, Paint-by-Example [72] 및 ObjectStitch [58]는 CLIP [49]을 이용해 이미지에서 객체 표현을 추출하며, AnyDoor [11]는 비디오에서 훈련 샘플을 수집하고, DINOv2 [44]를 이미지 인코더로 활용한다. 그러나 이러한 방법들은 일반적으로 이미지 내의 일반적인 객체(general objects)를 처리하는 데 집중하며, 세밀한 매칭 기능이 부족하다.

[3] Omer Bar-Tal, Dolev Ofri-Amar, Rafail Fridman, Yoni Kasten, and Tali Dekel. Text2live: Text-driven layered image and video editing. In European Conference on Computer Vision, pages 707–723. Springer, 2022.
[2] Omri Avrahami, Kfir Aberman, Ohad Fried, Daniel Cohen-Or, and Dani Lischinski. Break-a-cene: Extracting multiple concepts from a single image. In SIGGRAPH Asia 2023 Conference Papers, pages 1–12, 2023.
[5] Tim Brooks, Aleksander Holynski, and Alexei A Efros. Instructpix2pix: Learning to follow image editing instructions. In Computer Vision and Pattern Recognition, pages 18392–18402, 2023.
[18] Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, et al. Mix-ofshow: Decentralized low-rank adaptation for multiconcept customization of diffusion models. Advances in Neural Information Processing Systems, 36, 2024.
[56] Yujun Shi, Chuhui Xue, Jun Hao Liew, Jiachun Pan, Hanshu Yan, Wenqing Zhang, Vincent YF Tan, and Song Bai. Dragdiffusion: Harnessing diffusion models for interactive point-based image editing. In Computer Vision and Pattern Recognition, pages 8839–8849, 2024.

3. Method

3.1. Overall Pipeline

MangaNinja의 전체 프레임워크는 Fig. 3에 제시되어 있다. 본 연구의 목표는 선화 $\mathit{I}_{\text{line}}$과 동일한 캐릭터의 reference 이미지 $\mathit{I}_{\text{ref}}$를 활용하여 매칭 및 색칠을 수행하고, 생동감 있는 애니메이션 스타일의 이미지 $\mathit{I}_{\text{target}}$을 생성하는 것이다. 또한, 사용자는 reference 이미지에서 특정 포인트 PrefP_{\text{ref}}를 미리 정의하고, 해당하는 선화상의 포인트 $\mathit{P}_{\text{ref}}$을 지정할 수 있다. 모델은 이러한 대응 포인트를 활용하여 색칠 과정에서 색상의 일관성을 유지하며, 이를 통해 정밀한 제어가 가능해지고, 어려운 상황에서도 우수한 성능을 발휘할 수 있다.

애니메이션 비디오 시퀀스는 프레임 전반에 걸쳐 캐릭터의 정체성을 유지하는 동시에 다양한 공간적 및 시간적 변형을 포함하고 있다. 이러한 변형에는 크기 변화(예: 줌 효과), 객체 방향의 변화, 포즈의 변화 등이 포함된다. 이러한 특성을 활용하여, 본 연구에서는 비디오 클립에서 서로 다른 두 개의 프레임을 무작위로 샘플링하여 훈련 이미지 쌍을 구축한다. 첫 번째 프레임은 reference로 사용되며, 두 번째 프레임에서는 기존의 선화 추출 모델 [80]을 이용하여 선화를 생성하고, 이를 target 이미지로 사용한다. 훈련 과정에서는 최첨단 point-matching 알고리즘인 LightGlue [35]를 활용하여 두 프레임 간의 대응되는 포인트 쌍을 추출한다.

3.2. Architecture Design

Reference U-Net

선화 색칠에서는 세부 사항에 대한 엄격한 요구 사항이 존재하므로, 주요 도전 과제는 reference 이미지에서 세밀한 특징을 효과적으로 인코딩하는 방법이다. 최근 연구 [21, 70]에서는 추가적인 U-Net 아키텍처를 활용하여 이 문제를 해결하는 방식이 효과적임을 입증하였으며, 본 논문에서도 이를 참고하여 Reference U-Net을 도입하였다.

먼저, reference 이미지는 VAE(Variational Autoencoder)를 사용하여 4채널 latent representation으로 인코딩된다. 이후, Reference U-Net에 입력되어 다중 수준(multi-level)의 특징을 추출한 후, 이를 주요 Denoising U-Net과 융합한다. 구체적으로, reference branch와 denoising branch의 self-attention layer에서 추출된 key와 value를 서로 연결(concatenate)하여 Eq. (1)과 같이 표현하며, 이를 Denoising U-Net의 대응하는 계층에 삽입함으로써 reference의 다중 수준 특징을 효과적으로 반영한다.

Denoising U-Net

본 논문의 주요 branch는 Reference U-Net과 PointNet을 조건으로 활용하여 이미지 색칠을 수행한다. 선화는 LineartAnimeDetector [80]를 사용하여 원본 이미지에서 추출되며, 이를 단일 채널(single-channel) 선화로 얻은 후, 해당 채널을 세 번 복제하여 VAE에 입력한다. 이 과정에서 선화는 latent space로 압축된다.

이후, 이를 노이즈가 포함된 이미지의 잠재 표현(noisy image latent)과 결합하여 총 8채널을 생성한다. 또한, 선화를 ControlNet을 통해 입력하는 방식도 실험하였으며, 두 방법 모두 유사한 성능을 보이는 것을 확인하였다. 따라서, 연산 자원을 고려하여 첫 번째 방법을 선택하였다. 추가적으로, 기존의 텍스트 임베딩(text embeddings)을 CLIP encoder에서 추출한 이미지 임베딩(image embeddings)으로 대체하였다.

Progressive patch shuffle for local matching

비록 reference 이미지의 특징을 Denoising U-Net에 계층별로 주입하지만, 선화가 제공하는 강력한 구조적 단서로 인해 전역적인 거친 매칭(coarse global matching)이 쉽게 이루어져, 세밀한 매칭 능력의 학습이 저해되는 현상이 관찰되었다. 이를 해결하기 위해, 점진적 패치 셔플링(progressive patch shuffle) 전략을 제안한다.

구체적으로, reference 이미지를 여러 개의 작은 패치로 분할한 후, 이를 무작위로 섞어(shuffle) 전체적인 구조적 일관성을 깨뜨린다(Fig. 3 참조). 이 기법의 핵심 아이디어는, 모델이 reference 이미지의 작은 패치(픽셀 단위 포함)에 집중하여, 전역적인 매칭(global matching)이 아닌 더 정밀한 지역적(local) 매칭 능력을 학습하도록 유도하는 것이다.

또한, 거친(coarse) 매칭에서 세밀한(fine) 매칭으로 발전하는 학습 방식(coarse-to-fine learning scheme)을 채택하여, 무작위로 섞는 패치의 개수를 점진적으로 증가시킨다. 초기에는 2×2 패치 크기에서 시작하여, 최종적으로 32×32 크기의 패치까지 증가시키는 방식으로 진행한다.

패치 셔플링 기법 외에도, reference 이미지와 target 이미지 간의 변화를 증가시키기 위해 랜덤 플리핑(random flipping), 회전(rotation) 등의 일반적인 데이터 증강(data augmentation) 기법을 추가로 적용하였다.

3.3. Fine-grained Point Control

그러나 이러한 의미적 대응(semantic correspondence)은 여전히 모호성 문제를 겪을 수 있다. 특히, 색상 이미지에는 선화에서 포착하기 어려운 세부 정보가 포함될 수 있다. 또한, 사용자들은 복잡한 작업을 쉽게 처리할 수 있는 단순한 인터랙티브(interactive) 방식을 요구하는 경우가 많다. 이를 해결하기 위해, 포인트 기반(point-based) 정밀 제어(fine-grained control) 메커니즘을 설계하고, 포인트 제어의 효과를 향상시키기 위한 일련의 전략을 제안한다.

Point embedding injection

사용자가 지정한 매칭 포인트 쌍(matching point pairs)을 두 개의 포인트 맵(point maps)으로 표현하며, 각각은 입력 이미지 해상도와 동일한 단일 채널(single-channel) 행렬이다. 각 매칭 포인트 쌍에 대해, 두 포인트 맵에서 해당 좌표에 동일한 고유 정수 값(unique integer values)을 할당하며, 그 외의 모든 위치는 0으로 설정한다.

훈련 과정에서는 최대 24개의 매칭 포인트 쌍을 무작위로 선택하며, 선택하지 않는 경우(0개의 포인트)도 허용된다. 따라서, 사용자는 추론 시 매칭 포인트를 지정하지 않고, 모델의 자동 매칭 기능(autonomous matching capability)에 완전히 의존할 수도 있다.

본 논문에서는 PointNet을 제안하며, 이는 여러 개의 합성곱 층(convolutional layers)과 SiLU(Sigmoid Linear Unit) 활성화 함수로 구성되어 포인트 맵(point maps)을 다중 스케일 임베딩(multi-scale embeddings)으로 인코딩하는 역할을 한다. 이와 유사하게, 포인트 임베딩 $E_{tar}$ 및 $E_{ref}$ 은 cross-attention 메커니즘을 통해 주요 branch에 통합되며, 이를 query와 key에 추가하는 방식으로 적용된다. 이는 다음과 같이 수식으로 표현된다(Eq. (2)):

여기서 $Q'_{tar}=Q_{tar}+E_{tar}$, $K'_{tar}=Q_{tar}+E_{tar}$ and $K'_{ref}=K_{ref}+E_{ref}$를 의미한다.

Multi classifier-free guidance

생성 과정의 추론 단계에서 reference 이미지와 포인트 각각의 가이던스 강도(guiding strength)를 개별적으로 제어하기 위해, multi classifier-free guidance 기법을 적용한다.

여기서 $c_{ref}$는 Reference U-Net을 통해 reference 이미지에서 입력된 조건(condition input)을 나타내며, $c_{points}$는 PointNet을 통해 사용자 지정 포인트에서 입력된 조건을 나타낸다. $\omega_{ref}$를 증가시키면, 모델이 자동 매칭 기능(automatic matching capabilities)에 더 의존하게 된다. 그러나, 보다 복잡한 작업을 수행하기 위해 포인트를 가이던스로 활용하려는 경우(Sec. 4.3 참조), $\omega_{points}$를 증가시켜 포인트의 영향을 증폭시켜야 한다.

Condition dropping

모델이 희소한(sparse) 포인트 기반 제어 신호에 더 의존하도록 하기 위해, 훈련 과정에서 선화 조건(line art condition)을 무작위로 제거(drop)하는 기법을 적용한다. 선화의 구조적 가이던스가 없는 상태에서, 모델은 reference 이미지 $I_{ref}$로부터 target 이미지 $I_{target}$을 재구성(reconstruct)하도록 학습되며, 이 과정에서 오직 포인트 쌍 $P_{ref}, P_{line}$이 제공하는 희소하지만 정확한 매칭 정보에 의존해야 한다. 이러한 학습 방식은 정확한 포인트 기반 제어(point-based control)를 보다 효과적으로 학습하도록 모델을 유도한다.

Two-stage training

정확한 point-based control의 효과를 더욱 증폭시키기 위해, two-stage training strategy을 설계하였다.

1단계: unconditional generation 학습
- 이 단계에서는 reference 이미지와 포인트 신호에 대한 condition dropping을 적하여 학습을 진행한다.
- 이를 통해 모델은 reference 특징을 추출하는 능력과 주어진 포인트 대응(matching points)을 활용한 색칠 능력을 동시에 학습할 수 있도록 한다.
2단계: PointNet 모듈의 집중 학습
- 이 단계에서는 PointNet 모듈만 학습하며, 포인트 맵을 인코딩하는 PointNet의 능력을 향상시킨다.
- 이를 통해 포인트 기반 제어의 강도를 더욱 강화하여, 보다 정밀한 색칠을 가능하게 한다.

3.4. Evaluation Benchmar

기존 연구인 BasicPBC [13] 및 AnimeDiffusion [8]은 특정 도메인에만 초점을 맞춘 테스트 세트를 설계하며, reference 이미지와 target 이미지 간의 차이가 최소화되어 있고, 일관되지 않은 평가 지표를 사용한다. 따라서, 본 논문에서는 보다 포괄적이고 일관된 평가 벤치마크를 구축하는 것이 필수적이라고 판단하였다. 본 연구에서는 line art colorization 성능을 체계적으로 평가하기 위한 벤치마크를 구축하였다. 구체적으로, 다양한 애니메이션에서 동일한 캐릭터의 이미지 쌍 200개를 수집하였으며, 여기에는 인간 캐릭터뿐만 아니라 비인간 캐릭터도 포함된다. 또한, 다양한 표정 및 복장을 고려하여 데이터셋을 구성하였다. 각 평가 샘플은 다음으로 구성된다:

Target 이미지: 기존의 LineartAnimeDetector [80] 모델을 사용하여 선화를 추출한 후, 색칠 대상이 되는 이미지.
Reference 이미지: 색칠 가이던스로 활용되는 이미지.

색칠 과정에서는 전경 캐릭터(foreground character) 부분이 주로 고려되므로, 모든 이미지를 분할하여 전경 객체만을 추출하였다. 또한, 생성된 이미지와 Ground Truth 간의 의미적 유사도를 평가하기 위해, DreamBooth [51]에서 제시한 방법론을 참고하여 CLIP [49] 및 DINO [44]를 활용한 semantic image similarity를 계산하였다. 추가적으로, 생성된 이미지의 품질을 평가하기 위해 다음과 같은 지표를 활용하였다:

PSNR (Peak Signal-to-Noise Ratio)
MS-SSIM (Multi-Scale Structural Similarity Index) [65]

한편, Sec. 4.3에서 언급된 다중 reference 활용 및 reference 불일치(colorization with differing reference points)와 같은 복잡한 작업에서 색칠 정확도를 평가하기 위해, 보다 세밀한 픽셀 수준의 평가(granular pixel-level evaluation)**가 필요하다.
이를 위해, 각 이미지 쌍에 대해 사전 정의된 매칭 포인트 50쌍을 주석(annotation)하였으며, 평가 시 각 매칭 포인트를 중심으로 한 3×33 \times 3 패치에서의 평균 제곱 오차(mean squared error, MSE)를 계산하여 색칠 정확도를 측정하였다.

4. Experiment

4.1. Implementation Detail

Training details

MangaNinja의 학습을 위해, sakuga-42m [47] 데이터셋을 활용하였다. 이 데이터셋은 **42백만(42M) 개의 키프레임(keyframes)**으로 구성되어 있으며, 다양한 예술적 스타일, 지리적 지역, 역사적 시대를 포괄한다. 데이터 전처리 과정에서, 구조적 유사도 지수(Structural Similarity Index, SSIM)를 계산하여 지나치게 유사한 중복 프레임을 제거하였다. 또한, reference 프레임과 target 프레임 간의 간격(frame interval)을 36 프레임으로 설정하였으며, 프레임 길이가 너무 짧은 비디오는 제외하였다. 최종적으로, 300,000개(30만 개)의 비디오 클립을 유지하였다. 모델 초기화 시, Reference U-Net 및 Denoising U-Net은 Stable Diffusion 1.5의 사전 학습된(pre-trained) 가중치를 사용하여 초기화하였다. 학습 과정은 총 200k 스텝 동안 진행되며 (1단계: 180k 스텝, 2단계: 20k 스텝), initial learning rate은 $10^{-3}$에서 시작하며, 30k 스텝마다 감소(decay)하도록 설정하였다. 전체 학습 과정은 A100-80G GPU 8개를 사용하여 1일(24시간) 내에 완료되었다.

4.2. Comparisons

본 섹션에서는 최신 선화 색칠 기법(state-of-the-art line art colorization method)인 BasicPBC [13]과 비교를 수행하였다.

또한, 유사한 기능을 수행할 수 있는 여러 생성 모델과도 비교를 진행하였다.
비교 대상은 다음과 같다:

IP-Adapter [73]: 사전 학습된 텍스트-이미지 diffusion 모델의 이미지 프롬프트 기능을 강화하는 어댑터 역할을 수행.
AnyDoor [11]: zero-shot 객체 수준 이미지 커스터마이제이션 기법을 적용하는 방법.

추가적으로, 카툰 보간(cartoon interpolation) 기법인 ToonCrafter [69]에 대한 논의는 supplementary materials에서 다루었다. 이는 공식 코드 저장소에서 아직 색칠 기능을 제공하지 않으며, reference 이미지와 target 이미지 간의 차이가 클 경우 성능이 저조하기 때문이다.

[13] Yuekun Dai, Shangchen Zhou, Qinyue Li, Chongyi Li, and Chen Change Loy. Learning inclusion matching for animation paint bucket colorization. Computer Vision and Pattern Recognition, 2024.

Qualitative comparison

비교 결과를 Fig. 4에 시각적으로 나타내었다. BasicPBC는 선화에서 대응되는 영역 주변의 색상을 샘플링하는 방식이므로, reference 이미지와 선화 간의 차이가 클 경우 생성된 결과가 만족스럽지 않을 수 있다. 또한, 해당 모델 자체는 생성 능력이 부족하므로, 빛과 그림자 처리 성능이 낮다. 생성 기반 기법의 경우, IP-Adapter 및 AnyDoor에 대해 ControlNet을 도입하였으며, reference 영역의 마스크를 신중하게 주석(annotate)한 후 AnyDoor에 입력하였다. 이러한 방식은 사전 학습된(pre-trained) 모델의 강력한 prior knowledge를 활용하여 보다 자연스러운 결과를 생성할 수 있도록 한다. 비교해 보면, IP-Adapter에 비해 AnyDoor는 reference 이미지의 색상 세부 정보를 더 잘 유지하는 경향이 있다.

그러나, 두 방법 모두 세밀한 매칭 능력을 가지지 못하며, 거친 색칠만 가능하여 심각한 색상 혼동(color confusion)이 발생할 수 있다. 특히, 본 논문의 방법은 생성된 결과에서 포인트 가이던스를 사용하지 않았다. 이는 훈련 과정에서 비디오 데이터의 이미지 쌍을 학습하며, reference 이미지를 패치 수준에서 점진적으로 shuffle하는 방식으로 진행되었기 때문이다. 이러한 학습 과정 덕분에, 모델은 우수한 매칭 능력을 갖출 수 있었다. 또한, Sec. 4.3에서 제시된 바와 같이, 포인트 design의 이점을 활용하여 보다 복잡한 상황에서도 탁월한 성능을 발휘한다.

Quantitative comparison

본 연구에서는 구축한 벤치마크를 활용하여 정량적 비교를 수행하였다. 해당 벤치마크는 총 200쌍의 이미지를 포함하고 있으며, 이는 reference 이미지와 ground truth를 서로 교체하는 방식으로 총 400번의 추론(inferences)을 수행함을 의미한다. 결과는 Tab. 1에 제시되었다. 결과를 분석해 보면,

BasicPBC는 픽셀 수준의 평가 지표(pixel-level evaluation metrics)에서 생성 기반 기법(generative methods)보다 우수한 성능을 보인다.
그러나, 이미지 특징 유사도(image feature similarity) 평가 지표에서는 BasicPBC가 생성 모델들보다 낮은 성능을 보인다.
또한, AnyDoor는 reference 이미지에서 마스크(mask)를 수동으로 주석(annotate)해야만 좋은 성능을 달성할 수 있다.

이에 반해, 본 논문의 방법은 픽셀 수준 평가 지표, 이미지 특징 유사도 두 가지 측면 모두에서 기존 방법보다 월등한 성능을 보였다.

4.3. Challenging Cases with Point Guidance

Varying poses or missing details

Fig. 5에 제시된 바와 같이, 보다 도전적인 선화 색칠 예제를 다루었다. 첫 번째 행에서는 선화와 reference 이미지 간의 차이가 큰 경우에도, 포인트 가이던스를 활용하면 우수한 색칠 결과를 얻을 수 있음을 보여준다. 두 번째 행에서는 첫 번째 열의 예제에서, reference 이미지에는 존재하지 않는 요소가 선화에는 포함된 경우를 확인할 수 있다.예를 들어, 선화에는 의상의 하반부가 포함되어 있지만, reference 이미지에는 상반부만 제공되는 경우가 있다. MangaNinja를 사용하면, 포인트를 활용하여 reference 이미지의 상반부 색상을 기반으로 하반부를 색칠할 수 있다. 두 번째 열의 예제에서, 선화 내에 여러 객체가 상호작용하는 경우가 존재할 수 있다. 이때, 선화를 개별적으로 분할(segmentation)하여 각 부분을 따로 색칠하면 부정확한 결과가 발생하거나 추가적인 비용이 소요될 수 있다. 그러나, 포인트 가이던스를 활용하면, MangaNinja는 한 번의 색칠(one-time colorization)로 다수의 객체를 효과적으로 색칠할 수 있음을 확인할 수 있다.

Multi-ref colorization

Fig. 6에서 보여주듯이, 실제 응용에서는 단일 reference 이미지가 항상 선화의 모든 요소를 포함하지 않을 수 있다. 본 논문의 point-guided design을 활용하면, 여러 개의 reference 이미지를 동시에 사용하여 색칠할 수 있다. 구체적으로, 사용자는 다수의 reference 이미지를 결합하여 Reference U-Net에 입력할 수 있다. Reference U-Net은 포인트를 활용하여, 각 reference 이미지의 서로 다른 영역을 선화의 해당 요소와 매칭한다. 이를 통해 many-to-one colorization이 가능해지며, 다양한 reference 이미지 간의 콘텐츠 충돌(content conflicts) 문제를 효과적으로 해결할 수 있다.

Colorization with references of different characters

MangaNinja는 비디오 데이터에서 수집한 대량의 이미지 쌍을 학습하여, 의미적 매칭(semantic matching) 능력과 우수한 일반화 성능을 갖추었다. 또한, point guidance를 활용하면 정확한 색칠이 가능하다. 따라서, reference 이미지와 선화가 서로 다른 캐릭터일 경우에도 효과적으로 색칠을 수행할 수 있다. Fig. 7에서 볼 수 있듯이, 사용자는 이 기능을 활용하여 인터랙티브한 과정을 통해 다양한 색칠 스타일을 탐색하고, 창의적인 영감을 얻을 수 있다.

4.4. Ablation Studies

Ablation of training strategies

본 연구에서는 Tab. 2에서 제시된 일련의 ablation study를 수행하여, 다양한 학습 전략이 색칠 성능과 매칭 능력에 미치는 영향을 조사하였다. 처음 다섯 개의 지표는 전체적인 색칠 품질(overall colorization quality)을 평가하며, MSE(mean squared error)는 포인트 가이던스의 픽셀 위치에서의 색상 예측 정확도(color prediction accuracy at guiding points)를 측정한다. 본 모델의 point guidance를 활용한 성능은 검은색으로 표시하였으며, 모델의 자동 매칭 능력을 추가로 검증하기 위해, 포인트 가이던스를 사용하지 않은 실험 결과를 괄호 안에 회색으로 제시하였다.

실험 결과, 모든 학습 전략이 point-guided generation 성능 향상에 기여하며, 이를 통해 본 논문의 기법이 더욱 복잡한 작업을 처리할 수 있도록 하는 데 도움을 줌을 확인할 수 있다. 특히, 포인트 가이던스를 사용하지 않은 경우에도 condition dropping과 progressive patch shuffle 기법이 모델의 automatic matching capability을 향상시키는 데 효과적이었다. 이 중에서도, 점진적 패치 셔플링(progressive patch shuffle이 가장 뚜렷한 성능 향상을 제공하였으며, 이는 훈련 과정에서 reference 이미지의 구조적 패턴을 교란(disrupt)하여 모델이 지역적 매칭(local matching) 능력을 학습하도록 유도하기 때문이다. 지역적 매칭 능력을 충분히 학습한 이후에야, 포인트 가이던스의 효과가 더욱 명확하게 나타남을 실험적으로 확인할 수 있었다. 한편, 점진적 패치 셔플링 기법에 대한 추가적인 분석은 supplementary materials에서 제공한다.

5. Conclusion

본 논문에서는 MangaNinja, 새로운 reference-guided line art colorization 기법을 제안하였다. 본 연구의 방법은 다양한 학습 전략을 통해, dual-branch structure 및 PointNet을 활용하여 정확한 자동 매칭을 달성할 뿐만 아니라, 사용자가 직접 매칭 포인트를 정의하여 정밀한 제어를 수행할 수 있도록 하였다. MangaNinja는 다양한 복잡한 시나리오에서도 강력한 성능을 발휘하며, 불일치한 reference 색칠, reference 이미지와 선화 간의 큰 차이, 다중 객체 색칠 등을 효과적으로 처리할 수 있음을 입증하였다. 또한, 본 연구에서는 reference-based colorization의 표준화된 평가를 위한 벤치마크를 제안하였다. 본 논문의 연구는 애니메이션 산업에서 색칠 과정을 가속화하는 실용적인 도구로 활용될 수 있으며, 향후 colorization 연구의 발전에도 영감을 줄 것으로 기대된다.

'논문 리뷰 > Generative models' 카테고리의 다른 글

[논문 리뷰] Classifier-Free Diffusion Guidance (0)	2025.03.06
[논문 리뷰] Diffusion Models Beat GANs on Image Synthesis (0)	2025.03.05
[논문 리뷰] IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models (1)	2025.01.10
[논문 리뷰] [ControlNet] Adding Conditional Control to Text-to-Image Diffusion Models (0)	2025.01.10
[DALL-E] Zero-Shot Text-to-Image Generation (1)	2024.05.27

'논문 리뷰/Generative models' Related Articles

Paul's Grit

[논문 리뷰] MangaNinja: Line Art Colorization with Precise Reference Following 본문

[논문 리뷰] MangaNinja: Line Art Colorization with Precise Reference Following

Abstact

1. Introduction

2. Related Work

2.1. Line Art Colorization

2.2. Visual Correspondence

2.3. Diffusion-based Consistent

3. Method

3.1. Overall Pipeline

3.2. Architecture Design

3.3. Fine-grained Point Control

3.4. Evaluation Benchmar

4. Experiment

4.1. Implementation Detail

4.2. Comparisons

4.3. Challenging Cases with Point Guidance

4.4. Ablation Studies

5. Conclusion

'논문 리뷰 > Generative models' 카테고리의 다른 글

티스토리툴바