Рет қаралды 237
CNN도 BERT처럼 마스킹 기법을 통한 성능 극대화 하기 : SparK : DESIGNING BERT FOR CONVOLUTIONAL NETWORKS 논문 리뷰 영상이 업로드 되어 공유 드립니다!
그게 무슨 의미가 있지? - CNN도 BERT 스타일의 발전을 누릴 수 있다!
1. 배경 및 문제의식
BERT(Devlin et al., 2018) 스타일의 마스킹(Masked Modeling) 기법은 언어 분야(NLP)에서 큰 성공을 거뒀고, 이후 비전 분야에서도 ViT(비전 트랜스포머)를 이용해 Masked Image Modeling(MIM) 기법이 각광받았습니다.
그러나 CNN(컨볼루션 신경망)에 BERT 스타일 마스킹 기법을 직접 적용하려 하면,
랜덤하게 마스킹된 이미지를 CNN이 그대로 받기 어렵고,
CNN 구조는 다단계(계층적) 특징 추출이 기본이라, 기존 ‘단일 스케일’ 중심의 MIM과 맞지 않는
두 가지 문제점이 발생합니다.
2. 핵심 아이디어: SparK (Sparse masKed modeling)
Sparse Convolution을 통한 마스킹 처리
기존 비전 트랜스포머 방식(MAE, BEiT 등)은 마스킹된 패치를 아예 “입력에서 제거”하거나 “토큰으로 대체”합니다.
CNN은 공간적으로 연속된 입력을 전제로 하므로, 단순히 픽셀을 0으로 채우면(Zero-out) 마스킹 정보가 퍼져버리는 문제가 생깁니다(‘마스크 패턴이 점차 사라짐’).
SparK는 마스킹되지 않은(보이는) 픽셀들만 “희소(sparse)한” 이미지로 모아, 그 부분만 Sparse Convolution으로 처리합니다. → CNN도 ‘불규칙하게 사라진 부분’을 문제없이 다룰 수 있게 됩니다.
계층적(Hierarchical) 디코더
CNN은 보통 여러 단계의 다운샘플링(스테이지)으로 구성된 ‘계층형’ 구조를 지닙니다.
SparK는 UNet 스타일의 디코더를 통해, CNN이 만든 다단계 특성(S1, S2, S3, S4 등)을 복원 과정에 반영합니다.
즉, 여러 해상도 스케일에서 마스킹된 위치를 임베딩으로 채우고(‘densifying’), 점진적으로 이미지를 복원하는 식입니다.
결과적으로
(1) CNN이 마스킹된 입력을 불규칙하게 처리하지 못한다는 문제를 희소 conv로 해결,
(2) 계층 구조를 활용해 마스킹 복원(재구성)까지 다단계로 수행함으로써,
CNN에서도 BERT 스타일의 Masked Modeling을 구현할 수 있게 됩니다.
3. 실험 결과 요약
ImageNet 분류
ResNet, ConvNeXt 등 다양한 CNN 모델에 SparK를 적용 후 학습(프리트레인)하면,
기존 대비 Top-1 정확도가 +1%p 가량 향상되는 큰 폭의 성능 개선을 보였습니다.
특히 ConvNeXt-Small에 적용 시, ViT 기반 MIM이나 다른 대조학습(Contrastive) 기법 대비도 앞서는 결과를 얻었습니다.
COCO 물체 감지·인스턴스 분할
Mask R-CNN 등에서 백본(Backbone)으로 사용하는 CNN에 SparK로 프리트레인된 가중치를 써보니,
COCO 데이터셋 기준 기존 자가학습 기법 대비 AP가 최대 +3~4%p까지 개선되었습니다.
이는 이미지 분류보다 더 복잡한 검출·분할 작업에서 강력한 전이(Transfer) 성능을 보여준다는 의미입니다.
스케일업(Scale Up) 효과
ResNet-50 → ResNet-101, ConvNeXt-B → ConvNeXt-L 처럼 모델이 커질수록 SparK의 이득이 더 커지는 경향을 관찰했습니다.
4. 결론 및 의의
SparK는 CNN을 대상으로 BERT 방식의 마스킹 기법을 가능케 하여, 트랜스포머에 국한되던 Masked Image Modeling의 이점을 CNN도 누릴 수 있게 해주었습니다.
희소(Sparse) 컨볼루션을 활용해, “마스킹된 픽셀 구역은 계산하지 않도록” 하는 전략이 핵심입니다.
실험 결과, 기존 CNN 자가학습 기법(특히 대조학습) 대비 분명한 우위를 확인했고, 대규모 다운스트림(검출·분할) 작업에서도 전이 성능이 크게 향상됨을 보여주었습니다.
이로써 “CNN도 BERT 스타일의 발전을 누릴 수 있다”는 가능성을 입증하였고, 향후 다양한 CNN 건축 및 대규모 학습환경에서의 적용 가능성을 열어놓았습니다.