Рет қаралды 176
발표자 : 서울대학교 산업공학과 DSBA 연구실 석사과정 성시열 (siyul_sung@korea.ac.kr)
1. 논문 제목 : Contrastive Vision-Language Pre-training with Limited Resources (ECCV 2022)
2. 원문 링크 : arxiv.org/abs/...
3. 인용 수 : 23회 (~2024.09.29)
4. 요약
제한된 데이터 자원, 제한된 컴퓨팅 자원에서 효율적인 방식으로 학습하는 CLIP Training Pipeline을 제안
공개적으로 접근 가능한 14M의 Academic Dataset을 활용함으로써, 재구현이 가능하도록 함.
Multi-Source에서 수집된 데이터의 Dataset Bias 문제를 해결하고자, Debias Sampling 기법을 제안함.
접근 가능한 데이터셋의 부족한 양을 극복하고자, 데이터셋 증강기법인 Coin Flipping Mixup 기법을 제안함.
제한된 컴퓨팅 자원에서 Large Batch Size를 구현하고자, Decoupled Gradient Accumulation 기법을 제안함.
위 기법을 모두 적용하여 실험한 결과, 동일 자원 대비 최고 성능을 보였으며, 추가 수집 후 1억 개의 데이터로 학습한 결과, 기존 SOTA 방법론 대비 유사하거나 더 우수한 성능을 보임.