Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning
Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning
Written by. Zihua Zhao, Feng Hong, Mengxi Chen
논문 개요 및 배경
- 이미지-텍스트 쌍을 위한 대규모 contrastive learning은 성능이 뛰어나지만 학습 비용이 매우 큼.
- 학습 효율성을 높이기 위한 방법으로 sample selection이 주목받고 있음
- 기존 방식은:
- 오프라인 방식: 사전학습 모델을 사용한 coreset selection → cold-start 상황에 적합하지 않음
- 온라인 방식: 실시간 모델 예측에 기반하지만 noisy correspondence(잘못된 이미지-텍스트 쌍)를 충분히 고려하지 못함
- 이에 따라 저자들은 Differential-Informed Sample Selection (DISSect)를 제안함.
핵심 아이디어: DISSect
- *현재 모델 예측과 과거(히스토리) 모델 예측의 차이(Δ)**를 활용해 샘플의 품질을 판단.
- 클린한 쌍은 훈련 초기 높은 유사도를 보이다가 일정 시점 이후 잊히며 점차 CLIPScore가 감소.
- 노이즈 있는 쌍은 초기엔 낮은 유사도지만 점차 기억되며 CLIPScore가 증가.
- 이 패턴을 기반으로, Δ(CLIPScore_hist - CLIPScore_curr)를 계산해 노이즈 샘플을 효과적으로 배제하고 클린 샘플을 우선 학습함.
DISSect의 핵심 메커니즘
직관: “모델의 예측 변화량”으로 품질 판단
- 클린 샘플은 초기 학습에서 유사도가 올라간 후 학습이 완료되어 변화가 작음
- 노이즈 샘플은 시간이 지나면서 유사도가 인위적으로 증가함 (과적합)
이런 “기억되는 정도”를 수치화한 것이 바로 CLIPScore의 Differential임:
\[\Delta = \text{CLIPScore}_{\text{hist}} - \text{CLIPScore}_{\text{curr}}\]CLIPScore_hist: 과거 모델(초기 에폭의 모델)의 예측 유사도CLIPScore_curr: 현재 모델의 예측 유사도
Δ가 크다 → 이 샘플은 클린인데 현재는 잊혀지고 있음.
Δ가 작거나 음수 → noisy하거나 이미 과적합된 샘플
실제 사용 방법
두 가지 방식으로 CLIPScore_hist를 얻을 수 있음:
- Warm-up 기반 방식 (초기 몇 에폭 사용):
- 일정 warm-up epoch 동안 학습 진행 후 snapshot 저장
- 이후 각 batch마다
δ계산 후 상위r%만 선택
Momentum 기반 Temporal Ensembling:
\[\text{CLIPScore}_{\text{hist}}^{(t)} = \beta \cdot \text{CLIPScore}_{\text{hist}}^{(t-1)} + (1 - \beta) \cdot \text{CLIPScore}_{\text{curr}}^{(t)}\]β는 모멘텀 계수 (예: 0.9)- 비용이 적고 오라클 모델 없이 실시간 적용 가능
학습 루프 (Warm-up 버전 기준)
1
2
3
4
5
6
1. Warm-up Epoch 동안 전체 데이터 학습 → CLIPScore_hist 저장
2. 이후 Epoch마다:
a. 각 배치의 현재 CLIPScore_curr 계산
b. Δ = hist - curr 계산
c. Δ 값 상위 r% 샘플만 선택해 학습
→ 이를 통해 클린하고 중요한 샘플 위주로 학습 진행, 노이즈 샘플은 배제됨
왜 잘 작동하는가?
Memorization Theory
- 깨끗한 데이터는 먼저 학습되고, 노이즈는 나중에 과적합됨 (이전 논문 인용)
- Gradient 관점에서 보면:
- 클린 샘플의 gradient는 초기 이후 거의 0
- 노이즈 샘플은 계속 큰 gradient를 유지
- 이 차이를 CLIPScore의 변화량 δ가 간접적으로 반영함
어려운 샘플은 그 자체로 학습이 힘들 수 있지 않을까?에 대한 DISSect의 대응 전략:
- warm-up 기간 설정:
- 초기에 모든 샘플을 균등하게 학습함으로써 “어려운 샘플도 충분히 노출”됨
- 이후 Δ 계산 시 기준이 보다 안정화됨
- Momentum Ensembling 방식:
- 단일 시점이 아닌 여러 에폭을 평균낸 결과를 사용 → 일시적인 급등락이 반영되지 않음
- 우선순위 기반 선택:
- 완전히 제거하는 게 아니라 상위 r%만 선택 → 일부 어려운 샘플도 포함될 가능성이 있음
실험 결과 요약
성능 비교 실험 (Retrieval Task)
CC3M 사전학습 후 평가 (30%, 50%, 70% 선택 비율)
- 평가 지표: Recall@1, @10 for IR/TR
- 대상: MS-COCO, Flickr30K 테스트 데이터셋
주요 결과:
- DISSect는 CLIPScore, CLIPLoss (oracle 기반)보다 성능이 높음
- 30% 샘플만으로 full training과 거의 동등한 성능
- 랜덤, Small Loss, Big Loss 방식보다 확연히 우수
대규모/노이즈 환경 실험
CC12M, YFCC15M(노이즈 심한 데이터셋) 실험
- 선택 비율: 50%
- 평가: MS-COCO, Flickr30K
주요 결과:
- YFCC15M에서 DISSect가 full data보다 성능이 높음
- 이는 DISSect가 노이즈 제거에 효과적임을 시사
다른 다운스트림 과제
- BLIP-backbone 기반으로 실험
- NLVR2 (시각추론) & COCO Captioning 실험
주요 결과:
- DISSect가 SCAN 및 Random 방식보다 더 높은 정확도, BLEU, METEOR, CIDEr 달성
- BLIP 모델에서도 샘플 선택 효과가 잘 작동함
Ablation
- 선택된 샘플의 CLIPScore 분포 분석
- 초기에는 다양한 샘플 선택 → 후반에는 cleaner 샘플만 선택
- DISSect는 보다 날카로운(high contrast) 분포 학습
- 기존 noisy correspondence 제거 방식과 비교
- GSC, NCR 등 dual-network 기반 방법보다 더 정확하면서 연산 비용 적음
- 선택 비율 별 성능 변화
- 60% 선택 비율에서 최고 성능
- 30%에서도 full training에 근접
- 학습 시간 비교 (CC3M, CC12M)
- DISSect는 최대 74% 학습 시간 단축 가능
결론 및 기여
- DISSect는 오라클 모델 없이도 클린한 샘플을 선택하고 학습을 빠르게 할 수 있는 강력한 온라인 샘플 선택 전략.
- 다양한 실험에서 기존 방법보다 우수한 정확도와 효율성을 입증.
- 실제 대규모 noisy 데이터셋 (YFCC15M)에서도 매우 좋은 성능을 보임.
This post is licensed under CC BY 4.0 by the author.








