Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment

Posted Nov 29, 2025

By Seokgi Lee

22 min read

Written By. Pengfei Zhao, Rongbo Luan, Wei Zhang (APPLE)

배경 및 문제의식

1-1. 크로스모달 리트리벌과 모달리티 갭 문제

CLIP류 모델은 대규모 이미지–텍스트 쌍으로 contrastive learning을 수행해 좋은 성능을 보이지만, 여전히 모달리티 갭(modality gap) 이 존재:
- 특히 미세한 의미 차이가 있는 negative들(예: 비슷한 각도/배경의 비행기 사진들)을 잘 구분하지 못함.

기존 연구들은 이 갭의 원인을

아키텍처 (dual encoder 구조)
입력 정보 불균형

등에서 찾고, 평균 임베딩 거리나 KL 기반 지표 등으로 측정해 왔음.

1-2. MLLM(멀티모달 LLM)의 잠재적 강점

이 논문이 새로 관찰한 점:

오프더셸프 MLLM(여기선 Qwen2-VL 계열)이 CLIP보다 더 잘 맞는 모달 정렬 특성을 보인다.

하지만 MLLM은 일반적으로

embedding space를 직접 노출하는 구조가 아니고,
logits 기반으로 생성/판단을 수행.

그래서 기존의 임베딩 기반 modality gap 측정 법으로는 MLLM과 CLIP을 공정하게 비교하기 어려움.

또한 최근에는 MLLM을 retrieval용으로 fine-tuning하는 시도(E5-V, MM-Embed, VladVA 등)가 있었지만:

생성용 아키텍처 → 리트리벌 아키텍처로 변환하는 과정에서
오히려 기존 MLLM의 alignment 능력이 약화되는 경향이 관찰됨.

정리하면:

CLIP류는 모달리티 갭 + coarse negative 처리 문제
MLLM은 본질적으로 alignment는 좋은데, retrieval용 fine-tuning하면 그 장점이 죽음
이를 공통 지표로 정량화할 방법도 부족했음

방법론

이 논문의 해결책은 크게 두 축.

모달리티 갭을 공통 기준으로 재정의하는 지표 (Wasserstein Distance 기반)
MLLM의 alignment priors를 embedding 학습에 이전하는 새로운 학습 프레임워크 MAPLE

2-1. 통합 모달리티 갭 지표: Wasserstein Distance 기반 Δ_gap

(1) 기존 평균 임베딩 기반 측정의 한계

기존에는 텍스트와 이미지의 평균 임베딩 차이로 갭을 재봤음:

$\Delta_{\text{gap}} =

\mu_{\text{text}} - \mu_{\text{img}}

$ 꼴.

하지만:

분포 전체(distribution) 가 아닌 평균만 보는 지표
logits 기반 MLLM에는 직접 적용 불가 (임베딩이 명시적으로 없으니까)

(2) Wasserstein Distance(WD) 도입

그래서 저자들은 유사도 분포 간의 1-Wasserstein Distance를 사용:

$P_A, P_B$: 두 분포(cross-modal similarity, intra-modal similarity)
WD: 한 분포를 다른 분포로 옮길 때 필요한 최소 평균 이동량.
\[W(P_A, P_B) = \inf_{\gamma\in\Pi(P_A,P_B)} \mathbb{E}_{(s_a,s_b)\sim\gamma}[|s_a - s_b|]\]
실제 구현에서는 유한 샘플의 empirical distribution이므로 두 분포에서 샘플을 각각 정렬한 뒤, 아래와 같은 형태로 계산 가능

\[\hat W(P_A, P_B) \approx \frac{1}{n}\sum_{i=1}^n \big|\hat s^{(A)}_{(i)} - \hat s^{(B)}_{(i)}\big|\]

(3) Winoground-style 데이터셋에서의 측정 방식

Winoground 계열 데이터(두 이미지 + 두 캡션, 총 4개 요소, 2개 정답 쌍)에서:

$T_0, T_1$: 두 캡션 집합
$I_0, I_1$: 두 이미지 집합

두 가지 WD를 봄:

Distributional gap(dist-gap):
- $W(P_{T_0I_0}, P_{T_0T_0})$ 등
- “텍스트-이미지 유사도 분포”와 “텍스트-텍스트 유사도 분포”가 얼마나 비슷한가
- 작을수록 좋지만, 0에 가까워지면 representation collapse 위험
Discriminative gap(disc-gap):
- $W(P_{T_0I_0}, P_{T_0I_1})$ 등
- 정답 쌍과 오답 쌍의 유사도 분포 간 거리
- 클수록 모델이 정답/오답을 잘 구분함

최종 통합 지표:

\[\Delta_{\text{gap}} = \frac{W_{\text{dist-gap}}}{W_{\text{disc-gap}}}\]

분모는 커야(잘 구분), 분자는 작아야(분포 정렬) 하므로 Δ_gap이 작을수록 좋은 모델.

이 지표는

CLIP(embedding 유사도) → 그대로 유사도값 사용
Qwen2-VL(Yes/No alignment score) → Yes/No에 대한 softmax 값을 사용

모두에 적용 가능 → 아키텍처가 달라도 비교 가능한 모달리티 갭 지표를 마련.

2-2. MAPLE 전체 개요

MAPLE (Modality-Aligned Preference Learning for Embeddings) 의 핵심 아이디어:

MLLM이 가지고 있는 세밀한 이미지–텍스트 선호(prior)를
리트리벌 임베딩 모델(policy)에 preference alignment 방식으로 전이하자.

구성 요소는 두 가지:

Preference Data Construction
- 오프라인: hard negative 후보 준비
- 온라인: MLLM이 각 후보에 alignment score를 부여 → pairwise / listwise preference data 생성
Preference Alignment (RPA Loss)
- Direct Preference Optimization(DPO)을 임베딩 학습용으로 변형
- 임베딩 similarity를 policy logit처럼 사용

2-3. MLLM 기반 Retriever 아키텍처

policy model은 프리트레인된 MLLM(Qwen2-VL-2B / 7B) 를 기반으로 함.

변경점은 두 가지:

Causal mask → bidirectional attention
- 원래 MLLM은 autoregressive이지만, 리트리벌에서는 전체 input context를 동시에 보는 것이 유리함.
마지막 hidden state들의 mean pooling으로 임베딩 추출
- 텍스트 / 이미지 모두 “ Describe this text in one word:” 스타일의 프롬프트로 인코딩한 뒤, 마지막 layer의 hidden states 평균을 임베딩으로 사용.

이렇게 하면 dual encoder CLIP 구조처럼 텍스트/이미지 임베딩을 얻되, 내부는 여전히 shared MLLM backbone.

2-4. Preference Data Construction

2-4-1. Offline Stage: Candidate Generation

이미지 임베딩 추출 & Deduplication
- 전체 이미지 데이터(OpenImages human-verified subset)에서 DINOv2 임베딩 추출.
- SemDeDup로 근접 중복을 제거:
  - 클러스터 수: 50,000
  - epsilon=0.07을 써서 같은 클러스터 내에서 지나치게 유사한 샘플 제거
Hard negative 검색
- 각 anchor 이미지 $x_i^{img}$에 대해 코사인 유사도로 top-K(논문 예시는 K=3) 이웃 $x̂_j$를 가져와 candidate set 구성:
  \[C_i^{img} = \{x_i^{img}\} \cup \{\hat{x}_j^{img}\}_{j=1}^K\]
- 이웃들은 시각적으로 anchor와 비슷하지만 다른 의미를 가질 가능성이 큰 hard negative.
비교형 캡션 생성
- MLLM(Qwen2.5-VL-72B)을 사용해 multi-image reasoning으로 “차이를 강조한 캡션” 생성.
- 프롬프트(요약):
  - 두 이미지를 보고 각각에 대한 캡션을 생성하되, 둘 사이의 주요 시각적 차이를 강조
  - Fig.4 예시처럼, “수상 비행기 vs 실내 박물관에 매달린 오래된 비행기” 같은 비교형 설명.
- 샘플링 전략:
  - 각 anchor+hard negative 조합으로 여러 image pair를 만들고,
  - temperature=0.7로 3회 반복 생성 → 다양한 표현 확보.
- 최종적으로 각 anchor에 대해:
  - 이미지 후보 집합 $C_i^{img}$
  - 텍스트 후보 집합 $C_i^{txt}$ (원래 caption + 생성 caption들)를 얻음.

2-4-2. Online Stage: Scoring & Structuring Preferences

온라인 학습 단계에서 reward model 역할을 하는 Qwen2-VL-7B 로 anchor–candidate 간 alignment score를 계산.

Alignment score 계산
- Prompt:
  - "<image> Does the image align with the text <text>? Answer Yes or No"
- 이 프롬프트를 MLLM에 넣고, Yes/No 토큰의 logits $(l^{Yes}, l^{No})$을 얻음.
- softmax로 “Yes”의 확률을 alignment score로 사용: $\alpha_{ii} = \frac{\exp(l^{Yes}{ii})}{\exp(l^{Yes}{ii}) + \exp(l^{No}_{ii})}$
- Anchor 이미지 $x_i^{img}$ vs 모든 텍스트 후보 $x\in C_i^{txt}$ → $\alpha^{img2txt}_i$
- Anchor 텍스트$x_i^{txt}$ vs 모든 이미지 후보 $x\in C_i^{img}$ → $\alpha^{txt2img}_i$
정렬 점수 기반 정렬(ranking)
- 각 anchor i에 대해 score vector $\alpha_i$를 내림차순 정렬:
  - 인덱스 ${r_k}{k=0}^K$ : $\alpha{i, r_0} \ge \dots \ge \alpha_{i, r_K}$
- 이 순위를 기반으로 pairwise, listwise preference를 정의.
Pairwise preference 구성
- 모든 $0 \le a < b \le K$에 대해: $P_i = {(x_{i,r_a}, x_{i,r_b}) }$
- 의미: anchor x_i 관점에서 후보 $x_{i,r_a}$는 $x_{i,r_b}$보다 선호된다 (alignment score가 더 크다).
Listwise preference 구성
- rank list 전체 $(x_{i,r_0}, \dots, x_{i,r_K})$ 를 활용.
- 각 k(0~K-1)에 대해:
  - $x_{i,r_k}$는 suffix ${x_{i,r_k}, \dots, x_{i,r_K}}$ 내에서 선호되는 top.
  - 즉, 각 suffix마다 “가장 좋은” 후보를 정의하고, MLLM의 순위 전체 구조를 반영.

→ 이렇게 pairwise + listwise preference 데이터가 만들어지며, 이게 바로 RPA loss의 supervision signal이 됨.

2-5. Preference Alignment: DPO → RPA

2-5-1. DPO 기본 형태와 한계

DPO(Direct Preference Optimization) 원래 형태:

입력 x, 선호 응답 $y_w$, 비선호 응답 $y_l$
정책 $π_θ$, reference $π_w$
목표: $L_{\text{DPO}} = -\mathbb{E}\log \sigma\Big( \beta(\log\frac{\pi_\theta(y_w x)}{\pi_w(y_w x)} - \log\frac{\pi_\theta(y_l x)}{\pi_w(y_l x)}) \Big)$

여기를 그대로 retrieval에 적용하려면:

모든 (이미지,텍스트) 조합에 대한 π(y x)가 필요 → 조합 폭발
$π_θ$(정책), $π_w$(레퍼런스), 별도 reward model까지 관리 → 메모리 부담

그래서 이 논문은 두 단계로 단순화 + 변형.

2-5-2. Reference 모델 제거 (DPO 단순화)

레퍼런스를 균일 분포 U로 두면, $\pi_w(y_w

x), \pi_w(y_l

x)$ 는 상수 취급 → log ratio에서 상쇄.

단순화된 DPO:

\[L_{\text{DPO-simplified}} = -\mathbb{E}\big[ \log \sigma(\beta\log\pi_\theta(y_w|x) - \beta\log\pi_\theta(y_l|x)) \big]\]

즉, “선호 응답의 log-확률이 비선호 응답보다 크도록 만드는” 형태.

2-5-3. Relative Preference Alignment (RPA) 정의

이제 log π_θ(y

x) 대신 정책 모델의 임베딩 유사도를 사용.

anchor 임베딩 $z_{\text{anchor}}$, candidate 임베딩 $z_{\text{candidate}}$
similarity: $s = \beta (z_{\text{anchor}} \cdot z_{\text{candidate}})$

즉, RPA는 MLLM이 정한 preference 순서를, embedding similarity 순서가 따라가도록 만드는 목적 함수

(a) Pairwise RPA

텍스트 anchor $x_i^{txt}$와 pairwise preference $(x_{i,r_k}^{img}, x_{i,r_l}^{img})$ (k < l)에 대해:

모델 similarity: $s^{txt2img}{ik} = \beta(z_i^{txt}\cdot z{i,r_k}^{img})$
MLLM alignment score: $\alpha^{txt2img}{i,r_k}, \alpha^{txt2img}{i,r_l}$

Pairwise RPA loss (text→image):

\[L^{txt2img}_{\text{RPA-Pairwise}} = -\frac{1}{N}\sum_i\sum_{0\le k<l\le K} (\alpha_{i,r_k}^{txt2img} - \alpha_{i,r_l}^{txt2img}) \cdot \log\sigma\big( s^{txt2img}_{ik} - s^{txt2img}_{il} \big)\]

선호도의 차이(α 차이)가 클수록 가중치를 크게 → MLLM이 “차이가 크다”고 보는 pair에 더 강한 신호.

이미지 anchor에 대한 image→text loss도 대칭적으로 정의하고,

최종 pairwise RPA loss:

\[L_{\text{RPA-Pairwise}} = \frac{1}{2}(L^{txt2img}_{\text{RPA-Pairwise}} + L^{img2txt}_{\text{RPA-Pairwise}})\]

(b) Listwise RPA

Listwise는 PRO(Preference Ranking Optimization)에서 영감을 받아,

“각 suffix에서 top-ranked가 되도록” 하는 softmax 최적화를 사용.

텍스트 anchor 기준:

ranked candidates: $(x_{i,r_0}^{img}, \dots, x_{i,r_K}^{img})$
각 k에 대해 suffix ${r_k, \dots, r_K}$ 를 고려
모델 similarity $s^{txt2img}_{ij}$

가중치:

\[w^{txt2img}_{ik} = \frac{1}{K-k} \sum_{l=k+1}^K (\alpha^{txt2img}_{i,r_k} - \alpha^{txt2img}_{i,r_l})\]

→ “해당 k 후보가 뒤에 있는 모든 후보보다 얼마나 선호되는지” 의 평균 margin.

Listwise RPA loss (text→image):

\[L^{txt2img}_{\text{RPA-Listwise}} = -\frac{1}{N}\sum_i\sum_{k=0}^{K-1} w^{txt2img}_{ik} \cdot \log \frac{\exp(s^{txt2img}_{ik})}{\sum_{j=k}^K \exp(s^{txt2img}_{ij})}\]

image→text도 마찬가지로 정의하고,

최종 listwise RPA loss:

\[L_{\text{RPA-Listwise}} = \frac{1}{2}(L^{txt2img}_{\text{RPA-Listwise}} + L^{img2txt}_{\text{RPA-Listwise}})\]

실험적으로는 Listwise > Pairwise가 일관되게 더 좋은 성능을 보임.

(이유: 전체 순위 구조를 한 번에 반영하기 때문이라고 저자들이 해석)

2-6. Contrastive Regularization & Expanded Negatives

2-6-1. Contrastive regularizer와 최종 Loss

RPA만 사용하면 MLLM의 선호에 과도하게 맞추다가 representation collapse나 general retrieval 성능 저하 위험.

그래서:

원래 anchor pair $(x_i^{img}, x_i^{txt})$에 대해
CLIP-style symmetric InfoNCE contrastive loss $L_{\text{contrast}}$ 를 계산.
최종 objective: $L= \lambda L_{\text{RPA}} + (1-\lambda)L_{\text{contrast}}$
λ가 클수록 RPA를 강조(세밀 분별↑, general R@1은 희생)
λ를 적절히 tuning해서 두 성능 사이의 trade-off를 맞춤.

2-6-2. Expanded Negative Pool

MLLM은 batch를 크게 키우기 어렵기 때문에,

hard negative 후보 K개를 추가 negative로 활용해서 “effective batch size”를 키우는 전략을 씀.

한 디바이스당 anchor N개, hard negatives K개 → 총 N(1+K) 샘플
여러 디바이스에서 이를 모으고, duplicate 제거 후 contrastive loss 계산

이렇게 하면 추가 GPU 메모리 없이 더 많은 negative를 사용 가능.

2-7. 학습 세팅 및 구현 디테일

Appendix B.2 기준:

Policy model: Qwen2-VL-2B / 7B
Reward model: Qwen2-VL-7B (Yes/No alignment scoring)
LoRA:
- Rank r=32, Alpha=32
- LLM의 attention/projection layer만 LoRA 적용
- vision encoder & connector는 freeze
학습 하이퍼파라미터:
- Optimizer: AdamW
- Base LR(LoRA): 5e-4
- τ(contrastive temperature), β(RPA scale)는 learnable 파라미터
  - 초기값: τ=0.07, β ≈ 14.29(=1/0.07)
- LR schedule: Linear warmup + cosine decay
- Warmup ratio: 전체 step의 2.5%
- Epoch: 8
- Batch / GPU:
  - 2B: 96
  - 7B: 48
- Image resolution: 384×384
인프라 & 최적화:
- 32× A100 80GB
- bfloat16 mixed precision
- gradient checkpointing
- FlashAttention 사용
- 전체 학습 약 32시간

실험 결과

3-1. 데이터셋 및 평가 설정

학습 데이터

OpenImages v4 human-verified subset 기반
SemDeDup 클러스터링 후 stratified sampling으로 약 70만 개 인스턴스 사용.

평가 데이터

General retrieval
- MS-COCO
- Flickr30K
- 지표: Text/Image R@1
Fine-grained retrieval
- Winoground (400 인스턴스)
  - 조합적 비주얼-언어 compositionality 평가
- NaturalBench (1,200 인스턴스)
  - Winoground를 확장한 자연 adversarial 샘플
- MMVP (135 인스턴스, 9 카테고리)
  - Orientation, Count, Color, Text, Viewpoint 등
- BiVLC (2,933 인스턴스)
  - Replace / Swap / Add 세 가지 변환 유형으로 text-to-image retrieval compositionality 평가

각 인스턴스 (x0_img, x1_img, x0_txt, x1_txt)에 대해:

Image score:
- 각 텍스트가 올바른 이미지를 더 높게 매기는지
Text score:
- 각 이미지가 올바른 텍스트를 더 높게 매기는지

둘 다 만족해야 1점으로 계산.

3-2. 메인 결과

결과:

MAPLE(Qwen2-VL-7B)가 전반적으로 최고 성능
Fine-grained:
- Winoground: 기존 최고였던 VladVA보다 큰 폭 향상
비슷한 파라미터 규모인 Qwen2-VL-2B에서도 MAPLE(2B)이 기존 VladVA(2B)와 동급~우수한 성능.

→ MLLM priors 기반 preference alignment가 특히 fine-grained 벤치마크에서 큰 효과를 보임.

3-3. Ablation: Loss 구성

결론:

preference 정보 자체가 굉장히 유용하지만,
general retrieval을 유지하려면 contrastive regularizer가 필수.
RPA > 단순 contrastive on preference
listwise RPA > pairwise RPA

3-4. Expanded Negatives & RPA 조합

hard negative를 contrastive에 활용하는 전략과
RPA listwise를 결합했을 때 균형 잡힌 최고 성능.

3-5. 모달리티 갭 측정 결과

MMVP / Winoground에서 Δ_gap 비교

관찰:

기본 Qwen2-VL-7B 자체가 모달리티 갭이 매우 작음 (alignment가 뛰어남)
MAPLE w/ RPA는
- distributional gap을 줄이면서,
- discriminative gap을 적절히 유지/향상 → Δ_gap를 낮춘다.

또한 훈련 과정에서 Δ_gap이 어떻게 변하는지

3-6. λ trade-off, Caption Sampling, Pattern-wise 분석

λ 변화에 따른 성능
- λ(=RPA 비중)가 커질수록 fine-grained 성능은↑, general R@1은↓
- 적절한 중간값에서 전체 성능 균형이 가장 좋음.
Caption sampling 전략 A/B/C
- A: 각 pair에서 첫 caption만 사용
- B: 첫 3개 캡션 중 랜덤 1개
- C: 전체 6개 캡션 pool에서 샘플링
- C가 항상 best → caption diversity가 성능에 기여
MMVP(9 category)
- baseline은 Color, State 패턴에서 상대적으로 강하지만 다른 패턴은 약함
- MAPLE은 Orientation, Count, Text, Viewpoint 등 난이도 높은 패턴에서 특히 큰 향상
Qualitative Retrieval 예시 (어펜딕스 Fig.9 참고)
- preference alignment 전/후 ranking 비교 → 세밀한 조건(“without the dog”, 숫자 22 등)을 더 잘 반영하는 것을 확인.

결론

4-1. 논문의 핵심 메시지

MLLM은 생각보다 강력한 cross-modal alignment 능력을 내재적으로 갖고 있다.
- 이를 WD 기반 Δ_gap 지표로 정량화해 보여줌.
이 alignment prior를 그대로 죽이지 말고, 오히려 embedding 기반 retriever에 전이할 수 있다.
그 수단으로 MAPLE을 제안:
- MLLM을 reward 모델로 보고 alignment score를 통해 자동 preference data 생성
- DPO를 임베딩 학습에 맞게 변형한 RPA loss로 fine-grained alignment 수행
- contrastive loss를 regularizer로 넣어 general retrieval도 유지
다양한 벤치마크에서, 특히 fine-grained retrieval 성능이 크게 향상됨을 실험으로 입증.

4-2. 한계 및 향후 과제

논문에서 명시한 한계:

MLLM의 편향(bias)이 그대로 transfer될 수 있음
- reward model이 MLLM이므로, 그 안의 사회적/시각적 bias가 preference로 반영될 위험.
단순 retrieval 중심으로 검증
- compositional retrieval(복합 쿼리), multi-hop reasoning 기반 retrieval 등
  더 복잡한 시나리오에 대한 검증이 부족.

향후 방향(저자 관점):

MLLM alignment priors를 다른 멀티모달 representation learning 문제에 확장
human preference + MLLM preference hybrid, 혹은 여러 MLLM ensemble 활용
caption generation/data curation을 더 정교하게 설계해 추가 성능 향상

Paper

This post is licensed under CC BY 4.0 by the author.