Randomly Removing 50% of Dimensions in Text Embeddings has Minimal Impact on Retrieval and Classification Tasks
Randomly Removing 50% of Dimensions in Text Embeddings has Minimal Impact on Retrieval and Classification Tasks
2025 EMNLP Oral Written By. Sotaro Takeshita, Yurina Takeshita, Daniel Ruffinelli, Simone Paolo Ponzetto
1. 연구 개요
- 텍스트 임베딩의 차원을 무작위로 제거했을 때 다운스트림 작업(검색·분류·생성)의 성능에 어떤 영향을 미치는지를 체계적으로 분석
주요 관찰 결과
연구 목표
텍스트 임베딩의 차원 축소가 검색 및 분류 성능에 미치는 영향을 실험적으로 평가.
핵심 발견
6개의 최신 텍스트 인코더와 26개의 다운스트림 작업에서,
임베딩 차원의 최대 50%를 무작위로 제거해도 성능 하락이 10% 미만으로 유지됨.
성능 유지 수준
절반 이상 차원 제거 후에도
- 분류 작업: 원본 대비 95% 성능 유지
- 검색 작업: 원본 대비 90% 성능 유지
2. 기존 이론 검토 및 새로운 관점 제시
2.1. 기존 이론 검토
기존 연구의 세 가지 대표적 가설을 실험적으로 검증:
- Anisotropy (비등방성) — 임베딩이 좁은 원뿔 공간에 몰림
- Redundancy (중복성) — 차원 간 정보 중복
- Outlier Dimensions (이상치 차원) — 특정 차원이 성능 결정
→ 세 현상 모두 관찰되지만, 무작위 제거 시 성능 유지와 직접적인 상관관계는 없음.
2.2. Degrading Dimensions
- 입력 기여도(Attribution) 분석 방식을 활용해 각 차원의 성능 기여도를 독립적으로 평가.
- 결과: 모든 모델에서 성능에 부정적 영향을 미치는 다수의 차원이 존재함.
- E5-large: 1024개 중 430개(약 42%)가 성능 저하 차원
특징: 저하 차원은 임베딩 전역에 균일하게 분포되어 있으며,
무작위로 차원을 제거할 때 긍정·부정 차원이 함께 제거되어 전반적 성능 하락이 작게 나타남.
- 효과: 저하 차원만 제거하면 성능이 유지되거나 오히려 향상되는 경우도 있음.
- 공유성: 여러 다운스트림 작업 간에 공통적으로 존재하는 저하 차원이 확인됨.
3. 실험 설정 및 주요 결과
3.1. 모델 및 데이터셋
- 모델: MPNet, Contriever, E5 (Large), E5-Mistral, Paraphrase-MiniLM, Sentence-T5 6종
- 데이터셋:
- 검색: BEIR (14개)
- 분류: MTEB (12개)
3.2. 차원 축소 방식
- Last K% Truncation: 마지막 K% 차원 제거
- Random K% Truncation: 무작위 K% 차원 제거
3.3. 결과
- Last K% 제거:
- 대부분 모델이 80% 제거 시에도 성능 80% 이상 유지
- E5-Mistral은 90% 차원 제거 시 90% 성능 유지
- Random K% 제거:
- 결과 패턴이 유사하며, 10회 반복 간 표준편차가 작음 → 어떤 차원을 제거해도 성능 유지됨.
4. 표현 공간 사용 효율성 분석
4.1. Anisotropy 분석
- 실험: BERT, T5 모델을 대조 학습으로 훈련하며 anisotropy 변화 추적
- 지표: Uniform Loss(↓), IsoScore(↑)
- Anisotropy (비등방성) 확인 방법
- 실험 설계
- BERT와 T5 모델을 contrastive learning 방식으로 학습하면서, 각 학습 단계에서 임베딩의 anisotropy 정도와 성능을 함께 측정.
- 측정 지표:
- Uniform Loss (↓일수록 임베딩이 균일하게 분포)
- 개념적 정의
- 임베딩이 representation space에 얼마나 균일하게 분포되어 있는가를 측정.
- 값이 작을수록 균일하게 퍼져 있음 (덜 anisotropic)
- 값이 클수록 특정 방향에 몰려 있음 (anisotropic)
- 수학적 정의
- 임베딩 벡터들의 L2 정규화된 집합을 ${z_i}_{i=1}^N$라 할 때,
- 식:
- $|z_i - z_j |^2$: 임베딩 간 유클리드 거리 제곱
- $e^{-2 | z_i - z_j |^2}$: 서로 가까울수록 큰 값 (즉, 군집화 정도)
- 개념적 정의
- IsoScore (↑일수록 고르게 분포)
- 개념적 정의
- 임베딩 공간이 모든 방향에 걸쳐 고르게 분산되어 있는지를 측정.
- 즉, 임베딩 벡터들의 공분산 행렬의 고유값(eigenvalues)이 얼마나 균일한가를 보는 척도.
- 수학적 정의
- 임베딩 벡터 집합의 공분산 행렬 $C = \text{Cov}(Z)$계산
- 고유값 $\lambda_1, \lambda_2, \dots, \lambda_d$ 추출
- 이를 정규화한 후, 평균 분산의 균등성을 평가: $\text{IsoScore} = 1 - \frac{\text{Var}(\lambda)}{\text{Var}(\lambda_{uniform})}$
- $\text{Var}(\lambda)$: 실제 고유값들의 분산
- $\text{Var}(\lambda_{uniform})$: 이론적 최대 분산, $Var(λ_{uniform})=\frac{1}{d1}(1−\frac{1}{d1})$
결과적으로:
- IsoScore → 1: 완전 균일 (등방적, 덜 anisotropic)
- IsoScore → 0: 특정 방향에 몰림 (anisotropy 강함)
- 개념적 정의
- Uniform Loss (↓일수록 임베딩이 균일하게 분포)
- 결과
- Full embedding 성능은 향상, anisotropy는 감소 → 기대한 대로
그러나: 50% 차원 축소된 embedding의 상대 성능은 거의 일정
→ 즉, 덜 anisotropic하다고 해도 차원 축소 시 성능이 떨어지지 않음
- 실험 설계
- 결론: Anisotropy와 성능 유지 간에 상관관계 없음
4.2. Dimensional Collapse 분석
- 지표: 차원 간 평균 상관계수(Corr Mean)
- Dimensional Collapse (차원 붕괴) 확인 방법
- 실험 설계
- 동일하게 BERT와 T5의 contrastive 학습 중 각 차원 간 상관관계(평균) 측정
- 상관관계가 높을수록 차원 붕괴 가능성이 높음
- 측정 지표: Corr Mean
- 개념적 정의
- Dimensional Collapse(차원 붕괴)의 측정 지표.
- 즉, 임베딩의 각 차원들이 서로 얼마나 상관되어 있는지의 평균값.
- Corr Mean이 높다:
- 차원 간 상관성이 높아 정보가 중복 → 일부 차원만 사용 (collapse)
- Corr Mean이 낮다:
- 차원들이 독립적으로 정보 표현 → 더 효율적 사용
- Corr Mean이 높다:
- 수학적 정의
- 임베딩 행렬 $Z \in \mathbb{R}^{N\times d}$ 의 각 차원을 정규화
- Pearson 상관계수를 차원 간 쌍으로 계산: $\rho_{i,j}=\frac{\operatorname{Cov}(Z_{:,i}, Z_{:,j})}{\sigma_{Z_{:,i}}\sigma_{Z_{:,j}}}$
- 전체 상관계수 평균: $\mathrm{Corr\ Mean}=\frac{1}{d(d-1)}\sum_{i\ne j}\lvert \rho_{i,j}\rvert$
- 개념적 정의
- 결과
- 학습 진행되면서 Corr Mean은 감소 → 차원 붕괴 완화
- 그러나 50% 차원 제거 후 성능 유지 비율은 변화 없음
- 실험 설계
- 결론: 차원 붕괴와 성능 유지 간에도 유의미한 상관관계 없음
4.3. Outlier Dimensions 분석
- 정의: 평균 임베딩 기준 ±3σ 벗어난 차원
- Outlier Dimensions (이상값 차원) 검토 방법
- 실험 설계
- NanoBEIR 데이터셋의 평균 임베딩에서 표준편차 기준으로 이상값(±3σ 이상) 차원들을 추출
- 이들 차원을 제거한 결과와, 동일 개수의 무작위 차원을 제거한 결과를 비교
- 결과
- 대부분 모델에서 이상값 차원 제거 시 성능 변화 거의 없음
- 일부 모델(E5-Mistral)에서는 제거 후 약간 성능 향상되었으나 미미함 (nDCG@10에서 0.025)
- 실험 설계
- 결론: 이상값 차원은 소수이고, 성능 유지의 주된 원인이 아님
5. 차원 기여도 분석 (Dimension Attribution Analysis)
5.1. 방법
- 각 차원을 하나씩 독립적으로 제거하면서 다운스트림 성능 변화를 측정.
- 제거 시 성능이 향상 → 저하 차원
- 성능이 하락 → 기여 차원
5.2. 결과
- 모델 대부분에서 절반 이상이 저하 차원으로 판별됨.
- 저하 차원만 제거 시: 성능 향상 또는 완만한 감소.
- 기여 차원만 제거 시: 성능 급격히 하락.
- 분포: 저하 차원은 특정 영역에 몰리지 않고 전역적으로 분포.
5.3. PCA와의 비교
- 임베딩 절반 축소 시 Random Truncation vs PCA 비교.
- 결과: 무작위 절단은 학습·추론 비용 없이 PCA와 유사하거나 더 나은 성능.
예: E5-Mistral(MTEB) → Random: 99.6%, PCA: 100.4%
→ 무작위 절단은 단순하고 비용 효율적인 대안.
6. Causal LLM 실험
실험 개요
- 모델: Llama 3.1 8B, Qwen 2.5 7B
- 방법: 마지막 은닉 표현의 절반(첫 절반 or 마지막 절반) 제거 후 평가
- 테스트 세트: MMLU, SQuAD-v2, GSM8K 등 6개
결과
- 6개 중 3개 작업에서 원본 성능의 80% 이상 유지
- 제거 방식(앞/뒤 절반)에 따른 차이 거의 없음 → 비효율적 표현 공간 사용 추정
- 단, GSM8K 등 수리적 추론 과제에서는 성능 급락 → LLM에서는 과제별 민감도가 큼.
7. 결론 및 한계점
7.1. 결론
핵심 발견:
텍스트 임베딩의 절반을 무작위로 제거해도 90% 이상 성능 유지.
원인:
임베딩 내부에는 성능 저하를 유발하는 다수의 저하 차원이 존재하며,
이들이 무작위로 함께 제거되면 성능 하락이 미미하게 나타남.
적용 확장:
일부 LLM에서도 유사한 경향이 관찰됨.
7.2. 한계점
- 저하 차원 발생 원인 미상 — 어느 훈련 단계에서 생기는지 불명.
- 단일 차원 분석 한계 — 다차원 상호작용 미고려.
- 언어적 제한 — 영어 데이터만 실험.
- MRL 모델과의 비교 부재 — 예비 실험에서는 유사 성능이었으나 대규모 실험 미실시.
This post is licensed under CC BY 4.0 by the author.






