Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels
Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels
Written By. Junjie Ye, Yuming Yang, Yang Nan, Shuo Li, Qi Zhang
연구 목적
- LLM은 사전학습(pre-training) 과정에서 대규모 지식을 학습하고, 이후 SFT나 RLHF로 조정됨.
- 하지만 SFT가 실제로 모델의 지식에 어떤 영향을 미치는지에 대한 체계적인 분석은 부족함.
- 본 논문은 token-level (로짓 분포 변화)과 parameter-level (모델 파라미터 변화)의 양 측면에서 SFT의 영향을 분석함.
실험 개요
모델
- LLaMA-2 (7B, 13B, 70B) 및 LLaMA-3 (8B, 70B) 모델 사용.
데이터
- CBQA(Closed-book QA) 데이터 사용.
- 질문–정답 쌍(QA pair)으로 구성.
- 각 주제 10개으로 서브 셋들을 나눔.
- 모델이 얼마나 사전 지식을 알고 있는지를 기반으로 5단계 mastery level로 데이터를 나눔.
- 사전학습 모델이 얼마나 잘 답변하는지를 기준으로 각 샘플을 분류함 ($R^k_M$ 스코어).
실험 방식
- 서로 다른 mastery level 및 데이터 양 (60~1920 샘플)으로 모델을 SFT 수행.
- 성능은 in-domain 및 out-of-domain QA 정답률로 측정.
주요 결과
현상 1: 더 많은 데이터가 항상 성능 향상을 유도하지 않음
- 240개 샘플까진 성능 향상, 이후 오히려 성능 저하 발생.
- 예: LLaMA-3-8B는 240개 학습 시보다 1920개 학습 시 정확도 최대 14% 감소.
현상 2: 학습 데이터의 mastery 수준이 성능에 큰 영향
- “mastery 수준 (knowledge mastery level)”의 정의
- 모델이 fine-tuning 이전에 그 데이터를 얼마나 “이미 알고 있는지”를 수치화한 값
- 먼저 사전학습된 LLaMA 모델 MMM이 각 질문 k에 대해 답을 맞히는 확률을 측정.
- 이 확률을 여러 템플릿(질문 형태 변형)을 통해 평균낸 뒤 모델이 이미 알고 있는 정도 $R_M^k$로 정의
- 모델이 각 질문에 대해 여러 표현으로 물어봤을 때 정답을 맞힌 비율이 mastery score $R_M^k$.
기호 의미 $x_i$ i번째 질문 템플릿으로 작성된 입력 $y_i$ 정답 토큰 $M_j(x_i)$ j번째 샘플링된 모델 출력 $I(\cdot)$ 정답 포함 여부 (맞으면 1, 틀리면 0) $N_{map}=21$ 질문 템플릿 수 $N_{sample}=10$ 샘플링 횟수 (온도 0.7)
- 모델이 fine-tuning 이전에 그 데이터를 얼마나 “이미 알고 있는지”를 수치화한 값
Mastery level 구분
이렇게 분류된 데이터를 knowledge mastery별 SFT dataset으로 사용.
구분 mastery level 조건 의미 $D^{M}_{train-0}$ $R_M^k = 0$ 모델이 전혀 모르는 데이터 $D^{M}_{train-1}$ $0 < R_M^k ≤ 0.25$ 거의 모름 $D^{M}_{train-2}$ $0.25 < R_M^k ≤ 0.50$ 절반 정도 앎 $D^{M}_{train-3}$ $0.5 < R_M^k ≤ 0.75$ 대부분 앎 $D^{M}_{train-4}$ $0.75 < R_M^k ≤ 1.0$ 이미 거의 완벽히 앎
- 낮은 mastery 수준의 데이터로 SFT를 수행하면 성능이 더 크게 감소.
- 고수준 데이터를 사용해도 낮은 수준 문제에선 성능이 떨어짐.
- 즉, 중간 수준 mastery 데이터를 활용하는 것이 가장 균형 잡힌 성능.
Token-Level 분석 (KL Divergence)
- KL divergence를 통해 fine-tuned vs. pretrained 모델의 로짓 분포 차이를 측정.
- 60~240개 학습 시 divergence 감소 → 안정적
- 240개 초과하면 divergence 급증 → 성능 저하와 직접적 상관관계
Parameter-Level 분석 (파라미터 복원)
- SFT 과정에서 전체 파라미터의 90%는 지식 향상에 기여하지 않음.
- 전체 파라미터 중 상위 1%만이 전체 변화량의 약 70%를 차지
- SFT 과정에서 극히 일부 파라미터만 강하게 갱신되고, 나머지는 거의 영향이 없음.
- SFT가 실제로는 모델 전체를 재최적화하지 않고 일부 특정 부분만 과도하게 덮어씀(overwrite)
- 가장 많이 변한 파라미터를 순차적으로 원래 값으로 복원 → 성능 향상.
- 파라미터 복원이 SFT, LoRA보다 높은 성능
- 어텐션 메커니즘의 역할
- LLM의 어텐션 메커니즘은 입력 시퀀스 내의 각 토큰이 다른 토큰들과 얼마나 관련이 있는지를 파악하고, 그 관계를 바탕으로 중요한 정보를 추출하고 통합하는 역할
- Query(Q)는 “내가 찾고 있는 것”, Key(K)는 “내가 가지고 있는 정보”, Value(V)는 “실제 정보 내용”
- 낮은 업데이트 비율의 의미
- 이 레이어들에서 불필요한 파라미터 업데이트 비율이 낮다는 것은, 사전 훈련 단계에서 이미 광범위한 세계 지식을 학습하면서 구축된 지식 검색(retrieval) 및 정보 통합(integration)의 핵심 메커니즘이 파인튜닝 과정에서 비교적 안정적으로 유지된다는 것을 의미.
- 모델이 정보를 ‘어떻게’ 찾아내고 ‘어떻게’ 연결할지에 대한 기본적인 능력은 SFT를 통해 크게 흔들리거나 비효율적으로 변경되지 않는다는 것.
- 위의 불필요한 파라미터 간의 어텐션과 FFN 레이어 간의 차이는 LLM 내에서 지식의 유형별 저장 및 처리에 대한 일종의 ‘분업’이 존재할 수 있음을 시사
- 어텐션 레이어 (Query, Key, Value)
- 입력 토큰들 간의 관계 학습 및 관련성 판단에 특화되어 있으며, 이는 지식의 구조나 접근 방식과 더 밀접하게 관련 프리 트레이닝을 통해 이미 전반적인 언어 구조와 의미론적 관계를 잘 학습했기 때문에, 특정 CBQA 작업에 대한 파인튜닝 시에도 그 본질적인 역할은 크게 변할 필요가 없었을 가능성
- FFN 레이어
- 어텐션에서 통합된 정보를 바탕으로 구체적인 사실적 지식(factual knowledge)을 처리하거나 새로운 추론을 수행하는 역할을 담당.
- SFT는 모델이 특정 형식의 질문에 특정 방식으로 답변하도록 조절하므로, FFN에 저장된 지식의 ‘표현’이나 ‘활성화’ 방식에 더 많은 변화를 유도
- 이러한 변화가 항상 지식 강화에 긍정적인 영향을 미치지 않아 불필요한 업데이트가 많이 발생.
- 어텐션 레이어 (Query, Key, Value)
- SFT는 모델에게 새로운 사실적 지식을 직접 ‘주입’하기보다는, 기존에 사전 훈련된 모델이 가지고 있는 방대한 지식을 특정 작업에 맞게 ‘활용’하고 ‘표현’하는 방법을 가르치는 데 더 중점
- 따라서 어텐션 메커니즘은 지식에서 필요한 정보를 찾는 ‘도구’의 역할을 하고, FFN은 건져 올린 정보를 특정 목적에 맞게 가공하는 역할.
- 이는 SFT 전략을 설계할 때, 어텐션과 같은 핵심 지식 접근 메커니즘은 보존하면서 FFN을 통한 지식 처리 및 표현 방식을 효율적으로 조정하는 데 초점을 맞춰야 함을 시사.
결론
- SFT는 무분별한 파라미터 업데이트를 유발하여 지식 손실 및 성능 저하를 유도할 수 있음.
- 향후 연구는 “불필요한 파라미터 업데이트를 억제하는 fine-tuning 전략” 개발 필요.
- 파라미터 복원 방식은 단순하면서도 효과적인 보정 방법.
This post is licensed under CC BY 4.0 by the author.







