FLAME: Frozen Large Language Models Enable Data-Efficient Language-Image Pre-training

Written By. Anjia Cao, Xing Wei, Zhiheng Ma FLAME(Frozen Large Language Models Enable data-efficient language-image pre-training)은 Frozen LLM을 텍스트 인코더로 활용하여 기존 CLIP 모델의 한계를 극복하는 새로운 프레임워크 1. ...

Oct 25, 2025 Paper

Randomly Removing 50% of Dimensions in Text Embeddings has Minimal Impact on Retrieval and Classification Tasks

2025 EMNLP Oral Written By. Sotaro Takeshita, Yurina Takeshita, Daniel Ruffinelli, Simone Paolo Ponzetto 1. 연구 개요 텍스트 임베딩의 차원을 무작위로 제거했을 때 다운스트림 작업(검색·분류·생성)의 성능에 어떤 영향을 미치는지를 체계적으로 분석 주요 관찰...

Oct 22, 2025 Paper

LoSiA: Efficient High-Rank Fine-Tuning via Subnet Localization and Optimization

2025 EMNLP Oral Written By. Xujia Wang, Yunjia Qi, Bin Xu 개요 LoSiA는 고순위(high-rank) 파라미터 업데이트를 수행하면서도 낮은 계산 비용과 낮은 메모리 사용량을 유지하는 서브넷 기반 미세조정 방법 핵심 아이디어는 전체 모델이 아닌, gradient sparsity를 기반으로 가장 ...

Oct 20, 2025 Paper

Analyzing the Effects of Supervised Fine-Tuning on Model Knowledge from Token and Parameter Levels

Written By. Junjie Ye, Yuming Yang, Yang Nan, Shuo Li, Qi Zhang 연구 목적 LLM은 사전학습(pre-training) 과정에서 대규모 지식을 학습하고, 이후 SFT나 RLHF로 조정됨. 하지만 SFT가 실제로 모델의 지식에 어떤 영향을 미치는지에 대한 체계적인 분석은 부족함. 본 논문은...

Oct 6, 2025 Paper

Training LLMs to be Better Text Embedders through Bidirectional Reconstruction

Written By. Chang Su, Dengliang Shi, Siyuan Huang, Jintao Du 배경 및 문제점 기존의 LLM 기반 임베딩 기법은 주로 [EOS]와 같은 마지막 토큰의 임베딩을 전체 문장의 대표 벡터로 사용 하지만 이 [EOS] 토큰은 pretraining 중에 의미 정보를 담도록 학습되지 않기 때문에, inf...

Oct 4, 2025 Paper

Boosting Data Utilization for Multilingual Dense Retrieval

Written By. Chao Huang, Fengran Mo, Yufeng Chen, Changhao Guan 1. 연구 목적 및 배경 기존 연구는 주로 모델 아키텍처 개선에 집중했지만, 이 논문은 데이터 활용도를 높이는 방식에 초점을 맞춤. 핵심 문제는 false negatives와 비효율적인 mini-batch 구성 이를 해결하기...

Sep 28, 2025 Paper

Conan-Embedding-v2: Training an LLM from Scratch for Text Embeddings

Written by. Shiyu Li, Yang Tang, Ruijie Liu, Shi-Zhe Chen, Xi Chen EMNLP 2025 Oral 1. Conan-embedding-v2: 모델의 등장 배경과 필요성 배경 기존 LLM 기반 임베딩 모델은 뛰어난 성능을 보여왔지만, LLM과 임베딩 모델 간의 훈련 패러다임 격...

Sep 25, 2025 Paper

Differential-informed Sample Selection Accelerates Multimodal Contrastive Learning

Written by. Zihua Zhao, Feng Hong, Mengxi Chen 논문 개요 및 배경 이미지-텍스트 쌍을 위한 대규모 contrastive learning은 성능이 뛰어나지만 학습 비용이 매우 큼. 학습 효율성을 높이기 위한 방법으로 sample selection이 주목받고 있음 기존 방식은: 오프...

Sep 21, 2025 Paper

Aligning Information Capacity Between Vision and Language via Dense-to-Sparse Feature Distillation for Image-Text Matching

Written by. Yang Liu, Wentao Feng, Zhuoyao Liu 개요 이 논문은 이미지-텍스트 매칭(Image-Text Matching, ITM) 성능을 향상시키기 위해 텍스트 임베딩의 정보량(Information Capacity)에 주목 기존 방법들이 짧고 간결한 텍스트에만 의존하여 시멘틱 정렬을 시도하는 한계를 극복...

Sep 20, 2025 Paper

Negative Matters: Multi-Granularity Hard-Negative Synthesis and Anchor-Token-Aware Pooling for Enhanced Text Embeddings

Written by. Tengyu Pan, Zhichao Duan, Zhenyu Li 1. 연구 배경 텍스트 임베딩 모델은 문장을 벡터로 변환해 의미적 유사도를 계산하는 데 핵심적 역할. 일반적으로 (query, positive, negative) 구조로 contrastive learning으로 학습되며, 특히 hard negative의 ...

Sep 13, 2025 Paper

Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval

Written by. Nandan Thakur, Crystina Zhang 1. 연구 배경 Information Retrieval 시스템의 성능은 학습 데이터 품질에 크게 의존함. 특히 hard negatives의 잘못된 라벨링이 모델의 성능 저하를 초래함. 예: MS MARCO에서는 최대 56%의 쿼리...

Sep 8, 2025 Paper

SyNeg: LLM-Driven Synthetic Hard-Negatives for Dense Retrieval

Written by. Xiaopeng Li, Xiangyang Li, Hao Zhang♢Zhaocheng Du 주요 기여 (Contributions) Multi-attribute Self-reflection Prompting LLM에게 질문-정답 쌍을 주고, 하드 네거티브 문서를 생성하도록 유도 LLM이 생성하는...

Sep 7, 2025 Paper

OG-RAG: Ontology-Grounded Retrieval-Augmented Generation for Large Language Models

Written by. Kartik Sharma, Peeyush Kumar, Yunqing Li 1. 연구 배경 LLM 한계 대규모 언어 모델(LLM)은 일반 지식에는 강하지만, 산업/전문 분야(농업, 의료, 법률 등)에서는 잘못된 정보(환각, hallucination)를 생성 기존 LLM은 질...

Aug 31, 2025 Paper

SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs

Written by. Yige Xu, Xu Guo 연구 배경 및 문제점 CoT 추론의 발전과 한계: CoT(Chain-of-Thought) 추론: 대규모 언어 모델(LLM)이 중간 추론 단계를 생성하여 복잡한 추론 작업을 해결하도록 돕는 방식. 기존 CoT 방식의 한계: 대부분의 기존 접근 방식은 ‘하드 토큰 디...

Aug 28, 2025 Paper

FinLoRA : Benchmarking LoRA Methods for Fine-Tuning LLMs on Financial Datasets

Written by. Dannong Wang, Jaisal Patel 연구 배경 및 목적 문제 인식 일반 LLM은 금융 분야에서 전문지식 부족으로 성능이 떨어짐 전체 파인튜닝(full fine-tuning) 은 시간, 비용, 자원 부담이 커서 비효율적 기존 연구(ex. FinGPT)는 일부 LoRA 적용 사례만 있고, 다양한 LoRA...

Aug 27, 2025 Paper

Quantifying Uncertainty in Answers from Any Language Model and Enhancing Their Trustworthiness

Written by. Jiuhai Chen, Jonas Mueller 배경 및 문제의식 LLM은 강력한 성능을 보이지만, 여전히 신뢰성 부족으로 인해 고위험(high-stakes) 분야에 사용하기 힘듬. 특히 hallucination 문제로 인해 그럴듯하지만 틀린 답변을 자주 생성함. 기존 불확실성 추정(uncertainty estim...

Aug 24, 2025 Paper

Chain-of-Thought Prompting Obscures Hallucination Cues in Large Language Models: An Empirical Evaluation

Written by. Jiahao Cheng, Tiancheng Su, Jia Yuan1, Guoxiu He 연구 목적 CoT prompting은 LLM의 추론력을 향상시키고 할루시네이션 빈도를 줄이지만, 그 과정에서 할루시네이션를 감지하는 데 사용되는 내부 신호를 흐리게 만들어 기존의 detection 기법을 덜 효과적으로 만든다는 가설을 검증....

Aug 23, 2025 Paper

SCAR: Data Selection via Style Consistency-Aware Response Ranking for Efficient Instruction-Tuning of Large Language Models

Written by. Zhuang Li1, Yuncheng Hua2 1. 연구 배경과 문제의식 동기: 기존 연구는 적은 수의 고품질 데이터로도 대규모 데이터보다 성능이 더 좋을 수 있다고 밝혔지만, “스타일 일관성”의 정의가 데이터 품질에 영향을 미친다는 연구는 없었음. 핵심 아이디어: 훈련 데이터 내 응답 스타일의 일관성이 LLM 성능 ...

Aug 19, 2025 Paper

Smurfs: Multi-Agent System using Context-Efficient DFSDT for Tool Planning

Written by. Junzhi Chen, Juhao Liang, Benyou Wang 1. 개요 Smurfs 대규모 언어 모델(LLM)이 외부 도구(tool)를 효과적으로 사용하여 복잡한 문제를 해결할 수 있도록 지원하는 다중 에이전트 시스템(Multi-Agent System, MAS) 기존의 DFSDT를 기반으로 하되, 그 단점을 ...

Aug 17, 2025 Paper

Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval

Written by. Google AI Team 문제 정의 LLM은 다양한 API와 도구를 호출하며 외부 기능을 활용하지만, 툴셋이 커질수록 적절한 툴을 고르는 것이 어렵고 성능 저하가 발생하고 그에 대한 이유: 토큰 길이 제한 – 수천 개의 툴을 프롬프트에 모두 포함 불가능. 변화하는 툴셋 – 툴이 자주 업데이트되어 레이블 유지가 ...

Aug 16, 2025 Paper