CollabEval: Enhancing LLM-as-a-Judge via Multi-Agent Collaboration
Written By. Yiyue Qian, Shinan Zhang, Yun Zhou, Haibo Ding, Diego Socolinsky, Yi Zhang 1. 문제 정의 배경 AI 생성 결과를 사람이 아니라 LLM이 평가하는 LLM-as-a-Judge 패러다임의 확산 문제 1: 단일 LLM 평가의 편향 ...
Written By. Yiyue Qian, Shinan Zhang, Yun Zhou, Haibo Ding, Diego Socolinsky, Yi Zhang 1. 문제 정의 배경 AI 생성 결과를 사람이 아니라 LLM이 평가하는 LLM-as-a-Judge 패러다임의 확산 문제 1: 단일 LLM 평가의 편향 ...
Written By. Darren Edge, Ha Trinh, Newman Cheng, Joshua Bradley, Alex Chao, Apurva Mody, Steven Truitt, Dasha Metropolitansky, Robert Osazuwa Ness 1. 문제 정의 전통적인 RAG는 질의와 의미적으로 가까운 텍스트 조각을 몇 개 ...
Written By. Weijian Jian, Yajun Zhang, Dawei Liang, Chunyu Xie, Yixiao He, Dawei Leng, Yuhui Yin 1. 문제정의 목표 이 논문이 풀려는 핵심 목표는 텍스트, 이미지, 비디오, 시각 문서(visual document)까지 아우르는 multimodal universal 임베딩...
Written By. Xiaojie Li, Chu Li, Shi-Zhe Chen, Xi Chen 1. 문제 정의 Universal Multimodal Retrieval (UMR)은 질의(query) 와 후보(candidate) 가 텍스트/이미지/텍스트+이미지 등 다양한 모달리티 조합을 가질 수 있음 instruction에 따라 검색 목표...
Written By. Yake Wei, Yu Miao, Dongzhan Zhou, Di Hu 1. 문제 정의 배경: MLLM의 PEFT가 LLM 방법을 그대로 가져오면서 생기는 문제 MLLM(멀티모달 LLM)은 보통 비텍스트(이미지/오디오/스피치) 입력을 인코더로 특징 추출한 뒤, projector(Q-former/MLP 등) 로 LLM...
Written By. Zilin Xiao, Qi Ma, Mengting Gu 1. 문제 정의 멀티모달 검색의 기본 접근의 병목: “표현력 vs 효율” 트레이드오프 (A) Single-vector 임베딩 쿼리/후보를 각각 “하나의 벡터”로 압축하면 인덱스/서치가 매우 효율적이지만, 멀티모달에서 중요한 fine-grained(...
Written By. Tiansheng Wen, Yifei Wang, Zequn Zeng 1. 문제 정의 1.1. 배경: Adaptive Embedding이 필요한 이유 정보 검색(search), RAG, 벡터DB에서 임베딩의 길이는 성능과 비용을 결정하는 핵심 파라미터다. 긴 embedding → 정확도↑, 계산량↑, 비용↑ 짧은 e...
Written By. Pengfei Zhao, Rongbo Luan, Wei Zhang (APPLE) 배경 및 문제의식 1-1. 크로스모달 리트리벌과 모달리티 갭 문제 CLIP류 모델은 대규모 이미지–텍스트 쌍으로 contrastive learning을 수행해 좋은 성능을 보이지만, 여전히 모달리티 갭(modality gap) 이 존재: ...
Written By. Jihai Zhang, Xiaoye Qu 1. 문제 정의: 기존 CLIP의 구조적 한계 기존 CLIP은 강력하지만 다음과 같은 근본적 한계가 있음: CLIP은 feature space의 일부만 사용 특정 시멘틱 정보(예: 색)에는 민감하지만 texture·shape·orientation 등 다른 feature를 잘 못...
Written By. Biao Zhang, Lixin Chen, Tong Liu 배경 및 문제 정의 LLM은 문맥을 잘 이해하고 표현하기 위해 고차원 임베딩(예: 1024~4096 차원)을 생성하지만 아래와 같은 문제 존재: 저장 비용 증가 실시간 검색 시 연산량 급증 차원의 저주(Curse of Dimensionality)로 인한 ...
Written By. Anjia Cao, Xing Wei, Zhiheng Ma FLAME(Frozen Large Language Models Enable data-efficient language-image pre-training)은 Frozen LLM을 텍스트 인코더로 활용하여 기존 CLIP 모델의 한계를 극복하는 새로운 프레임워크 1. ...
2025 EMNLP Oral Written By. Sotaro Takeshita, Yurina Takeshita, Daniel Ruffinelli, Simone Paolo Ponzetto 1. 연구 개요 텍스트 임베딩의 차원을 무작위로 제거했을 때 다운스트림 작업(검색·분류·생성)의 성능에 어떤 영향을 미치는지를 체계적으로 분석 주요 관찰...
2025 EMNLP Oral Written By. Xujia Wang, Yunjia Qi, Bin Xu 개요 LoSiA는 고순위(high-rank) 파라미터 업데이트를 수행하면서도 낮은 계산 비용과 낮은 메모리 사용량을 유지하는 서브넷 기반 미세조정 방법 핵심 아이디어는 전체 모델이 아닌, gradient sparsity를 기반으로 가장 ...
Written By. Junjie Ye, Yuming Yang, Yang Nan, Shuo Li, Qi Zhang 연구 목적 LLM은 사전학습(pre-training) 과정에서 대규모 지식을 학습하고, 이후 SFT나 RLHF로 조정됨. 하지만 SFT가 실제로 모델의 지식에 어떤 영향을 미치는지에 대한 체계적인 분석은 부족함. 본 논문은...
Written By. Chang Su, Dengliang Shi, Siyuan Huang, Jintao Du 배경 및 문제점 기존의 LLM 기반 임베딩 기법은 주로 [EOS]와 같은 마지막 토큰의 임베딩을 전체 문장의 대표 벡터로 사용 하지만 이 [EOS] 토큰은 pretraining 중에 의미 정보를 담도록 학습되지 않기 때문에, inf...
Written By. Chao Huang, Fengran Mo, Yufeng Chen, Changhao Guan 1. 연구 목적 및 배경 기존 연구는 주로 모델 아키텍처 개선에 집중했지만, 이 논문은 데이터 활용도를 높이는 방식에 초점을 맞춤. 핵심 문제는 false negatives와 비효율적인 mini-batch 구성 이를 해결하기...
Written by. Shiyu Li, Yang Tang, Ruijie Liu, Shi-Zhe Chen, Xi Chen EMNLP 2025 Oral 1. Conan-embedding-v2: 모델의 등장 배경과 필요성 배경 기존 LLM 기반 임베딩 모델은 뛰어난 성능을 보여왔지만, LLM과 임베딩 모델 간의 훈련 패러다임 격...
Written by. Zihua Zhao, Feng Hong, Mengxi Chen 논문 개요 및 배경 이미지-텍스트 쌍을 위한 대규모 contrastive learning은 성능이 뛰어나지만 학습 비용이 매우 큼. 학습 효율성을 높이기 위한 방법으로 sample selection이 주목받고 있음 기존 방식은: 오프...
Written by. Yang Liu, Wentao Feng, Zhuoyao Liu 개요 이 논문은 이미지-텍스트 매칭(Image-Text Matching, ITM) 성능을 향상시키기 위해 텍스트 임베딩의 정보량(Information Capacity)에 주목 기존 방법들이 짧고 간결한 텍스트에만 의존하여 시멘틱 정렬을 시도하는 한계를 극복...
Written by. Tengyu Pan, Zhichao Duan, Zhenyu Li 1. 연구 배경 텍스트 임베딩 모델은 문장을 벡터로 변환해 의미적 유사도를 계산하는 데 핵심적 역할. 일반적으로 (query, positive, negative) 구조로 contrastive learning으로 학습되며, 특히 hard negative의 ...
Written by. Nandan Thakur, Crystina Zhang 1. 연구 배경 Information Retrieval 시스템의 성능은 학습 데이터 품질에 크게 의존함. 특히 hard negatives의 잘못된 라벨링이 모델의 성능 저하를 초래함. 예: MS MARCO에서는 최대 56%의 쿼리...
Written by. Xiaopeng Li, Xiangyang Li, Hao Zhang♢Zhaocheng Du 주요 기여 (Contributions) Multi-attribute Self-reflection Prompting LLM에게 질문-정답 쌍을 주고, 하드 네거티브 문서를 생성하도록 유도 LLM이 생성하는...
Written by. Kartik Sharma, Peeyush Kumar, Yunqing Li 1. 연구 배경 LLM 한계 대규모 언어 모델(LLM)은 일반 지식에는 강하지만, 산업/전문 분야(농업, 의료, 법률 등)에서는 잘못된 정보(환각, hallucination)를 생성 기존 LLM은 질...
Written by. Yige Xu, Xu Guo 연구 배경 및 문제점 CoT 추론의 발전과 한계: CoT(Chain-of-Thought) 추론: 대규모 언어 모델(LLM)이 중간 추론 단계를 생성하여 복잡한 추론 작업을 해결하도록 돕는 방식. 기존 CoT 방식의 한계: 대부분의 기존 접근 방식은 ‘하드 토큰 디...
Written by. Dannong Wang, Jaisal Patel 연구 배경 및 목적 문제 인식 일반 LLM은 금융 분야에서 전문지식 부족으로 성능이 떨어짐 전체 파인튜닝(full fine-tuning) 은 시간, 비용, 자원 부담이 커서 비효율적 기존 연구(ex. FinGPT)는 일부 LoRA 적용 사례만 있고, 다양한 LoRA...
Written by. Jiuhai Chen, Jonas Mueller 배경 및 문제의식 LLM은 강력한 성능을 보이지만, 여전히 신뢰성 부족으로 인해 고위험(high-stakes) 분야에 사용하기 힘듬. 특히 hallucination 문제로 인해 그럴듯하지만 틀린 답변을 자주 생성함. 기존 불확실성 추정(uncertainty estim...
Written by. Jiahao Cheng, Tiancheng Su, Jia Yuan1, Guoxiu He 연구 목적 CoT prompting은 LLM의 추론력을 향상시키고 할루시네이션 빈도를 줄이지만, 그 과정에서 할루시네이션를 감지하는 데 사용되는 내부 신호를 흐리게 만들어 기존의 detection 기법을 덜 효과적으로 만든다는 가설을 검증....
Written by. Zhuang Li1, Yuncheng Hua2 1. 연구 배경과 문제의식 동기: 기존 연구는 적은 수의 고품질 데이터로도 대규모 데이터보다 성능이 더 좋을 수 있다고 밝혔지만, “스타일 일관성”의 정의가 데이터 품질에 영향을 미친다는 연구는 없었음. 핵심 아이디어: 훈련 데이터 내 응답 스타일의 일관성이 LLM 성능 ...
Written by. Junzhi Chen, Juhao Liang, Benyou Wang 1. 개요 Smurfs 대규모 언어 모델(LLM)이 외부 도구(tool)를 효과적으로 사용하여 복잡한 문제를 해결할 수 있도록 지원하는 다중 에이전트 시스템(Multi-Agent System, MAS) 기존의 DFSDT를 기반으로 하되, 그 단점을 ...
Written by. Google AI Team 문제 정의 LLM은 다양한 API와 도구를 호출하며 외부 기능을 활용하지만, 툴셋이 커질수록 적절한 툴을 고르는 것이 어렵고 성능 저하가 발생하고 그에 대한 이유: 토큰 길이 제한 – 수천 개의 툴을 프롬프트에 모두 포함 불가능. 변화하는 툴셋 – 툴이 자주 업데이트되어 레이블 유지가 ...