[논문요약] Attention Is All You Need - Ashish Vaswani et al.(2023)
·
LLM
본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다. Abstract현재까지 기계 번역 분야에서 주류를 이루던 모델은 인코더와 디코더를 포함한 RNN 또는 CNN 기반 구조였으며, 최상위 성능 모델들도 인코더-디코더 사이에 attention 매커니즘을 적용해 왔다. Transformer 모델은 오직 attention 만으로 구성된 단순한 네트워크 구조를 제안하여, 기존 연구 문헌상의 최상위 모델들보다 학습 비용을 절감하면서 더 우수한 성능을 보였으며, 일반화 능력 역시 뛰어남을 입증하였다.WMT20..
[논문요약] A Comparison of DeepSeek and Other LLMs – Gao et al. (2025)
·
LLM
본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다. Abstract최근 공개된 DeepSeek-R1 모델은 일부 벤치마크에서 GPT-4o·Claude에 필적하는 성능을 훈련 비용의 일부만으로 달성해 주목받았다. 본 논문은 “짧은 텍스트로부터의 결과 예측”이라는 공통 프레임을 설정하고, 두 분류 과제 ① 저자 판별(Authorship Classification, AC) ② 인용 유형 분류(Citation Classification, CC)에서 DeepSeek-R1을 Claude-3.5-Sonnet,..
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - DeepSeek-AI 외 [2025]
·
LLM
본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다 AbstractDeepSeek 연구진은 대형 모델에서 학습된 추론 능력을 소형 모델에 전달(distillation)하는 방식이, 소형 모델에서 직접 강화학습(RL)로 추론 능력을 개발하는 방식보다 더 우수한 성능을 보인다는 것을 입증했습니다. 연구진은 DeepSeek-R1 모델이 생성한 추론 데이터를 기반으로 Qwen 및 Llama 계열의 다양한 소형 모델을 감독학습(SFT)만으로 fine-tuning하였고, 이 소형 모델들은 기존의 오픈소스 모델..
[논문 요약] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks - Patrick Lewis 외 [2020]
·
LLM
본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다. 논문 요약초록(Abstract)사전 훈련된 대규모 언어 모델은 매개변수 내에 사실적 지식을 저장할 수 있지만, 지식을 명확히 조작하거나 업데이트하는 것이 어렵다. 따라서 지식 집약적 NLP 과제에서는 기존 모델보다 검색 기반 접근 방식이 더욱 효과적일 수 있다.본 논문에서는 검색-증강 생성(Retrieval-Augmented Generation, RAG) 모델을 제안한다. RAG 모델은 사전 훈련된 시퀀스-투-시퀀스(seq2seq) 생성 모델과 ..
VirtualJin
'LLM' 카테고리의 글 목록