[논문요약] Attention Is All You Need - Ashish Vaswani et al.(2023)
·
LLM
본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다. Abstract현재까지 기계 번역 분야에서 주류를 이루던 모델은 인코더와 디코더를 포함한 RNN 또는 CNN 기반 구조였으며, 최상위 성능 모델들도 인코더-디코더 사이에 attention 매커니즘을 적용해 왔다. Transformer 모델은 오직 attention 만으로 구성된 단순한 네트워크 구조를 제안하여, 기존 연구 문헌상의 최상위 모델들보다 학습 비용을 절감하면서 더 우수한 성능을 보였으며, 일반화 능력 역시 뛰어남을 입증하였다.WMT20..