From 36d59a8990a3b4b6ca3832957b5efe249e8c9015 Mon Sep 17 00:00:00 2001
From: Cheolwon Jang <39438165+losskatsu@users.noreply.github.com>
Date: Wed, 27 Nov 2024 09:24:22 +0900
Subject: [PATCH] Update 2024-11-27-attention-is-all-you-need.md

---
 .../2024-11-27-attention-is-all-you-need.md       | 15 +++++++++++++--
 1 file changed, 13 insertions(+), 2 deletions(-)

diff --git a/_posts/machine-learning/2024-11-27-attention-is-all-you-need.md b/_posts/machine-learning/2024-11-27-attention-is-all-you-need.md
index 1cb65b21..5ada72df 100644
--- a/_posts/machine-learning/2024-11-27-attention-is-all-you-need.md
+++ b/_posts/machine-learning/2024-11-27-attention-is-all-you-need.md
@@ -142,5 +142,16 @@ $LayerNorm(x + sublayer(x))$
 각각의 레이어에는 두개의 서브 레이어가 존재하는것 까지는 인코더 레이어와 유사하지만 
 디코더에는 세번째 서브 레이어가 추가되는데, 
 세번째 서브레이어는 인코더 스택의 아웃풋에 대해 multi-head attention을 수행한다. 
-
-
+인코더와 유사하게, 서브 레이어 주변에 잔차 연결을 하고 normalization을 수행한다. 
+반면, 디코더 내부에 있는 self-attention 서브 레이어를 수정하여 
+특정 위치가 현재 이후에 나오는 위치를 참조하지 못하도록 한다. 
+즉, 미래 정보를 참조하지 못하도록 막는다는 뜻이다. 
+이러한 마스킹은 출력 임베딩이 오프셋만큼 이동된다는 사실과 결합되어 
+$i$번째 위치의 예측이 $i$ 이전 위치에서 알려진 아웃풋에만 의존할수있도록 보장한다. 
+
+### 3.2 Attention
+
+어텐션 함수는 쿼리와 키-값 쌍의 집합을 아웃풋으로 매핑하는 방식으로 설명할 수 있다. 
+이때 쿼리(query), 키(key), 값(value), 아웃풋(output) 모두 벡터로 표현된다. 
+아웃풋은 값(value)의 가중합으로 계산되며, 
+각 값에 할당된 가중치는 해당 쿼리와 대응되는 키(key) 사이의 호환성 함수에 의해 계산된다.