From 36d59a8990a3b4b6ca3832957b5efe249e8c9015 Mon Sep 17 00:00:00 2001 From: Cheolwon Jang <39438165+losskatsu@users.noreply.github.com> Date: Wed, 27 Nov 2024 09:24:22 +0900 Subject: [PATCH] Update 2024-11-27-attention-is-all-you-need.md --- .../2024-11-27-attention-is-all-you-need.md | 15 +++++++++++++-- 1 file changed, 13 insertions(+), 2 deletions(-) diff --git a/_posts/machine-learning/2024-11-27-attention-is-all-you-need.md b/_posts/machine-learning/2024-11-27-attention-is-all-you-need.md index 1cb65b21..5ada72df 100644 --- a/_posts/machine-learning/2024-11-27-attention-is-all-you-need.md +++ b/_posts/machine-learning/2024-11-27-attention-is-all-you-need.md @@ -142,5 +142,16 @@ $LayerNorm(x + sublayer(x))$ 각각의 레이어에는 두개의 서브 레이어가 존재하는것 까지는 인코더 레이어와 유사하지만 디코더에는 세번째 서브 레이어가 추가되는데, 세번째 서브레이어는 인코더 스택의 아웃풋에 대해 multi-head attention을 수행한다. - - +인코더와 유사하게, 서브 레이어 주변에 잔차 연결을 하고 normalization을 수행한다. +반면, 디코더 내부에 있는 self-attention 서브 레이어를 수정하여 +특정 위치가 현재 이후에 나오는 위치를 참조하지 못하도록 한다. +즉, 미래 정보를 참조하지 못하도록 막는다는 뜻이다. +이러한 마스킹은 출력 임베딩이 오프셋만큼 이동된다는 사실과 결합되어 +$i$번째 위치의 예측이 $i$ 이전 위치에서 알려진 아웃풋에만 의존할수있도록 보장한다. + +### 3.2 Attention + +어텐션 함수는 쿼리와 키-값 쌍의 집합을 아웃풋으로 매핑하는 방식으로 설명할 수 있다. +이때 쿼리(query), 키(key), 값(value), 아웃풋(output) 모두 벡터로 표현된다. +아웃풋은 값(value)의 가중합으로 계산되며, +각 값에 할당된 가중치는 해당 쿼리와 대응되는 키(key) 사이의 호환성 함수에 의해 계산된다.