Skip to content

Commit

Permalink
Update 2024-11-27-attention-is-all-you-need.md
Browse files Browse the repository at this point in the history
  • Loading branch information
losskatsu authored Nov 27, 2024
1 parent 1499cdf commit 36d59a8
Showing 1 changed file with 13 additions and 2 deletions.
15 changes: 13 additions & 2 deletions _posts/machine-learning/2024-11-27-attention-is-all-you-need.md
Original file line number Diff line number Diff line change
Expand Up @@ -142,5 +142,16 @@ $LayerNorm(x + sublayer(x))$
각각의 레이어에는 두개의 서브 레이어가 존재하는것 까지는 인코더 레이어와 유사하지만
디코더에는 세번째 서브 레이어가 추가되는데,
세번째 서브레이어는 인코더 스택의 아웃풋에 대해 multi-head attention을 수행한다.


인코더와 유사하게, 서브 레이어 주변에 잔차 연결을 하고 normalization을 수행한다.
반면, 디코더 내부에 있는 self-attention 서브 레이어를 수정하여
특정 위치가 현재 이후에 나오는 위치를 참조하지 못하도록 한다.
즉, 미래 정보를 참조하지 못하도록 막는다는 뜻이다.
이러한 마스킹은 출력 임베딩이 오프셋만큼 이동된다는 사실과 결합되어
$i$번째 위치의 예측이 $i$ 이전 위치에서 알려진 아웃풋에만 의존할수있도록 보장한다.

### 3.2 Attention

어텐션 함수는 쿼리와 키-값 쌍의 집합을 아웃풋으로 매핑하는 방식으로 설명할 수 있다.
이때 쿼리(query), 키(key), 값(value), 아웃풋(output) 모두 벡터로 표현된다.
아웃풋은 값(value)의 가중합으로 계산되며,
각 값에 할당된 가중치는 해당 쿼리와 대응되는 키(key) 사이의 호환성 함수에 의해 계산된다.

0 comments on commit 36d59a8

Please sign in to comment.