Skip to content

Commit

Permalink
Update 2024-12-03-attention-is-all-you-need.md
Browse files Browse the repository at this point in the history
  • Loading branch information
losskatsu authored Dec 3, 2024
1 parent b8ec8c7 commit 649f3b6
Showing 1 changed file with 59 additions and 4 deletions.
63 changes: 59 additions & 4 deletions _posts/machine-learning/2024-12-03-attention-is-all-you-need.md
Original file line number Diff line number Diff line change
Expand Up @@ -487,11 +487,7 @@ $O(log_k(n))$ 레이어가 필요하다. 이는 경로의 길이를 늘려서
많은 경우 구문(syntactic)과 의미(semantic) 구조와 관련된 행동을 보이는 것처럼 보인다.
즉, 모델이 문장에서 문법적인 구조와 의미적인 관계를 잘 이해하고 있다는 뜻이다.

<br/>

<a href="http://www.yes24.com/Product/Goods/126115324" target="_blank"><img src="/assets/images/advertisement/ad-book/ad00005_dockernk8s.png" width="800" align="middle">

<br/>

## 5. Training

Expand Down Expand Up @@ -562,6 +558,13 @@ Label Smoothing. 학습하는 동안 $\epsilon_{ls}=0.1$ 값으로 라벨 스무
모델의 예측 불확실성을 측정하는 지표로서 값이 낮을수록 모델이 예측을 잘한다는 의미이다.


<br/>

<a href="http://www.yes24.com/Product/Goods/126115324" target="_blank"><img src="/assets/images/advertisement/ad-book/ad00005_dockernk8s.png" width="800" align="middle">

<br/>


## 6. Results

### 6.1 Machine Translation
Expand Down Expand Up @@ -636,8 +639,60 @@ table 3의 (B) 행에서 우리는 어텐션 키 크기($d_k$)를 줄이면 모

### 6.3 English Constituency Parsing

트랜스포머가 다른 작업에서도 뛰어난 성능을 보이는지 평가하기 위해,
우리는 영어 구문 분석(constituency parsing) 실험을 진행했다.
이 작업은 특정한 도전 과제를 제시하는데, 아웃풋은 강한 구조적 제약을 따르며,
아웃풋이 입력보다 훨씬 길다는 특징이 있다.
또한 RNN seq2seq 모델들은 데이터가 작은 환경에서 좋은 성능을 보이지는 않았다.

우리는 $d_{model}=1024$인 4개의 레이어로 구성된 트랜스포머에 Penn Treebank의
Wall Street Journal(WSJ) 데이터셋을 넣어 학습했으며,
이때 약 40,000개의 학습 문장을 사용했다.
또한 반지도학습(semi-supervised setting) 환경에서 이 모델을 학습했으며,
이때 고신뢰(high-confidence) 및 BerkeleyParser 데이터셋을 사용했으며,
약 1700만개의 문장을 포함했다.
WSJ 데이터만 사용하는 환경에서는 16,000개의 토큰으로 구성된 어휘를 사용했으며,
반지도학습 환경에서는 32,000개의 토큰으로 구성된 어휘를 사용했다.

(table 4)

Table 4. 영어 구문 분석에 사용된 트랜스포머(WSJ의 섹션 23에 대한 결과)

우리는 드롭아웃, 학습률, 그리고 빔 크기를 section 22 개발 세트에서 선택하기 위해
소수의 실험만 수행했으며, 다른 모든 하이퍼파라미터는 영어-독일어 기본 번역 모델에서
변경하지 않았다.
추론할때는 최대 출력 길이를 입력길이 + 300으로 증가시켰다.
우리는 WSJ만 사용하는 환경과 반지도 학습 환경 모두에서
빔 크기를 21로 $\alpha=0.3$으로 설정했다.

table 4의 결과는 특정 작업에 맞춘 세부적인 튜닝이 부족했음에도 불구하고,
우리의 모델이 놀라울 정도로 잘 작동한다는 것을 보여준다.
이는 RNNG(Recurrent Neural Network Grammar)을 제외한
모든 이전에 보고된 모델보다 더 나은 결과를 보여준다.

RNN seq2seq 모델과는 달리, 트랜스포머는 WSJ 학습 세트의
40,000개의 문장만으로 훈련했을 때도 Berkeley-Parser보다 더 나은 성능을 보여주었다.


## 7. Conclusion

이번 논문에서는 트랜스포머를 소개했다.
이는 어텐션 기반 최초의 시퀀스 변환 모델로,
인코더-디코더 아키텍처에서 가장 일반적으로 사용되던
순환 레이어를 다중 헤드 셀프 어텐션으로 대체했다.

번역 작업에서는 트랜스포머가 순환 레이어나 합성곱 레이어 기반
아키텍처보다 훨씬 빠르게 훈련될 수 있다.
WMT 2014 영어-독일어 및 WMT 2014 영어-프랑스어 번역 작업 모두에서
우리는 최고의 성능을 달성했다.
영어-독일어 번역 작업에서는 우리 모델이 이전의 모든 모델(앙상블 모델 포함)을 능가했다.

우리는 어텐션 기반 모델의 미래에 대해 기대하고 있으며 이를 다른 작업에도 적용할 계획이다.
우리는 트랜스포머를 텍스트 이외의 입력 및 출력형태를 포함하는 문제로
확장할 계획이며, 이미지, 오디오 및 비디오와 같은 큰 입력 및 출력을
효율적으로 처리하기 위해 지역적(local), 제한된(restricted) 어텐션 메커니즘을
연구할 계획입니다.
생성 과정을 덜 순차적으로 만드는 것 또한 우리의 연구 목표중 하나이다.

우리가 학습과 평가에 사용했던 모델은 다음 url에서 확인할 수 있다.
[https://github.com/tensorflow/tensor2tensor](https://github.com/tensorflow/tensor2tensor)

0 comments on commit 649f3b6

Please sign in to comment.