GPT-2 Training Script

This repository contains a PyTorch implementation for training and fine-tuning GPT-2 models. The main script train_gpt2.py provides functionality for training GPT-2 models with various configurations and supports both single-GPU and distributed training setups.

Simple Launch (Single GPU)

python train_gpt2.py

Distributed Training (Multiple GPUs)

torchrun --standalone --nproc_per_node=8 train_gpt2.py

Training Parameters

Learning Rate: 6e-4
Weight Decay: 0.1
Block Size: 1024
Vocabulary Size: 50,257 (GPT-2 tokenizer)

License

This project is part of the build-nanogpt repository.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
fineweb.py		fineweb.py
hellaswag.py		hellaswag.py
image.png		image.png
input.txt		input.txt
play.ipynb		play.ipynb
train_gpt2.py		train_gpt2.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

GPT-2 Training Script

Simple Launch (Single GPU)

Distributed Training (Multiple GPUs)

Training Parameters

License

About

Releases

Packages

Languages

License

aynursusuz/build-nanogpt

Folders and files

Latest commit

History

Repository files navigation

GPT-2 Training Script

Simple Launch (Single GPU)

Distributed Training (Multiple GPUs)

Training Parameters

License

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages