Skip to content

Commit

Permalink
add MFU
Browse files Browse the repository at this point in the history
  • Loading branch information
zhouyu committed Aug 8, 2023
1 parent 33bae8b commit 09c9782
Showing 1 changed file with 21 additions and 20 deletions.
41 changes: 21 additions & 20 deletions training/nvidia/glm-pytorch/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -20,26 +20,27 @@
### 运行情况
* 通用指标

| 指标名称 | 指标值 | 特殊说明 |
| -------------- | -------------------------------------------- | ------------------------------------------- |
| 任务类别 | 自然语言理解、无条件文本生成、有条件文本生成 | |
| 模型 | GLM | |
| 数据集 | superglue | |
| 数据精度 | precision,见“性能指标” | 可选fp32/amp/fp16 |
| 超参修改 | fix_hp,见“性能指标” | 跑满硬件设备评测吞吐量所需特殊超参 |
| 硬件设备简称 | nvidia A100 | |
| 硬件存储使用 | mem(actual/total),见“性能指标” | 通常称为“显存”,单位为GiB |
| 端到端时间 | e2e_time,见“性能指标” | 总时间+Perf初始化等时间 |
| 总吞吐量 | p_whole,见“性能指标” | 实际训练样本数除以总时间(performance_whole) |
| 训练吞吐量 | p_train,见“性能指标” | 不包含每个epoch末尾的评估部分耗时 |
| **计算吞吐量** | **p_core,见“性能指标”** | 不包含数据IO部分的耗时(p3>p2>p1) |
| 训练结果 | acc,见“性能指标” | 准确率 |
| 额外修改项 || |
| 指标名称 | 指标值 | 特殊说明 |
| ---------------- | -------------------------------------------- | ------------------------------------------- |
| 任务类别 | 自然语言理解、无条件文本生成、有条件文本生成 | |
| 模型 | GLM | |
| 数据集 | superglue | |
| 数据精度 | precision,见“性能指标” | 可选fp32/amp/fp16 |
| 超参修改 | fix_hp,见“性能指标” | 跑满硬件设备评测吞吐量所需特殊超参 |
| 硬件设备简称 | nvidia A100 | |
| 硬件存储使用 | mem(actual/total),见“性能指标” | 通常称为“显存”,单位为GiB |
| 端到端时间 | e2e_time,见“性能指标” | 总时间+Perf初始化等时间 |
| 总吞吐量 | p_whole,见“性能指标” | 实际训练样本数除以总时间(performance_whole) |
| 训练吞吐量 | p_train,见“性能指标” | 不包含每个epoch末尾的评估部分耗时 |
| **计算吞吐量** | **p_core,见“性能指标”** | 不包含数据IO部分的耗时(p3>p2>p1) |
| **计算卡使用率** | **\*MFU** | model flops utilization |
| 训练结果 | acc,见“性能指标” | 准确率 |
| 额外修改项 || |

* 性能指标

| 配置 | precision | fix_hp | e2e_time | p_whole | p_train | p_core | acc | mem |
| ------------------- | --------- | --------------- | -------- | ------- | ------- | ------ | ----- | --------- |
| A100单机8卡(1x8) | fp32 | / | 2763 | 36.5 | 42.4 | 42.4 | 0.808 | 33.0/40.0 |
| A100单机8卡(1x8) | fp32 | bs=16, lr=1e-05 | 2688 | 37.4 | 43.5 | 43.5 | 0.801 | 39.5/40.0 |
| A100单机单卡(1x1) | fp32 | bs=16, lr=1e-05 | | 0.35 | 5.5 | 5.5 | | 35.0/40.0 |
| 配置 | precision | fix_hp | e2e_time | p_whole | p_train | p_core | acc | mem | MFU |
| ------------------- | --------- | --------------- | -------- | ------- | ------- | ------ | ----- | --------- | ----- |
| A100单机8卡(1x8) | fp32 | / | 2763 | 36.5 | 42.4 | 42.4 | 0.808 | 33.0/40.0 | 0.275 |
| A100单机8卡(1x8) | fp32 | bs=16, lr=1e-05 | 2688 | 37.4 | 43.5 | 43.5 | 0.801 | 39.5/40.0 | 0.282 |
| A100单机单卡(1x1) | fp32 | bs=16, lr=1e-05 | | 0.35 | 5.5 | 5.5 | | 35.0/40.0 | |

0 comments on commit 09c9782

Please sign in to comment.