Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

chatglm3 微调,每一条训练数据的长度最大是多少? #325

Closed
mawenju203 opened this issue Nov 16, 2023 · 7 comments
Closed
Assignees

Comments

@mawenju203
Copy link

遇到的问题是:
我的训练数据长度:几十字、几百字、一两千字、四五千字;一两千字的数据占多数,现在遇到问题就是模型微调后,出现ouput输出不全的问题;尤其是当ouput训练数据为四五千字的时候,表现尤为明显;

@AHPUymhd
Copy link

请问您是在部署在Windows系统吗

@zRzRzRzRzRzRzR
Copy link
Member

理论上8k内事没有问题的,但是这种长度的微调建议全参微调

@zRzRzRzRzRzRzR
Copy link
Member

你在参数中有一个设置最大输入长度的MAX_SOURCE_LEN 和最大输出长度的MAX_TARGET_LEN 这个决定了你微调长度的上限

@mawenju203
Copy link
Author

@zRzRzRzRzRzRzR 好的,我再尝试一下;
@AHPUymhd 我是在linux服务器上部署的;

@mawenju203
Copy link
Author

@zRzRzRzRzRzRzR

我现在尝试了几次,受限资源;决定采用另外的一种方式:将所有的训练数据切分成不超过512tokens的方式;

instruction:给出以下法条章节的具体内容:
input:中国民用航空规章第121部/第135部运行规范 定义和缩写 第1部分内容:
output: xxxxxxxxxx

现在通过数据增强技术,在input 30%位置处随机添加一个字符(大小写+数字);
image

测试的时候通过输入:给出以下法条章节的具体内容:中国民用航空规章第121部/第135部运行规范 定义和缩写 第3部分内容:

实验结果:
image
请问,大佬我应该如何调整我的训练数据?

@zRzRzRzRzRzRzR zRzRzRzRzRzRzR self-assigned this Nov 24, 2023
@zRzRzRzRzRzRzR
Copy link
Member

可以到讨论区试试,微调问题我统一看讨论区

@mawenju203
Copy link
Author

好的@zRzRzRzRzRzRzR

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants