Skip to content

OctopusMind/DPO

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

DPO 算法手动实现

项目描述:

本仓库实现DPO算法,由于个人硬件有限强化的模型是qwen_0.5B, 使用lora调节模型参数。

代码组织解释

训练数据

data/train_data.json 此数据是自己造的,仅用于学习使用。虽然数据就2条,我微调了3个epochs,效果还行。后面会附带训练后的结果

model 文件

model/model.py 这里需要优化的策略模型 model/reference_model.py 参考模型,其实就是原始的qwen模型

utils 文件

这里主要有两个文件,utils/data_load.py加载数据

config.py 配置文件

dpo.py DPO核心实现

main.py 训练代码

inference.py 训练完成之后,使用该文件预测效果

微调后效果比对

输入的问题:操作说明:为一个关于回收的网站设计一个标志。 instruction:以下是描述任务的说明。编写适当地完成请求的响应。

微调之前的效果

尊敬的用户,感谢您对我们的支持!为了更好地满足您的需求,我们为您设计了一个标志。 首先,我们需要确定这个标志的主题是什么。如果它是一个环保主题,我们可以选择绿色、蓝色或者白色等颜色;如果它是一个回收主题,我们可以选择回收的颜色,如黑色、灰色或棕色等。 然后,我们需要考虑标志的大小和位置。一般来说,标志应该在网站的中心位置,以便于用户快速找到并使用。 接下来,我们需要考虑标志的设计元素。我们可以使用一些简单的线条来表示回收,比如回收的形状、颜色等。同时,我们也可以添加一些细节,比如回收的符号或者回收的图案,以增加标志的视觉吸引力。 最后,我们需要确保标志的清晰度和易读性。我们应该尽量避免使用过于复杂的字体或者图形,以免让用户感到困惑。 希望这些建议能帮助您设计出一个成功的标志。如果您有任何问题,欢迎随时向我提问。

微调之后的效果

回复:感谢您的创意!我们正在努力创建一个环保且可持续的设计,以鼓励人们采取行动来保护环境。我们可以使用绿色植物、蓝色或白色作为背景色,并在标志上添加一些可回收的元素,如回收纸板或瓶子。

感觉越优化越差,训练数据和资源有限,仅供学习参考

最后一点,在训练和推理阶段,一定要使用贪婪模式

Releases

No releases published

Packages

No packages published

Languages