DPO 算法手动实现

博客地址：https://zhuanlan.zhihu.com/p/702774357

项目描述：

本仓库实现DPO算法，由于个人硬件有限强化的模型是qwen_0.5B, 使用lora调节模型参数。

代码组织解释

训练数据

data/train_data.json 此数据是自己造的,仅用于学习使用。虽然数据就2条，我微调了3个epochs，效果还行。后面会附带训练后的结果

model 文件

model/model.py 这里需要优化的策略模型 model/reference_model.py 参考模型，其实就是原始的qwen模型

utils 文件

这里主要有两个文件，utils/data_load.py加载数据

config.py 配置文件

dpo.py DPO核心实现

main.py 训练代码

inference.py 训练完成之后，使用该文件预测效果

微调后效果比对

输入的问题：操作说明：为一个关于回收的网站设计一个标志。 instruction：以下是描述任务的说明。编写适当地完成请求的响应。

微调之前的效果

尊敬的用户，感谢您对我们的支持！为了更好地满足您的需求，我们为您设计了一个标志。首先，我们需要确定这个标志的主题是什么。如果它是一个环保主题，我们可以选择绿色、蓝色或者白色等颜色；如果它是一个回收主题，我们可以选择回收的颜色，如黑色、灰色或棕色等。然后，我们需要考虑标志的大小和位置。一般来说，标志应该在网站的中心位置，以便于用户快速找到并使用。接下来，我们需要考虑标志的设计元素。我们可以使用一些简单的线条来表示回收，比如回收的形状、颜色等。同时，我们也可以添加一些细节，比如回收的符号或者回收的图案，以增加标志的视觉吸引力。最后，我们需要确保标志的清晰度和易读性。我们应该尽量避免使用过于复杂的字体或者图形，以免让用户感到困惑。希望这些建议能帮助您设计出一个成功的标志。如果您有任何问题，欢迎随时向我提问。

微调之后的效果

回复：感谢您的创意！我们正在努力创建一个环保且可持续的设计，以鼓励人们采取行动来保护环境。我们可以使用绿色植物、蓝色或白色作为背景色，并在标志上添加一些可回收的元素，如回收纸板或瓶子。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DPO 算法手动实现

博客地址：https://zhuanlan.zhihu.com/p/702774357

项目描述：

代码组织解释

训练数据

model 文件

utils 文件

config.py 配置文件

dpo.py DPO核心实现

main.py 训练代码

inference.py 训练完成之后，使用该文件预测效果

微调后效果比对

微调之前的效果

微调之后的效果

感觉越优化越差，训练数据和资源有限，仅供学习参考

最后一点，在训练和推理阶段，一定要使用贪婪模式

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
data		data
model		model
utils		utils
LICENSE.txt		LICENSE.txt
README.md		README.md
config.py		config.py
dpo.py		dpo.py
inference.py		inference.py
main.py		main.py
requirements.txt		requirements.txt

License

OctopusMind/DPO

Folders and files

Latest commit

History

Repository files navigation

DPO 算法手动实现

博客地址：https://zhuanlan.zhihu.com/p/702774357

项目描述：

代码组织解释

训练数据

model 文件

utils 文件

config.py 配置文件

dpo.py DPO核心实现

main.py 训练代码

inference.py 训练完成之后，使用该文件预测效果

微调后效果比对

微调之前的效果

微调之后的效果

感觉越优化越差，训练数据和资源有限，仅供学习参考

最后一点，在训练和推理阶段，一定要使用贪婪模式

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages