本仓库实现DPO算法,由于个人硬件有限强化的模型是qwen_0.5B, 使用lora调节模型参数。
data/train_data.json 此数据是自己造的,仅用于学习使用。虽然数据就2条,我微调了3个epochs,效果还行。后面会附带训练后的结果
model/model.py 这里需要优化的策略模型 model/reference_model.py 参考模型,其实就是原始的qwen模型
这里主要有两个文件,utils/data_load.py加载数据
输入的问题:操作说明:为一个关于回收的网站设计一个标志。 instruction:以下是描述任务的说明。编写适当地完成请求的响应。
尊敬的用户,感谢您对我们的支持!为了更好地满足您的需求,我们为您设计了一个标志。 首先,我们需要确定这个标志的主题是什么。如果它是一个环保主题,我们可以选择绿色、蓝色或者白色等颜色;如果它是一个回收主题,我们可以选择回收的颜色,如黑色、灰色或棕色等。 然后,我们需要考虑标志的大小和位置。一般来说,标志应该在网站的中心位置,以便于用户快速找到并使用。 接下来,我们需要考虑标志的设计元素。我们可以使用一些简单的线条来表示回收,比如回收的形状、颜色等。同时,我们也可以添加一些细节,比如回收的符号或者回收的图案,以增加标志的视觉吸引力。 最后,我们需要确保标志的清晰度和易读性。我们应该尽量避免使用过于复杂的字体或者图形,以免让用户感到困惑。 希望这些建议能帮助您设计出一个成功的标志。如果您有任何问题,欢迎随时向我提问。
回复:感谢您的创意!我们正在努力创建一个环保且可持续的设计,以鼓励人们采取行动来保护环境。我们可以使用绿色植物、蓝色或白色作为背景色,并在标志上添加一些可回收的元素,如回收纸板或瓶子。