像编辑问题,迫切需要开发一种将人类反馈与基于扩散的模型相结合的模型。对于 instructgpt 和 chatgpt 等大型语言模型,我们通常首先学习奖励函数来反映人类对生成的文本输出的关注或偏好,然后利用强化学习 (rl) 算法(例如近端策略优化 (ppo))来微调模型。这个过程通常称为带人类反馈的强化学习 (rlhf)。
核心挑战是如何利用 rlhf 来微调基于扩散的生成模型。这是因为在微调过程中应用 ppo 来最大化奖励可能会非常昂贵,因为每个采样图像都需要数百或数千个去噪步骤。此外,即使使用快速采样方法,将梯度信号反向传播到 u-net 的参数仍然具有挑战性。
方法
所提出的 hive 包括三个步骤。
指导监督训练。我们遵循 instructpix2pix 的方法来收集训练数据并微调扩散模 泰國手機號 型。具体来说,我们对结合了我们新收集的 1.1m 训练数据和来自 instructpix2pix 的数据的数据集进行指导监督微调。采用提出的循环一致性方法来提高数据集的规模。
对于每个输入图像和编辑指令对,我们要求人工注释者对步骤 1 中微调模型的变体输出进行排序,这为我们提供了奖励学习数据集。然后,我们使用收集到的数据集训练基于 blip 的奖励模型 (rm),以反映人类偏好。
我们估算步骤 1 中使用的每个训练数据的奖励,并整合奖励以使用我们提出的目标执行人工反馈扩散模型微调。所提出的微调方法具有计算效率,并且与监督微调相比成本相似。