10.12046/j.issn.1000-5277.2024.01.011
一种基于后门技术的深度强化学习水印框架
深度强化学习(DRL)已经证明了它在各种复杂任务中的有效性,因其出色的性能使其商业化正在急剧加速.生成一个DRL模型需要大量的计算资源和专业知识,使得一个训练有素的DRL模型已经成为人工智能应用程序和产品的核心知识产权.基于对DRL模型的产权保护,防止非法抄袭、未经授权的分发和复制,提出一种后门技术的DRL水印框架DrlWF,并使用一个全新的评价指标水印动作实现比例来衡量水印性能.通过向训练状态中添加水印,并使用带有水印的水印状态训练模型从而实现将水印嵌入至模型中.框架中的水印嵌入操作可以通过将水印嵌入到少量的训练数据中(仅需 0.025%的训练数据)和不影响性能的奖励修改来实现.实验结果证明,在标准状态下,DRL模型仍具有良好的性能;在水印状态下,DRL模型性能将急剧下降,不足原有性能的 1%,且水印动作执行比例达到了 99%.通过急剧下降的性能以及模型对水印状态的动作表现,即可验证模型的所有权.此外,该水印具有良好的鲁棒性,在模型微调和模型压缩下,模型依然能够识别出水印,性能急剧下降且水印动作执行比例依旧达到了 99%以上,证明了该DRL水印具有良好的鲁棒性.
深度强化学习、知识产权保护、后门攻击、神经网络水印、黑盒模型
40
TP183(自动化基础理论)
国家自然科学基金;国家自然科学基金;福建省自然科学基金资助项目;福建省教育厅中青年教师科研项目
2024-01-19(万方平台首次上网日期,不代表论文的发表时间)
共10页
96-105