基于DDPG的仿人形机器人仿真研究
仿人形机器人是机器人领域的重要分支,本文结合深度确定性策略梯度算法(Deep Deterministic Policy Gradient)进行仿人型机器人的步态研究,通过正态分布噪声提高对环境的探索能力进行改进,并在BipedalWalker-v2仿真环境中讨论分析加入的高斯噪声均值,标准差对学习结果的影响,以及训练过程中批数据大小对于训练速度和训练收敛值的影响.
强化学习、DDPG、人形机器人
本文系西华师范大学2018年省级大学生创新创业训练计划项目"基于强化学习的人形机器人步态研究" 项目批准号:201810638088
2020-03-19(万方平台首次上网日期,不代表论文的发表时间)
共2页
270-271