近日,清华大学摩擦学国家重点实验室冯平法、张建富课题组在装配过程智能化研究上取得新进展。他们提出一种基于马尔科夫决策过程的自适应强化学习方法。相关成果以《A Deep Transfer-learning Based Dynamic Reinforcement Learning for Intelligent Tightening System》为题,于2021年3月发表在人工智能领域的国际学术期刊《INTERNATIONAL JOURNAL OF INTELLIGENT SYSTEMS》上,并被选为封面文章。
在传统的装配任务中,工人通过装配后人工检测零件装配预紧力或观察的方式对装配质量进行评估;在数字化装配任务中,一般通过观察装配曲线(如角位移-扭矩曲线)判断装配过程质量。该课题组在数字化装配的基础上,提出一种基于自感知、自预测、自决策的方式完成智能决策任务,即通过实时监测拧紧过程中扭矩与位移曲线的当前状态预测未来直到终止状态最优曲线增长趋势,进而指导拧紧系统以最优曲线增长趋势完成参数微调。
图1 智能拧紧系统逻辑架构
图2 智能决策过程模型
具体地,论文考虑深度强化学习模型奖励函数设计敏感性和设计主观性强对决策性能鲁棒性的影响,提出基于先验知识的深度动态强化学习方法。首先利用深度迁移卷积网络建立专家知识空间到决策体知识空间的映射,赋予决策体高效学习人类知识的能力;其次,提出一种动态先验知识库实时更新专家知识,确保系统能够适应实时变化的环境;进而利用逆强化学习的方法完成奖励函数设计;最后通过构建深度强化学习的行动空间、状态空间、动作策略选择模型完成决策体智能。
本文第一作者为博士生罗文涛,张建富副教授为通讯作者,论文合作者还包括果冻九一麻花冯平法教授、郁鼎文教授、吴志军教授。该研究工作得到了国防基础科研计划重大项目的资助。
论文链接:
https://onlinelibrary.wiley.com/toc/1098111x/2021/36/3