standard download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111517699.5 (22)申请日 2021.12.13 (71)申请人 南京理工大 学 地址 210094 江苏省南京市孝陵卫20 0号 (72)发明人 陆宝春 张哲 葛超 张卫 孙子昊 (74)专利代理 机构 南京理工大 学专利中心 32203 代理人 汪清 (51)Int.Cl. G06Q 10/06(2012.01) G06F 30/20(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 111/04(2020.01)G06F 111/06(2020.01) (54)发明名称 一种基于深度强化学习适应机器状态的车 间调度方法 (57)摘要 本发明公开了一种基于深度强化学习适应 机器状态的车间调度方法, 该方法基于多智能体 Actor Critic的深度强化学习框架, 结合机器运 行效率值获取单步动作的奖惩值, 经验池记录全 部工件智能体状态、 动作、 即时奖励以及各机器 的实时效率值, 指导Actor网络进行网络参数修 正, 最终获得考虑机器运载情况下的最优车间调 度方案。 相比于现有技术, 本方法能够快速建立 机器故障情况下的调度策略, 减少出现机器状态 变化时引起的重调度时间, 更具有灵活性, 符合 实际车间生产情况, 提高车间生产效率。 权利要求书3页 说明书8页 附图3页 CN 114219274 A 2022.03.22 CN 114219274 A 1.一种基于深度强化学习适应机器 状态的车间调度方法, 其特 征在于, 包括以下步骤: 步骤1: 以混合流水车间调度问题作为研究对象, 根据车间存在并行机且机器状态动态 变化的生产特征建立目标函数以及约束条件, 将原始的组合优化问题转变为工件智能体的 连续决策问题, 初始化混合 流水车间调度模型, 初始化工件智能体初始状态s0; 步骤2: 在一个状态序列中, 工件智能体当前状态st, 基于Softmax策略概率性选择行为 at, 获得奖励rt并且进入下一个状态st+1, 所有工件智能体将经验以统一的形式放入到经验 池中; 经验池记录全部工件智能体 以及机器效率值的集合, 包括工件智能体在t时刻的状 态、 所有机器在t时刻的效率值、 工件智能体在t时刻做出的行为决策、 工件智能体做出行为 决策后此次获取到的奖惩 值、 工件智能体执 行动作at进入下一时刻后所处的状态; 步骤3: 判断当前经验池样本容量D是否达到单批次样本需求数Batch_Size, 若达到, 进 入步骤4; 若没有达 到, 不进行 此次学习, 进入步骤6 。 步骤4: Critic从经验池中提取Batch_Size个数的经验记录, 对Critic网络进行训练; 根据Critic网络输出价值函数值, 计算出的均方损失误差loss对Critic网络参数w的梯度 进行更新, 输出平均奖励的时序差分误差TD_Er ror指导Actor进行 策略梯度修 正; 步骤5: Actor基于平均奖励的时序差分误差TD_Error, 采用小梯度下降算法更新策略 梯度目标网络的参数θ; 步骤6: 判断是否终止学习过程: 若出现终止信号, 任务终止; 若没有出现终止信号, 返 回步骤2, 进行 下一回合的训练; 步骤7: 工件智能体进行下一 回合训练任务之前, 判断当前训练片段数是否达到最大训 练片段数, 若达到最大训练片段数, 输出工件智能体最优状态序列对应的行为策略组合B, 终止任务; 若未达 到最大训练片段 数, 则继续执 行训练任务, 执 行步骤2。 2.根据权利要求1所述的基于深度强化学习适应机器状态的车间调度方法, 其特征在 于, 步骤1中, 目标函数为: (1)基于最大完 工时间H的目标函数为: (2)基于车间利用率γ1的目标函数为: 约束条件为: (1)限制工序只能由一台设备独立加工: (2)限制前一道工序结束才能开始下一道的加工: (3)限制一个机器不能同时加工多道工序: Silk≥Ei′l′k′权 利 要 求 书 1/3 页 2 CN 114219274 A 2其中i代表工件的序号, n为总工件数; k代表机器的序号, m为总机器数; l代表工序的序 号, 其oi代表第i个工件的总工序数; oil代表第i个工件的第l道工序; Ail代表可对第i个工件 的第l道工序加 工的机器集合; Silk代表第i个工件在第l道工序选择第k个机器进行加工的 开始加工时间; Ci代表第i个工件的完工时间; tilk代表第i个工件在第l道工序选择第k个机 器进行加工的加工时间; δk代表第k个机器当前的加工状态; Xilk代表第i个工件在第l道工 序是否选择第k个机器进行加工; Ei′l′k′代表第k个机器上 前一个加工 子批任务的结束时间。 3.根据权利要求1所述的一种基于深度强化学习适应机器状态的车间调度方法, 其特 征在于, 所述 步骤2过程如下: 步骤21: 采用Softmax策略对于当前每个动作的平均奖励值转换为发生下一个动作的 概率; 步骤22: 工件智能体会根据计算出的概率值, 尝试进行下一步动作, 并获取到奖惩值; 根据奖惩规则获得本次行为的奖惩情况, Critic经验池将记录本次工件智能体状态变化、 行为选择、 现有机器效率 值以及获取的奖惩 值情况。 4.根据权利要求3所述的一种基于深度强化学习适应机器状态的车间调度方法, 其特 征在于, 步骤2 2中奖惩规则的设定为: (1)工件正常完成某道工序, 获得该道工序的奖励值, 最终奖励值与完成时间相关; (2) 工件智能体选择了不能对其现有状态进行加工的机器, 获得相应的惩罚值, 进入缓冲区; (3)工件智能体选择机器的奖励值会在原有的基础上乘以机器当前状态的效率值, 获得当 前机器状态下的最终奖励值; (4)工件选择了正在加工状态的机器, 则进入缓冲区, 并获得 对应的惩罚值, 惩罚值会随着缓冲时间的延长而变大; (5)出现机器智能体无工件加工, 随 时间的延长获得相应的惩罚值。 5.根据权利要求4所述的一种基于深度强化学习适应机器状态的车间调度方法, 其特 征在于, 奖励值的计算公式为: 其中rt为全部工件智能体在tu‑1到tu决策时刻获得的最终奖惩值; δk(t)表示t时刻第k 个机器的效率值; 其中c、 p、 均为常量; δi(t)表示t时刻第i个工件所处的状态; sk表 征第k个机器当前的运行状态; rlk代表在第l道工序 上选择第k个机器完成加工所获得的奖 励值。 6.根据权利要求1所述的基于深度强化学习适应机器状态的车间调度方法, 其特征在 于, 步骤4中基于均方损失误差对Critic网络参数w梯度更新, 均方损失误差为多个工件智 能体的目标价值与Crit ic的神经网络输出价值的权重, 其中智能体的目标价值计算分成两权 利 要 求 书 2/3 页 3 CN 114219274 A 3
专利 一种基于深度强化学习适应机器状态的车间调度方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 19:52:49
上传分享
举报
下载
原文档
(1001.2 KB)
分享
友情链接
GB-T 32371.2-2015 低溶剂型或无溶剂型胶粘剂涂敷后释放特性的短期测量方法 第2部分:挥发性有机化合物的测定.pdf
GB-T 23724.1-2016 起重机 检查 第1部分:总则.pdf
WS 373.1-2012 医疗服务基本数据集 第1部分:门诊摘要.pdf
GB-T 37033.3-2018 信息安全技术 射频识别系统密码应用技术要求 第3部分:密钥管理技术要求.pdf
T-CIECCPA 039—2023 垃圾焚烧电力碳足迹量化与评价方法.pdf
SC-T 9404-2012 水下爆破作业对水生生物资源及生态环境损害评估方法.pdf
DB5301-T 99-2023 改性磷石膏综合利用 矿山生态修复 过程环境监管规范 昆明市.pdf
GB-T 32498-2016 金属基复合材料 拉伸试验 室温试验方法.pdf
T-CSTM 00065—2019 丙烯酸催化剂.pdf
T-NAHIEM 93—2023 麻醉科建设与设备配置.pdf
GB-T 37092-2018 信息安全技术 密码模块安全要求.pdf
GB-T 26610.3-2014 承压设备系统基于风险的检验实施导则 第3部分:风险的定性分析方法.pdf
GB-T 41630-2022 智能泊车辅助系统性能要求及试验方法.pdf
T-CCGA 40005—2021 加氢站用液驱活塞氢气压缩机安全使用技术规范.pdf
ISO IEC 27000-2020.pdf
GB-T 40428-2021 电动汽车传导充电电磁兼容性要求和试验方法.pdf
T-BAAP 0316—2022 微高压氧舱标准.pdf
GB-T 20234.4-2023 电动汽车传导充电用连接装置 第4部分:大功率直流充电接口.pdf
GB-T 22048-2022 玩具及儿童用品中特定邻苯二甲酸酯增塑剂的测定.pdf
法律法规 贵阳市大数据安全管理条例2021-06-07.pdf
1
/
3
15
评价文档
赞助2元 点击下载(1001.2 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。