(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211179911.6 (22)申请日 2022.11.15 (71)申请人 哈尔滨工业大 学 (深圳) 地址 518000 广东省深圳市南 山区桃源街 道深圳大 学城哈尔滨工业大 学校区 (72)发明人 叶兆晖 李衍杰 庞玺政 付文  卢颂硕 邓琦 牟涌金  (74)专利代理 机构 深圳市深联知识产权代理事 务所(普通 合伙) 44357 专利代理师 张琪 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/08(2012.01) G06N 3/08(2006.01) (54)发明名称 基于仓储环境的多智能通信强化学习体路 径规划方法及系统 (57)摘要 本发明涉及一种基于仓储环境的多智能通 信强化学习体 路径规划方法和系统。 其中的方法 包括: 生成地图, 获取智能体的起始点、 目标点和 障碍物信息并输入至神经网络, 通过观测值处理 模块获得智能体的自身特征, 采用基于贪心的优 先级对智能体进行分配, 基于邻接矩阵并根据分 配的优先级为每个智能体挑选邻居智能体, 每个 智能体接收各自挑选出的邻居智能体的通信消 息并形成邻居特征, 根据邻居特征与自身特征形 成最终特征, 将最终特征输入到决策网络模块中 以生成规划路径。 本发明引入通信来缓解强化学 习导致的环 境不平稳性, 通过优 先级选取通信智 能体以提高有效性, 引入一个新的死锁检测机制 使得智能体可跳出死锁。 权利要求书2页 说明书9页 附图6页 CN 115496287 A 2022.12.20 CN 115496287 A 1.一种基于仓储环境的多智能通信强化学习体路径规划方法, 其特征在于, 所述方法 包括以下步骤: S10、 生成仓储环境地图, 获取每个智能体的起始点、 目标点和障碍物信息并输入至基 于深度强化学习的神经网络; 观测值处理模块根据输入的观测值 获得每个智能体的自身 特 征; S20、 根据每个智能体的自身特征并采用基于贪心的优先级对智能体进行分配; 基于邻 接矩阵并根据分配的优先级为每个智能体挑选邻居智能体, 每个智能体接收各自挑选出的 邻居智能体的通信消息并形成邻居特 征; S30、 根据 所述邻居特征与所述自身特征形成最终特征, 将所述最终特征输入到决策网 络模块中以生成规划路径。 2.根据权利要求1所述的方法, 其特 征在于, 所述 步骤S10中: 所述观测值处理模块的观测值的输入通道包括九个, 九个所述输入通道分别为通道0 到8; 其中, 通道0包含智能体视野范围内的其他智能体的信息, 通道1包含智能体视野范围 内的障碍物 地图的信息, 通道2包含智能体视野 范围内的目标点地图的信息, 通道3至6均包 含智能体过去多个时间步的周围智能体地图的信息, 通道7包含目标点偏离地图的信息, 通 道8包含智能体是否处于异常状态的信息 。 3.根据权利要求2所述的方法, 其特 征在于, 对于所述 步骤S10, 所述神经网络包括: 用于处理所述通道0至所述通道6的输入信息的四个卷积层; 用于处理所述通道7的输入信息的第一全连接层; 用于处理所述通道8的输入信息的第二全连接层; 用于拼接所述 四个卷积层、 所述第 一全连接层和所述第 二全连接层的输出信 息的第三 全连接层, 所述第三全连接层输出 所述最后特征; 第四全连接层和第五全连接层, 其中所述最后特征分流到所述第四全连接和所述第五 全连接层中; 用于合并所述第四全连接和所述第五全连接层的输出信息的第六全连接层。 4.根据权利要求2所述的方法, 其特 征在于, 所述 步骤S20包括: S21、 获取每个智能体的当前位置到目标位置的曼哈顿距离, 将曼哈顿距离的倒数设置 为智能体的优先级; S22、 当两个智能体的曼哈顿距离相等时, 根据两个智能体的拥挤度设定优先级; 其中, 所述拥挤度表示智能体视野范围内的障碍物数量; S23、 获取当前智能体的通信范围, 计算当前智能体与其他智能体之间的当前位置距 离; 将当前位置距离在所述 通信范围内的其 他智能体设置为邻居智能体; S24、 根据设定的通信连接上限, 从当前位置距离超出所述通信范围的其他智能体 中选 择优先级最高的智能体作为邻居智能体; S24、 判断所述邻居智能体是否为已到达目标点的智能体; 若是, 则断开已到达目标点 的邻居智能体与当前智能体的通信连接 。 5.根据权利要求 4所述的方法, 其特 征在于, 所述智能体的优先级通过以下公式表示:权 利 要 求 书 1/2 页 2 CN 115496287 A 2式中, vi表示智能体, 表示智能体的视野范围内其他智能体的数量; 为表示智能 体的当前位置 到目标位置的曼哈顿距离, 表示智能体的优先级。 6.根据权利要求3所述的方法, 其特 征在于, 所述 步骤S30中: 所述第四全连接的输出为仅与状态有关而与动作无关的状态价 值函数; 所述第五全连接的输出为同时与状态和动作相关的优势函数; 所述神经网络的Q 值函数根据所述状态价 值函数和所述优势函数获得。 7.根据权利要求6所述的方法, 其特 征在于, 所述 Q值函数的输入值x计算方式如下: 其中, 式中, x表示Q网络的输入值; 表示观测值处理模块的每个智能体的自身特征输出, 表示整个多智能体系统的特征集合; wi和bi分别表示交叉网络的权重和偏差; 表示最终特征输出, 表示第i个智能体与其他智能体的一个通讯连接关系; 表示第i个智能体的邻居智能体表, 表示邻接矩阵网络的图转移算子, 其 中, 1表示会接收该邻居智能体的通信消息, 0表示 不接收该邻居智能体的通信消息 。 8.根据权利要求3所述的方法, 其特征在于, 所述神经网络的训练包括有死锁检测模 块, 所述死锁检测模块包括以下步骤: 获取智能体在过去 多个时间步的自身位置情况并通过异常状态检测模块进行检测; 若检测到当前智能体停留一个非目标点位置的时间为三个时间步以上, 则判定所述当 前智能体为停滞异常智能体; 判断所述停滞智能体的拥挤度是否大于或者等于拥挤阈值, 若是, 则对停滞异常智能体进行 预标记; 若检测到当前智能体过去四个时间步均在两个位置来 回, 则判定所述当前智能体为徘 徊异常智能体; 判断所述徘徊智能体的拥挤度是否大于或者等于拥挤阈值, 若 是, 则对徘徊 异常智能体进行 预标记; 判断所述通信范围内是否存在两个或者以上的预标记智能体, 若是, 则判定所述邻接 矩阵内的预 标记智能体处于死锁状态; 根据处于死锁状态的智能体的信息调整所述神经网络的参数。 9.一种计算机可读存储介质, 其上储存有程序指令, 所述程序指令被处理器执行时实 施如权利要求1至8中任一项所述的方法。 10.一种基于 仓储环境的多智能通信强化学习体路径规划系统, 其特 征在于, 包括: 计算机装置, 所述计算机装置包括 根据权利要求9所述的计算机可读存 储介质。权 利 要 求 书 2/2 页 3 CN 115496287 A 3

PDF文档 专利 基于仓储环境的多智能通信强化学习体路径规划方法及系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于仓储环境的多智能通信强化学习体路径规划方法及系统 第 1 页 专利 基于仓储环境的多智能通信强化学习体路径规划方法及系统 第 2 页 专利 基于仓储环境的多智能通信强化学习体路径规划方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。