standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210940169.X (22)申请日 2022.08.05 (71)申请人 美的集团 (上海) 有限公司 地址 201700 上海市青浦区盈 港东路168号 9幢2层20 5室 申请人 美的集团股份有限公司 (72)发明人 徐志远 伍堃 赵一诺 车正平  奉飞飞 唐剑  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 聂俊伟 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 机器人控制模型的训练方法和机器人控制 方法 (57)摘要 本申请涉及智能机器人技术领域, 提供一种 机器人控制模 型的训练方法和机器人控制方法, 所述机器人控制模型的训练方法, 包括: 获取机 器人在第一时刻的状态数据、 在所述第一时刻的 动作数据、 在第二时刻的状态数据和所述第一时 刻的回报值, 所述第二时刻为与所述第一时刻相 邻且在所述第一时刻之后的采集时刻; 获取多个 训练样本, 任一所述训练样本均包括所述第一时 刻的状态数据、 所述第一时刻的动作数据、 所述 第二时刻的状态数据和所述第一时刻的回报值, 所述多个训练样本用于构建离线经验池; 基于所 述离线经验池, 训练所述机器人控制模型。 本申 请的机器人控制模型的训练方法, 能够提高训练 的准确性以及安全性。 权利要求书2页 说明书17页 附图3页 CN 115319741 A 2022.11.11 CN 115319741 A 1.一种机器人控制模型的训练方法, 其特 征在于, 包括: 获取机器人在第一时刻的状态数据、 在所述第一时刻的动作数据、 在第二时刻的状态 数据和所述第一时刻的回报值, 所述第二时刻为与所述第一时刻相邻且在所述第一时刻之 后的采集时刻; 获取多个训练样本, 任一所述训练样本均包括所述第一时刻的状态数据、 所述第一时 刻的动作数据、 所述第二时刻的状态数据和所述第一时刻的回报值, 所述多个训练样本用 于构建离线经验 池; 基于所述离线经验 池, 训练所述机器人控制模型。 2.根据权利要求1所述的机器人控制模型的训练方法, 其特征在于, 所述机器人控制模 型包括第一自适应权重函数、 第二自适应权重函数、 评论家 函数和待 更新策略; 所述基于所 述离线经验 池, 训练所述机器人控制模型, 包括: 基于所述第一时刻的状态数据、 所述第一时刻的动作数据、 所述第二时刻的状态数据 以及所述第一时刻的回报值中的至少一项, 优化所述第一自适应权重函数、 所述第二自适 应权重函数、 所述待更新策略和所述评论家函数。 3.根据权利要求2所述的机器人控制模型的训练方法, 其特征在于, 所述基于所述第 一 时刻的状态数据、 所述第一时刻的动作数据、 所述第二时刻的状态数据以及所述第一时刻 的回报值中的至少一项, 优化所述第一自适应权重函数、 所述第二自适应权重函数、 所述待 更新策略和所述评论家函数, 包括: 基于所述待更新策略和所述第 一时刻的状态数据, 获取所述第 一自适应权重函数输出 的第一自适应权 重和所述评论家函数输出的第一估计回报值; 基于所述第 一时刻的状态数据和所述第 一时刻的动作 数据, 获取所述第 二自适应权重 函数输出的第二自适应权 重和所述评论家函数输出的第二估计回报值; 基于所述第一时刻的状态数据、 所述第一时刻的动作数据、 所述第二时刻的状态数据 和所述第一时刻的回报值, 获取目标评论家函数输出的目标回报值; 基于所述第 一自适应权重、 所述第 一估计回报值、 所述第 二自适应权重、 所述第 二估计 回报值和所述 目标回报值, 使用梯度下降算法分别优化所述第一自适应权重函数、 所述第 二自适应权 重函数、 所述待更新策略和所述评论家函数。 4.根据权利要求3所述的机器人控制模型的训练方法, 其特征在于, 所述基于所述待更 新策略和所述第一时刻的状态数据, 获取所述第一自适应权重函数输出的第一自适应权重 和所述评论家函数输出的第一估计回报值, 包括: 采用所述待更新策略对所述第 一时刻的状态数据进行采样, 获取所述第 一时刻的采样 动作; 将所述第一 时刻的采样动作输入至所述第 一自适应权重函数, 获取所述第 一自适应权 重函数输出的所述第一时刻的状态 ‑动作对的第一自适应权 重; 将所述第一 时刻的采样动作输入至所述评论家函数, 获取所述评论家函数输出的所述 第一时刻的状态 ‑动作对的第一估计回报值。 5.根据权利要求3所述的机器人控制模型的训练方法, 其特征在于, 所述基于所述第 一 时刻的状态数据和所述第一时刻的动作数据, 获取所述第二自适应权重函数输出的第二自 适应权重和所述评论家函数输出的第二估计回报值, 包括:权 利 要 求 书 1/2 页 2 CN 115319741 A 2将所述第一 时刻的状态数据和所述第 一时刻的动作数据输入至第 二自适应权重函数, 获取所述第二自适应权 重函数输出的所述第一时刻的状态 ‑动作对的第二自适应权 重; 将所述第一 时刻的状态数据和所述第 一时刻的动作数据输入至所述评论家函数, 获取 所述评论家函数输出的所述第一时刻的状态 ‑动作对的第二估计回报值。 6.根据权利要求2所述的机器人控制模型的训练方法, 其特征在于, 在所述基于所述第 一时刻的状态数据、 所述第一时刻的动作数据、 所述第二时刻的状态数据以及所述第一时 刻的回报值中的至少一项, 优化所述第一自适应权重函数、 所述第二自适应权重函数、 所述 待更新策略和所述评论家函数之前, 所述方法包括: 基于目标理论和第一条件, 确定所述第一自适应权重函数和所述第二自适应权重函 数; 或者, 基于自适应权重函数的代价函数, 确定所述第一自适应权重函数和所述第二自 适应权重函数。 7.一种机器人控制方法, 其特 征在于, 包括: 将获取的机器人的当前状态数据输入至如权利要求1 ‑6任一项所述的机器人控制模 型; 获取由所述机器人控制模型输出的所述当前状态数据对应的目标动作数据; 基于所述目标动作数据, 确定目标动作执行指令, 所述目标动作执行指令用于控制所 述机器人 执行目标动作。 8.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至6任一项所述机器人 控制模型的训练方法或如权利要求7 所述机器人控制方法。 9.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程 序被处理器执行时实现如权利要求1至6任一项所述机器人控制模型 的训练方法或如权利 要求7所述机器人控制方法。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1至6任一项所述机器人控制模型的训练方法或如权利要求7所述机器 人控制方法。权 利 要 求 书 2/2 页 3 CN 115319741 A 3

.PDF文档 专利 机器人控制模型的训练方法和机器人控制方法

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 机器人控制模型的训练方法和机器人控制方法 第 1 页 专利 机器人控制模型的训练方法和机器人控制方法 第 2 页 专利 机器人控制模型的训练方法和机器人控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:13:01上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。