standard download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210940169.X (22)申请日 2022.08.05 (71)申请人 美的集团 (上海) 有限公司 地址 201700 上海市青浦区盈 港东路168号 9幢2层20 5室 申请人 美的集团股份有限公司 (72)发明人 徐志远 伍堃 赵一诺 车正平 奉飞飞 唐剑 (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 聂俊伟 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 机器人控制模型的训练方法和机器人控制 方法 (57)摘要 本申请涉及智能机器人技术领域, 提供一种 机器人控制模 型的训练方法和机器人控制方法, 所述机器人控制模型的训练方法, 包括: 获取机 器人在第一时刻的状态数据、 在所述第一时刻的 动作数据、 在第二时刻的状态数据和所述第一时 刻的回报值, 所述第二时刻为与所述第一时刻相 邻且在所述第一时刻之后的采集时刻; 获取多个 训练样本, 任一所述训练样本均包括所述第一时 刻的状态数据、 所述第一时刻的动作数据、 所述 第二时刻的状态数据和所述第一时刻的回报值, 所述多个训练样本用于构建离线经验池; 基于所 述离线经验池, 训练所述机器人控制模型。 本申 请的机器人控制模型的训练方法, 能够提高训练 的准确性以及安全性。 权利要求书2页 说明书17页 附图3页 CN 115319741 A 2022.11.11 CN 115319741 A 1.一种机器人控制模型的训练方法, 其特 征在于, 包括: 获取机器人在第一时刻的状态数据、 在所述第一时刻的动作数据、 在第二时刻的状态 数据和所述第一时刻的回报值, 所述第二时刻为与所述第一时刻相邻且在所述第一时刻之 后的采集时刻; 获取多个训练样本, 任一所述训练样本均包括所述第一时刻的状态数据、 所述第一时 刻的动作数据、 所述第二时刻的状态数据和所述第一时刻的回报值, 所述多个训练样本用 于构建离线经验 池; 基于所述离线经验 池, 训练所述机器人控制模型。 2.根据权利要求1所述的机器人控制模型的训练方法, 其特征在于, 所述机器人控制模 型包括第一自适应权重函数、 第二自适应权重函数、 评论家 函数和待 更新策略; 所述基于所 述离线经验 池, 训练所述机器人控制模型, 包括: 基于所述第一时刻的状态数据、 所述第一时刻的动作数据、 所述第二时刻的状态数据 以及所述第一时刻的回报值中的至少一项, 优化所述第一自适应权重函数、 所述第二自适 应权重函数、 所述待更新策略和所述评论家函数。 3.根据权利要求2所述的机器人控制模型的训练方法, 其特征在于, 所述基于所述第 一 时刻的状态数据、 所述第一时刻的动作数据、 所述第二时刻的状态数据以及所述第一时刻 的回报值中的至少一项, 优化所述第一自适应权重函数、 所述第二自适应权重函数、 所述待 更新策略和所述评论家函数, 包括: 基于所述待更新策略和所述第 一时刻的状态数据, 获取所述第 一自适应权重函数输出 的第一自适应权 重和所述评论家函数输出的第一估计回报值; 基于所述第 一时刻的状态数据和所述第 一时刻的动作 数据, 获取所述第 二自适应权重 函数输出的第二自适应权 重和所述评论家函数输出的第二估计回报值; 基于所述第一时刻的状态数据、 所述第一时刻的动作数据、 所述第二时刻的状态数据 和所述第一时刻的回报值, 获取目标评论家函数输出的目标回报值; 基于所述第 一自适应权重、 所述第 一估计回报值、 所述第 二自适应权重、 所述第 二估计 回报值和所述 目标回报值, 使用梯度下降算法分别优化所述第一自适应权重函数、 所述第 二自适应权 重函数、 所述待更新策略和所述评论家函数。 4.根据权利要求3所述的机器人控制模型的训练方法, 其特征在于, 所述基于所述待更 新策略和所述第一时刻的状态数据, 获取所述第一自适应权重函数输出的第一自适应权重 和所述评论家函数输出的第一估计回报值, 包括: 采用所述待更新策略对所述第 一时刻的状态数据进行采样, 获取所述第 一时刻的采样 动作; 将所述第一 时刻的采样动作输入至所述第 一自适应权重函数, 获取所述第 一自适应权 重函数输出的所述第一时刻的状态 ‑动作对的第一自适应权 重; 将所述第一 时刻的采样动作输入至所述评论家函数, 获取所述评论家函数输出的所述 第一时刻的状态 ‑动作对的第一估计回报值。 5.根据权利要求3所述的机器人控制模型的训练方法, 其特征在于, 所述基于所述第 一 时刻的状态数据和所述第一时刻的动作数据, 获取所述第二自适应权重函数输出的第二自 适应权重和所述评论家函数输出的第二估计回报值, 包括:权 利 要 求 书 1/2 页 2 CN 115319741 A 2将所述第一 时刻的状态数据和所述第 一时刻的动作数据输入至第 二自适应权重函数, 获取所述第二自适应权 重函数输出的所述第一时刻的状态 ‑动作对的第二自适应权 重; 将所述第一 时刻的状态数据和所述第 一时刻的动作数据输入至所述评论家函数, 获取 所述评论家函数输出的所述第一时刻的状态 ‑动作对的第二估计回报值。 6.根据权利要求2所述的机器人控制模型的训练方法, 其特征在于, 在所述基于所述第 一时刻的状态数据、 所述第一时刻的动作数据、 所述第二时刻的状态数据以及所述第一时 刻的回报值中的至少一项, 优化所述第一自适应权重函数、 所述第二自适应权重函数、 所述 待更新策略和所述评论家函数之前, 所述方法包括: 基于目标理论和第一条件, 确定所述第一自适应权重函数和所述第二自适应权重函 数; 或者, 基于自适应权重函数的代价函数, 确定所述第一自适应权重函数和所述第二自 适应权重函数。 7.一种机器人控制方法, 其特 征在于, 包括: 将获取的机器人的当前状态数据输入至如权利要求1 ‑6任一项所述的机器人控制模 型; 获取由所述机器人控制模型输出的所述当前状态数据对应的目标动作数据; 基于所述目标动作数据, 确定目标动作执行指令, 所述目标动作执行指令用于控制所 述机器人 执行目标动作。 8.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至6任一项所述机器人 控制模型的训练方法或如权利要求7 所述机器人控制方法。 9.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程 序被处理器执行时实现如权利要求1至6任一项所述机器人控制模型 的训练方法或如权利 要求7所述机器人控制方法。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1至6任一项所述机器人控制模型的训练方法或如权利要求7所述机器 人控制方法。权 利 要 求 书 2/2 页 3 CN 115319741 A 3
专利 机器人控制模型的训练方法和机器人控制方法
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 16:13:01
上传分享
举报
下载
原文档
(862.8 KB)
分享
友情链接
GB-T 22163-2008 腧穴定位图.pdf
SN-T 5410.1-2022 铅矿及主要含铅的矿渣鉴别方法 第1部分:通则.pdf
T-SDXXHQ 002—2022 山东省中小学学生配餐营养设计指南.pdf
DB22-T 3555-2023 眩晕综合征针刺治疗规范 吉林省.pdf
GB-T 29422-2012 水泥化学分析废液的处理方法.pdf
DB3301-T 0233—2018 数字化城市管理无人机信息采集管理规范 杭州市.pdf
GB-T 34520.5-2017 连续碳化硅纤维测试方法 第5部分:单纤维拉伸性能.pdf
GB-T 17903.3-2024 信息技术 安全技术 抗抵赖 第3部分:采用非对称技术的机制.pdf
GB-T 25808-2021 硫化黑2BR、3B 200%.pdf
GB-T 42209-2022 液晶显示屏用点对点 P2P 信号接口 传输协议.pdf
GM-T 0010-2012 SM2密码算法加密签名消息语法规范.pdf
DB15-T 1873—2020 大数据平台 数据接入质量规范 内蒙古自治区.pdf
GB-T 17245-2004 成年人人体惯性参数.pdf
GB-T 5171.22-2017 小功率电动机 第22部分:永磁无刷直流电动机试验方法.pdf
GB-T 30240.10-2017 公共服务领域英文译写规范 第10部分:商业金融.pdf
重点网络安全:“3保1评”(分保、等保、关保、密评).pdf
GB-T 42368-2023 高温高压条件下可燃气体 蒸气 爆炸极限测定方法.pdf
DB42-T 1505-2019 湖北美丽乡村建设规范 湖北省.pdf
JR-T 0079—2013 保险业信息系统运行维护工作规范.pdf
GB-T 39908-2021 科技计划形成的科学数据汇交 通用代码集.pdf
1
/
3
23
评价文档
赞助2元 点击下载(862.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。