standard download
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210908448.8 (22)申请日 2022.07.29 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 申请人 清华大学深圳国际研究生院 (72)发明人 徐家卫 李舒兴 袁春 韩磊 (74)专利代理 机构 中国专利代理(香港)有限公 司 72001 专利代理师 张同庆 陈岚 (51)Int.Cl. B25J 9/16(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 目标对象控制方法和装置、 计算设备、 存储 介质 (57)摘要 本申请公开了一种目标对象控制方法, 包 括: 获取来源于智能体网络的多个环 境交互数据 并基于多个环 境交互数据确定候选样本数据集, 智能体网络包括执行者网络和评价网络; 将候选 样本数据集中的每个候选样本数据分别输入到 评价网络的多个子评价网络, 并利用各个自评价 网络的输出值的一致性来确定候选样本数据的 采样优先级; 根据每个候选样 本数据的采样优先 级来对候选样本数据集进行采样; 基于被采样的 候选样本数据对智能体网络进行训练; 根据经训 练的智能体网络中的执行者网络对目标对象进 行控制。 权利要求书3页 说明书14页 附图11页 CN 115284285 A 2022.11.04 CN 115284285 A 1.一种目标对象控制方法, 包括: 获取来源于智能体网络的多个环境交互数据并基于所述多个环境交互数据确定候选 样本数据集, 其中所述多个环境交互数据中的每个环境交互数据至少包括环境状态、 目标 值、 执行动作, 所述候选样 本数据集包括至少一部 分环境交互数据, 所述智能体网络包括执 行者网络和评价网络, 所述执行者网络用于基于环境状态和目标值来确定执行动作, 所述 评价网络包括多个子评价网络, 每个子评价网络用于基于所述环境状态、 所述目标值和所 述执行动作来评价所述执 行者网络; 将候选样本数据集中的每个候选样本数据分别输入到所述评价网络的多个子评价网 络, 并利用各个子 评价网络的输出值的一 致性来确定所述 候选样本数据的采样优先级; 根据所述每 个候选样本数据的采样优先级来对所述 候选样本数据集进行采样; 基于被采样的候选样本数据对所述智能体网络进行训练; 根据所述经训练的智能体网络中的执 行者网络对所述目标对象进行控制。 2.根据权利要求1所述的方法, 其中所述多个环境交互数据中每个环境交互数据还包 括反馈的环境状态; 并且其中所述获取来源于智能体网络的多个环境交互数据并基于所述多个环境交互 数据确定候选样本数据集, 包括: 获取来源于智能体网络的多个环境交 互数据; 对于所述多个环境交互数据中的至少部分环境交互数据中的每个环境交互数据, 基于 所述环境交 互数据的反馈的环境状态来 修改所述环境交 互数据的目标值; 基于经修改的至少部分环境交互数据更新所述多个环境交互数据以确定所述候选样 本数据集。 3.根据权利要求1或2所述的方法, 其中每个子评价网络的输出值为预测的奖励值, 并 且其中所述将候选样本数据集中的每个候选样本数据分别输入到所述评价网络的多个子 评价网络, 并利用各个子评价网络的输出值的一致性来确定所述候选样本数据的采样优先 级, 包括: 对于所述 候选样本数据集中的每 个候选样本数据, 分别执 行下述步骤: 将所述候选样本数据分别输入到所述评价网络的多个子评价网络, 得到多个预测的奖 励值; 利用所述候选样本数据对应的多个预测的奖励值的一致性来确定所述候选样本数据 的采样优先级。 4.根据权利要求3所述的方法, 其中所述利用所述候选样本数据对应的多个预测的奖 励值的一 致性来确定所述 候选样本数据的采样优先级, 包括: 确定所述 候选样本数据的多个预测的奖励值的方差, 作为所述 候选样本数据的方差; 根据所述候选样本数据的方差来确定所述候选样本数据的采样优先级, 其中所述候选 样本数据的采样优先级与相应的方差成负相关。 5.根据权利要求4所述的方法, 其中所述根据所述候选样本数据的方差来确定所述候 选样本数据的采样优先级, 包括: 将所述候选样本数据集的各个候选样本数据的方差中的最大的方差与所述候选样本 数据的方差的差值作为所述 候选样本数据的中间采样优先级;权 利 要 求 书 1/3 页 2 CN 115284285 A 2将所述候选样本数据集的各个候选样本数据的中间采样优先级之和作为总采样优先 级; 基于所述候选样本数据的中间采样优先级与总采样优先级之商来确定所述候选样本 数据的采样优先级。 6.根据权利要求5所述的方法, 其中所述基于所述候选样本数据的中间采样优先级与 总采样优先级之商来确定所述 候选样本数据的采样优先级, 包括: 将预设参数作为幂, 对所述候选样本数据的中间采样优先级与总 采样优先级之商进行 幂运算, 作为所述 候选样本数据的采样优先级, 其中所述预设参数 大于零。 7.根据权利要求1或2所述的方法, 其中所述根据 所述每个候选样本数据的采样优先级 来对所述 候选样本数据集进行采样, 包括: 将所述候选样本数据集的采样优先级归一化, 以得到每个候选样本数据的归一化结 果; 将每个候选样本数据的归一 化结果作为所述 候选样本数据的被采样概 率; 按照每个候选样本数据的被采样概 率来对所述 候选样本数据集进行采样。 8.根据权利要求3所述的方法, 其中每 个环境交 互数据还 包括奖励值; 并且其中所述基于被采样的候选样本数据对所述智能体网络进行训练, 包括: 对于每个智能体网络, 分别执 行下述步骤: 根据所述被采样的候选样本数据的环境状态和目标值, 使用所述智能体网络的执行者 网络来计算所述智能体网络的执 行动作; 根据所述智能体网络的执行动作、 所述被采样的候选样本数据的环境状态和目标值, 使用所述智能体网络的评价网络的多个子评价网络来预测所述智能体网络的执行动作的 奖励值; 基于所预测的奖励值和所述被采样的候选样本数据的奖励值, 对所述评价网络的参数 和相应的执 行者网络的参数进行调整。 9.根据权利要求1或2所述的方法, 其中每个环境交互数据的执行动作由所述智能体网 络中的执 行者网络根据所述环境交 互数据的环境状态和目标值而确定 。 10.根据权利要求1或2所述的方法, 其中所述执 行者网络包括多个子执 行者网络; 其中所述多个子执行者网络均包括特征提取层和预测层, 所述特征特区层用于提取所 述候选样本数据的特 征, 所述预测层用于根据所述 候选样本数据的特 征来确定执 行动作; 并且其中所述多个子执 行者网络共同使用同一特 征提取层。 11.根据权利要求10所述的方法, 其中所述共同使用的特 征提取层包括两层全连接层。 12.一种目标对象控制装置, 包括: 获取模块, 配置为获取来源于智能体网络的多个环境交互数据并基于所述多个环境交 互数据确定候选样本数据集, 其中所述多个环境交互数据中的每个环境交互数据至少包括 环境状态、 目标值、 执行动作, 所述候选样本数据集包括至少一部分环境交互数据, 所述智 能体网络包括执行者网络和评价网络, 所述执行者网络用于基于环境状态和目标值来确定 执行动作, 所述评价网络包括多个子评价网络, 每个子评价网络用于基于所述环境状态、 所 述目标值和所述执 行动作来评价所述执 行者网络; 确定模块, 配置为将候选样本数据集中的每个候选样本数据分别输入到所述评价网络权 利 要 求 书 2/3 页 3 CN 115284285 A 3
专利 目标对象控制方法和装置、计算设备、存储介质
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 16:14:08
上传分享
举报
下载
原文档
(1.5 MB)
分享
友情链接
软件开发管理制度.pdf
GB-T 10112-2019 术语工作 原则与方法.pdf
T-CACM 1230—2019 中医内科临床诊疗指南 慢性咳嗽.pdf
GB-T 10051.15-2010 起重吊钩 第15部分:叠片式单钩.pdf
GM-T 0054-2018 信息系统密码应用基本要求.pdf
GB-T 43388-2023 家用汽车产品严重安全性能故障判断指南.pdf
专利 一种智能语音调节的电动升降桌.PDF
GB-T 28420-2012 电子收费 OBE-SAM数据格式和技术要求.pdf
GB-T 41904-2022 信息技术 自动化基础设施管理 AIM 系统 要求、数据交换及应用.pdf
GB-T 33746.1-2017 近场通信(NFC)安全技术要求 第1部分:NFCIP-1安全服务和协议.pdf
GA 1800.2-2021 电力系统治安反恐防范要求 第2部分:火力发电企业.pdf
GB 42296-2022 电动自行车用充电器安全技术要求.pdf
20230129-中信建投-人工智能行业从CHAT_GPT到生成式AI(Generative AI):人工智能新范式,重新定义生产力.pdf
GB-T 28827.4-2019 信息技术服务 运行维护 第4部分:数据中心服务要求.pdf
GB-T 18916.11-2021 取水定额 第11部分:选煤.pdf
DB34-T 3047-2017 普通干线公路施工标准化指南 安徽省.pdf
GA 1800.4-2021 电力系统治安反恐防范要求 第4部分:风力发电企业.pdf
GB-T 40653-2021 信息安全技术 安全处理器技术要求.pdf
GM-T 0003.1-2012 SM2椭圆曲线公钥密码算法第1部分:总则.pdf
T-CCPS 0001—2023 易学文化水平测试标准.pdf
1
/
3
29
评价文档
赞助2元 点击下载(1.5 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。