standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211146544.X (22)申请日 2022.09.20 (71)申请人 中国电子科技 集团公司第十五研究 所 地址 100083 北京市海淀区北四环中路21 1 号 (72)发明人 臧义华 陈如剑 梁佳 史红权  李小娟  (74)专利代理 机构 北京慧加伦知识产权代理有 限公司 16 035 专利代理师 赵敏岑 (51)Int.Cl. G06Q 10/06(2012.01) G06N 7/00(2006.01) G06Q 50/26(2012.01)G09B 9/00(2006.01) (54)发明名称 兵棋博弈策略的生成方法、 装置及存 储介质 (57)摘要 本公开的实施例提供一种兵棋博弈策略的 生成方法、 装置及存储介质, 涉及人工智能技术 领域, 解决了现有技术中兵棋博弈策略缺乏智能 性的问题。 方法包括: 获取兵棋棋局中我方棋子 与敌方棋子在每一个回合开始时刻的棋局态势; 根据所述 棋局态势以及预设奖励函数, 在所述每 一个回合重复执行预设搜索次数的蒙特卡洛树 搜索, 得到所述每一个回合的所述我方棋子的目 标动作, 并根据所述目标动作执行对弈操作; 在 所述兵棋棋局结束时, 将所述每一个回合的所述 我方棋子的目标动作、 所述 兵棋棋局结束时的棋 局态势以及所述兵棋棋局的结果, 记录为所述兵 棋棋局的兵棋博弈策略。 本公开实施例适用于兵 棋棋局的博弈 策略获取过程。 权利要求书3页 说明书12页 附图3页 CN 115222304 A 2022.10.21 CN 115222304 A 1.一种兵 棋博弈策略的生成方法, 其特 征在于, 包括: 获取兵棋棋局中我方棋子与敌方棋子在每一个回合 开始时刻的棋局态 势; 根据所述棋局 态势以及预设奖励函数, 在所述每一个回合重复执行预设搜索次数的蒙 特卡洛树搜索, 得到所述每一个回合的所述 我方棋子的目标动作, 并根据所述目标动作执 行对弈操作; 在所述兵棋棋局结束时, 将所述每一个回合的所述我方棋子的目标动作、 所述兵棋棋 局结束时的棋局态 势以及所述兵 棋棋局的结果, 记录为所述兵 棋棋局的兵 棋博弈策略。 2.根据权利要求1所述的兵棋博弈策略的生成方法, 其特征在于, 在所述获取兵棋棋局 中我方棋子与敌方棋子在每一个回合 开始时刻的棋局态 势之前, 所述方法还 包括: 获取所述兵棋棋局中我方棋子与敌方棋子的基础属性、 预设棋盘规则以及预设奖励函 数, 其中, 所述预设奖励函数包括单次行动奖励函数、 棋局结束奖励函数以及节点评估奖 励函数, 其中, 所述单次行动奖励函数是用于计算一个回合内棋子行动的奖励值, 所述单次 行动奖励函数包括移动奖励函数和攻击奖励函数, 所述棋局结束 奖励函数是用于计算所述 兵棋棋局结束后产生的奖励值, 所述节点评估奖励函数为在执行蒙特卡洛树搜索中选择节 点的依据。 3.根据权利要求2所述的兵棋博弈策略的生成方法, 其特征在于, 其中, 在一个回合内 我方棋子移动的所述移动奖励函数通过 下述方式获得: 根据 , 得到所述移动奖励函数 , 表示所述我方 棋子的移动速度, 表示所述我方棋子的最大移动速度, 表示所述我方棋子在移 动前与敌方棋子的最近距离, 表示所述我方棋子在移动后与所述敌方棋子的最近距 离。 4.根据权利要求2所述的兵棋博弈策略的生成方法, 其特征在于, 其中, 在一个回合内 我方棋子攻击敌方棋子的所述 攻击奖励函数通过 下述方式获得: 根据 , 得到所述攻击奖励 函数 , 表示受本 次攻击后敌方棋子的生命值减少量, 表示受本次攻击后生命值减少的所述敌方棋子 的棋子价值, 表示在本次攻击中所述我方棋子的攻击力, 表示本次攻击后所述我 方棋子的剩余 攻击次数。 5.根据权利要求2所述的兵棋博弈策略的生成方法, 其特征在于, 其中, 所述棋局结束 奖励函数通过 下述方式获得: 根据下述公式得到所述棋局结束奖励函数 : , 其中, 表示所述兵棋棋局结束时我方获胜的获胜 奖励值, 表示所述兵棋棋局结 束时我方失败的失败奖励值, 表示所述兵棋棋局结束时平局奖励值, 表示所述兵权 利 要 求 书 1/3 页 2 CN 115222304 A 2棋棋局结束时我方存活的棋子, 表示所述兵棋棋局结束时敌方存活的棋子, 表示棋 子生命值, 表示棋子价 值。 6.根据权利要求2所述的兵棋博弈策略的生成方法, 其特征在于, 其中, 所述节点评估 奖励函数通过 下述方式获得: 根据 , 得到所述节点评估奖励函数 , 其中, 表示当前节点的棋局奖励值, 所述棋局奖励值为所述当前节点的所有 单次行动奖励函数值 之和与棋局结束奖励函数值的累加, 表示所述当前节点的总访问次数, 表示所述 当前节点的父节点的总访问次数, 表示平衡棋局奖励和访问次数的常系数。 7.根据权利要求2所述的兵棋博弈策略的生成方法, 其特征在于, 所述根据所述棋局 态 势以及预设奖励函数, 在所述每一个回合重复执行预设搜索次数 的蒙特卡洛树搜索, 得到 所述每一个回合的所述我方棋子的目标动作包括: 步骤1: 根据当前回合 开始时刻的所述棋局态 势初始化 蒙特卡洛树的一个根节点; 步骤2: 执行所述蒙特卡洛树搜索, 并根据所述节点评估奖励函数, 选择所述节点评估 奖励函数值 最大的叶节点; 步骤3: 判断所述叶节点是否为终止节点, 若不是终止节点, 执行步骤4, 若是终止节点, 则执行步骤5; 步骤4: 根据所述我方棋子与敌方棋子的基础属性以及预设棋盘规则, 创建所述叶节点 的一个或多个子节点, 并从所述一个或多个子节 点中随机选择一个子节点作为模拟起始节 点, 从所述模拟起始节点开始, 按照随机走子策略模拟所述兵棋棋局至棋局结束, 并执行步 骤5; 步骤5: 获取所述节点以及其所有祖先节点的单次行动奖励函数值和棋局结束奖励函 数值, 并执 行步骤6; 步骤6: 将所述步骤5中获得的所述单次行动奖励函数值和棋局结束奖励函数值反向传 播, 回溯更新所述节点以及其所有祖 先节点的节点评估奖励函数值, 且搜索次数自增; 步骤7: 判断当前搜索次数是否达到所述预设搜索次数, 若未达到, 则返回步骤2, 否则 执行步骤8; 步骤8: 停止所述蒙特卡洛树搜索, 从所述蒙特卡洛树的第 二层节点中选择节点评估奖 励函数值 最大的一个节点, 将该节点对应的动作 作为所述目标动作。 8.根据权利要求2所述的兵棋博弈策略的生成方法, 其特征在于, 在所述将所述每一个 回合的所述我方棋子的目标动作、 所述兵棋棋局结束时的棋局态势以及所述兵棋棋局的结 果, 记录为所述兵 棋棋局的兵 棋博弈策略之后, 所述方法还 包括: 记录多个兵棋棋局的兵棋博弈策略, 并将多个兵棋博弈策略作为兵棋博弈策略数据样 本, 以便利用所述兵 棋博弈策略数据样本训练兵 棋博弈策略模型。 9.一种兵 棋博弈策略的生成装置, 其特 征在于, 包括: 获取模块, 用于获取兵棋棋局中我方棋子与敌方棋子在每一个回合开始时刻的棋局 态 势; 目标动作确定模块, 用于根据所述棋局态势以及预设奖励函数, 在所述每一个回合重 复执行预设搜索次数的蒙特卡洛树搜索, 得到所述每一个回合的所述我方棋子的目标动权 利 要 求 书 2/3 页 3 CN 115222304 A 3

PDF文档 专利 兵棋博弈策略的生成方法、装置及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 兵棋博弈策略的生成方法、装置及存储介质 第 1 页 专利 兵棋博弈策略的生成方法、装置及存储介质 第 2 页 专利 兵棋博弈策略的生成方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:26:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。