(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211131216.2
(22)申请日 2022.09.16
(71)申请人 合肥工业大 学
地址 230009 安徽省合肥市包河区屯溪路
193号
(72)发明人 何娴 欧阳波 杨善林
(74)专利代理 机构 北京久诚知识产权代理事务
所(特殊普通 合伙) 11542
专利代理师 王云海
(51)Int.Cl.
G16H 20/40(2018.01)
G16H 50/30(2018.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 10/06(2012.01)
(54)发明名称
基于深度逆向强化学习的人机协同术中风
险评估方法
(57)摘要
本发明提供一种基于深度逆向强化学习的
人机协同术中风险评估 方法, 涉及术中风险评估
技术领域。 本发明包括获取实时的手术动作, 以
及软组织状态和机器人末端执行器状态组成的
交互前状态; 根据所述实时的手术动作、 交互前
状态, 采用所述奖励神经网络获取实时的奖励
值; 根据所述实时的手术动作、 交互前状态和奖
励值, 采用风险评估神经网络获取 实时的风险评
估因子; 判断所述实时的风险评估因子是否大于
设定的阈值, 若是, 则根据智 能体网络执行操作
策略给出虚拟路径指导; 否则, 保持当前的手术
动作。 在人机协作模式下, 能够实时获取当前状
态采取动作所面临的风险估计, 并能实时给出指
导, 减少医生手术过程中的误操作, 减少术中操
作风险, 保障手术 安全。
权利要求书3页 说明书11页 附图1页
CN 115312155 A
2022.11.08
CN 115312155 A
1.一种基于深度逆向强化学习的人机协同术中风险评估方法, 其特征在于, 采用深度
逆向强化学习方法预 先构建奖励神经网络和风险评估神经网络, 该 方法包括:
S1、 获取实时的手术动作, 以及软组织状态和机器人末端执行器状态组成的交互前状
态;
S2、 根据所述实时的手术动作、 交互前状态, 采用所述奖励神经网络获取实时的奖励
值;
S3、 根据所述实时的手术动作、 交互前状态和奖励值, 采用风险评估神经网络获取实时
的风险评估因子;
S4、 判断所述实时的风险评估因子是否大于设定的阈值, 若是, 则根据智能体网络执行
操作策略给 出虚拟路径指导; 否则, 保持当前的手术动作。
2.如权利要求1所述的人机协同术中风险评估方法, 其特征在于, 所述S4中的智能体网
络的构建过程包括:
S4a、 采用专 家策略构建专 家轨迹池;
S4b、 随机初始化历史风险隐藏信息, 结合该历史风险隐藏信息构建奖励神经网络, 以
及构建风险评估神经网络和智能体网络, 并初始化各个网络的参数; 所述智能体网络包括
动作神经网络和评价神经网络;
S4c、 在某一术中任务下, 任务初始时刻, 构 建空智能体轨迹序列轨迹τ; 任务每一时刻,
获取软组织状态和机器人末端执 行器状态组成的交 互前状态st;
S4d、 将交互前状态st输入到所述动作神经网络, 输出机械臂末端速度向量作为动作值
at;
S4e、 将所述动作值at与环境进行交互, 并获取新的组织状态和机械臂末端执行器状态
组成的交互后状态st+1, 若状态st+1为终止状态或达到任务最大时长限定, 则将状态st+1作为
sT添加进轨迹序列τ中, 将轨迹序列τ={s1,a1,…,st,at,…,sT‑1,aT‑1,sT}放入智能体轨迹
池;
S4f、 将所述状态值st、 动作值at和历史风险隐藏信息ht‑1, 输入到奖励神经网络, 获取奖
励值rt与当前风险隐藏信息 ht, 并将历史风险隐藏信息 ht‑1赋值为当前风险隐藏信息 ht;
S4g、 将所述状态值st、 动作值at、 奖励值rt和当前风险隐藏信息ht, 输入到风险评估神经
网络, 得到风险评估因子 ct, ct为0~1范围内的值;
S4h、 将所述状态值st、 动作值at、 奖励值rt、 交互后状态st+1、 历史风险隐藏信息ht‑1和风
险评估因子 ct进行组合, 获取 经验六元组(st,at,rt,st+1,ht‑1,ct)并放入经验 池;
S4i、 当经验池中六元组数量达到预设容量 时, 从经验池中随机抽取出设定数量大小为
batch的经验向量, 学习获取动作神经网络和评价神经网络的参数。
3.如权利要求2所述的人机协同术中风险评估方法, 其特征在于, 所述S4中的智能体网
络的更新方向为期望获得的奖励最大化以及风险评估值 最小化, 具体包括:
评价神经网络的输入为交互前状态st、 动作值at, 结合奖励值rt和风险评估因子ct, 输出
动作价值对所选择的动作进行评价, 评价神经网络基于贝尔曼方程进行更新, 损失函数JQ
定义为:
权 利 要 求 书 1/3 页
2
CN 115312155 A
2其中, 评价神经网络包括执行网络和目标网络; θ为执行网络 的参数, Qθ(st,at)为执行
网络输出的动作价值,
为目标网络的参数,
为目标网络输出的动作价值,
γ为折扣因子,
表示求数学期望;
根据评价神经网络 输出的动作价 值对动作神经网络参数进行优化, 损失函数Jπ定义为:
其中, φ为动作神经网络的参数。
4.如权利要求3所述的人机协同术中风险评估方法, 其特征在于, 在更新动作神经网络
和评价神经网络的参数后, 从智能体轨迹池中随机抽取出设定数量大小为batch的轨迹经
验数据, 利用逆向强化学习, 获取 所述奖励神经网络的参数, 具体包括:
S100、 从所述专 家轨迹池和智能体轨 迹池中, 随机各抽取batc h大小的轨 迹经验数据;
S101、 训练奖励函数
其中,
为batch条专家轨迹的奖励均值;
为batch条智能体轨 迹的奖励均值;
r(st,at)为奖励神经网络对每一时刻的状态动作对输入得到的奖励值, T为轨迹长度, N
为轨迹条数;
S102、 设置第一损失函数
其中, w为奖励神经网络参数, 更新公式基于损失函数, 为:
α 为奖励神
经网络的学习率。
5.如权利要求4所述的人机协同术中风险评估方法, 其特征在于, 基于上述数量大小为
batch的轨迹经验 数据, 利用逆向强化学习和注意力机制相结合, 获取所述风险评估神经网
络的参数, 具体包括:
S200、 将输入的当前状态动作对元组(st,at)视为查询键Q, 用于查询当前状态 执行该动
作后带来风险的程度; 将奖励值rt设置为关键值K; 该奖励值结合了历史的风险隐藏信息
ht‑1、 将当前风险隐藏信息ht设置为V值; 并将Q值与K值作为风险评估神 经网络的第一个多
层感知机的输入, 将第一个多层感知机的输出结果mt与V值结合, 作为风险评估神经网络的
第二个多层感知机的输入;
S201、 从所述专 家轨迹池和智能体轨 迹池中, 随机各抽取batc h大小的轨 迹经验数据;
S202、 训练评估函数
权 利 要 求 书 2/3 页
3
CN 115312155 A
3
专利 基于深度逆向强化学习的人机协同术中风险评估方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:26:37上传分享