专利 预训练模型微调训练方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210965690.9 (22)申请日 2022.08.12 (65)同一申请的已公布的文献号申请公布号 CN 115042191 A (43)申请公布日 2022.09.13 (73)专利权人季华实验室地址 528200 广东省佛山市南海区桂城街道环岛南路28号 (72)发明人杨远达　林才纺　赵旭东　张梦瑶　 (74)专利代理机构佛山市海融科创知识产权代理事务所(普通合伙) 44377 专利代理师许家裕 (51)Int.Cl. B25J 9/16(2006.01)(56)对比文件 CN 114670210 A,202 2.06.28 CN 112677156 A,2021.04.20 WO 202108610 6 A1,2021.0 5.06 CN 1097326 05 A,2019.0 5.10 审查员潘玉芬 (54)发明名称预训练模型微调训练方法、装置、电子设备及存储介质 (57)摘要本申请属于机械臂控制技术领域，公开了一种预训练模型微调训练方法、装置、电子设备及存储介质，通过采集机械臂在摩擦力补偿模型不参与控制过程的条件下执行工作任务时的运动指令数据，以对摩擦力补偿模型的安全性进行检测；若摩擦力补偿模型安全，则多次采集微调数据集对摩擦力补偿模型进行调整训练，以得到对应的优化模型和损失函数值；根据优化模型和对应的损失函数值，进行备选最优模型更新处理；对最新的备选最优模型进行实际运行测试，根据测试结果进行最优模型的更新处理；从而可高效地完成对经过预训练的摩擦力补偿模型的微调训练，以提高摩擦力补偿模型与实际应用该摩擦力补偿模型的机械臂的匹配度，从而提高控制精度。权利要求书2页说明书15页附图2页 CN 115042191 B 2022.11.08 CN 115042191 B 1.一种预训练模型微调训练方法，用于对经过预训练的摩擦力补偿模型进行在线微调训练，所述摩擦力补偿模型为机械臂的摩擦力补偿模型，其特征在于，包括步骤： A1.采集机械臂在所述摩擦力补偿模型不参与控制过程的条件下执行工作任务时的运动指令数据，以对所述摩擦力补偿模型的安全性进行检测； A2.若所述摩擦力补偿模型安全，则多次采集微调数据集以对所述摩擦力补偿模型进行调整训练，以得到各次调整训练后的优化模型和对应的损失函数值； A3.在每完成一次所述调整训练后，根据所述优化模型和对应的所述损失函数值，进行备选最优模型更新处理； A4.在每次更新所述备选最优模型后，对最新的所述备选最优模型进行实际运行测试，根据测试结果进行最优模型的更新处理。 2.根据权利要求1所述的预训练模型微调训练方法，其特征在于，步骤A1包括：采集机械臂在所述摩擦力补偿模型不参与控制过程的条件下重复执行至少一次所述工作任务时的运动指令数据，得到至少一组所述运动指令数据；分别把各组所述运动指令数据输入所述摩擦力补偿模型，以获取所述摩擦力补偿模型对应输出的补偿力矩数值；若至少一个所述补偿力矩数值不符合预设安全指标，则判定所述摩擦力补偿模型不安全，否则，判定所述摩擦力补偿模型安全。 3.根据权利要求1所述的预训练模型微调训练方法，其特征在于，步骤A 2包括：循环地采集微调数据集以对所述摩擦力补偿模型进行调整训练，直到调整训练的次数达到预设的次数阈值，或者，直到实际运行测试表明最新的最优模型的摩擦力补偿效果满足预设补偿效果指标。 4.根据权利要求1所述的预训练模型微调训练方法，其特征在于，所述采集微调数据集以对所述摩擦力补偿模型进行调整训练的步骤包括：采集机械臂在所述摩擦力补偿模型不参与控制过程的条件下多次执行所述工作任务时的训练输入数据，形成一个所述微调数据集；所述训练输入数据包括运动指令数据和运动反馈数据；把所述微调数据集按预设比例分成训练集和测试集；使用所述训练集对所述摩擦力补偿模型进行调整训练以得到优化模型和对应的损失函数值，并用所述测试集对所述优化模型进行测试。 5.根据权利要求1所述的预训练模型微调训练方法，其特征在于，步骤A3包括：若当前仅完成一次所述调整训练，则以本次调整训练对应的所述优化模型作为备选最优模型；若当前完成多于一次所述调整训练，则对比本次调整训练对应的所述损失函数值与当前的最优模型对应的所述损失函数值，并在对比结果满足第一预设更新条件时，用本次调整训练对应的所述优化模型更新所述备选最优模型。 6.根据权利要求5所述的预训练模型微调训练方法，其特征在于，步骤A4包括： A401.使所述机械臂在最新的所述备选最优模型参与控制过程的条件下执行所述工作任务，以获取摩擦力补偿效果评价指标值； A402.若当前仅完成一次所述调整训练，则用最新的所述备选最优模型作为最优模型；权　利　要　求　书 1/2 页 2 CN 115042191 B 2A403.若当前完成多于一次所述调整训练，则对比最新的所述备选最优模型的所述摩擦力补偿效果评价指标值和当前的最优模型的所述摩擦力补偿效果评价指标值，并在对比结果满足第二预设更新条件时，用最新的所述备选最优模型更新所述最优模型。 7.根据权利要求6所述的预训练模型微调训练方法，其特征在于，步骤A401之前，还包括步骤：采集机械臂在所述摩擦力补偿模型不参与控制过程的条件下执行所述工作任务时的训练输入数据，以对最新的所述备选最优模型的安全性进行检测；步骤A401包括：若最新的所述备选最优模型安全，才使所述机械臂在最新的备选最优模型参与控制过程的条件下执行所述工作任务，以获取摩擦力补偿效果评价指标值。 8.一种预训练模型微调训练装置，用于对经过预训练的摩擦力补偿模型进行在线微调训练，所述摩擦力补偿模型为机械臂的摩擦力补偿模型，其特征在于，包括：安全检测模块，用于采集机械臂在所述摩擦力补偿模型不参与控制过程的条件下执行工作任务时的运动指令数据，以对所述摩擦力补偿模型的安全性进行检测；训练模块，用于在所述摩擦力补偿模型安全时，多次采集微调数据集以对所述摩擦力补偿模型进行调整训练，以得到各次调整训练后的优化模型和对应的损失函数值；第一更新模块，用于在每完成一次所述调整训练后，根据所述优化模型和对应的所述损失函数值，进行备选最优模型更新处理；第二更新模块，用于在每次更新所述备选最优模型后，对最新的所述备选最优模型进行实际运行测试，根据测试结果进行最优模型的更新处理。 9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有所述处理器可执行的计算机程序，所述处理器执行所述计算机程序时，运行如权利要求 1‑7任一项所述预训练模型微调训练方法中的步骤。 10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时运行如权利要求1 ‑7任一项所述预训练模型微调训练方法中的步骤。权　利　要　求　书 2/2 页 3 CN 115042191 B 3

专利 预训练模型微调训练方法、装置、电子设备及存储介质

专利预训练模型微调训练方法、装置、电子设备及存储介质