standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210278143.3 (22)申请日 2022.03.21 (71)申请人 江苏城乡建 设职业学院 地址 213147 江苏省常州市殷村职教园和 裕路1号 (72)发明人 季爽 陈良 顾志文 李剑  许磊磊  (74)专利代理 机构 苏州国诚专利代理有限公司 32293 专利代理师 陈松 (51)Int.Cl. G06Q 40/02(2012.01) G06F 21/56(2013.01) G06K 9/62(2022.01) (54)发明名称 一种用于信贷反欺诈的拦截 策略衍生方法、 系统 (57)摘要 本发明提供了一种用于信贷反欺诈的拦截 策略衍生方法、 系统, 其可 以快速从海量的数据 中衍生出有效的拦截策略, 识别出具有高逾期风 险的用户, 包括步骤: 获取样本数据, 在样本 数据 中提取用户相关的特征变量, 进行数据预处理, 对特征变量进行分箱处理, 获得变量分箱; 计算 特征变量在每个变量分箱下的WOE值及IV值; 进 行WOE编码, 用W OE值替换变量 分箱对应的特征变 量的数值; 建立并训练预测模型, 通过评价指标 AUC对预测模型进行评估, 调整模型参数, 获得最 佳预测模型; 通过最佳预测模型计算所有变量分 箱的评分, 将评分不大于设定阈值的变量分箱进 行交叉生 成拦截策略; 验证拦截 策略是否满足上 线条件, 保留所有 满足上线条件的拦截策略。 权利要求书3页 说明书10页 附图3页 CN 114638688 A 2022.06.17 CN 114638688 A 1.一种用于信贷反欺诈的拦截策略衍 生方法, 其特 征在于, 包括以下步骤: 获取样本数据, 在样本数据中提取用户相关的特征变量, 进行数据 预处理, 对特征变量 进行分箱处 理, 获得变量分箱; 计算特征变量在每个变量分箱下的WOE值, 根据计算得到WOE值, 计算特征变量的IV值, 剔除IV值小于设定值的特 征变量; 对保留的特征变量进行WOE编码, 用计算得到的每个变量分箱的WOE值替换变量分箱对 应的特征变量的数值; 依据时间窗口将样本数据划分为训练集和测试集, 基于逻辑回归模型建立预测模型, 通过训练集训练预测模型, 得到训练好的预测模型; 通过测试集对训练好的预测模型进行 测试, 通过评价指标AUC对预测模型进行评估, 调整模型参数, 获得最佳 预测模型; 通过最佳预测模型计算所有变量分箱的评分, 将评分不大于设定阈值的变量分箱进行 交叉生成拦截策略; 验证拦截策略是否满足上线 条件, 保留所有满足上线 条件的拦截策略, 所述拦截策略用于识别具有高逾期风险的用户。 2.根据权利要求1所述的一种用于信贷反欺诈的拦截策略衍生方法, 其特征在于, 所述 的获取样本数据, 在样本数据中提取用户相关的特征变量, 进 行数据预处理, 对 特征变量进 行分箱处 理, 获得变量分箱, 具体包括: 以信贷业务中的正常用户为白样本, 逾期用户为黑样本, 进行用户打标, 获得样本数 据; 在样本数据中提取用户相关的特征变量, 所述特征变量包括数值型特征变量和类别型 特征变量; 对样本数据中的异常值和缺失值进行处 理; 对预处理后的特 征变量进行分箱处 理, 获得变量分箱。 3.根据权利要求2所述的一种用于信贷反欺诈的拦截策略衍生方法, 其特征在于: 在进 行分箱处理时, 对于数值型特征变量, 按照指定数量进行等频分箱, 对类别型特征变量, 每 个类别各自为 一个分箱, 若类别数 大于指定最大分箱数, 合并占比较小的类别至一个分箱。 4.根据权利要求1所述的一种用于信贷反欺诈的拦截策略衍生方法, 其特征在于: 特征 变量在每 个变量分箱下的WOE值, 通过如下公式计算: 其中, 其中WOEi表示第i组分箱的WOE值, Badi表示第i组分箱中逾期用户数量, BadT是整 体逾期用户数量, Go odi表示第i组分箱中正常用户数量, Go odT是整体正常用户数量; 特征变量的IV值 通过如下公式计算: 权 利 要 求 书 1/3 页 2 CN 114638688 A 2其中, IVi在特征变量在第i组分箱中的IV值, IV 表示特征变量的IV值。 5.根据权利要求4所述的一种用于信贷反欺诈的拦截策略衍生方法, 其特征在于: 预测 模型基于 逻辑回归 模型构建, 通过如下公式表示: z=θ0+θ1*x1+θ2*x2+θ3*x3... θi*xi 其中,h表示预测模型输 出的概率值, 表示预测为逾期用户的概率, θi表示预测模型拟合 出的各特征变量的系数值, θ0单独表示 为偏置项, xi表示各特征变量的具体值; 评价指标AUC为ROC曲线下与 坐标轴围成的面积, ROC曲线的横坐标是伪阳率, 纵坐标是 真阳率, 采用如下公式计算: 其中TPrate为真阳率, 表示所有真实类别为1的样本中, 预测类别为1的比例; FPrate为 伪阳率, 表示所有真实类别为0的样本中, 预测类别为1的比例; TP表示预测为1, 且预测正 确, 实际为1; P表示预测为1, 预测错误, 实际为0; FN表示预测为0, 预测错误, 实际为1; TN表 示预测为0, 预测正确, 实际为0; 通过在测试集上调整预测模型的特征变量的系数值, 使得模型在测试集上AUC值最大, 获得最佳 预测模型。 6.根据权利要求5所述的一种用于信贷反欺诈的拦截策略衍生方法, 其特征在于: 通过 最佳预测模型计算所有变量分箱的评分, 通过如下公式: scoreij=‑θi*WOEiJ 其中, scoreij表示第i个特征变量 中第j个分箱的分值, θi表示逻辑回归模型中的第i个 特征变量的系数值, WOEiJ表示第i个特 征变量中第j个分箱的WOE值。 7.根据权利要求6所述的一种用于信贷反欺诈的拦截策略衍生方法, 其特征在于: 所述 的将评分不大于设定阈值的变量分箱进行 交叉生成拦截策略, 验证拦截策略是否满足上线 条件, 具体包括: 采用递归回溯的方法进行特征变量的交叉, 对所有经过评分筛选保留下来变量分箱, 递归地进行组合生成拦截策略, 验证拦截策略是否满足上线条件, 所述上线条件为生成的 拦截策略命中用户的黑样本率是总体样本中的黑样本率的若干倍或者命中用户占比低于 最低门限, 满足上线条件则停止组合, 对其 他变量分箱继续交叉和验证。 8.一种用于信贷反欺诈的拦截策略衍 生系统, 其特 征在于, 包括: 分箱模块, 用于获取样本数据, 在样本数据中提取用户相关的特征变量, 进行数据 预处 理, 对特征变量进行分箱处 理, 获得变量分箱; 计算模块, 用于计算特征变量在每个变量分箱下的WOE值, 根据计算得到WOE值, 计算特 征变量的IV值, 剔除IV值小于设定值的特 征变量; WOE编码模块, 用于对保留的特征变量进行WOE编码, 用计算得到的每个变量分箱的WOE 值替换变量分箱对应的特 征变量的数值;权 利 要 求 书 2/3 页 3 CN 114638688 A 3

.PDF文档 专利 一种用于信贷反欺诈的拦截策略衍生方法、系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于信贷反欺诈的拦截策略衍生方法、系统 第 1 页 专利 一种用于信贷反欺诈的拦截策略衍生方法、系统 第 2 页 专利 一种用于信贷反欺诈的拦截策略衍生方法、系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:00:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。