(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211140585.8
(22)申请日 2022.09.20
(71)申请人 合肥工业大 学
地址 230009 安徽省合肥市包河区屯溪路
193号
(72)发明人 蒋翠清 张玉 王钊 王建飞
(74)专利代理 机构 北京久诚知识产权代理事务
所(特殊普通 合伙) 11542
专利代理师 王云海
(51)Int.Cl.
G06Q 10/06(2012.01)
G06F 16/35(2019.01)
G06F 40/242(2020.01)
G06N 3/04(2006.01)
(54)发明名称
融合论坛文本时序特征的企业信用风险预
警方法和系统
(57)摘要
本发明提供一种融合论坛文本时序特征的
企业信用风险预警方法、 系统、 存储介质和电子
设备, 涉及企业信用风险预警领域。 主要包括获
取企业信用数据和企业论坛中的文本数据; 根据
获取的企业信用数据进行特征筛选; 根据获取的
论坛文本数据按照时间顺序统计每一特征对应
的数据; 采用不同的时间细粒度对获取的论坛文
本序列化统计数据进行划分, 将经过时间细粒度
划分的数据分别输入到构建的残差式深度门控
循环模型中, 选择误差最小的作为时序特征构建
模型, 最后融合信用风险特征和时序特征, 采用
Adaboost模型对企业信用风险进行预 警。 解决了
现有文本 数据处理方法未考虑时间因素、 预警模
型准确性 不高的问题。
权利要求书5页 说明书12页 附图2页
CN 115496357 A
2022.12.20
CN 115496357 A
1.一种融合 论坛文本时序特 征的企业信用风险预警方法, 其特 征在于, 包括:
获取企业信用数据和企业 论坛中的文本数据;
根据所述企业信用数据, 采用基于互信 息的特征筛选方法获取用于企业风险预警的信
用风险特 征;
根据所述文本数据, 统计论坛中发布的文本数据 条数、 每一条文本数据对应的回复数、
每一条文本数据对应的正 面情感或者负面情感;
根据时间细粒度对所获取的统计信息进行序列化处理, 分别按照天、 周、 月进行划分,
获取三种细粒度的序列化文本数据;
将所述三种细粒度的序列化数据分别输入预先构建的残差 式深度门控循环模型中, 并
将模型最后一层隐藏层向量作为时序特 征;
融合所述信用风 险特征和时序特征, 采用预先构建的Adaboost集成学习模型, 获取企
业信用风险等级的预警结果。
2.如权利要求1所述的企业信用风险预警方法, 其特征在于, 所述信用风险特征的获取
过程包括:
S21、 标准 化所述企业信用数据:
其中, ai,j表示第i个企业的第j条企业信用风险特征值, max(ai,j)、 min(ai,j)分别表示
第j条企业信用风险特 征值中的最大、 最小值, xi,j表示标准 化后的企业信用风险特 征;
S22、 求解标准化后的企业信用风险特 征与企业信用风险等级之间的互信息I(X; Y),
其中, 变量 服从分布X~p(x), Y~p(y), (X,Y)~p(x,y);
X表示标准 化的企业信用风险特 征,
共有I行J列;
Y表示企业信用风险等级;
p(x,y)表示联合分布概率, p(x)表示企业信用风险特征服从的概率分布, p(y)表示企
业信用风险等级的概 率分布;
S23、 根据I(X; Y)大小关系, 获得用于企业 风险预警的信用风险特 征。
3.如权利要求1所述的企业信用风险预警方法, 其特征在于, 所述每一条文本数据对应
的正面情感或者负面情感的获取 过程包括:
将所述文本数据进行正则化处理、 分词、 去停用词, 基于正面情 感词典、 负面情 感词典、
否定词词典、 程度词词典将词语转换为对应的分值, 获取每一条文本数据的情感得分, 根据
得分判定该条文本数据属于正面情感还是负面情感, 属于正面情感则 在正面情感数量特征
标为1, 负面情感数量特征标为0, 属于负面情感则在正面情感数量特征标为0, 负面情感数
量特征标为1, 以此完成情感分类特 征工作。权 利 要 求 书 1/5 页
2
CN 115496357 A
24.如权利要求1所述的企业信用风险预警方法, 其特征在于, 所述根据时间细粒度对所
获取的统计信息进行序列化处理, 分别按照天、 周、 月进行划分, 获取三种细粒度的序列化
文本数据, 具体包括:
A、 按天为细粒度划分的序列化文本数据:
按照时间标签, 将一天中产生的每一条文本数据进行数量特征统计, 以天为单位, 获取
序列化数据x_day; 表示 为
x_day={D(total_num, reply_num, postive_num, negtive_num)1,…, D(total_num,
reply_num, postive_num, negtive_num)l,…, D(total_num, reply_num, postive_num,
negtive_num)L}
其中, D(total_num, reply_num, postive_num, negtive_num)l表示以天为时间细粒度划
分, 第l天企业论坛发布的文本数据总条数total_num、 文本数据对应的回复数reply_num、
文本数据正 面情感数量postive_num和负面情感数量 negtive_num; l =1,…, L;
B、 按周为细粒度划分的序列化文本数据:
按照时间标签, 将一周中产生的文本数据进行数量特征统计, 以周为单位, 获取序列化
数据x_we ek; 表示为
x_week={W(total_num, reply_num, postive_num, negtive_num)1,…, W(total_num,
reply_num, postive_num, negtive_num)m,…, W(total_num, reply_num, postive_num,
negtive_num)M}
其中, W(total_num, reply_num, postive_num, negtive_num)m表示以周为时间细粒度划
分, 第m周企业论坛发布的文本数据总条数total_num、 文本数据对应的回复数reply_num、
文本数据正 面情感数量postive_num和负面情感数量 negtive_num; m=1, …, M;
C、 获得按月为细粒度划分的序列化文本数据:
按照时间标签, 将一个月中产生的文本数据进行数量特征统计, 以月为单位, 获取序列
化数据x_mo nth; 表示 为
x_month={M(total_num, reply_num, p ostive_num, ne gtive_num)1,…, M(total_num,
reply_num, postive_num, negtive_num)n,…, M(total_num, reply_num, postive_num,
negtive_num)N}
其中, M(botal_num, reply_num, postive_num, negtive_num)n表示以月为时间细粒度划
分, 第n个月企业论坛发布的文本数据总条数total_num、 文本数据对应的回复数reply_
num、 文本数据正 面情感数量postive_num和负面情感数量 negtive_num; n =1,…, N。
5.如权利要求1~4任一项所述的企业信用风险预警方法, 其特征在于, 所述残差式深
度门控循环模型的构建过程包括:
S10、 数据划分: 按照K折分层抽样的方法, 根据企业编号, 划分训练集和 测试集;
S20、 输入层: 根据划分好的训练集和测试集, 分别将三种细粒度的序列化文本数据x∈
{x_day, x_we ek, x_month}作为模型输入;
S30、 编码层: 将序列化文本数据分别输入残差式深度门控循环网络模型中, 所述残差
式深度门控循环网络模型由三层叠加的残差式深度门控循环网络组成, 每一层都经过深度
门控循环网络, 然后通过残差结构对第一层输出进行变化, 将第一层残差网络的计算结果
作为第二层的输入, 同理将第二层残差网络计算结果作为第三层输入;权 利 要 求 书 2/5 页
3
CN 115496357 A
3
专利 融合论坛文本时序特征的企业信用风险预警方法和系统
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:26:21上传分享