(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211017001.8
(22)申请日 2022.08.23
(71)申请人 华南理工大 学
地址 510640 广东省广州市天河区五山路
381号
(72)发明人 金连文 张晓怡 汪嘉鹏 薛洋
(74)专利代理 机构 广州粤高专利商标代理有限
公司 44102
专利代理师 黄月莹
(51)Int.Cl.
G06V 30/18(2022.01)
G06V 30/19(2022.01)
G06V 10/44(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于字符移动任务的自监督文本识别
方法
(57)摘要
本发明公开了一种基于字符移动任务的自
监督文本识别方法, 包括以下步骤: 首先移动手
写单词图像中的字符, 然后预测字符移动的像素
值, 通过电子设备获得手写单词的图像, 然后对
单词图像进行数据增强和字 符移动, 再构建神经
网络来进行预训练, 分别是对同一张原图的不同
数据增强的图像进行对比学习和对经过字符移
动的图像进行分类, 最后, 文本识别模型读入预
训练阶段的编码器参数来对手写单词图像及对
应标签进行微调训练; 本发明设计的字符移动任
务通过辅助整词级别的对比学习可以有效地在
预训练阶段学习到单词图像的特征表 示, 从而在
网络微调阶段达到收敛速度更快和识别率更高
的效果。
权利要求书3页 说明书9页 附图2页
CN 115439859 A
2022.12.06
CN 115439859 A
1.一种基于 字符移动任务的自监 督文本识别方法, 其特 征在于, 包括以下步骤:
(1)通过电子设备获取手写单词的图像;
(2)对单词图像进行 数据预处 理;
(3)对单词图像进行字符定位、 字符选取和字符移动, 然后确定 字符移动的标签;
(4)构建神经网络进行预训练, 分别是对 同一张原图的不同数据增强的图像进行对比
学习和对经 过字符移动的图像进行分类;
(5)将步骤(4)预训练得到的神经网络的编码器参数读入到文本识别 模型的编码器中,
然后使用文本识别模型对手写单词图像及标签进行训练。
2.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于,
使用能够手写输入的电子设备获得手写单词的灰度图像。
3.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于,
所述步骤(2)的预处理是对原图I进行数据增强T( ·), 包括仿射变换、 笔画抖动、 笔画覆盖
和笔画粗细变化, 其中各增强方式的相关参数每次在设置的范围内随机选取; 在设置范围
内随机选取一组参数t1, 得到第一图像
在设置范围内随机选取一组参数t2, 得
到第二图像
然后对第一图像Ik和第二图像Iq进行图像大小调整, 调整为H ×W,
其中H为图像高度, W 为图像宽度; 然后将第一图像Ik归一化到[0, 1]。
4.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于,
所述步骤(3)的字符定位包括以下步骤:
(311)对于第二图像Iq, 通过垂直投影得到垂直投影分布Sta;
首先对第二图像Iq进行自适应二值化, 然后归一化到[0, 1], 这时文本所在的区域值为
1, 再进行 行求和得到垂直投影分布Sta;
(312)对于垂直投影分布Sta中小于数值m的数置零, 其中m取Sta中倒数第二小的投影
值, 然后从垂直投影分布Sta中得到字符块区域集U={u1, u2, ..., ui..., ul}, 其中ui定义为
字符块区域, 即投影值非零的连续区域; l表示字符块区域数量。
5.根据权利要求4所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于,
所述步骤(3)的字符选取包括以下步骤:
(321)从字符块区域集U中随机选取两个位置locb和loca分别作为字符移动前所在位置
和字符移动的目标位置, 关于l ocb和loca的选取分为以下三种情况:
如果|U|=0, 说明没有字符块区域, 令m为Sta中最小的投影值, 返回步骤(312)继续求
得字符块区域 集U;
如果|U|=1, 说明只有一个字符块区域, 即U=u1, 此时, 从u1的前40%的位置h1和后
40%的位置 h2中各选取一个位置, 然后再将这两个位置随机作为 locb和loca;
如果|U|≥2, 说明有两个及以上的字符块区域, 此时, 从U中随机选 取两个字符块区域ub
和ua分别作为字符所在的初始字符块 区域和移动的目标字符块 区域; 然后从ub中随机选定
一个位置作为 locb, 从ua中随机选定一个位置作为 loca;
(322)确定需要移动的字符宽度, 最终选取出需要移动的字符图像; 初始的需要移动的
字符图像半宽设定为:权 利 要 求 书 1/3 页
2
CN 115439859 A
2其中W为第二图像Iq的宽度; 设定字符移动的目标位置loca与图像边界的最小距离为
bordera, 字符移动前所在位置locb与图像边界的最小距离为borderb, 需要移动的字符图像
的半宽为:
wmove=min(wini, bordera, borderb) (1)
选取出需要移动的字符图像为:
imgb=Iq[0: H, locb‑wmove: locb+wmove]
其中H为第二图像Iq的高度, wmove为需要移动的字符图像的半宽 。
6.根据权利要求5所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于,
所述步骤(3)的字符移动包括以下步骤:
字符移动的目标位置原图片为:
imga=Iq[0: H, loca‑wmove: loca+wmove]
将需要移动的字符图像imgb以1‑λ 的比例叠加到第二图像Iq的imga上, 第二图像Iq的其
他位置保持不变, 然后得到移动图像MI, 即
imga= λimga+(1‑λ )imgb (2)
其中λ表示叠加比例, 0< λ<1。
7.根据权利要求6所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于,
确定字符移动的标签具体为:
字符移动的像素值pixelmove=loca‑locb, 当pixelmove<0时, 表示字符向左移动; 当
pixelmove>0时, 表示字符向右移动; 将字符移动任务定义为分类任务, 令分类的标签label
=pixelmove+W, 其中W 为第二图像Iq的宽度。
8.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于,
所述神经网络包括编码映射模块 Q、 动量编码映射模块K和多层感知器;
所述编码映射模块Q包括编码器E和映射器, 编码映射模块Q根据随机梯度下降优化器
来训练; 将编码映射模块Q中编码器E的输出特征输入到多层感知器中, 然后将输出的特征
向量进行分类以预测图像中字符移动的像素值;
所述动量编码映射模块K与编码映射模块Q具有相同网络结构, 使用编码映射模块Q的
参数进行动量更新; 设编码映射模块Q中编码器E和映射器的参数为θq, 动量编码映射模块K
中编码器和映射器的参数为θk, 动量更新的公式为:
nθk+(1‑n)θq→θk (3)
其中n表示动量大小, 0<n<1。
9.根据权利要求8所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于,
神经网络的预训练包括: 将经过数据增强
后得到的第一图像Ik和经过数据增强
以及字符移动后得到的移动图像MI分别经过动量编码映射模块K与编 码映射模块Q, 然后计
算损失值, 损失函数的公式为:
其中, C为负样本的长度; τ为超参数; MIq为经过编码映射模块Q后的特征向量; k+是经过权 利 要 求 书 2/3 页
3
CN 115439859 A
3
专利 一种基于字符移动任务的自监督文本识别方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 04:37:53上传分享