standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211017001.8 (22)申请日 2022.08.23 (71)申请人 华南理工大 学 地址 510640 广东省广州市天河区五山路 381号 (72)发明人 金连文 张晓怡 汪嘉鹏 薛洋  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 专利代理师 黄月莹 (51)Int.Cl. G06V 30/18(2022.01) G06V 30/19(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于字符移动任务的自监督文本识别 方法 (57)摘要 本发明公开了一种基于字符移动任务的自 监督文本识别方法, 包括以下步骤: 首先移动手 写单词图像中的字符, 然后预测字符移动的像素 值, 通过电子设备获得手写单词的图像, 然后对 单词图像进行数据增强和字 符移动, 再构建神经 网络来进行预训练, 分别是对同一张原图的不同 数据增强的图像进行对比学习和对经过字符移 动的图像进行分类, 最后, 文本识别模型读入预 训练阶段的编码器参数来对手写单词图像及对 应标签进行微调训练; 本发明设计的字符移动任 务通过辅助整词级别的对比学习可以有效地在 预训练阶段学习到单词图像的特征表 示, 从而在 网络微调阶段达到收敛速度更快和识别率更高 的效果。 权利要求书3页 说明书9页 附图2页 CN 115439859 A 2022.12.06 CN 115439859 A 1.一种基于 字符移动任务的自监 督文本识别方法, 其特 征在于, 包括以下步骤: (1)通过电子设备获取手写单词的图像; (2)对单词图像进行 数据预处 理; (3)对单词图像进行字符定位、 字符选取和字符移动, 然后确定 字符移动的标签; (4)构建神经网络进行预训练, 分别是对 同一张原图的不同数据增强的图像进行对比 学习和对经 过字符移动的图像进行分类; (5)将步骤(4)预训练得到的神经网络的编码器参数读入到文本识别 模型的编码器中, 然后使用文本识别模型对手写单词图像及标签进行训练。 2.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于, 使用能够手写输入的电子设备获得手写单词的灰度图像。 3.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于, 所述步骤(2)的预处理是对原图I进行数据增强T( ·), 包括仿射变换、 笔画抖动、 笔画覆盖 和笔画粗细变化, 其中各增强方式的相关参数每次在设置的范围内随机选取; 在设置范围 内随机选取一组参数t1, 得到第一图像 在设置范围内随机选取一组参数t2, 得 到第二图像 然后对第一图像Ik和第二图像Iq进行图像大小调整, 调整为H ×W, 其中H为图像高度, W 为图像宽度; 然后将第一图像Ik归一化到[0, 1]。 4.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于, 所述步骤(3)的字符定位包括以下步骤: (311)对于第二图像Iq, 通过垂直投影得到垂直投影分布Sta; 首先对第二图像Iq进行自适应二值化, 然后归一化到[0, 1], 这时文本所在的区域值为 1, 再进行 行求和得到垂直投影分布Sta; (312)对于垂直投影分布Sta中小于数值m的数置零, 其中m取Sta中倒数第二小的投影 值, 然后从垂直投影分布Sta中得到字符块区域集U={u1, u2, ..., ui..., ul}, 其中ui定义为 字符块区域, 即投影值非零的连续区域; l表示字符块区域数量。 5.根据权利要求4所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于, 所述步骤(3)的字符选取包括以下步骤: (321)从字符块区域集U中随机选取两个位置locb和loca分别作为字符移动前所在位置 和字符移动的目标位置, 关于l ocb和loca的选取分为以下三种情况: 如果|U|=0, 说明没有字符块区域, 令m为Sta中最小的投影值, 返回步骤(312)继续求 得字符块区域 集U; 如果|U|=1, 说明只有一个字符块区域, 即U=u1, 此时, 从u1的前40%的位置h1和后 40%的位置 h2中各选取一个位置, 然后再将这两个位置随机作为 locb和loca; 如果|U|≥2, 说明有两个及以上的字符块区域, 此时, 从U中随机选 取两个字符块区域ub 和ua分别作为字符所在的初始字符块 区域和移动的目标字符块 区域; 然后从ub中随机选定 一个位置作为 locb, 从ua中随机选定一个位置作为 loca; (322)确定需要移动的字符宽度, 最终选取出需要移动的字符图像; 初始的需要移动的 字符图像半宽设定为:权 利 要 求 书 1/3 页 2 CN 115439859 A 2其中W为第二图像Iq的宽度; 设定字符移动的目标位置loca与图像边界的最小距离为 bordera, 字符移动前所在位置locb与图像边界的最小距离为borderb, 需要移动的字符图像 的半宽为: wmove=min(wini, bordera, borderb)          (1) 选取出需要移动的字符图像为: imgb=Iq[0: H, locb‑wmove: locb+wmove] 其中H为第二图像Iq的高度, wmove为需要移动的字符图像的半宽 。 6.根据权利要求5所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于, 所述步骤(3)的字符移动包括以下步骤: 字符移动的目标位置原图片为: imga=Iq[0: H, loca‑wmove: loca+wmove] 将需要移动的字符图像imgb以1‑λ 的比例叠加到第二图像Iq的imga上, 第二图像Iq的其 他位置保持不变, 然后得到移动图像MI, 即 imga= λimga+(1‑λ )imgb         (2) 其中λ表示叠加比例, 0< λ<1。 7.根据权利要求6所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于, 确定字符移动的标签具体为: 字符移动的像素值pixelmove=loca‑locb, 当pixelmove<0时, 表示字符向左移动; 当 pixelmove>0时, 表示字符向右移动; 将字符移动任务定义为分类任务, 令分类的标签label =pixelmove+W, 其中W 为第二图像Iq的宽度。 8.根据权利要求1所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于, 所述神经网络包括编码映射模块 Q、 动量编码映射模块K和多层感知器; 所述编码映射模块Q包括编码器E和映射器, 编码映射模块Q根据随机梯度下降优化器 来训练; 将编码映射模块Q中编码器E的输出特征输入到多层感知器中, 然后将输出的特征 向量进行分类以预测图像中字符移动的像素值; 所述动量编码映射模块K与编码映射模块Q具有相同网络结构, 使用编码映射模块Q的 参数进行动量更新; 设编码映射模块Q中编码器E和映射器的参数为θq, 动量编码映射模块K 中编码器和映射器的参数为θk, 动量更新的公式为: nθk+(1‑n)θq→θk          (3) 其中n表示动量大小, 0<n<1。 9.根据权利要求8所述的一种基于字符移动任务的自监督文本识别方法, 其特征在于, 神经网络的预训练包括: 将经过数据增强 后得到的第一图像Ik和经过数据增强 以及字符移动后得到的移动图像MI分别经过动量编码映射模块K与编 码映射模块Q, 然后计 算损失值, 损失函数的公式为: 其中, C为负样本的长度; τ为超参数; MIq为经过编码映射模块Q后的特征向量; k+是经过权 利 要 求 书 2/3 页 3 CN 115439859 A 3

.PDF文档 专利 一种基于字符移动任务的自监督文本识别方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于字符移动任务的自监督文本识别方法 第 1 页 专利 一种基于字符移动任务的自监督文本识别方法 第 2 页 专利 一种基于字符移动任务的自监督文本识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 04:37:53上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。