(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210315190.0
(22)申请日 2022.03.29
(65)同一申请的已公布的文献号
申请公布号 CN 114416213 A
(43)申请公布日 2022.04.29
(73)专利权人 北京沃丰时代数据科技有限公司
地址 100160 北京市丰台区汽车博物馆东
路6号3号楼1单 元2层201
(72)发明人 马冰
(74)专利代理 机构 北京路浩知识产权代理有限
公司 11002
专利代理师 常芳
(51)Int.Cl.
G06F 9/445(2018.01)
G06F 16/31(2019.01)G06F 40/242(2020.01)
G06F 40/284(2020.01)
(56)对比文件
CN 112988964 A,2021.0 6.18
CN 112559711 A,2021.0 3.26
US 20140 59323 A1,2014.02.27
审查员 张昕
(54)发明名称
词向量文 件加载方法、 装置及存 储介质
(57)摘要
本申请提供一种词向量文件加载方法、 装置
及存储介质, 其中方法包括: 在Golang程序启动
后, 通过Syscall指令将格式化完成的词向量文
件映射到内存; 所述格式化完成的词向量文件为
二进制文件, 所述格式化完成的词向量文件包括
词长度、 词、 词向量长度和词向量; 加载映射到内
存后的词向量文件, 构造词向量词典。 本申请实
施例提供的词向量文件加载方法、 装置及存储介
质, 通过将原始词向量文件格式化为二进制文件
有效节省了内存, 在Golang环境下通过Syscall
指令将词向量文件映射到内存, 提高了加载速
率, 使用映射的内存文件作为词向量的存储对
象, 避免了内存碎片, 减少了GC 压力。
权利要求书2页 说明书10页 附图2页
CN 114416213 B
2022.06.28
CN 114416213 B
1.一种词向量文件加载 方法, 其特 征在于, 包括:
在Golang程序启动后, 通过S yscall指令将格式化完成的词向量文件映射到内存; 所述
格式化完成的词向量文件为二进制文件, 所述格式化完成的词向量文件包括词长度、 词、 词
向量长度和词向量; 所述词长度对应的字节数为32字节, 所述词向量长度对应的字节数为
32字节;
加载映射到内存后的词向量文件, 构造词向量词典;
所述加载映射到内存后的词向量文件, 构造词向量词典, 包括:
读取所述映射到内存后的词向量文件, 获取当前词向量对应的索引;
获取当前词对应的索引;
基于所述当前词对应的索引获取 所述当前词的词长度;
基于所述当前词对应的索引和所述当前词的词长度获取 所述当前词;
以词为Key, 以词向量对应的索引为Value, 构造所述词向量词典。
2.根据权利要求1所述的词向量文件加载方法, 其特征在于, 所述通过Syscall指令将
格式化完成的词向量文件映射到内存之前, 还 包括:
读取原始词向量数据, 计算词长度, 获取词, 计算词向量长度, 获取词向量;
写入格式化文件转 为二进制文件;
获取所述格式化完成的词向量文件。
3.根据权利要求1所述的词向量文件加载方法, 其特征在于, 所述当前词向量对应的索
引基于上一个词向量对应的索引、 上一个词的词向量长度变量、 所述上一个词的词向量长
度、 当前词的词长度变量和所述当前词的词长度确定 。
4.根据权利要求1所述的词向量文件加载方法, 其特征在于, 所述当前词对应的索引基
于上一个词对应的索引、 所述上一个词的词长度变量、 所述上一个词的词长度、 所述上一个
词的词向量长度变量和所述上一个词的词向量长度确定 。
5.根据权利要求1所述的词向量文件加载方法, 其特征在于, 所述构造词向量词典之
后, 还包括:
基于目标词查询得到目标词向量对应的索引;
基于所述目标词向量对应的索引查找目标词向量长度;
基于所述目标词向量长度和所述目标词向量对应的索引查找所述目标词向量。
6.一种词向量文件加载装置, 其特 征在于, 包括:
映射模块, 用于在Gol ang程序启动后, 通过S yscall指令将格式化完成的词向量文件映
射到内存; 所述格式化完成的词向量文件为二进制文件, 所述格式化完成的词向量文件包
括词长度、 词、 词向量长度和词向量; 所述词长度对应的字节数为32字节, 所述词向量长度
对应的字节数为32字节;
加载模块, 用于加载映射到内存后的词向量文件, 构造词向量词典;
所述加载模块还用于:
读取所述映射到内存后的词向量文件, 获取当前词向量对应的索引;
获取当前词对应的索引;
基于所述当前词对应的索引获取 所述当前词的词长度;
基于所述当前词对应的索引和所述当前词的词长度获取 所述当前词;权 利 要 求 书 1/2 页
2
CN 114416213 B
2以词为Key, 以词向量对应的索引为Value, 构造所述词向量词典。
7.根据权利要求6所述的词向量文件加载装置, 其特征在于, 所述装置还包括格式化模
块, 用于:
读取原始词向量数据, 计算词长度, 获取词, 计算词向量长度, 获取词向量;
写入格式化文件转 为二进制文件;
获取所述格式化完成的词向量文件。
8.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运
行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至5任一项所
述词向量文件加载 方法。
9.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机
程序被处 理器执行时实现如权利要求1至 5任一项所述词向量文件加载 方法。权 利 要 求 书 2/2 页
3
CN 114416213 B
3
专利 词向量文件加载方法、装置及存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:07:30上传分享