发明

一种多音字待标语料的筛选方法、装置、设备及存储介质

2023-05-24 13:36:19 发布于四川 1
  • 申请专利号:CN202011037697.1
  • 公开(公告)日:2025-05-16
  • 公开(公告)号:CN112201221A
  • 申请人:广州多益网络股份有限公司|||广东利为网络科技有限公司|||多益网络有限公司
摘要:本发明公开了一种多音字待标语料的筛选方法、装置、设备及存储介质,包括:获取原始文本语料;生成汉字字串字典及字串文本字典,所述汉字字串字典用以记录汉字映射到包含所述汉字的全部字串组成的列表,所述字串文本字典用以记录字串映射到包含所述字串的全部文本组成的列表;循环遍历字典,从所述汉字字串字典中取出多音字汉字,以使文本数量达到预设数值,并生成候选文本列表;选择待标汉字,通过所述候选文本列表,获取待标文本列表;从所述待标文本列表中依次记录每个文本的信息,以得到输出文本列表。本发明能够收集题材类型全面的原始文本语料,确保文本语料对题材类型、语言风格覆盖全面。

专利内容

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 112201221 A (43)申请公布日 2021.01.08 (21)申请号 202011037697.1 G06F 40/211 (2020.01) (22)申请日 2020.09.28 (71)申请人 广州多益网络股份有限公司 地址 510000 广东省广州市黄埔区伴河路 90号 申请人 广东利为网络科技有限公司  多益网络有限公司 (72)发明人 徐波  (74)专利代理机构 广州三环专利商标代理有限 公司 44202 代理人 麦小婵 郝传鑫 (51)Int.Cl. G10L 13/02 (2013.01) G10L 13/08 (2013.01) G06F 40/242 (2020.01) 权利要求书2页 说明书11页 附图3页 (54)发明名称 一种多音字待标语料的筛选方法、装置、设 备及存储介质 (57)摘要 本发明公开了一种多音字待标语料的筛选 方法、装置、设备及存储介质,包括:获取原始文 本语料;生成汉字字串字典及字串文本字典,所 述汉字字串字典用以记录汉字映射到包含所述 汉字的全部字串组成的列表,所述字串文本字典 用以记录字串映射到包含所述字串的全部文本 组成的列表;循环遍历字典,从所述汉字字串字 典中取出多音字汉字,以使文本数量达到预设数 值,并生成候选文本列表;选择待标汉字

最新专利