发明

语言模型训练、视频字幕校验方法、装置、设备及介质

2023-06-04 11:24:00 发布于四川 1

申请专利号：CN202011529805.7
公开（公告）日：2025-06-20
公开（公告）号：CN112652295A
申请人：深圳平安智慧医健科技有限公司

摘要：本发明涉及人工智能技术领域，提供一种语言模型训练、视频字幕校验方法、装置、设备及介质。该语言模型训练方法通过将文字样本集中仅包含中文字符的样本句子输入含有初始参数的初始拆字预训练模型中，对样本句子依次进行分词处理、部首拆分、粒度拆分以及解码识别，得到样本解码句子；根据样本解码句子与仅包含中文字符的样本句子，确定文本损失值；在文本损失值未达到预设的收敛条件时，更新迭代初始参数，直至文本损失值达到预设的收敛条件时，将收敛之后的初始拆字预训练模型记录为基于拆字的中文预训练语言模型。本发明还涉及区块链技术，所述基于拆字的中文预训练语言模型存储于区块链中，本发明可以提高对文字或者文本进行预处理的准确率。

专利内容

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 112652295 A (43)申请公布日 2021.04.13 (21)申请号 202011529805.7 (22)申请日 2020.12.22 (71)申请人平安国际智慧城市科技股份有限公司地址 518000 广东省深圳市前海深港合作区妈湾兴海大道3048号前海自贸大厦 1-34层 (72)发明人李恬静　朱威　 (74)专利代理机构深圳众鼎专利商标代理事务所(普通合伙) 44325 代理人谭果林 (51)Int.Cl. G10L 15/00 (2013.01) G10L 15/06 (2013.01) G06F 40/289 (2020.01) 权利要求书3页说明书13页附图7页 (54)发明名称语言模型训练、视频字幕校验方法、装置、设备及介质 (57)摘要本发明涉及人工智能技术领域，提供一种语言模型训练、视频字幕校验方法、装置、设备及介质。该语言模型训练方法通过将文字样本集中仅包含中文字符的样本句子输入含有初始参数的初始拆字预训练模型中，对样本句子依次进行分词处理、部首拆分、粒度拆分以及解码识别，得到样本解码句子；根据样本解码句子与仅包含中文字符的样本句子，确定文本损失值；在文本损失值未达到预设的收敛条件时，更新迭代初始参数，直至文本损失值达到预设的收敛条件时，将收敛之后的初

语言模型训练、视频字幕校验方法、装置、设备及介质

专利内容

最新专利

相关专利