发明

融合多策略分句与语义聚类的大模型知识增强方法及装置2025

2024-06-01 07:22:08 发布于四川 1
  • 申请专利号:CN202410113900.0
  • 公开(公告)日:2025-04-04
  • 公开(公告)号:CN118069837A
  • 申请人:北京外国语大学
摘要:本发明公开了一种融合多策略分句与语义聚类的大模型知识增强方法及装置,该方法包括:获取用户本地文档和用户输入问题,分别进行有害信息判断;当用户本地文档的读取内容无害时,进行预处理,采用多策略分句方式进行多策略切分;当用户输入问题无害时,分别对用户输入问题和经多策略切分的用户本地文档内容,进行词嵌入向量化操作;对经过向量化的用户输入问题与用户本地文档内容进行向量相似度计算;基于语义聚类的搜索增强方式选取部分的最相似向量,将其对应的文档分句进行相应扩充作为最终结果进行输出。该方法可提高对大模型进行知识增强的用户本地文档信息召回的准确率,适用于对大模型知识问答准确率较高的教育领域、法律领域和医药领域。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 118069837 A (43)申请公布日 2024.05.24 (21)申请号 202410113900.0 (22)申请日 2024.01.27 (71)申请人 北京外国语大学 地址 100089 北京市海淀区西三环北路2号 (72)发明人 任佳伟 李佐文 邹积凯 李娜  王子晗 王玉玲 孙尚  (74)专利代理机构 北京慕达星云知识产权代理 事务所 (特殊普通合伙) 11465 专利代理师 刘阳河 (51)Int.Cl. G06F 16/35 (2019.01) G06F 40/295 (2020.01) G06F 40/30 (2020.01) 权利要求书3页 说明书11页 附图5页 (54)发明名称 融合多策略分句与语义聚类的大模型知识 增强方法及装置 (57)摘要 本发明公开了一种融合多策略分句与语义 聚类的大模型知识增强方法及装置,该方法包 括:获取用户本地文档和用户输入问题,分别进 行有害信息判断;当用户本地文档的读取内容无 害时,进行预处理,采用多策略分句方式进行多 策略切分;当用户输入问题无害时,分别对用户 输入问题和经多策略切分的用户本地文档内容, 进行词嵌入向量化操作;对经过向量化的用户输 入问题与用户本地文档内容进行向量相似度计 算;基于语义聚类的搜索增强方式选取部分的最 相似向量,将其对应的文档分句进行相应扩充作 A 为最终结果进行输出

最新专利