发明

非结构化文档的分类分级方法、装置、设备及介质2023

2023-12-29 07:21:32 发布于四川 0
  • 申请专利号:CN202311265882.X
  • 公开(公告)日:2023-12-26
  • 公开(公告)号:CN117290758A
  • 申请人:江苏保旺达软件技术有限公司
摘要:本发明实施例公开了一种非结构化文档的分类分级方法、装置、设备及介质。其中,方法包括:获取待分类分级的目标非结构化文档,并将目标非结构化文档输入至第一模型中,得到与目标非结构化文档对应的目标文档向量;确定与目标文档向量匹配的第二模型中的目标聚类中心向量;确定与目标聚类中心向量匹配的目标文档聚类簇,并根据目标文档聚类簇确定目标非结构化文档的分类分级结果;其中,第二模型为对第一模型的各训练样本的文档向量进行聚类得到的聚类模型。本发明实施例的方案,可以对企业内部大量的非结构化文档进行快速其准确地类分级,可以提升企业内部数据的安全性,对数据进行合理安排。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117290758 A (43)申请公布日 2023.12.26 (21)申请号 202311265882.X (22)申请日 2023.09.27 (71)申请人 江苏保旺达软件技术有限公司 地址 210061 江苏省南京市江北新区星火 路9号软件大厦B座9楼 (72)发明人 钟丹东 卢瑶  (74)专利代理机构 北京品源专利代理有限公司 11332 专利代理师 孔凡红 (51)Int.Cl. G06F 18/24 (2023.01) G06F 18/23 (2023.01) G06F 16/16 (2019.01) G06F 18/214 (2023.01) G06N 20/00 (2019.01) 权利要求书2页 说明书10页 附图3页 (54)发明名称 非结构化文档的分类分级方法、装置、设备 及介质 (57)摘要 本发明实施例公开了一种非结构化文档的 分类分级方法、装置、设备及介质。其中,方法包 括:获取待分类分级的目标非结构化文档,并将 目标非结构化文档输入至第一模型中,得到与目 标非结构化文档对应的目标文档向量;确定与目 标文档向量匹配的第二模型中的目标聚类中心 向量;确定与目标聚类中心向量匹配的目标文档 聚类簇,并根据目标文档聚类簇确定目标非结构 化文档的分类分级结果;其中,第二模型为对第 一模型的各训练样本的文档向量进行聚类得到 的聚类

最新专利