发明

藏文文本的数据集生成方法及系统2026

2024-06-01 07:55:25 发布于四川 76
  • 申请专利号:CN202410010777.X
  • 公开(公告)日:2026-05-08
  • 公开(公告)号:CN118096940A
  • 申请人:合肥高维数据技术有限公司|||中国科学技术大学
摘要:本申请涉及一种藏文文本的数据集生成方法及系统,应用于数据生成技术领域,其包括基于预设的藏文数据统计藏文字符的出现频率,获取高频藏文主体字符和藏文辅助字符;对所述藏文数据进行预处理,获取藏文处理信息,所述藏文处理信息至少包括:藏文背景图、文本颜色以及文本字号;根据预设的藏文分布模式、所述藏文辅助字符、所述高频藏文主体字符以及所述藏文处理信息,生成藏文文本图片。本申请保证在不需要外部藏文语言数据的情况下生成高质量、变体多样化且数据量充足的藏文文本数据,从而建立高可用性的通用藏文文本数据集,进而提高藏文目标检测模型的训练效果,以满足各种藏文应用领域的需求并促进藏文语言的发展和推广。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 118096940 A (43)申请公布日 2024.05.28 (21)申请号 202410010777.X (22)申请日 2024.01.04 (71)申请人 合肥高维数据技术有限公司 地址 230088 安徽省合肥市高新区望江西 路900号中安创谷科技园一期A1栋21 楼 申请人 中国科学技术大学 (72)发明人 田辉 王欢 郭玉刚 张志翔  杨曦 马泽华 张卫明 俞能海  (51)Int.Cl. G06T 11/60 (2006.01) G06T 11/00 (2006.01) G06T 11/20 (2006.01) G06V 30/19 (2022.01) G06V 30/146 (2022.01) G06V 30/28 (2022.01) 权利要求书2页 说明书7页 附图2页 (54)发明名称 藏文文本的数据集生成方法及系统 (57)摘要 本申请涉及一种藏文文本的数据集生成方 法及系统,应用于数据生成技术领域,其包括基 于预设的藏文数据统计藏文字符的出现频率,获 取高频藏文主体字符和藏文辅助字符;对所述藏 文数据进行预处理,获取藏文处理信息,所述藏 文处理信息至少包括:藏文背景图、文本颜色以 及文本字号;根据预设的藏文分布模式、所述藏 文辅助字符、所述高频藏文主体字符以及所述藏 文处理信息,生成藏文文本图片。本申请保证在 不需要外部藏文语言数据的情况下生成高质量、 变体多样化且数据

最新专利