一种高通量基因组序列数据压缩并行优化方法2025
- 申请专利号:CN202310739800.4
- 公开(公告)日:2025-10-31
- 公开(公告)号:CN117059181A
- 申请人:南开大学
专利内容
(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117059181 A (43)申请公布日 2023.11.14 (21)申请号 202310739800.4 (22)申请日 2023.06.21 (71)申请人 南开大学 地址 300071 天津市南开区卫津路94号 (72)发明人 王刚 孙辉 刘晓光 郑营锋 王潇霏 赵思浓 (74)专利代理机构 天津展誉专利代理有限公司 12221 专利代理师 任海波 (51)Int.Cl. G16B 50/50 (2019.01) G16B 40/30 (2019.01) G06F 16/174 (2019.01) 权利要求书2页 说明书8页 附图1页 (54)发明名称 一种高通量基因组序列数据压缩并行优化 方法 (57)摘要 本发明涉及数据压缩存储技术领域,提供一 种高通量基因组序列数据压缩并行优化方法,该 方法包括:对待压缩数据集中的字符串类型序列 数据并行进行序列特征提取,获得待压缩数据的 序列特征值;根据序列特征值构建待压缩数据的 特征向量,引入纠正参数和骰子系数并行计算任 意所述特征向量间的相似度;根据相似度对待压 缩数据集文件进行两级参数选取策略的聚类分 簇;根据聚类结果对待压缩数据集进行并行级联 压缩,获得优化后的压缩存储文件;对压缩存储 文件并行级联解压缩,根据聚类分簇中间文件恢 A 复数据集的原始序列。该方法通过对基因组测序 1 中的文件数量、序列数目、系统内存和级联压缩
原创力.专利