发明

一种基于序列特征的植物长链非编码RNA预测方法

2023-05-19 11:12:19 发布于四川 0
  • 申请专利号:CN202210570828.5
  • 公开(公告)日:2024-12-13
  • 公开(公告)号:CN114882953A
  • 申请人:南京邮电大学
摘要:一种基于序列特征的植物长链非编码RNA预测方法,包括正负数据集构建去冗余、序列k‑mer频率特征提取、特征融合与选择以及分类器对比,正负数据集的构建去冗余旨在消除序列相似性对预测结果造成的影响,序列特征提取实现了对基因序列k‑mer特征的提取,特征融合在序列k‑mer特征提取的基础上加入序列长度特征和序列GC含量特征后将这三类特征进行融合,接着使用卡方检验进行最优特征选择,最后运用梯度提升决策树算法解决植物lncRNA的识别分类问题。本发明深入挖掘了基因序列特征,有效的融合这些特征且加以选择,为如何从大量的转录本中准确地识别出植物lncRNA这一问题提供了可行的方法。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 114882953 A (43)申请公布日 2022.08.09 (21)申请号 202210570828.5 (22)申请日 2022.05.24 (71)申请人 南京邮电大学 地址 210003 江苏省南京市鼓楼区新模范 马路66号 (72)发明人 龚乐君 陈静梅  (74)专利代理机构 南京正联知识产权代理有限 公司 32243 专利代理师 姜梦翔 (51)Int.Cl. G16B 40/20 (2019.01) G16B 30/00 (2019.01) G06K 9/62 (2022.01) 权利要求书2页 说明书5页 附图2页 (54)发明名称 一种基于序列特征的植物长链非编码RNA预 测方法 (57)摘要 一种基于序列特征的植物长链非编码RNA预 测方法,包括正负数据集构建去冗余、序列k‑mer 频率特征提取、特征融合与选择以及分类器对 比,正负数据集的构建去冗余旨在消除序列相似 性对预测结果造成的影响,序列特征提取实现了 对基因序列k‑mer特征的提取,特征融合在序列 k‑mer特征提取的基础上加入序列长度特征和序 列GC含量特征后将这三类特征进行融合,接着使 用卡方检验进行最优特征选择,最后运用梯度提 升决策树算法解决植物lncRNA的识别分类问题。 本发明深入挖掘了基因序列特征,有效的融合这 A 些特征且加以选择,为如何从大量的转录本中准 3 确地识别出植物lncRNA这一问题提

最新专利