发明

基于机器学习的单序列蛋白结构预测的方法和系统

2023-10-12 07:00:57 发布于四川 1
  • 申请专利号:CN202210945251.1
  • 公开(公告)日:2023-10-10
  • 公开(公告)号:CN115458039A
  • 申请人:北京分子之心科技有限公司
摘要:本发明属于生物信息学技术领域,提供基于机器学习的单序列蛋白结构预测的方法和系统。所述系统包括氨基酸编码模块、改进的Evoformer模块和结构生成模块。首先,基于氨基酸编码模块获得蛋白质氨基酸编码和序列对的初始编码,氨基酸编码模块中整合多预训练蛋白质语言模型;其次,基于改进的Evoformer模块对氨基酸编码和氨基酸对编码进行迭代更新;最后,结构生成模块基于更新后的氨基酸编码和氨基酸对编码预测蛋白质结构,并预测置信分数。本发明能仅基于蛋白质序列进行结构预测,不需同源序列搜索步骤,极大地提升蛋白质结构预测速度,同时可对孤儿蛋白等缺乏同源进化信息的蛋白质进行结构预测,有利于蛋白质结构预测的大规模应用。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 115458039 A (43)申请公布日 2022.12.09 (21)申请号 202210945251.1 (22)申请日 2022.08.08 (71)申请人 北京分子之心科技有限公司 地址 102208 北京市昌平区育知东路30号 院1号楼9层1单元914 (72)发明人 许锦波 井晓阳 吴凡迪  (74)专利代理机构 北京知文通达知识产权代理 事务所(普通合伙) 16051 专利代理师 欧阳石文 (51)Int.Cl. G16B 15/20 (2019.01) G06N 20/00 (2019.01) G16B 30/00 (2019.01) 权利要求书2页 说明书10页 附图4页 (54)发明名称 基于机器学习的单序列蛋白结构预测的方 法和系统 (57)摘要 本发明属于生物信息学技术领域,提供基于 机器学习的单序列蛋白结构预测的方法和系统。 所 述 系统 包 括 氨 基 酸 编码 模 块 、改 进的 Evoformer模块和结构生成模块。首先,基于氨基 酸编码模块获得蛋白质氨基酸编码和序列对的 初始编码,氨基酸编码模块中整合多预训练蛋白 质语言模型;其次,基于改进的Evoformer模块对 氨基酸编码和氨基酸对编码进行迭代更新;最 后,结构生成模块基于更新后的氨基酸编码和氨 基酸对编码预测蛋白质结构,并预测置信分数。 本发明能仅基于蛋白质序列进行结构预测,不需 A 同源序列搜索步骤,极大地提升蛋白质

最新专利