发明

一种基于双重语义图和模态对齐的视觉语言导航方法2025

2024-04-21 07:21:31 发布于四川 18
  • 申请专利号:CN202410081705.4
  • 公开(公告)日:2025-08-05
  • 公开(公告)号:CN117889864A
  • 申请人:合肥工业大学
摘要:本发明提供一种基于双重语义图和模态对齐的视觉语言导航方法,智能体被初始化在一个随机的可导航点,根据当前可导航点的视觉环境信息提取当前可导航点的视觉特征以及对应的文本语义特征,然后使用这两种模态的特征分别构建一个拓扑图,同时使用语法解析器提取指令中的关键名词特征,用于对文本特征进行增强的文本指令特征分别与视觉语义拓扑图,文本语义拓扑图以及当前可导航点的视觉特征进行跨模态的注意力融合,从而做出正确的导航决策。本发明在文本指令特征和视觉特征的基础上,通过构建视觉拓扑图和文本语义拓扑图,增强了每个可导航点的关键信息表示,减小了文本指令和视觉环境之间的语义差距,提高了视觉语言导航的准确性和效率。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117889864 A (43)申请公布日 2024.04.16 (21)申请号 202410081705.4 (22)申请日 2024.01.19 (71)申请人 合肥工业大学 地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人 李佳 张雪松 洪日昌  (74)专利代理机构 合肥安禾知识产权代理事务 所(普通合伙) 34306 专利代理师 张风雷 (51)Int.Cl. G01C 21/20 (2006.01) 权利要求书4页 说明书8页 附图1页 (54)发明名称 一种基于双重语义图和模态对齐的视觉语 言导航方法 (57)摘要 本发明提供一种基于双重语义图和模态对 齐的视觉语言导航方法,智能体被初始化在一个 随机的可导航点,根据当前可导航点的视觉环境 信息提取当前可导航点的视觉特征以及对应的 文本语义特征,然后使用这两种模态的特征分别 构建一个拓扑图,同时使用语法解析器提取指令 中的关键名词特征,用于对文本特征进行增强的 文本指令特征分别与视觉语义拓扑图,文本语义 拓扑图以及当前可导航点的视觉特征进行跨模 态的注意力融合,从而做出正确的导航决策。本 发明在文本指令特征和视觉特征的基础上,通过 A 构建视觉拓扑图和文本语义拓扑图,增强了每个 4 可导航点的关键信息表示,减小了文本指令和视 6 8 9 觉环境之间的语义差距,提高了视觉语言导航的 8 8 7 准确性和效率。 1 1

最新专利