发明

基于文本提示词和图像驱动的内容生成方法、设备、介质2025

2024-04-21 07:45:25 发布于四川 5

申请专利号：CN202311759693.8
公开（公告）日：2025-07-01
公开（公告）号：CN117911584A
申请人：上海人工智能创新中心

摘要：本发明涉及一种基于文本提示词和图像驱动的内容生成方法、设备、介质，一方面，本发明对图像驱动任务构建了一个条件编码模块，该模块能够兼容现有的文本生成图像、文本生成视频模型，以条件帧和帧间一致性为输入，能更好编码和保留条件帧的细节；另一方面，本发明对训练数据集的扩充，除了条件帧、目标条件帧，该数据集还包含了条件帧和目标条件帧的帧间一致性，该发明能够有效提高生成视频的稳定性和可控性；最后，针对图像驱动模型的训练策略，将动作过快或静止的数据映射到特定的输入区间，通过在推理时回避该输入区间以获得高质量的生成结果，同时，训练结束后，可以通过调整输入的帧间一致性数值来控制生成视频中动效的剧烈程度。

专利内容

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 117911584 A (43)申请公布日 2024.04.19 (21)申请号 202311759693.8 G06T 5/70 (2024.01) (22)申请日 2023.12.20 (71)申请人上海人工智能创新中心地址 200232 上海市徐汇区云锦路701号 37、38层 (72)发明人曾艳红　张倚铭　邢哲宁　方友清　陈恺　 (74)专利代理机构上海科盛知识产权代理有限公司 31225 专利代理师宣慧兰 (51)Int.Cl. G06T 11/60 (2006.01) G06V 30/41 (2022.01) G06V 30/19 (2022.01) G06V 20/40 (2022.01) 权利要求书2页说明书7页附图2页 (54)发明名称基于文本提示词和图像驱动的内容生成方法、设备、介质 (57)摘要本发明涉及一种基于文本提示词和图像驱动的内容生成方法、设备、介质，一方面，本发明对图像驱动任务构建了一个条件编码模块，该模块能够兼容现有的文本生成图像、文本生成视频模型，以条件帧和帧间一致性为输入，能更好编码和保留条件帧的细节；另一方面，本发明对训练数据集的扩充，除了条件帧、目标条件帧，该数据集还包含了条件帧和目标条件帧的帧间一致性，该发明能够有效提高生成视

基于文本提示词和图像驱动的内容生成方法、设备、介质2025

专利内容

最新专利

相关专利