欢迎访问西安知识产权运营服务平台

< a href=' '>web对话
  • 基于主题引导的Transformer的遥感图像字幕生成方法
基于主题引导的Transformer的遥感图像字幕生成方法 授权有效中;
  • 专利(申请)号: CN202210689905.9
  • 专利类型: 发明;
  • 主分类: G物理;
  • 产业领域: 图像或视频识别或理解
  • 专利来源: 高校;
  • 申请日: 2022-06-17
  • 原始申请人: 西安电子科技大学
  • 当前专利权人: 西安电子科技大学
  • 交易方式: 转让; 许可;
  • 其他交易方式:
  • 参考价格(元): ¥90000
  • 联系方式: 运营平台029-88631920

摘要
【 中文摘要 】

本发明公开了一种基于主题引导的Transformer遥感图像字幕生成方法,主要解决现有技术生成的描述单一,且无法精确表示图像中的语义信息的问题。其实现方案为:搭建一个由Transformer和主题向量组成的主题编码器,并在分类数据集上进行预训练;搭建一个由随机掩码层、嵌入层、Transformer解码器和soft‑max层级联组成的语义解码器;将主题编码器和语义解码器进行连接,得到遥感图像字幕生成网络;设置训练参数,用标准RSICD数据集迭代训练遥感图像字幕生成网络;利用训练好的遥感图像字幕生成网络生成字幕描述。本发明提高了生成描述的多样性和准确性,可用于地物图像检索、灾情预测、图像理解。

 【 英文摘要 】

The invention discloses a method for generating subtitles of a Transformer remote sensing image based on theme guidance, which mainly solves the problems that the generated description is single and semantic information in the image cannot be accurately represented in the prior art Its implementation scheme is as follows : a topic encoder composed of Transformer and topic vector is built, and pre-trained on the classified data set; build a semantic decoder composed of random mask layer, embedding layer, Transformer decoder and soft ‑ max layer; connect the theme encoder and the semantic decoder to obtain a remote sensing image subtitle generation network; setting training parameters and iteratively training remote sensing image caption generating network with standard RSICD data set; generate subtitle descriptions using the trained remote sensing image subtitle generation network. The invention improves the diversity and accuracy of the generated description, and can be used for ground object image retrieval, disaster prediction, and image understanding.

 技术摘要(来自于incoPat)
 【 用途 】
方法过程生成方法生成方法
电子电器其它电子电器遥感影像字幕
 【 技术功效 】
技术功效句
能生成多样性更强的字幕; 本发明由于使用了一种掩码策略用于增强生成字幕的多样性; 不仅增强了模型的学习能力; 1)生成的字幕准确性更高; 因而可以更全面的表示各个地物之间的关联性; 因此生成的字幕描述更加准确
技术功效短语
多样性; 增强字幕多样性; 增强学习能力; 字幕准确性高; 关联性全面表示; 字幕描述准确
技术功效1级
多样性; 能力; 准确性; 清洁性
技术功效2级
多样性; 多样性提高; 能力提高; 准确性提高; 清洁性
技术功效3级
多样性; 字幕多样性提高; 学习能力提高; 字幕准确性提高; 关联性表示清洁性; 字幕描述准确性提高
技术功效TRIZ参数
28-测量精度;31-物质产生的有害因素;
 分类号
 【技术分类】
主分类号
  • G
    物理学
    • G06V
      图像或视频识别或理解 [20220101]
    • *G06V20/60
      对象类型 [20220101]
    • **G06V20/62
      文本,例如车牌、电视图像上的覆盖文本或字幕 [20220101]
    • G06V20/00
      场景;场景特定元素(数码相机的控制04N23/60) [20220101]
    • G06
      计算或计算;计数
IPC分类号
CPC分类号
 【行业分类】
国民经济行业分类
制造业 信息传输、软件和信息技术服务业
国民经济行业(主)
信息传输、软件和信息技术服务业
新兴产业分类
互联网与云计算、大数据服务
知识密集型分类
信息通信技术制造业 信息通信技术服务业
学科分类
工程
数字经济核心产业分类
数字产品制造业 数字技术应用业 数字要素驱动业
同族专利
同族专利公开号
扩展同族公开号
DocDB公开号
代理机构陕西电子工业专利中心 61205
代理人王品华
申请语言汉语
审查员母润发


×
发送意向

申请须知:申请人无需注册账号即可提交交易意向,交易意向一经提交不可查询或更改,请准确填写相关信息;平台运营人员将在3-5个工作日内查看交易意向并与您联系,感谢阅读。