欢迎访问西安知识产权运营服务平台
欢迎访问西安知识产权运营服务平台
西安电子科技大学计算机科学与技术学院(国家示范性软件学院);发明人包含1名教授和3名副教授团队
【 中文摘要 】本发明公开了一种面向领域数据的语义检索方法,利用本体来描述某个领域的语义信息,使得计算机更准确得理解用户查询内容,进而实现语义层面的检索,在分析现有技术的基础上,结合语义网本体的结构特点,提出了一种面向领域数据的语义索引模型,模型根据关键词在本体中的位置推断关键词与不同实例之间的语义相关度,将相关度权重写入关键词对应的实例倒排列表,降低了语义检索时相似度计算的复杂度,提高了检索的效率。本发明所述方法将检索从关键字简单匹配的语法层次提高到计算机可以理解的语义层次,使计算机能够读懂输入的关键词,从而实现了检索的智能化。
【 英文摘要 】The invention discloses a semantic retrieval method oriented to field data. Semantic information of a certain field is described by using a body, so that a computer understands content inquired by a user more accurately, and retrieval on a semantic level is realized. A semantic retrieval model oriented to field data is provided in combination with the structural characteristics of a semantic network body on the basis of analyzing the prior art. The semantic relativity between a keyword and different examples is deduced by using the model according to the position of the keyword in the body, and a relativity weight is written into an example inverted list which corresponds to the keyword, so that the similarity computation complexity during semantic retrieval is lowered, and the retrieval efficiency is increased. According to the method disclosed by the invention, retrieval is raised from a grammatical level of simple keyword matching to a semantic level understandable for the computer, and the computer can understand the input keyword, so that retrieval intelligence is realized.
面向领域数据的智能语义层次搜索方法。
该方法能够使计算机准确地提供具有简单关键词匹配语法层次的查询内容,并有效地读取和理解关键词,以简单的方式实现面向领域数据的语义层次搜索过程,结合语义主体结构的特点,减少语义搜索时间和搜索复杂度,提高搜索效率。
该方法包括通过主体管加工工具完成主体概念库的构建操作。 通过语义标注工具创建数据集。 关系建立在不同短语的集合属性关联中。 遍历所述数据集得到语义数据索引。 查询语句文字处理操作通过分词工具进行。 创建当前字集合。 利用当前工作集选择原词。 根据排序关联度大小获得搜索集合。 将搜索结果发送给用户。
信息通信 | 搜索方法 | 智能语义层次搜索方法 |
数据 | 领域数据 |
技术功效句 | 使信息检索的查准率比现有技术有所提高; 从而实现了检索的智能化 |
技术功效短语 | 查准率提高; 实现检索智能化 |
技术功效1级 | 查准率; 智能化 |
技术功效2级 | 查准率提高; 智能化提高 |
技术功效3级 | 查准率提高; 实现检索智能化提高 |
主分类号 |
|
IPC分类号 | |
CPC分类号 | G06F16/3344; |
DWPI分类号 | T01; |
DWPI手工代码 | T01-E01B; T01-J04B2; T01-J05B1; T01-J05B3; T01-J11A1; T01-J16C3; T01-L02; T01-N01D2; |
国民经济行业分类 | 制造业信息传输、软件和信息技术服务业居民服务、修理和其他服务业 |
国民经济行业(主) | 制造业信息传输、软件和信息技术服务业居民服务、修理和其他服务业 |
新兴产业分类 | 下一代信息网络产业互联网与云计算、大数据服务 |
新兴产业(主) | 下一代信息网络产业 |
知识密集型分类 | 信息通信技术制造业信息通信技术服务业 |
学科分类 | 工程 |
数字经济核心产业 | 数字产品制造业数字技术应用业数字要素驱动业 |
DWPI基本专利 | CN104239513A; | |
DWPI同族公开号 | ||
同族专利公开号 | ||
扩展同族公开号 | ||
DocDB公开号 | ||
DWPI同族国家/地区 | 中国; |
代理机构 | 北京科亿知识产权代理事务所(普通合伙) 11350 |
代理人 | 汤东凤 |
申请语言 | 汉语 |
审查员 | 廖雯雯 |
1.一种面向领域数据的语义检索方法,其特征在于,包括以下步骤:(1)借助本体管理工具完成本体概念库的构建,利用语义标注工具进行标注得到实例数据集;(2)根据本体概念、实例、属性之间的相互关系设定不同短语与实例的相关度权重,遍历实例数据集,构建语义数据索引;(3)用户输入查询语句,利用分词工具对用户查询语句进行分词处理;(4)利用本体概念连通图和上下文分析对用户查询进行语义扩展,形成新的单词集合;(5)用新的单词集合作为原始词,进行语义检索,得到相关实例集合;(6)将检索得到的实例集合按照相关度权值大小进行排序;(7)将检索结果返回给用户;
所述构建语义数据索引的步骤包括:(1)对实例数据集中的所有实例以及实例对应的资源进行编号;(2)遍历实例数据集中所有实例,访问实例所属的概念、包含的属性以及相关的概念和实例,查表得到与实例相关的所有实体的相关度权值,将实例编号和权重存入实体名称对应的倒排列表;(3)遍历所有的实体名称,对每个实体名称进行分词处理;(4)合并每个单词对应的倒排列表,得到语义索引。
2.根据权利要求 1所述的面向领域数据的语义检索方法,其特征在于,所述的利用本体概念连通图进行语义扩展的算法包括如下步骤:(1)输入语义实例数据索引库,输出本体概念连通图,顶点为概念,边的权重为概念之间的关联程度;(3)初始化本体概念连通图CM;
(4)访问语义实例数据库,获取具有概念的文档集合D;(5)对于每一个具有概念的文档集合Di中所出现的任意两个概念Cj和Ck,取两个概念中出现频率较小的概念作为这两个概念同时出现在文档集合Di中的频数f;(6)如果概念Cj和概念Ck在本体概念图中是连通的并且权重不为0,就将频数f累加权重;(7)如果Cj和Ck不连通,则在图中连通Cj和Ck,并为其赋值为f;(8)对图中所有边的频数f取最大值作为分母进行归一化处理,得到连通概念Cj和Ck的边权重Wj,k。
3.根据权利要求 1所述的面向领域数据的语义检索方法,其特征在于,所述的利用上下文分析进行语义扩展的算法包括如下步骤:(1)输入单词序列q1、q2、…、qn,输出每个单词的扩展概念;(2)使用简单查询方式获得每个单词序列qi的相关文档集合Di;(3)统计文档集合Di中出现的本体概念,对每个概念出现次数进行统计;(4)统计每篇文档集合Di中出现单词序列qi的次数;(5)综合考虑概念以及单词序列qi出现的频率,取前K个概念作为qi的扩展概念;(6)对K个概念一并提取其属性描述作为扩展向量内容,初始化每个单词序列qi的候选概念列表。
4.根据权利要求 1所述的面向领域数据的语义检索方法,其特征在于,所述的对用户输入的查询语句进行语义检索的步骤包括:(1)预处理用户输入的查询语句,消除无效字符,利用分词工具对用户输入查询语句进行分词处理;(2)利用本体概念连通图和上下文分析对用户查询扩展方法进行语义扩展,得到扩展后的单词集合;(3)依次查找扩展后的单词集中每个单词对应的实例倒排列表,整合所有的倒排列表,得到用户查询对应的实例列表;
(4)根据实例对应的相关度权重,对实例列表进行排序,得到用户查询对应的最终倒排列表。
申请须知:申请人无需注册账号即可提交交易意向,交易意向一经提交不可查询或更改,请准确填写相关信息;平台运营人员将在3-5个工作日内查看交易意向并与您联系,感谢阅读。
公众号二维码
电话: 029-65666529
地址:西安高新区丈八四路20号神州数码科技园4号楼15层
西安科技大市场创新云服务股份有限公司 备案号:陕ICP备16006780号-8