专利汇可以提供采用AkC解决SKQwhy-not问题的方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种采用AkC解决SKQwhy-not问题的方法及系统,涉及空间关键字查询技术领域,本发明通过将对象的数字属性以布尔表达式的形式表示,更接近现实应用场景;设计AkC索引来巧妙的组织对象信息,同时设计出相应的查询策略,并通过 修改 查询q',用最小的修改代价,满足在查询结果中所有缺失对象均出现,解决空间关键字查询中why-not问题。本发明所采用的AkC索引,根据对象与其集群质心之间的距离将空间划分为多个集群,具有良好的空间过滤能 力 ;在每个集群中建立了关键词倒排文件,具有很好的文本过滤能力;在每个集群中创建属性倒排文件,并将每个群集的属性 摘要 信息存储在查找表中,具有良好的属性过滤能力。,下面是采用AkC解决SKQwhy-not问题的方法及系统专利的具体信息内容。
1.一种采用AkC解决SKQwhy-not问题的方法,其特征在于,包括以下步骤:
获取所有对象o,将对象o划分为k个集群,构建AkC索引;
获取初始查询q=(q.loc,q.doc0,q.B,k,α)和缺失对象集M;根据缺失对象的关键字的频率递减的顺序构建候选关键字列表CKS、根据缺失对象的相似性得分递减的顺序构建候选属性值对列表CAS;将精炼查询q'的关键字集q'.doc和属性值对q'.B'分别设置为q.doc0和q.B;
有序地抽取CKS中的关键字和CAS中的属性值对,分别添加至查询q'的关键字集q'.doc和查询q'的属性值对q'.B'中,形成新的精炼查询q';分别对各个精炼查询q'进行处理以找出最佳精炼查询,直至CKS和CAS都为空;
分别对各个精炼查询q'进行处理,具体包括:
计算q'的修改代价p',过滤掉p'≥pc的查询q',pc为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中的查询qb的修改代价;
对于p'
对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群;
将符合条件的集群包含的对象添加到满足查询q'要求的对象集中,并计算查询q'和对象之间的相似性得分;
对满足查询q'要求的对象集中的所有对象均根据其相似性得分从高至低排序,直到所有原始结果对象和所有缺失对象均出现,获得k'个对象;
如果k'≤km,km为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中时结果集的大小,则计算q'的修改代价p',如果p'
通过使用k均值聚类法将所有对象o划分为k个集群;
采用查找表来保存每个集群的集群ID和属性摘要信息,集群的属性摘要信息是该集群所有对象的属性值对的并集;
每个集群对应该集群的一个关键字倒排文件和一个属性倒排文件。
3.如权利要求2所述的方法,其特征在于:对于p'
若满足,作为待处理的集群,若不满足,过滤掉该集群。
4.如权利要求3所述的方法,其特征在于:对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群,具体包括以下步骤:
如果查询属性q'.B'和集群所链接项的摘要信息满足属性匹配,则将访问该集群;否则,忽略该集群;
对于被访问的集群,如果查询属性q'.B'与集群的属性倒排文件的属性信息满足属性匹配,且精炼查询的关键字q'.doc'与集群的关键字倒排文件的关键字满足关键字匹配,则该集群为符合条件的集群;否则,忽略该集群。
5.如权利要求1所述的方法,其特征在于:B为布尔表达式:
为一个谓词集合,其中i∈[1,n],i∈N*。
6.如权利要求1所述的方法,其特征在于:计算q'的修改代价p',计算公式为:
其中,β1,β2,β3,β4分别表示是cost函数中k值、关键字、属性种类、属性值的权重;βi≥0且 k'是精炼查询q'的查询结果集的大小,k0是初始查询q的结果集的大小,km是保留初始查询关键字和属性,且所有的缺失对象都出现在查询结果中时结果集的大小,用km-k0规范化k'-k0;Δdoc是从q.doc0调整到q'.doc所需改变的关键字的数量,其中缺失对象集M={m1,m2,...,mj},通过|q.doc0∪M.doc|来规范化Δ
doc;ΔAn是从初始查询调整到精炼查询所需改变的属性种类的数量,通过|q.B∪M.B|来规范化ΔAn; n是q.B和M.B所包含的属性的总和;Δvi是包含属性Ai的所有对
象关于该属性的属性值的最大差值;|vi'-vi|是属性Ai中当前查询属性值vi'与初始查询属性值vi之间的差值的绝对值,且|vi'-vi|≤Δvi,通过Δvi来规范化|vi'-vi|。
7.如权利要求1所述的方法,其特征在于:计算查询q和对象o之间的相似性得分,计算公式为:
其中α是0到1之间的一个变量,用来定义距离邻近度与文本相关性之间的相对重要性,d(q.loc,o.loc)表示的是查询q与对象o之间的欧氏距离,dmax(q.loc,O.loc)表示的是查询点q到对象集合O中的所有对象的最大距离,用对象集O中所有对象间距离的最大值表示。
8.一种采用AkC解决SKQwhy-not问题的系统,其特征在于,包括:
AkC索引构建模块,其用于:获取所有对象o,将对象o划分为k个集群,构建AkC索引;
候选列表构建模块,其用于:获取初始查询q=(q.loc,q.doc0,q.B,k,α)和缺失对象集M;根据缺失对象的关键字的频率递减的顺序构建候选关键字列表CKS、根据缺失对象的相似性得分递减的顺序构建候选属性值对列表CAS;将精炼查询q'的关键字集q'.doc和属性值对q'.B'分别设置为q.doc0和q.B;
精炼查询模块,其用于:有序地抽取CKS中的关键字和CAS中的属性值对,分别添加至查询q'的关键字集q'.doc和查询q'的属性值对q'.B'中,形成新的精炼查询q';分别对各个精炼查询q'进行处理以找出最佳精炼查询,直至CKS和CAS都为空;分别对各个精炼查询q'进行处理,具体包括:
计算q'的修改代价p',过滤掉p'≥pc的查询q',pc为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中的查询qb的修改代价;
对于p'
将符合条件的集群包含的对象添加到满足查询q'要求的对象集中,并计算查询q'和对象之间的相似性得分;
对满足查询q'要求的对象集中的所有对象均根据其相似性得分从高至低排序,直到所有原始结果对象和所有缺失对象均出现,获得k'个对象;
如果k'≤km,km为保留初始查询关键字和属性、且所有的缺失对象都出现在查询结果中时结果集的大小,则计算q'的修改代价p',如果p'
获取所有对象o,通过使用k均值聚类法将所有对象o划分为k个集群;
采用查找表来保存每个集群的集群ID和属性摘要信息,集群的属性摘要信息是该集群所有对象的属性值对的并集;
每个集群对应该集群的一个关键字倒排文件和一个属性倒排文件。
10.如权利要求9所述的系统,其特征在于:所述精炼查询模块对于p'
若满足,作为待处理的集群,若不满足,过滤掉该集群。
11.如权利要求10所述的系统,其特征在于:所述精炼查询模块对于待处理的集群,根据AkC索引和预设的筛选条件筛出符合条件的集群,具体包括以下步骤:
如果查询属性q'.B'和集群所链接项的摘要信息满足属性匹配,则将访问该集群;否则,忽略该集群;
对于被访问的集群,如果查询属性q'.B'与集群的属性倒排文件的属性信息满足属性匹配,且精炼查询的关键字q'.doc'与集群的关键字倒排文件的关键字满足关键字匹配,则该集群为符合条件的集群;否则,忽略该集群。
12.如权利要求8所述的系统,其特征在于:B为布尔表达式:
为一个谓词集合,其中i∈[1,n],i∈N*。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于相似度度量的人脸确认方法 | 2020-05-11 | 463 |
一种知识图谱驱动型的法律智能咨询系统 | 2020-05-14 | 582 |
软件相似性度量方法及装置 | 2020-05-12 | 466 |
一种学术资源推荐服务系统与方法 | 2020-05-12 | 322 |
一种基于物品时间流行性的推荐方法 | 2020-05-08 | 846 |
基于语义指导与记忆机制的视频描述方法 | 2020-05-12 | 422 |
编码医学词汇的映射 | 2020-05-11 | 640 |
一种基于隔离森林的海量数据异常值检测算法 | 2020-05-13 | 628 |
使用来自正交行和列的全局机器学习特征的表头部检测 | 2020-05-15 | 917 |
一种基于事理推荐的逻辑图谱构建及预警方法和装置 | 2020-05-13 | 921 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。