首页 / 专利库 / 专利权 / 代理人 / 基于知识图谱的招标采购信息推荐系统及推荐方法

基于知识图谱的招标采购信息推荐系统及推荐方法

阅读:568发布:2020-11-28

专利汇可以提供基于知识图谱的招标采购信息推荐系统及推荐方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及招标采购信息推荐技术领域,特别涉及一种基于知识图谱的招标采购信息推荐系统及推荐方法,后者S1:对于招标采购行业知识采用人工搜集分类,建立 知识库 的模式图, 定位 数据爬虫的搜集方向,并爬取数据;S2:采集的数据进行清洗并规整;S3:建立指示图谱,使用知识图谱对公告进行推理,根据公告蕴含的知识进行学习;S4:使用部署运行的知识图谱,将公告向用户智能推荐推送。本发明采用分布式爬虫爬取领域分类和百科内容等结构化或非结构化数据,开放知识图谱库获得数据;招标信息智能推荐,由项目公告标题和内容,找出相近的项目;由投标人画像获得相似用户,进而获得相似用户感兴趣的项目,为投标人推荐其可能感兴趣的项目。,下面是基于知识图谱的招标采购信息推荐系统及推荐方法专利的具体信息内容。

1.一种基于知识图谱的招标采购信息推荐系统,其特征在于包括数据获取模、数据清洗模块、知识图谱建立模块和推理推荐机制模块;
数据获取模块,采用人工搜集并定义招标行业领域的树形多层次分类,使用网络爬虫框架采集互联网文中的有效数据,并提取有效数据中的百科词条名称、属性-属性值对、词条概况以及词条内容存储在本地数据库,从本地数据库中获取历史发布和采集的公告数据;
数据清洗模块,互联网采集数据进行数据清洗,清洗并规整数据,将经过清洗后的数据以一定规则写入图形数据库;
知识图谱建立模块,使用图形数据库中的知识图谱对公告数据进行推理,利用公告数据蕴含的知识进行学习并建立行业知识库,企业知识库和项目知识库;
推理推荐机制模块,利用部署运行的知识图谱进行公告的智能推荐推送,包括内容推荐上下游机制、用户刻画机制和信息推荐单元,用户刻画机制包括领域分类刻画和知识表示算法刻画,信息推荐单元包括基于内容推荐算法的相似项目公告推荐、基于协同过滤算法的相似项目公告推荐和项目资质条件过滤。
2.一种基于知识图谱的招标采购信息推荐方法,其特征在于包括以下步骤:
S1:对于招标采购行业知识采用人工搜集分类,建立知识库的模式图,定位数据爬虫的搜集方向,并爬取数据;
S2:采集的数据进行清洗并规整,以一定规则写入知识图谱;
S3:建立指示图谱,使用知识图谱对公告进行推理,根据公告蕴含的知识进行学习;
S4:使用部署运行的知识图谱,将公告向用户智能推荐推送。
3.根据权利要求2所述的一种基于知识图谱的招标采购信息推荐方法,其特征在于S2中,对采集数据进行数据清洗,过程如下:
S21,对于百科词条获取的脏数据进行清理:利用正则表达式过滤掉词条名称不规整的情况,通过词黑名单、词性黑名单、词义黑名单清洗掉无效词条,其中包括建立类别黑名单词库,通过对词条属性、词条概况和词条内容中进行查询判断词条是否属于不相关领域,并舍弃不相关领域词条;
S22,查询百科词条概况和内容中的关键词:通过关键词映射,推测其所属层级分类并进行人工辅助分类;
S23,数据格式规整:根据数据的初始格式,按照一定规则将数据规整成相应的格式化数据;
S24,数据分析:对文本进行中文分词,初步地分析统计每个词的重要性;
S25,将经过清洗后的数据存储在图形数据库中。
4.根据权利要求3所述的一种基于知识图谱的招标采购信息推荐方法,其特征在于S3中,知识图谱建立的过程包括:
S31,建立行业知识库,包括:
S311,知识图谱的数据使用图形数据库neo4j进行存储,知识图谱包括模式图和数据图,模式图是规定的树形层级分类数据,数据图是底层分类所包含的所有词条类数据,清洗后的数据按照层级关系导入到图形数据库neo4j;
S312,导入数据的基础内容是:图形数据库中每个节点包含有标签,节点号和属性字典,而不同节点间存在关系;
S313,对每个已有层级分类的物资词条搜索其相关词,对搜索到的文本进行命名实体识别,通过一定的置信度阈值的过滤,得到该词条的相关联的物资;
S32:建立企业知识库;
S321,将所有资质证书作为一类“资质证书”标签其中的每个节点录入到图形数据库中。
S322,联合平台注册企业数据和互联网工商信息查询网站信息,获取企业的基本信息、征信信息、资质条件、活跃兴趣度信息。
S33:建立项目知识库;
S331,项目知识来源于招标公告、采购公告和中标公告,通过设置规则的正则表达式、中文分词和命名实体识别技术提取项目范围、项目资质要求、招标人、代理人、中标人、中标候选人信息;
S332,将每个项目都存储在标签为“项目”的节点中,信息都以节点的属性的形式保存。
5.根据权利要求4所述的一种基于知识图谱的招标采购信息推荐方法,其特征在于S4中,将公告向用户智能推荐推送的过程,包括:
S41,内容推理上下游机制:
S411,利用TFIDF方法和词性筛选分析历史公告标题,建立一个针对招标领域的公告标题关键词词库,将标题关键词加入知识图谱的行业知识库,即创建一类标签为”标题关键词”的节点,并且分类;
S412,对于每个公告,判断图形数据库neo4j是否存在该项目,若不存在,则新建一个标签为”项目”的节点;
S413,对每个公告内容,利用正则表达式剔除其中的无效内容,再与标题进行拼接形成有效内容;
S414,对每个公告标题,提取其中的标题关键词,对于每个提取出来的标题关键词,建立标签为”项目”的节点到标签为”标题关键词”节点的关系;
S415,周期性从图形数据库的行业知识库中读取全部相关词条,并得到所有相关词条的词条-节点id的映射,拼接编译成全名词正则表达式,利用该正则表达式对每个公告的有效内容全文匹配,并保留匹配结果;
S416,利用节点id映射,对所有匹配结果词条在图形数据库中找到节点,利用属性快速得到回溯类别,将回溯的类别作为结果返回的一部分;建立“标题关键词”中匹配的相关词条对应节点的关系,该关系具有属性即频次,代表有多少项目发掘出该标题关键词与该词条建立了关系,以频次进行推荐名词排序;
S417,将公告的标题相关词对应的所有名词进行按照关系属性排序,回溯类别并返回结果。
S42,用户(投标人)刻画机制:
S421,领域分类刻画
在知识图谱系统中的行业知识库,每个有效词条都上溯其一级分类、二级分类、三级分类…N级分类,最终以所有的领域分类的分值,对用户描绘出用户画像,描述公式为:
ΔIuf=wuwf
其中,ΔIuf是某个用于对某个领域的兴趣度增量,wu是用户对某个词条的行为兴趣度,wf是领域具体权重值,每两个用户间的相似度用如下公式刻画:
其中,Sab是最终得到两个用户间的相似度,l是领域分类的级别,不同领域分类级别不同,算式中的加权平均的权值wl则不同,越具体的分类wl越大。Nl则是级别l的所有领域分类的个数,i是其中的一个领域分类,Iai和Ibi则是用户a和用户b对分类i兴趣度。Sab越高,两个用户的相似度越大。
S422,知识表示算法刻画
利用知识表示的Trans系列算法,将知识图谱中行业知识库、企业知识库、项目知识库中所有节点按照其间的关系进行低维向量表示,将企业以低维向量表示作为用户刻画,企业相似度用低维向量的余弦距离来表示;
S43,信息推荐单元包含基于内容推荐的推荐算法和基于用户的协同过滤算法;信息推荐过程:
S431,相似项目公告推荐
对于每个项目公告,包含的项目概况、项目范围部分具有信息量的文本内容,提取出来的标题关键词和内容提取词能反映项目实际相关领域;为了降低后续文本间相似度计算的计算量,对拼接得到的文本进行信息指纹算法。对文本信息指纹进行编辑距离计算;编辑距离结果小于一定阈值的两个公告则认定是相似公告,并依据编辑距离和信息指纹的长度计算两个公告的相似度;公告相似度的计算公式如下:
其中,Hab是两个公告的信息指纹的编辑距离,编辑距离越小,则信息指纹越相似,而la和lb是两个信息指纹的长度;当投标人对某个公告感兴趣自动地向其推荐最近一段时间内的该依赖公告的相似公告,推荐的公告列表则按照依赖公告的兴趣度与相似度的积进行递减排序;推荐公告的兴趣度计算公式如下:
Ib=waSab
其中,Ib是对新公告的兴趣度,wa是用户已有行为公告的行为的兴趣度权重,Sab则是新公告和已有行为公告的相似度;
S432,相似项目公告推荐
利用用户刻画机制,得到企业的相似用户,最终得到两个用户的相似度Sab;
推荐相似用户的感兴趣的公告,按照用户相似度与相似用户对公告兴趣度wb的积进行递减排序;用户对新公告的兴趣度Ia计算公式如下:
Ia=Sabwb
结合基于内容推荐的推荐算法和基于用户的协同过滤算法进行推荐;
S433,项目资质条件过滤
利用正则表达式提取公告中的资质条件要求,在向用户推荐展示之前,过滤掉平台内投标人不满足项目资质要求的项目。

说明书全文

基于知识图谱的招标采购信息推荐系统及推荐方法

技术领域

[0001] 本发明涉及招标采购信息推荐技术领域,特别涉及一种基于知识图谱的招标采购信息推荐系统及推荐方法。

背景技术

[0002] 目前,招标公告和招标文件,是由招标人或招标代理机构发出,投标人对招标项目的了解主要是通过招标公告和招标文件。其中,公开的招标公告,可以说是招标投标领域的重要信息媒介,它使得投标人在没有深入了解项目之前就可以获得项目的大体信息。然而,招标公告一般是文本或富文本的格式,一般是非结构化数据,除了关键信息之外,包含了很多投标人不是特别关注的非关键的冗余信息。
[0003] 同时,一些招标项目工程复杂、涵盖相关领域众多,而项目涵盖的领域可能隐藏在公告内容的文本信息中。由于公告数量庞大,并且由于各种招标公告样式不一,投标人很难快速浏览每个项目公告的详细信息,难以发现项目可能需要的上下游相关领域,最终错过一些商机。
[0004] 此外,对于招标投标领域的综合信息推荐系统,由于需要涵盖各个行业的专业知识。各个行业(如医院、建材、化工等行业)的专有物资名称整体数量繁多、并且缺少物资的分类体系;而单个具体的名称体现出生僻、歧义较多、在文本集中的重现率低的特点。这些客观因素物资与物资之间的近似关系很难被发掘,传统的推荐系统在准确率上效果一般。

发明内容

[0005] 针对上述存在的技术问题,本发明的目的是:提供了一种基于知识图谱的招标采购信息推荐系统及推荐方法,用以解决上述缺陷
[0006] 本发明的技术方案之一是通过以下技术措施来实现的:一种基于知识图谱的招标采购信息推荐系统,包括数据获取模、数据清洗模块、知识图谱建立模块和推理推荐机制模块,
[0007] 数据获取模块,采用人工搜集并定义招标行业领域的树形多层次分类,使用网络爬虫框架采集互联网文中的有效数据,并提取有效数据中的百科词条名称、属性-属性值对、词条概况以及词条内容存储在本地数据库,从本地数据库中获取历史发布和采集的公告数据;
[0008] 数据清洗模块,互联网采集数据进行数据清洗,清洗并规整数据,将经过清洗后的数据以一定规则写入图形数据库;
[0009] 知识图谱建立模块,使用图形数据库中的知识图谱对公告数据进行推理,利用公告数据蕴含的知识进行学习并建立行业知识库,企业知识库和项目知识库;
[0010] 推理推荐机制模块,利用部署运行的知识图谱进行公告的智能推荐推送,包括内容推荐上下游机制、用户刻画机制和信息推荐单元,用户刻画机制包括领域分类刻画和知识表示算法刻画,信息推荐单元包括基于内容推荐算法的相似项目公告推荐、基于协同过滤算法的相似项目公告推荐和项目资质条件过滤。
[0011] 本发明的技术方案之二是通过以下技术措施来实现的:一种基于知识图谱的招标采购信息推荐方法,包括以下步骤:
[0012] S1:对于招标采购行业知识采用人工搜集分类,建立知识库的模式图,定位数据爬虫的搜集方向,并爬取数据;
[0013] S2:采集的数据进行清洗并规整,以一定规则写入知识图谱;
[0014] S3:建立指示图谱,使用知识图谱对公告进行推理,根据公告蕴含的知识进行学习;
[0015] S4:使用部署运行的知识图谱,将公告向用户智能推荐推送。
[0016] 下面是对上述基于知识图谱的招标采购信息推荐方法的进一步优化或/和改进:
[0017] S2中,对采集数据进行数据清洗,过程如下:
[0018] S21,对于百科词条获取的脏数据进行清理:利用正则表达式过滤掉词条名称不规整的情况,通过词黑名单、词性黑名单、词义黑名单清洗掉无效词条,其中包括建立类别黑名单词库,通过对词条属性、词条概况和词条内容中进行查询判断词条是否属于不相关领域,并舍弃不相关领域词条;
[0019] S22,查询百科词条概况和内容中的关键词:通过关键词映射,推测其所属层级分类并进行人工辅助分类;
[0020] S23,数据格式规整:根据数据的初始格式,按照一定规则将数据规整成相应的格式化数据;
[0021] S24,数据分析:对文本进行中文分词,初步地分析统计每个词的重要性;
[0022] S25,将经过清洗后的数据存储在图形数据库中。
[0023] 上述在S3中,知识图谱建立的过程包括:
[0024] S31,建立行业知识库,包括:
[0025] S311,知识图谱的数据使用图形数据库neo4j进行存储,知识图谱包括模式图和数据图,模式图是规定的树形层级分类数据,数据图是底层分类所包含的所有词条类数据,清洗后的数据按照层级关系导入到图形数据库neo4j;
[0026] S312,导入数据的基础内容是:图形数据库中每个节点包含有标签,节点号和属性字典,而不同节点间存在关系;
[0027] S313,对每个已有层级分类的物资词条搜索其相关词,对搜索到的文本进行命名实体识别,通过一定的置信度阈值的过滤,得到该词条的相关联的物资;
[0028] S32:建立企业知识库;
[0029] S321,将所有资质证书作为一类“资质证书”标签其中的每个节点录入到图形数据库中。
[0030] S322,联合平台注册企业数据和互联网工商信息查询网站信息,获取企业的基本信息、征信信息、资质条件、活跃兴趣度信息。
[0031] S33:建立项目知识库;
[0032] S331,项目知识来源于招标公告、采购公告和中标公告,通过设置规则的正则表达式、中文分词和命名实体识别技术提取项目范围、项目资质要求、招标人、代理人、中标人、中标候选人信息;
[0033] S332,将每个项目都存储在标签为“项目”的节点中,信息都以节点的属性的形式保存。
[0034] 上述在S4中,将公告向用户智能推荐推送的过程,包括:
[0035] S41,内容推理上下游机制:
[0036] S411,利用TFIDF方法和词性筛选分析历史公告标题,建立一个针对招标领域的公告标题关键词词库,将标题关键词加入知识图谱的行业知识库,即创建一类标签为”标题关键词”的节点,并且分类;
[0037] S412,对于每个公告,判断图形数据库neo4j是否存在该项目,若不存在,则新建一个标签为”项目”的节点;
[0038] S413,对每个公告内容,利用正则表达式剔除其中的无效内容,再与标题进行拼接形成有效内容;
[0039] S414,对每个公告标题,提取其中的标题关键词,对于每个提取出来的标题关键词,建立标签为”项目”的节点到标签为”标题关键词”节点的关系;
[0040] S415,周期性从图形数据库的行业知识库中读取全部相关词条,并得到所有相关词条的词条-节点id的映射,拼接编译成全名词正则表达式,利用该正则表达式对每个公告的有效内容全文匹配,并保留匹配结果;
[0041] S416,利用节点id映射,对所有匹配结果词条在图形数据库neo4j中找到节点,利用category属性快速得到回溯类别,将回溯的类别作为结果返回的一部分;建立”标题关键词”中匹配的相关词条对应节点的关系,该关系具有属性” frequency”,即频次,代表有多少项目发掘出该标题关键词与该词条建立了关系,以frequency进行推荐名词排序;
[0042] S417,将公告的标题相关词对应的所有名词进行按照关系属性 frequencySum排序,回溯类别并返回结果。
[0043] S42,用户(投标人)刻画机制:
[0044] S421,领域分类刻画
[0045] 在知识图谱系统中的行业知识库,每个有效词条都上溯其一级分类、二级分类、三级分类…N级分类,最终以所有的领域分类的分值,对用户描绘出用户画像,描述公式为:
[0046] ΔIuf=wuwf
[0047] 其中,ΔIuf是某个用于对某个领域的兴趣度增量,wu是用户对某个词条的行为兴趣度,wf是领域具体权重值,每两个用户间的相似度用如下公式刻画:
[0048]
[0049] 其中,Sab是最终得到两个用户间的相似度,l是领域分类的级别,不同领域分类级别不同,算式中的加权平均的权值wl则不同,越具体的分类wl越大。Nl则是级别l的所有领域分类的个数,i是其中的一个领域分类,Iai和Ibi则是用户 a和用户b对分类i兴趣度。Sab越高,两个用户的相似度越大。
[0050] S422,知识表示算法刻画
[0051] 利用知识表示的Trans系列算法,将知识图谱中行业知识库、企业知识库、项目知识库中所有节点按照其间的关系进行低维向量表示,将企业以低维向量表示作为用户刻画,企业相似度用低维向量的余弦距离来表示;
[0052] S43,信息推荐单元包含基于内容推荐的推荐算法和基于用户的协同过滤算法;信息推荐过程:
[0053] S431,相似项目公告推荐
[0054] 对于每个项目公告,包含的项目概况、项目范围部分具有信息量的文本内容,提取出来的标题关键词和内容提取词能反映项目实际相关领域;为了降低后续文本间相似度计算的计算量,对拼接得到的文本进行信息指纹算法(simhash)。对文本信息指纹进行编辑距离计算;编辑距离结果小于一定阈值的两个公告则认定是相似公告,并依据编辑距离和信息指纹的长度计算两个公告的相似度;公告相似度的计算公式如下:
[0055]
[0056] 其中Hab是两个公告的信息指纹的编辑距离,编辑距离越小,则信息指纹越相似,而la和lb是两个信息指纹的长度;当投标人对某个公告感兴趣自动地向其推荐最近一段时间内的该依赖公告的相似公告,推荐的公告列表则按照依赖公告的兴趣度与相似度的积进行递减排序;推荐公告的兴趣度计算公式如下:
[0057] Ib=waSab
[0058] 其中,Ib是对新公告的兴趣度,wa是用户已有行为公告的行为的兴趣度权重,Sab则是新公告和已有行为公告的相似度;
[0059] S432,相似项目公告推荐
[0060] 利用用户刻画机制,得到企业的相似用户,最终得到两个用户的相似度Sab;
[0061] 推荐相似用户的感兴趣的公告,按照用户相似度与相似用户对公告兴趣度 wb的积进行递减排序;用户对新公告的兴趣度Ia计算公式如下:
[0062] Ia=Sabwb
[0063] 结合基于内容推荐的推荐算法和基于用户的协同过滤算法进行推荐;
[0064] S433,项目资质条件过滤
[0065] 利用正则表达式提取公告中的资质条件要求,在向用户推荐展示之前,过滤掉平台内投标人不满足项目资质要求的项目。
[0066] 本发明的有益效果如下:
[0067] (1)采用分布式爬虫爬取领域分类和百科内容等结构化或非结构化数据,并融合zhishi.me等开放知识图谱库获得数据;
[0068] (2)推理物资的所属分类和所属领域,以及该物资的相关物资。由招标公告标题和内容,推理招标项目可能涉及到的领域,提高相关领域投标人的兴趣度和浏览效率,促成更精准的公告浏览行为;从词条、词性、词义等层面维护黑名单词库,用正则表达式清洗掉无效词条数据。对于剩余的有效数据中,其中的领域分类词条用来构建知识图谱模式图,其中的实体词条及其属性和关系则用来构建知识图谱数据图。考虑复杂的关联关系带来查询速度的下降,采用图形数据库neo4j存储数据;(3)通过机器学习相关技术实现新文本中实体及其所属分类领域的识别技术,包含文本处理框架gensim,词向量算法(word2vec),条件随机场(CRF)以及神经网络中的双向控循环单元(BiGRU)等算法;
[0069] (4)在推荐系统部分中,利用了K最近邻算法算法(KNN),知识图谱的知识表示系列算法(Trans)、信息指纹算法(simhash)、编辑距离、余弦距离等算法进行相似度计算。
[0070] (5)招标信息智能推荐,由项目公告标题和内容,找出相近的项目;由投标人画像获得相似用户,进而获得相似用户感兴趣的项目。为投标人推荐其可能感兴趣的项目。由于知识图谱和推荐系统的计算量和数据量庞大,本发明应用了 hbase数据库、hadoop、spark离线计算等技术。附图说明
[0071] 附图1为本发明实施例一的结构示意图。
[0072] 附图2为本发明实施例二的方法流程图

具体实施方式

[0073] 本发明不受下列实施例的限制,可根据本发明的技术方案与实际情况来确定具体的实施方式。
[0074] 下面结合实施例及附图对本发明做进一步的描述:
[0075] 实施例一:如图1所示,一种基于知识图谱的招标采购信息推荐系统,包括数据获取模块、数据清洗模块、知识图谱建立模块和推理推荐机制模块,
[0076] 数据获取模块,采用人工搜集并定义招标行业领域的树形多层次分类,使用网络爬虫框架采集互联网文中的有效数据,
[0077] 并提取有效数据中的百科词条名称、属性-属性值对、词条概况以及词条内容存储在本地数据库,从本地数据库中获取历史发布和采集的公告数据;
[0078] 数据清洗模块,互联网采集数据进行数据清洗,清洗并规整数据,将经过清洗后的数据以一定规则写入图形数据库;
[0079] 知识图谱建立模块,使用图形数据库中的知识图谱对公告数据进行推理,利用公告数据蕴含的知识进行学习并建立行业知识库,企业知识库和项目知识库;推理推荐机制模块,利用部署运行的知识图谱进行公告的智能推荐推送,包括内容推荐上下游机制、用户刻画机制和信息推荐单元,用户刻画机制包括领域分类刻画和知识表示算法刻画,信息推荐单元包括基于内容推荐算法的相似项目公告推荐、基于协同过滤算法的相似项目公告推荐和项目资质条件过滤。
[0080] 本发明的数据获取模块获取数据时,行业专家人工定义招标投标行业领域的树形多层次分类;例如:装饰装修是建材领域1类,门窗及楼梯制品是装饰装修类别下的子类,而合金门窗是门窗及楼梯制品类别下的子类,形成知识图谱模式图,为互联网数据爬取方向做范围限制。
[0081] 上述使用网络爬虫框架采集互联网文本,使用一定的信息抽取规则抽取其中真实物资名称,并按照其来源和名称将其按照层级分类,同时采集百度百科、维基百科以及互动百科等相关词条的百科内容,主要是将百科内容中爬取的有效数据中的百科词条名称、属性-属性值对、词条概况以及词条内容存储在本地数据库中。此外,融合了zhishi.me等互联网开放式的中文知识图谱的数据,并且采集了相关的开放的专业领域行业文档内容。上述也可从本地数据库中获取历史发布和采集的公告数据。
[0082] 实施例二:如附图2所示,一种基于知识图谱的招标采购信息推荐方法,包括以下步骤:
[0083] S1:对于招标采购行业知识采用人工搜集分类,建立知识库的模式图,定位数据爬虫的搜集方向,并爬取数据;
[0084] S2:采集的数据进行清洗并规整,以一定规则写入知识图谱;
[0085] S3:建立指示图谱,使用知识图谱对公告进行推理,根据公告蕴含的知识进行学习;
[0086] S4:使用部署运行的知识图谱,将公告向用户智能推荐推送。
[0087] 可根据实际需要对上述一种基于知识图谱的招标采购信息推荐方法进行进一步的优化或/和改进:
[0088] 上述S2中,对采集数据进行数据清洗,过程如下:
[0089] S21,对于百科词条获取的脏数据进行清理:利用正则表达式过滤掉词条名称不规整的情况,通过词黑名单、词性黑名单、词义黑名单清洗掉无效词条,其中包括建立类别黑名单词库,通过对词条属性、词条概况和词条内容中进行查询判断词条是否属于不相关领域,并舍弃不相关领域词条;
[0090] 上述建立的类别黑名单词库,例如:作者、歌手等。
[0091] S22,查询百科词条概况和内容中的关键词:通过关键词映射,推测其所属层级分类并进行人工辅助分类;
[0092] 采收上述方法提取已经分类的百科词条和关键词和百科文本,作为已标注的训练语料,利用循环神经网络RNN,长短记忆神经网络LSTM、门控循环单元GRU,结合条件随机场CRF,训练命名实体识别的模型;采收上述方法对之后百科词条内容自动识别和自动辅助分类,大大减少人工工作量。
[0093] S23,数据格式规整:根据数据的初始格式,按照一定规则将数据规整成相应的格式化数据;
[0094] 上述数据格式主要是json格式,包括词条和各种属性信息,方便后面的数据提取和分析。
[0095] S24,数据分析:对文本进行中文分词,初步地分析统计每个词的重要性;
[0096] 上述,例如:逆文档词频信息,可以统计IDF值并联合词性信息判断每个词的重要性程度。
[0097] S25,将经过清洗后的数据存储在图形数据库neo4j中。
[0098] 上述在S3中,知识图谱建立的过程包括:
[0099] S31,建立行业知识库,包括:
[0100] S311,知识图谱的数据使用图形数据库neo4j进行存储,知识图谱包括模式图和数据图,模式图是规定的树形层级分类数据,数据图是底层分类所包含的所有词条类数据,清洗后的数据按照层级关系导入到图形数据库neo4j;
[0101] 上述模式图中每个分类和数据图中的每个词条都作为neo4j的节点,分类与分类、分类与词条的包含关系以及词条与词条的相关关系都作为neo4j的关系被导入。
[0102] S312,导入数据的基础内容是:图形数据库neo4j中每个节点(node)包含有标签(labels),节点号(id)和属性字典,而不同节点间存在关系(relationship);
[0103] 上述在图形数据库neo4j中,节点号标明了每一个节点的唯一性,属性中的 name属性是词条本身,而标签则是该属性所属的树形层级分类(如建材1级、建材2级,每个建材1级标签下有若干个建材2级),而最下级标签则代表实际的物资的词条。比如属于建材1级的节点”装饰装修”(装饰装修为该节点的name 属性),包含属于建材2级的节点”门窗及楼梯制品”,则建立从”装饰装修”到”门窗及楼梯制品”的标签为”contains2”的关系。此外,我们对neo4j对于每个标签建立了自动索引,优化查询速度。同时,将每个词条的所属的层级分类以字符串形式存储在节点的catagory属性,可以直接定位词条的层级分类,避免了依据包含关系回溯查询。
[0104] S313,对每个已有层级分类的物资词条搜索其相关词,对搜索到的文本进行命名实体识别,通过一定的置信度阈值的过滤,得到该词条的相关联的物资;
[0105] 上述为了完善行业知识库,我们利用开放的搜索引擎,我们将相关联的物资的信息存储在标签为”相关词”的节点中,同时建立一条从物资词条节点指向该相关词节点的标签为”relates”的关系。
[0106] S32:建立企业知识库;
[0107] S321,将所有资质证书作为一类“资质证书”标签其中的每个节点(其中属性”name”为资质证书名称,”level”为资质证书级别)录入到neo4j中。
[0108] S322,联合平台注册企业数据和互联网工商信息查询网站信息,获取企业的基本信息、征信信息、资质条件、活跃兴趣度信息。
[0109] 上述将每个企业都存储在标签为”企业”的节点中,上述信息都以该节点的属性的形式保存。其中,企业资质条件方面需要建立一个”企业”节点指向”资质证书”节点的关系,表示拥有。
[0110] S33:建立项目知识库;
[0111] S331,项目知识来源于招标公告、采购公告和中标公告,通过设置规则的正则表达式、中文分词和命名实体识别技术提取项目范围、项目资质要求、招标人、代理人、中标人、中标候选人信息;
[0112] S332,将每个项目都存储在标签为“项目”的节点中,信息都以节点的属性的形式保存。
[0113] 其中,上述的关系,表示要求。同时,将同一项目中的企业按照其对应关系在企业知识库里建立相应的节点间关系。
[0114] 上述在S4中,将公告向用户智能推荐推送的过程,包括:
[0115] S41,内容推理上下游机制:
[0116] S411,利用TFIDF方法和词性筛选分析历史公告标题,建立一个针对招标领域的公告标题关键词词库,将标题关键词加入知识图谱的行业知识库,即创建一类标签为”标题关键词”的节点,并且分类;
[0117] 例如:建立与大类节点的关系,如”装饰装修”。
[0118] S412,对于每个公告(一个项目可能包括招标公告、中标公告),判断图形数据库neo4j是否存在该项目,若不存在,则新建一个标签为”项目”的节点;
[0119] S413,对每个公告内容,利用正则表达式剔除其中的无效内容,再与标题进行拼接形成有效内容;
[0120] S414,对每个公告标题,提取其中的标题关键词,对于每个提取出来的标题关键词,建立标签为”项目”的节点到标签为”标题关键词”节点的关系;
[0121] S415,周期性从图形数据库neo4j的行业知识库中读取全部相关词条,并得到所有相关词条的词条-节点id的映射(neo4j中节点id唯一标识这条数据),拼接编译成全名词正则表达式,利用该正则表达式对每个公告的有效内容(S3中) 全文匹配,并保留匹配结果;
[0122] S416,利用节点id映射,对所有匹配结果词条在图形数据库neo4j中找到节点,利用category属性快速得到回溯类别(即该词条所属的大类别,如装饰装修、园林绿化)等;将回溯的类别作为结果返回的一部分;建立”标题关键词”中匹配的相关词条对应节点的关系,该关系具有属性”frequency”,即频次,代表有多少项目发掘出该标题关键词与该词条建立了关系,以frequency进行推荐名词排序;
[0123] S417,将公告的标题相关词对应的所有名词进行按照关系属性 frequencySum排序,(比如标题关键词有2个,那么每个词条的frequencySum 即为2个标题关键词与该词条的关系属性frequency之和,frequencySum也表示了该词条与公告的相关性),回溯类别并返回结果。
[0124] 上述对于每个公告的处理方式为,从有效内容中发现相关名词a(内容提取词),并回溯类别b。从标题中获得标题相关词c,建立c-a的关系,并且利用历史c-a的关系数据,统计与该公告每个标题相关词有关的相关名词的frequency 之和,进行排序,返回排序较高的几个相关名词d,并回溯类别e,最终返回结果是b和e。
[0125] S42,用户(投标人)刻画机制:
[0126] S421,领域分类刻画
[0127] 我们之前在项目知识库和企业知识库建立了投标人与项目之间的关系,投标人对项目无论是浏览、报名、报价、中标,都会以一定的权值获得从该公告提取出来的行业知识库的词条的得分;
[0128] 在知识图谱系统中的行业知识库,每个有效词条都上溯其一级分类、二级分类、三级分类…(一般词条可以上溯两级或三级分类)的领域词条,每个词条的分值都会按照一定比例贡献给其领域分类的词条(越具体的分类比例越高,如三级分类),最终以所有的领域分类的分值(即Key-Value格式数据),对用户描绘出用户画像,描述公式为:
[0129] ΔIuf=wuwf
[0130] 其中,ΔIuf是某个用于对某个领域的兴趣度增量,wu是用户对某个词条的行为兴趣度(比如浏览项目公告是0.1,中标项目则是1),wf是领域具体权重值(比如词条本身的权重是1,词条的直接上级分类的权值是0.1…)
[0131] 每两个用户间的相似度用如下公式刻画:
[0132]
[0133] 其中,Sab是最终得到两个用户间的相似度,l是领域分类的级别,不同领域分类级别不同,算式中的加权平均的权值wl则不同,越具体的分类(如词条的直接上级分类)wl越大。Nl则是级别l的所有领域分类的个数,i是其中的一个领域分类,Iai和Ibi则是用户a和用户b对分类i兴趣度。Sab越高,两个用户的相似度越大。
[0134] 该方法对用户画像的优点是充分利用了专家人工领域分类所代表的人类先验知识,单个相似度关系计算量较小。如果要找到所有投标人用户中的相似用户就要进行用户间大量的相似度计算,由于投标人用户众多,遍历两两计算相似度,计算量也非常大。由于领域分类是树形结构,假设投标人顶层分类领域不重合,则下层的分类领域也不会重合,同时,顶层分类领域个数较少,计算量更低。因此,我们会首先判断两个投标人的顶层分类领域的相似度分值,如果低于于某个阈值,则不进行之后的相似度计算,即认为两个投标人不相似。由此可以大量地节省计算量。当判定两个投标人相似的时候,在企业知识库我们会建立一个这两个投标人节点的之间的关系(similar),该关系具有属性(similarity)描述两个节点的相似度。我们需要定期更新所有用户的相似度,当更新的时候,我们依据之前的相似度数据,对于原本不相似的两个企业,我们以一定概率来决定是否计算两个企业的相似度。这样的做法既能减少计算量,又可以引入一定的随机性,避免用户相似度计算进入势阱。
[0135] S422,知识表示算法刻画
[0136] 利用知识表示的Trans系列算法,将知识图谱中行业知识库、企业知识库、项目知识库中所有节点按照其间的关系进行低维向量表示,将企业以低维向量表示作为用户刻画,企业相似度用低维向量的余弦距离来表示;
[0137] 该方法可以充分体现图谱间的用户关系,但离线计算量大,而且也不能避免用户间大量的两两相互计算,不能随行业知识库更迭随时更新,而且是一种黑箱不可解释性运算,不能利用专家人工领域分类所代表的人类先验知识。因此该方法在用户相似度计算中只起到辅助作用。
[0138] S43,信息推荐单元包含基于内容推荐的推荐算法和基于用户的协同过滤算法;信息推荐过程:
[0139] S431,相似项目公告推荐
[0140] 对于每个项目公告,包含的项目概况、项目范围部分具有信息量的文本内容,提取出来的标题关键词和内容提取词(统称为关键词)能反映项目实际相关领域;
[0141] 我们维护固定的关键词词表顺序索引,利用该顺序索引,对从文本抽取出的标题关键词和内容提取词进行固定顺序拼接(该方法是为了之后的编辑距离计算的精准度,比如不管公告中提取出”幕墙”与”化玻璃”两词,不管这两词在文中的顺序如何,最终拼接结果总是”钢化玻璃”在前,”幕墙”在后)。为了降低后续文本间相似度计算的计算量,对拼接得到的文本进行信息指纹算法 (simhash)。对文本信息指纹进行编辑距离(汉明距离,Hamming Distance)计算;编辑距离结果小于一定阈值的两个公告则认定是相似公告,并依据编辑距离和信息指纹的长度计算两个公告的相似度;公告相似度的计算公式如下:
[0142]
[0143] 其中Hab是两个公告的信息指纹的编辑距离,编辑距离越小,则信息指纹越相似,而la和lb是两个信息指纹的长度。当两个公告的信息指纹高于一定阈值,则认为两个公告相似。这种相似度计算方式由于内在隐含了关键词中字相似的考量计算,精确度更高;
[0144] 当投标人对某个公告感兴趣(浏览、报名、报价、中标等行为,行为的兴趣度权重按照以上行为顺序递增),我们会自动地向其推荐最近一段时间内的该依赖公告的相似公告,推荐的公告列表则按照依赖公告的兴趣度与相似度的积进行递减排序;推荐公告的兴趣度计算公式如下:
[0145] Ib=waSab
[0146] 其中,Ib是对新公告的兴趣度,wa是用户已有行为公告的行为的兴趣度权重,Sab则是新公告和已有行为公告的相似度;
[0147] 此外,对于从项目公告的提取的标题关键词和内容提取词,由于我们维护了一个关键词词表。我们利用词袋(BOW:Bag of Words)算法,将每篇文章表示为一个词袋向量,通过计算两个向量的余弦距离,可以判断两个公告的相似度。余弦距离越小,两个公告的越相似。这种方式计算量较低,与上述利用编辑距离计算相似度的方式结合使用。
[0148] S432,相似项目公告推荐
[0149] 利用用户刻画机制,得到企业的相似用户,最终得到两个用户的相似度Sab;
[0150] 推荐相似用户的感兴趣的公告,按照用户相似度与相似用户对公告兴趣度 wb的积进行递减排序;用户对新公告的兴趣度Ia计算公式如下:
[0151] Ia=Sabwb
[0152] 结合CB和UserCF两种算法进行推荐;
[0153] S433,项目资质条件过滤
[0154] 利用正则表达式提取公告中的资质条件要求(许可证、资质证书及其级别),在向用户推荐展示之前,过滤掉平台内投标人不满足项目资质要求的项目。
[0155] 本发明的有益效果如下:
[0156] (1)分布式爬虫爬取领域分类和百科内容等结构化或非结构化数据,并融合 zhishi.me等开放知识图谱库获得数据;
[0157] (2)从词条、词性、词义等层面维护黑名单词库,用正则表达式清洗掉无效词条数据。对于剩余的有效数据中,其中的领域分类词条用来构建知识图谱模式图,其中的实体词条及其属性和关系则用来构建知识图谱数据图。考虑复杂的关联关系带来查询速度的下降,我们利用图形数据库neo4j存储数据;
[0158] (3)通过机器学习相关技术实现新文本中实体及其所属分类领域的识别技术,其中主要包含文本处理框架gensim,词向量算法(word2vec),条件随机场(CRF) 以及神经网络中的双向门控循环单元(BiGRU)等算法;
[0159] (4)在推荐系统部分中,利用了K最近邻算法算法(KNN),知识图谱的知识表示系列算法(Trans)、信息指纹算法(simhash)、编辑距离、余弦距离等算法进行相似度计算。
[0160] (5)由于知识图谱和推荐系统的计算量和数据量庞大,整个系统应用了 hbase数据库、hadoop、spark离线计算等技术。
[0161] 以上所述实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈