首页 / 专利库 / 建筑物 / 自动建模 / 基于神经网络和图谱结构的健康饮食知识网络构建方法

基于神经网络和图谱结构的健康饮食知识网络构建方法

阅读:855发布:2020-05-11

专利汇可以提供基于神经网络和图谱结构的健康饮食知识网络构建方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于神经网络和图谱结构的健康饮食知识网络构建方法,包括:对文本语料进行词向量建模,使文本语料中每个非停用词都对应一个固定长度的词向量;使用两个词向量之间的余弦相似度来衡量两个词向量所对应实体之间的关联程度; 抽取 食材和病症实体 节点 ,将这两种实体节点视为拓扑结构中的实体节点,并构建实体节点之间的边关系,形成图谱结构,使实体节点之间的边关系都被一组表征词所描述;将每个表征词对应的向量表示进行排列,得到实体节点之间边关系的表征矩阵;设计基于 深度神经网络 的分类 框架 ,输入表征矩阵,并对实体节点之间边关系的极性进行分类。本发明有效解决了传统健康饮食 知识库 自动化程度不高,领域限制明显等问题。,下面是基于神经网络和图谱结构的健康饮食知识网络构建方法专利的具体信息内容。

1.基于神经网络和图谱结构的健康饮食知识网络构建方法,其特征在于:所述方法包括:
对参与学习训练的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料进行词向量建模,使文本语料中每个非停用词都对应一个固定长度的词向量;
使用两个词向量之间的余弦相似度来衡量两个词向量所对应实体之间的关联程度;
抽取食材和病症实体节点,将这两种实体节点视为拓扑结构中的实体节点,并构建实体节点之间的边关系,形成图谱结构,使实体节点之间的边关系都被一组表征词所描述;
将每组的每个表征词对应的向量表示进行排列,得到实体节点之间边关系的表征矩阵;
设计基于深度神经网络的分类框架,输入所得到的表征矩阵,并对实体节点之间边关系的极性进行分类;
所述构建实体节点之间的边关系包括:
对存在关联关系的两个实体节点之间建立边关系,形成初步的健康饮食知识网络结构,具体如下:
定义所有实体节点间的边关系类别,分别为不同食材之间的相容或相克关系、食材与病症之间的利害关系以及不同病症之间的关联关系,其中不同食材之间的相容或相克关系和不同病症之间的关联关系称为领域内关联关系,食材与病症之间的利害关系称为跨领域关联关系;
利用词向量查询与该词向量余弦相似度最高的若干词汇,并从中过滤得到相同领域的其他实体节点,建立领域内关联关系;
利用词向量组合查询获得相关的同类型实体节点,设置正、负作用词,控制词向量查询的方向,再次查询得到中间过渡词,通过中间过渡词查询,并过滤得到与食材实体关联度高的病症实体节点,建立跨领域关联关系;
描述边关系,具体如下:
对于食材实体之间的领域内关联关系,基于词向量空间的查询,将存在关联关系的两个食材实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词,剩下的词形成该关联关系的表征词集合;
对于病症实体之间的领域内关联关系,基于词向量空间的查询,将存在关联关系的两个病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他病症实体词,剩下的词形成该关联关系的表征词集合;
对于跨领域关联关系,基于词向量空间的查询,将存在关联关系的食材实体节点和病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词和病症实体词,剩下的词形成该关联关系的表征词集合;
所述利用词向量组合查询获得相关的同类型实体节点,设置正、负作用词,控制词向量查询的方向,再次查询得到中间过渡词,通过中间过渡词查询,并过滤得到与食材实体关联度高的病症实体节点,建立跨领域关联关系,具体包括:
将查询食材实体wf输入词向量空间进行初次查询,从结果中过滤出食材实体集合和其他词汇集合E={w1',w2',…,wn'};
第二次查询时,将原查询食材与集合E中的词作为正作用词,而集合F中的词作为负作用词,再次进入词向量空间进行查询,将正、负作用词对应的词向量进行加减,如下式:
其中,wi表示正作用词,wj表示负作用词;
查询中间过渡词的操作的函数表示如下式:
MID=que(pos{w1,w2,…,wn}-neg{w1,w2,…,wm})
通过中间过渡词再次进行第三轮查询,这次正作用词就是中间过渡词,不设置负作用词,查询向量计算及查询函数表示如下式:
TAG=que(pos{w1,w2,…,wn}-NULL)
至此,从查询结果中过滤得到与食材实体关联度高的病症实体节点。
2.根据权利要求1所述的基于神经网络和图谱结构的健康饮食知识网络构建方法,其特征在于:所述对参与学习训练的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料进行词向量建模,使文本语料中每个非停用词都对应一个固定长度的词向量,具体为:
通过词向量工具对参与学习训练的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料进行词向量建模,将文本语料的所有非停用词映射到一个固定维度的词向量空间中,如下:
设医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料的集合为S={T1,T2,…,Tm},每个文本则是一组词汇的集合ST={w1,w2,…,wsize(t)},建模完成后,词汇在映射空间中被表示为一个固定维度n的词向量,形式为:
3.根据权利要求2所述的基于神经网络和图谱结构的健康饮食知识网络构建方法,其特征在于:所述两个词向量之间的余弦相似度,计算公式如下式:
其中,ws,wt表示两个词向量,1≤s,t≤n。
4.根据权利要求2所述的基于神经网络和图谱结构的健康饮食知识网络构建方法,其特征在于:所述固定维度为150~200维度。
5.根据权利要求1所述的基于神经网络和图谱结构的健康饮食知识网络构建方法,其特征在于:所述将存在关联关系的两个食材实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词,剩下的词形成该关联关系的表征词集合,查询向量计算及查询函数,如下式:
其中, 表示两个存在关联关系的食材实体节点。
6.根据权利要求1所述的基于神经网络和图谱结构的健康饮食知识网络构建方法,其特征在于:所述将存在关联关系的两个病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他病症实体词,剩下的词形成该关联关系的表征词集合,查询向量计算及查询函数,如下式:
其中, 表示两个存在关联关系的病症实体节点。
7.根据权利要求1所述的基于神经网络和图谱结构的健康饮食知识网络构建方法,其特征在于:将存在关联关系的食材实体节点和病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词和病症实体词,剩下的词形成该关联关系的表征词集合,查询向量计算及查询函数,如下式:
vector[q]=vector[wf]+vector[wd]
其中,wf,wd表示存在关联关系的食材节点和病症节点。
8.根据权利要求1所述的基于神经网络和图谱结构的健康饮食知识网络构建方法,其特征在于:所述设计基于深度神经网络的分类框架,输入所得到的表征矩阵,并对实体节点之间边关系的极性进行分类,具体包括:
设计基于深度神经网络的分类框架,该框架结构由卷积层、池化层、改进的循环层和激活层组成;
表征矩阵的输入数据经过卷积层进行滤波,获得重构的特征矩阵,卷积核k融入加权Wk和偏置项bk进行特征重构映射的函数为:
重构的特征矩阵经过最大池化层进行最大池化操作,再加入改进的循环层,最后通过激活层输出极性分类结果。

说明书全文

基于神经网络和图谱结构的健康饮食知识网络构建方法

技术领域

[0001] 本发明涉及一种健康饮食知识网络构建方法,尤其是一种基于神经网络和图谱结构的健康饮食知识网络构建方法,属于知识表示及知识库搭建技术领域。

背景技术

[0002] 随着人们生活平的提升,越来越多的人开始关注自身的饮食健康问题。传统中医自古以来就讲究“药补不如食补”、“是药三分毒”,日常生活自然不能经常食用药物,合理健康的饮食及搭配是保持健康生活的好方法。但是现代社会节奏快速、压大,人们很难有时间专咨询医生或是营养师,让人们在闲暇上网时就能获得精准有效的健康饮食指导是非常迫切的需求,为了达到这个目的,构建智能的健康饮食知识网络具有极大的意义。
[0003] 知识库是人工智能数据库结合的产物,其中所存储的是高结构化的数据,以方便用户进行深层次的知识挖掘,实现由原始文本到抽象知识点的快速检索、推理以及预测[谷建军.基于叙词表的中医古籍文献领域本体建模方法研究.中国中医科学院,2006.]。
[0004] 在国际上,美国、欧洲的一些研究机构和人工智能公司已经利用图谱式的结构对关联知识进行了有效的组织和挖掘,利用图谱化知识的存储方式,极大地丰富了知识的表现形式,结合最新的深度神经网络技术,使得搜索以及各种预测的效果和体验提升到了一个新的高度。
[0005] 上述结合神经网络以及知识图谱的知识组织和挖掘方法同样被国外研究机构很成功地应用于医疗健康领域,其中,具有代表的工作是Google对病患电子病历进行基于深度神经网络的表示学习构建知识网络,从而达到预测病患身体状况并给出健康指导的目的[Deep Patient:An Unsupervised Representation to Predict the Future of Patients from the Electronic Health Records.Scientific Reports,2016,6:1-10]。但是,由于语言以及文化,特别是医学文化的差异,这些已有的成果还无法在面对中文的中医养身及健康饮食指导文献时得到很好的使用。
[0006] 因此,研发适合对中文的中医养身、健康饮食文献自动抽取、挖掘并给予有效组织存储,兼备智能预测、高度自动化和方便查询的健康饮食知识网络称为亟待实施的工作。
[0007] 在过去的研究成果中,国内已经有一些以中医知识为主方便健康指导的知识库构建方法,如:王连新等[中药知识库设计浅析.世界中医药,2011,6(6):535-537.]提出了基于关系型数据库中医药材知识库的构建方案;车立娟等[基于“阴虚证”本体的中医证候知识库构建方法研究.上海中医药大学学报,2009,23(4):18-20.]基于本体构建工具Prot构建了着重表述“肺阴虚证”病理机制的本体知识库;李新霞[基于本体的中医学脾胃病知识库的构建.南京:南京理工大学硕士学位论文,2008:63.]使用语义网络处理工具Jena进行了专攻于中医脾胃病领域的知识库构建;王海舜等[一种基于产生式规则的保健知识库架构设计.医学信息,2009,22(8):1391-1394.]提出了基于产生式规则设计的保健知识库整体架构。
[0008] 上述传统的健康饮食养生知识库构建方法尚需克服的问题:1)这些专注于中医经验和健康养生的知识库大多基于固定的本体,遵循严格的关联规则,构建及维护过程成本高,自动化程度较低,需要耗费大量的人力物力;2)正是因为第1点,导致此类知识库的可扩展性同样不高,故通常固定在某个特定的医学领域之内,使得此类知识库的应用范围不广,不能福及全部的病患用户;3)上述中医知识库的关注对象多集中于专业医学知识,基本单位大多为中医病症或是中草药材,而百姓日常的食材涉及较少,侧重点多在于临床药疗而非日常食疗养生。

发明内容

[0009] 本发明的目的是为了提供一种基于神经网络和图谱结构的健康饮食知识网络构建方法,该方法基于图谱结构并利用深度神经网络算法对知识图谱内部的关联细节进行自动生成及调控,有效解决了传统健康饮食知识库自动化程度不高,领域限制明显等问题,大大降低了健康饮食知识库的构建及维护成本;同时,在兼顾中医药材的同时,更加着重于日常食材,实现了从文本数据中对病症、食材实体间关系的全自动链接和标注,并且无特定领域限制。
[0010] 本发明的目的可以通过采取如下技术方案达到:
[0011] 基于神经网络和图谱结构的健康饮食知识网络构建方法,所述方法包括:
[0012] 对参与学习训练的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料进行词向量建模,使文本语料中每个非停用词都对应一个固定长度的词向量;
[0013] 使用两个词向量之间的余弦相似度来衡量两个词向量所对应实体之间的关联程度;
[0014] 抽取食材和病症实体节点,将这两种实体节点视为拓扑结构中的实体节点,并构建实体节点之间的边关系,形成图谱结构,使实体节点之间的边关系都被一组表征词所描述;
[0015] 将每组的每个表征词对应的向量表示进行排列,得到实体节点之间边关系的表征矩阵;
[0016] 设计基于深度神经网络的分类框架,输入所得到的表征矩阵,并对实体节点之间边关系的极性进行分类。
[0017] 进一步的,所述构建实体节点间的边关系包括:
[0018] 对存在关联关系的两个实体节点之间建立边关系,形成初步的健康饮食知识网络结构,具体如下:
[0019] 定义所有实体节点间的边关系类别,分别为不同食材之间的相容或相克关系、食材与病症之间的利害关系以及不同病症之间的关联关系,其中不同食材之间的相容或相克关系和不同病症之间的关联关系称为领域内关联关系,食材与病症之间的利害关系称为跨领域关联关系;
[0020] 利用词向量查询与该词向量余弦相似度最高的若干词汇,并从中过滤得到相同领域的其他实体节点,建立领域内关联关系;
[0021] 利用词向量组合查询获得相关的同类型实体节点,设置正、负作用词,控制词向量查询的方向,再次查询得到中间过渡词,通过中间过渡词查询,并过滤得到与食材实体关联度高的病症实体节点,建立跨领域关联关系;
[0022] 描述边关系,具体如下:
[0023] 对于食材实体之间的领域内关联关系,基于词向量空间的查询,将存在关联关系的两个食材实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词,剩下的词形成该关联关系的表征词集合;
[0024] 对于病症实体之间的领域内关联关系,基于词向量空间的查询,将存在关联关系的两个病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他病症实体词,剩下的词形成该关联关系的表征词集合;
[0025] 对于跨领域关联关系,基于词向量空间的查询,将存在关联关系的食材实体节点和病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词和病症实体词,剩下的词形成该关联关系的表征词集合。
[0026] 进一步的,所述对参与学习训练的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料进行词向量建模,使文本语料中每个非停用词都对应一个固定长度的词向量,具体为:
[0027] 通过词向量工具对参与学习训练的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料进行词向量建模,将文本语料的所有非停用词映射到一个固定维度的词向量空间中,如下:
[0028] 设医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料的集合为S={T1,T2,…,Tm},每个文本则是一组词汇的集合ST={w1,w2,…,wsize(t)},建模完成后,词汇在映射空间中被表示为一个固定维度n的词向量,形式为:
[0029] 进一步的,所述两个词向量之间的余弦相似度,计算公式如下式:
[0030]
[0031] 其中,ws,wt表示两个词向量,1≤s,t≤n。
[0032] 进一步的,所述固定维度为150~200维度。
[0033] 进一步的,所述利用词向量组合查询获得相关的同类型实体节点,设置正、负作用词,控制词向量查询的方向,再次查询得到中间过渡词,通过中间过渡词查询,并过滤得到与食材实体关联度高的病症实体节点,建立跨领域关联关系,具体包括:
[0034] 将查询食材实体wf输入词向量空间进行初次查询,从结果中过滤出食材实体集合和其他词汇集合
[0035] 第二次查询时,将原查询食材与集合E中的词作为正作用词,而集合F中的词作为负作用词,再次进入词向量空间进行查询,将正、负作用词对应的词向量进行加减,如下式:
[0036]
[0037] 其中,wi表示正作用词,wj表示负作用词;
[0038] 查询中间过渡词的操作的函数表示如下式:
[0039] MID=que(pos{w1,w2,…,wn}-neg{w1,w2,…,wm})
[0040] 通过中间过渡词再次进行第三轮查询,这次正作用词就是中间过渡词,不设置负作用词,查询向量计算及查询函数表示如下式:
[0041]
[0042] TAG=que(pos{w1,w2,…,wn}-NULL)
[0043] 至此,从查询结果中过滤得到与食材实体关联度高的病症实体节点。
[0044] 进一步的,所述将存在关联关系的两个食材实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词,剩下的词形成该关联关系的表征词集合,查询向量计算及查询函数,如下式:
[0045]
[0046]
[0047] 其中, 表示两个存在关联关系的食材实体节点。
[0048] 进一步的,所述将存在关联关系的两个病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他病症实体词,剩下的词形成该关联关系的表征词集合,查询向量计算及查询函数,如下式:
[0049]
[0050]
[0051] 其中, 表示两个存在关联关系的病症实体节点。
[0052] 进一步的,将存在关联关系的食材实体节点和病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词和病症实体词,剩下的词形成该关联关系的表征词集合,查询向量计算及查询函数,如下式:
[0053] vector[q]=vector[wf]+vector[wd]
[0054]
[0055] 其中,wf,wd表示存在关联关系的食材节点和病症节点。
[0056] 进一步的,所述设计基于深度神经网络的分类框架,输入所得到的表征矩阵,并对实体节点之间边关系的极性进行分类,具体包括:
[0057] 设计基于深度神经网络的分类框架,该框架结构由卷积层、池化层、改进的循环层和激活层组成;
[0058] 表征矩阵的输入数据经过卷积层进行滤波,获得重构的特征矩阵,卷积核k融入加权Wk和偏置项bk进行特征重构映射的函数为:
[0059]
[0060] 重构的特征矩阵经过最大池化层进行最大池化操作,再加入改进的循环层,最后通过激活层输出极性分类结果。
[0061] 本发明相对于现有技术具有如下的有益效果:
[0062] 1、本发明提出并实现了一个基于深度神经网络作为学习和预测技术,图谱数据库作为存储形式的健康饮食知识网络构建方法,为相关研究人员和健康推荐及指导应用开发人员提供了一种高效组织健康饮食知识的解决方案,应用范围广泛,所涉及的问题牵扯到民众健康,具有重要的研究意义。
[0063] 2、本发明在传统中医健康知识库的构建方法基础上,进行了创新,引入了word2vec词嵌入模型、neo4j图谱型数据库、表征词和词向量的关系矩阵表示、基于组合神经网络的关系分类等新技术,有效解决了传统知识库建模方法自动化程度不高,领域限制明显,构建及维护成本高等缺点。并在中医药材实体的基础上加入对常见食材实体的考虑,使应用方向更加贴近用户的日常生活。附图说明
[0064] 图1为本发明实施例1的健康知识网络构建方法总流程图
[0065] 图2为本发明实施例1的领域内关联关系的检测及建立方法示意图。
[0066] 图3为本发明实施例1的领域内关联关系的检测及建立方法示意图。
[0067] 图4为本发明实施例1的健康饮食知识网络的表征矩阵示意图。
[0068] 图5为本发明实施例1的基于深度神经网络的分类框架结构图。
[0069] 图6为本发明实施例2的健康饮食知识网络构建方法整体架构图。

具体实施方式

[0070] 下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
[0071] 实施例1:
[0072] 本实施例的健康饮食知识网络使用的数据库是NoSQL的图谱数据库Neo4J,相比于传统知识库所采用的关系型数据库,图谱数据库能够以更加丰富的形式存储实体及实体间的关系,同时提供更为便捷快速的查询方法。
[0073] 如图1所示,本实施例提供了基于神经网络和图谱结构的健康知识网络构建方法,该方法包括以下步骤:
[0074] (一)对参与学习训练的全部文本语料进行词向量建模
[0075] 本实施例的“词向量”是指2013年Google提出的基于神经网络词嵌入建模算法及其配套的建模工具word2vec,对已经分好词的医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料输入词向量工具word2vec,对其进行词向量建模,建模的结果是:除了停用词以外,文本语料出现过的每个词均被统一映射到一个固定维度150~200的词向量空间中,即文本语料中每个非停用词都对应一个固定长度的词向量,如下:
[0076] 设医疗百科、食品百科、病患症状描述、病患体质描述这些文本语料的集合为S={T1,T2,…,Tm},每个文本则是一组词汇的集合ST={w1,w2,…,wsize(t)},建模完成后,词汇在映射空间中被表示为一个固定维度n的词向量,形式如下公式
[0077]
[0078] 包含图谱中食材及病症命名实体的全体词汇均被表示成这样的形式后,可以通过求解它们之间的余弦相似度(或者其他空间距离)来衡量两个实体之间的关联程度,两个词向量ws和wt的余弦相似度计算公式如下:
[0079]
[0080] 其中,1≤s,t≤n。
[0081] (二)抽取食材、病症节点并建立边关系
[0082] 从医学百科以及食材百科中收集食材及病症词汇作为种子词典,维护此这两部分词库分别形成食材实体节点集合以及病症实体节点集合,另外,以这些种子词汇进行训练,采用常见的NER(命名实体识别)技术,可以获得更多的食材或者病症实体节点,但也会损失一定的精度。获得健康饮食知识网络中的食材和病症节点后,接下来需要建立食材与食材自身、食材到病症以及病症自身之间的边关系,构建实体节点之间的边关系分为两个阶段:
[0083] 1)对存在关联关系的两个实体节点之间建立边关系,形成初步的健康饮食知识网络结构,具体如下:
[0084] 首先定义所有实体间的边关系类别,共有三类,分别是不同食材之间的相容或相克关系、食材与病症之间的利害关系以及不同病症之间的关联关系。
[0085] 由于第一种和第三种关系都是同领域实体自身之间的关系,故又将这两种关系称为领域内关联关系,而第二种关系也被称为跨领域关联关系。
[0086] 如图2所示,领域内关联关系(第一种关系和第三种关系)的建立方法为:对于每个实体节点wi,获得其映射得到的词向量 在该步骤建立的涵盖全部词汇的词嵌入空间中,借助余弦相似度查询与其最接近的topN个词汇,并从中过滤得到相同领域的其他节点,以此确定查询节点与结果当中得到的其他实体节点之间存在领域内关系,这些实体之间在词嵌入空间上相似度高说明其存在一定的共现关系并且在文本中的出现情形会较为相似,该方法对与食材实体领域内关系构建和病症实体领域内关系构建均适用。
[0087] 如图3所示,跨领域关联关系建立方法(第二种关系)的建立方法为:与领域内关联关系相比,建立方式稍微复杂一些,由于直接按照上述查询方法查询某个食材实体的topN相关词汇时,大多数会是其他的食材实体或是该食材的烹饪、口味等属性描述词汇,很少出现跨越领域的病症实体,这样就会导致食材实体与病症实体之间的关系匮乏,无法正常地完成健康饮食知识网络的构建。于是,从食材实体向病症实体的查询过程中,需要加入中间过渡词,具体的方法设计如下:
[0088] 在word2vec算法提出的原始文献中可以知道,映射算法将语料中出现的各个词汇表示为纯粹的向量形式,所以可以像正常的向量一样进行加减;利用这个性质,首先,将查询食材实体wf输入词向量空间进行初次查询,从结果中过滤出食材实体集合和其他词汇集合E={w1',w2',…,wn'};第二次查询时,将原查询食材与集合E中的词作为正作用词,而集合F中的词作为负作用词,再次进入词向量空间进行查询,正负作用词就是将对应的词向量进行加减,如下式:
[0089]
[0090] 其中,wi表示正作用词,wj表示负作用词;
[0091] 查询中间过渡词的操作的函数表示如下式:
[0092] MID=que(pos{w1,w2,…,wn}-neg{w1,w2,…,wm})          (4)
[0093] 通过中间过渡词再次进行第三轮查询,这次正作用词就是中间过渡词,不设置负作用词,查询向量计算及查询函数表示如下式:
[0094]
[0095] TAG=que(pos{w1,w2,…,wn}-NULL)                (6)
[0096] 至此,从查询结果中过滤得到与食材实体关联度高的病症实体节点,确定原始的查询食材实体节点到这些病症实体节点间存在关联边,在查询过渡词的步骤中设置反向作用查询词是为了让查询结果更专注于查询食材实体本身而过滤其他食材实体的噪音。
[0097] 2)描述边关系
[0098] 已知健康饮食知识网络中的食材和病症节点,以及它们之间存在的边关系,对这些边关系进行描述同样基于词向量空间的查询。
[0099] 对于食材实体之间的领域内关联关系,基于词向量空间的查询,将存在关联关系的两个食材实体节点 和 同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词,剩下的词形成该关联关系的表征词集合,查询向量计算及查询函数如下式:
[0100]
[0101]
[0102] 对于病症实体之间的领域内关联关系,基于词向量空间的查询,将存在关联关系的两个病症实体节点 和 同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他病症实体词,剩下的词形成该关联关系的表征词集合,查询向量计算及查询函数,如下式:
[0103]
[0104]
[0105] 对于跨领域关联关系,与领域内边关系的描述方法基本相同,只需在过滤结果时剔除两边领域的其他实体词,即基于词向量空间的查询,将存在关联关系的食材实体节点和病症实体节点,同时放入正作用词集进行向量相加后查询,查询后过滤剔除结果中的其他食材实体词和病症实体词,剩下的词形成该关联关系的表征词集合,设有存在关联关系的食材实体节点wf和病症实体节点wd,查询向量计算及查询函数,如下式:
[0106] vector[q]=vector[wf]+vector[wd]              (11)
[0107]
[0108] 经过这一阶段后,形成图谱结构,使健康饮食知识网络中的实体节点之间的边关系都被一组表征词所描述。
[0109] (三)实体边关系的标记预测
[0110] 由于食材实体之间的领域内关系和食材实体到病症实体的跨领域关系均存在搭配或相克以及利或害的极性区分,故需要对这些边关系的极性标记进行分类预测。如图4所示,健康饮食知识网络中的实体关系均被一组表征词表示,将每个表征词对应的向量表示排列后将得到该实体关系的表征矩阵,但是由于表征词数量不统一(表征词集最大尺寸可固定),不能作为神经网络算法的批量输入数据,故设置输入矩阵的固定长度为表征词集的最大长度,如果表征词数量不足,则使用全零向量补全。
[0111] 得到了输入数据的矩阵表示,容易将其送入神经网络分类算法进行训练,执行食材实体容克关系和食材到病症利害关系分类任务的基于深度神经网络的分类框架,该框架结构由卷积层N01、池化层N02、改进的循环层(LSTM)NO3和Sigmoid激活层NO4组成,序列化矩阵的输入数据首先经过卷积层N01进行滤波,获得重构的特征矩阵,卷积核k融入加权Wk和偏置项bk进行特征重构映射的函数为:
[0112]
[0113] 再经过池化层N02进行最大池化(MaxPooling)操作,为了适应文本数据序列化的特点,加入改进的循环层N03,最后通过Sigmoid激活层N04输出分类结果。
[0114] 病症实体之间的关联关系不存在极性区分,故不参加分类预测,将食材实体关系极性标签和食材到病症关系极性标签标注到健康饮食知识网络中。
[0115] 实施例2:
[0116] 本实施例是具体的应用实例,以中间件的形式供相关研究者和应用开发人员调用,由以下一些组件组成:1)图谱数据库维护组件P01,包含对图谱数据库的查询,节点及边的增删,安全备份等功能;2)词向量操作组件P02;3)关联检测及表示组件P03;4)神经网络关系分类组件P04;5)辅助功能组件P05,包含文本预处理、文本原始数据管理、阶段结果缓存管理等功能。发明所述的方法的整体架构如图6所示,各个组件的具体功能及使用技术如下表1所示。
[0117]
[0118] 表1各个组件的具体功能及使用技术表
[0119] 本实施例的方法处理的文本数据包含但不限于:互联网健康饮食博客,各类食材、药材百科,各类病症百科,病患对自身病症状态的描述,中医健康饮食及食疗电子文献,中医病症诊疗及预防科学电子文献等。所述方法除了保存并管理这些原始文本数据D01外,还保存并维护食材实体种子词库D02a和病症实体种子词库D02b。
[0120] 首先使用图谱数据库维护组件P01在部署服务器上建立空数据库G01,作为发明所述的知识网络。
[0121] 扫描食材实体词库D02a和病症实体词库D02b并保证其每个元素在原始文本数据库均有出现,剔除未出现的词汇,之后使用图谱数据库维护组件P01在所述知识网络G01中建立对应的实体节点,并标注对应的实体类别(食材或病症)。
[0122] 使用辅助功能组件P05读出原始文本数据并进行文本预处理。将原始文本数据D01逐行输入,使用词向量操作组件P02进行词向量建模,并在部署服务器磁盘上存储词向量模型,后缀名为“.vector”,Gensim工具会自动生成另外两个“.npy”缓存文件,务必保证其和“.vector”文件处在同一目录下。
[0123] 扫描食材实体节点,使用关联检测及表示组件P03查询各个食材实体在词向量空间中的高关联度词汇,从中过滤得到与查询食材实体相关的其他食材实体,利用同样的方法检测每个病症实体节点到其他病症实体的关联关系。领域内实体关系的检测及构建方法示意图如图3所示。再次扫描食材实体节点,使用关联检测及表示组件P03,查询各个食材实体在词向量空间中的高关联度词汇,从中过滤得到非食材实体词汇和食材实体词汇,将前者和原查询词作为正相关查询项,后者作为负相关查询项,再次进行查询,得到中间过渡词汇,将原查询词和过渡词汇作为正查询项再次进行查询,从这次查询结果中过滤得到与原查询食材实体相关的病症实体,使用图数据维护组件P01于存在关联关系的实体间建立有向边。
[0124] 使用关联检测及表示组件P03查询并表示出每条关联边的表征词汇,在查询时设置表征词集的最大尺寸,再使用图数据维护组件P01将实体关系表征词以规则字符串的形式写入对应边的属性中。
[0125] 使用图数据维护组件P01将食材到病症,食材到食材的关联边分别取出,获得其表征词,使用词向量操作组件P02查询得到各个表征词的向量表示,形成关联边的矩阵表示。使用神经网络关系分类组件P05进行关系极性分类预测,这里可以将训练的神经网络分类器持久化存储到部署服务器上并再次载入,以实现增量训练和离线评测。使用图数据维护组件P01将关系极性分类预测的结果标签写入图谱数据库中的边属性中(0表示正极,1表示负极),健康饮食知识网络就此构建完成,部分实体关系及其表征词的示例如下表2所示。
[0126]
[0127]
[0128] 表2部分实体关系及其表征词的示例
[0129] 使用人员可以根据需要,依据图中的网络结构直接进行基于边关系的查询,或者依据边关系上的极性标记进行正/负指向查询,或者依据边关系上的表征词结合当前查询的输入文本进行更为深层的语义查询。
[0130] 本实施例中,健康饮食知识网络规模取决于食材和病症实体词库的大小和参与训练学习的语料集大小。可选利用第三方工具在原始文本语料集中进行食材和病症的命名实体识别以扩展食材和病症实体词库,健康饮食知识网络构建方法中不包含此功能组件。
[0131] 综上所述,本发明提出并实现了一个基于深度神经网络作为学习和预测技术,图谱数据库作为存储形式的健康饮食知识网络构建方法,为相关研究人员和健康推荐及指导应用开发人员提供了一种高效组织健康饮食知识的解决方案,应用范围广泛,所涉及的问题牵扯到民众健康,具有重要的研究意义。
[0132] 以上所述,仅为本发明专利优选的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈