首页 / 专利库 / 人工智能 / 数据库知识发现 / 一种基于神经网络的食品安全虚假舆情识别方法

一种基于神经网络的食品安全虚假舆情识别方法

阅读:332发布:2020-05-08

专利汇可以提供一种基于神经网络的食品安全虚假舆情识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于神经网络的 食品安全 虚假舆情识别方法,涉及 人工智能 领域,能够监控网络舆情,筛选出假新闻。所述方法包括:搭建食品 风 险因子实体库;搭建食品名称实体库;构建动态官方新闻辟谣库;搭建真假新闻神经网络分类模型;输入最新的新闻舆情,通过在食品风险因子实体库和食品名称实体库中的对比查找,将新闻中涉及到的食品名称以及风险因子进标注,对新闻进行初步分类,之后根据官方新闻辟谣库中进行相似度对比,如果未查找到相关辟谣新闻,再利用神经网络模型进行真假新闻分类。,下面是一种基于神经网络的食品安全虚假舆情识别方法专利的具体信息内容。

1.一种基于神经网络的食品安全虚假舆情识别方法,其特征是,包括以下步骤:
步骤1、构建底层知识库,包括食品名称数据库以及食品险因子数据库;
步骤2、构建实时更新的官方新闻辟谣库;
步骤3、构建双向长短时记忆网络与条件随机场相结合的方法作为实体识别的神经网络模型,利用已经正确标注出实体名称以及风险因子名称的新闻语料进行训练,得到最终模型;预测时以新闻语料序列的向量表示作为输入,得到对于序列的标注结果作为输出;根据标注结果得到新闻中涉及的食品名称以及风险因子名称,结合底层知识库判断标注结果是否可靠,初步确定新闻的真假性;
步骤4、构建卷积神经网络模型作为新闻舆情分类模型,利用已经正确标注真假的新闻语料进行训练得到卷积神经网络分类模型,在利用神经网络预测时,以步骤3中的标注结果作为输入,最终得到新闻舆情的真假分类作为输出。
2.根据权利要求1所述的基于神经网络的食品安全虚假舆情识别方法,其特征是:
所述食品名称数据库包括现存食品的名称,包括粮食加工品,食用油、油脂及其制品,调味品,肉制品,乳制品,饮料,方便食品,饼干,罐头,冷冻饮品,速冻食品,薯片及膨化食品,糖果制品,茶叶及相关制品,酒类,蔬菜制品,果制品,炒货食品及坚果制品,蛋制品,可可及烘焙咖啡产品,食糖,水产制品,淀粉及淀粉制品,糕点,豆制品,蜂制品,保健食品,特殊膳食食品,特殊医学用途配方食品,婴幼儿配方食品,餐饮食品,食用农产品,食品添加剂的食品名称;对于一些新产生的食品,通过定期更新及时补充进食品名称数据库中。
3.根据权利要求1所述的基于神经网络的食品安全虚假舆情识别方法,其特征是:
所述食品风险因子是指在食品中需要被监测含量是否超标的物质,食品风险因子数据库中的食品风险因子名称包括:铅,苯甲酸,亚硝酸盐,日落黄,菌落总数,不同食品对应的食品风险因子名称不同;对于一些新定义或者新发现的风险因子,通过定期更新及时补充进风险因子数据库。
4.根据权利要求1所述的基于神经网络的食品安全虚假舆情识别方法,其特征是:
训练双向长短时记忆网络以及条件随机场模型作为能够准确识别食品名称以及食品风险因子名称的实体识别模型。
5.根据权利要求1所述的基于神经网络的食品安全虚假舆情识别方法,其特征是:
所述步骤1中,在构建好食品名称数据库以及食品风险因子数据库后,对两个底层知识库直接的关系进行连接,对每一个食品需要检测的食品因子进行关联,并记录最大含量的值。
6.根据权利要求1所述的基于神经网络的食品安全虚假舆情识别方法,其特征是:
步骤3中,对新闻舆情进行标注,标注的内容包括新闻舆情中所涉及到的食品名称以及食品风险因子名称,根据标注结果以及官方新闻辟谣库对新闻舆情真假性进行初步的判断。
7.根据权利要求1所述的基于神经网络的食品安全虚假舆情识别方法,其特征是:
训练卷积神经网络模型作为新闻舆情真假的分类模型,将新闻语料转换为向量表示,作为神经网络的输入,训练神经网络分类模型,利用卷积神经网络搭建模型,通过已有的新闻语料训练得到最终模型;模型最终输出结果是新闻舆情的真假。
8.根据权利要求1所述的基于神经网络的食品安全虚假舆情识别方法,其特征是:
训练两个神经网络模型,包括识别食品实体名称以及风险因子名称的双向长短时记忆网络模型和条件随机场模型,以及用于新闻舆情分类的卷积神经网络模型;在开始训练时,随机初始化权重,在通过神经网络计算得到最后一层结果后,计算预测值与真实值之间的交叉熵作为损失函数,利用自适应矩估计算法最小化损失函数,根据训练过程调整学习率的大小;在训练过程中,为了提高训练效率,每次输入一个批次的数据,同时为了防止出现过拟合,在训练过程中随机将一定比例的权重值置为0。

说明书全文

一种基于神经网络的食品安全虚假舆情识别方法

技术领域

[0001] 本发明涉及人工智能领域,尤其是指一种基于神经网络的食品安全虚假舆情识别方法。

背景技术

[0002] 目前,网络上每天都会产生大量的有关食品安全相关的新闻舆情报道,如果对这些信息放任不管,不加以监管的话,一些假新闻会造成不必要的社会恐慌,扰乱社会秩序,从而对人们的生产生活造成影响,食品安全监管重点品种安全监测预警综合信息的研究与开发,不仅可以实现食品安全监管重点品种监督抽检与险监测等数据信息的收集、分析和信息发布,大大提高监管效能,而且可以达到食品安全信息的深度挖掘、充分利用和信息共享的目标,为食品安全监管信息化建设提供有益的经验借鉴,更为食品安全监管部和消费者规避食品危害提供有的工具。在监管工程中,能够快速的对新闻舆情进行辟谣,应用自然语言处理技术来帮助进行食品安全监管具有重大的研究意义。

发明内容

[0003] 本发明是为了筛选出网络上有关食品安全相关的假新闻,提出一种了新闻文本真假分类的方法,以解决目前互联网上的食品安全相关的新闻监控需求,在此处提出的方法能够快速准确的对新闻进行真假分类,大幅提高监控者的工作效率,辅助监控者做出判断。
[0004] 本发明所提出的方法是:一种基于神经网络的食品安全虚假舆情识别方法,包括以下步骤:
[0005] 步骤1、构建底层知识库,包括食品名称数据库以及食品风险因子数据库;
[0006] 步骤2、构建实时更新的官方新闻辟谣库;
[0007] 步骤3、构建双向长短时记忆网络与条件随机场相结合的方法作为实体识别的神经网络模型,利用已经正确标注出实体名称以及风险因子名称的新闻语料进行训练,得到最终模型;预测时以新闻语料序列的向量表示作为输入,得到对于序列的标注结果作为输出;根据标注结果得到新闻中涉及的食品名称以及风险因子名称,结合底层知识库判断标注结果是否可靠,初步确定新闻的真假性;
[0008] 步骤4、构建卷积神经网络模型作为新闻舆情分类模型,利用已经正确标注真假的新闻语料进行训练得到卷积神经网络分类模型,在利用神经网络预测时,以步骤3中的标注结果作为输入,最终得到新闻舆情的真假分类作为输出。
[0009] 进一步的,所述食品名称数据库包括现存食品的名称,包括粮食加工品,食用油、油脂及其制品,调味品,肉制品,乳制品,饮料,方便食品,饼干,罐头,冷冻饮品,速冻食品,薯片及膨化食品,糖果制品,茶叶及相关制品,酒类,蔬菜制品,果制品,炒货食品及坚果制品,蛋制品,可可及烘焙咖啡产品,食糖,水产制品,淀粉及淀粉制品,糕点,豆制品,蜂制品,保健食品,特殊膳食食品,特殊医学用途配方食品,婴幼儿配方食品,餐饮食品,食用农产品,食品添加剂的食品名称;对于一些新产生的食品,通过定期更新及时补充进食品名称数据库中。
[0010] 进一步的,所述食品风险因子是指在食品中需要被监测含量是否超标的物质,食品风险因子数据库中的食品风险因子名称包括:铅,苯甲酸,亚硝酸盐,日落黄,菌落总数,不同食品对应的食品风险因子名称不同;对于一些新定义或者新发现的风险因子,通过定期更新及时补充进风险因子数据库。
[0011] 进一步的,训练双向长短时记忆网络以及条件随机场模型作为能够准确识别食品名称以及食品风险因子名称的实体识别模型。
[0012] 进一步的,所述步骤1中,在构建好食品名称数据库以及食品风险因子数据库后,对两个底层知识库直接的关系进行连接,对每一个食品需要检测的食品因子进行关联,并记录最大含量的值。
[0013] 进一步的,步骤3中,对新闻舆情进行标注,标注的内容包括新闻舆情中所涉及到的食品名称以及食品风险因子名称,根据标注结果以及官方新闻辟谣库对新闻舆情真假性进行初步的判断。
[0014] 进一步的,训练卷积神经网络模型作为新闻舆情真假的分类模型,将新闻语料转换为向量表示,作为神经网络的输入,训练神经网络分类模型,利用卷积神经网络搭建模型,通过已有的新闻语料训练得到最终模型;模型最终输出结果是新闻舆情的真假。
[0015] 进一步的,训练两个神经网络模型,包括识别食品实体名称以及风险因子名称的双向长短时记忆网络模型和条件随机场模型,以及用于新闻舆情分类的卷积神经网络模型;在开始训练时,随机初始化权重,在通过神经网络计算得到最后一层结果后,计算预测值与真实值之间的交叉熵作为损失函数,利用自适应矩估计算法最小化损失函数,根据训练过程调整学习率的大小;在训练过程中,为了提高训练效率,每次输入一个批次的数据,同时为了防止出现过拟合,在训练过程中随机将一定比例的权重值置为0。
[0016] 本发明的有益效果是,可以快速高效的判断出新闻舆情的真假性,并且清楚明了的标注出新闻中所涉及到的主要食品名称以及实体风险因子名称,对于整个新闻事件的分析进行一个清楚的展示,辅助监控者做出正确的决策。附图说明
[0017] 图1是本发明实例提供的基于神经网络的食品安全虚假舆情识别方法流程示意图;
[0018] 图2是底层知识库动态更新的示意图;
[0019] 图3是实体识别的网络示意图;
[0020] 图4是卷积神经网络分类示意图。

具体实施方式

[0021] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅为本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
[0022] 根据本发明的一个实施例,本发明提出一种基于神经网络的食品安全虚假舆情识别方法,包括以下步骤:
[0023] 步骤1、构建底层知识库,包括食品名称数据库以及食品风险因子数据库;
[0024] 步骤2、构建实时更新的官方新闻辟谣库;
[0025] 步骤3、构建双向长短时记忆网络与条件随机场相结合的方法作为实体识别的神经网络模型,利用已经正确标注出实体名称以及风险因子名称的新闻语料进行训练,得到最终模型;预测时以新闻语料序列的向量表示作为输入,得到对于序列的标注结果作为输出;根据标注结果得到新闻中涉及的食品名称以及风险因子名称,结合底层知识库判断标注结果是否可靠,初步确定新闻的真假性;
[0026] 步骤4、构建卷积神经网络模型作为新闻舆情分类模型,利用已经正确标注真假的新闻语料进行训练得到卷积神经网络分类模型,在利用神经网络预测时,以步骤3中的标注结果作为输入,最终得到新闻舆情的真假分类作为输出。
[0027] 进一步的,所述食品名称数据库包括现存食品的名称,包括粮食加工品,食用油、油脂及其制品,调味品,肉制品,乳制品,饮料,方便食品,饼干,罐头,冷冻饮品,速冻食品,薯片及膨化食品,糖果制品,茶叶及相关制品,酒类,蔬菜制品,水果制品,炒货食品及坚果制品,蛋制品,可可及烘焙咖啡产品,食糖,水产制品,淀粉及淀粉制品,糕点,豆制品,蜂制品,保健食品,特殊膳食食品,特殊医学用途配方食品,婴幼儿配方食品,餐饮食品,食用农产品,食品添加剂的食品名称;对于一些新产生的食品,通过定期更新及时补充进食品名称数据库中。
[0028] 参见图1中,展示了本发明所提出的方法的整体示意图,将新闻舆情文本作为输入,首先通过实体识别标注出文本中所涉及到的实体名称,本发明提供了自行构建的底层知识库,包括食品名称知识库和食品风险因子知识库,根据底层知识库进行匹配,之后根据匹配到的信息,从官方辟谣库中获取证据支持,对于证据充足的文本直接给出判断结果,对于证据不充足的文本则转换为向量表示,输入到神经网络分类模型中,最终网络给出新闻的真假作为最终输出结果。
[0029] 在图2所示实施例中,底层知识库包括食品名称知识库和食品风险因子库,食品名称知识库是本发明自行构建的,存储了食品的名称,简称等基本属性;食品风险因子库包括食品中所需检验的风险因子名称,简称,对应的食品名称,检测中的最大含量,检测方法等属性,由于不同食品间存在需要检测相同风险因子的情况,在不同食品中风险因子的判定条件也不相同。另外,底层知识库需要动态进行更新,本发明对于一些新产生的食品或者新发现的食品风险因子要具有实时或定期更新,对于没有从底层实体库中匹配到的食品名称和食品风险因子名称,通过官方辟谣库中的信息对比,最终决定是否对底层知识库进行动态更新。
[0030] 在图3所示的另一个实施例中,通过将新闻文本转换为向量表示作为双向长短时记忆网络的输入,利用双向长短时记忆网络和条件随机场结合得到文本中所包含的实体名称,对于一个输入长度为n的问句Q(w1,w2,…,wn),其中wi代表第i个字;利用one-hot编码得到每个字的向量表示,X(x1,x2,…,xn),xi代表第i个字的向量表示;之后将X分别以正序和倒序输入到两个不同的长短时记忆网络中,最终在时刻t获得的状态ht包含此刻的上下文信息。双向长短时记忆网络层的输出是每一个中文字符wt被标记为每一个标签的概率,最终的概率矩阵作为条件随机场层的输入来计算不同标签序列的得分,这种方式能够有效避免不合理的标签序列,例如“B-ER,O,I-ER”等。
[0031] 在图4所示实施例中,对于没有充足证据证明新闻文本的真假的新闻文本,需要经过神经网络模型进行判断,将处理过后的新闻文本进行向量化表示,经过n层卷积层和池化层,最终在通过一层全连接层,最终通过softmax函数得到新闻的最终每个分类的概率,softmax函数的公式如下: 函数将神经元的输出,映射到(0,1)区间内,其中n代表分类的个数,i代表j中某个分类,gi表示该分类的值,P(si)代表第i个分类的概率。
[0032] 尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,且应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈