首页 / 专利库 / 环境工程 / 食品安全 / 一种基于隐马尔可夫模型的食品安全溯源系统

一种基于隐尔可夫模型的食品安全溯源系统

阅读:197发布:2024-01-29

专利汇可以提供一种基于隐尔可夫模型的食品安全溯源系统专利检索,专利查询,专利分析的服务。并且一种基于隐 马 尔可夫模型的 食品安全 溯源系统,属于食品安全领域,通过对食品的生产、运输、储存和销售环节进行监控并采集数据,将采集的数据经处理建立 隐马尔可夫模型 ,然后对建立的隐马尔可夫模型进行 聚类分析 ,根据聚类分析的结果采取相应措施来确保食品的安全。本 发明 可以根据聚类分析的结果得出具体是在哪一环节、什么原因导致的,从而可以采取相应措施来确保食品的安全,如,政府相关部 门 可以根据食品安全数据分析的结果,采取相应的对策进行 预防 和控制;企业可以根据分析结果调整生产战略,为企业创造更大的利润;消费者可以根据分析结果调整自己的饮食规律等。,下面是一种基于隐尔可夫模型的食品安全溯源系统专利的具体信息内容。

1.一种基于隐尔可夫模型的食品安全溯源系统,通过对食品的生产、运输、储存和销售环节进行监控并采集数据,将采集的数据经处理建立隐马尔可夫模型,然后对建立的隐马尔可夫模型进行聚类分析,根据聚类分析的结果采取相应措施来确保食品的安全,其特征在于,包括如下步骤:
1)分别采集食品在生产、运输、储存和销售环节中的各项时序数据: ,其中表示某种条件, 表示在条件 下检测的值,然后将这
些时序数据进行标准化处理,并用离散符号来对标准化处理之后的时序数据进行离散化处理;
2)将步骤1)经离散化的时序数据转换成符号序列集,并根据符号序列集建立隐马尔可夫模型,形成表示某个时序数据的模型空间,然后在所有时序数据的模型空间中对模型进行聚类;
3)根据步骤2)聚类的结果分析食品发生污染的源头,以采取针对性措施进行改善。
2.根据权利要求1所述的一种基于隐马尔可夫模型的食品安全溯源系统,其特征在于:所述步骤1)中时序数据的标准化处理和离散化处理的具体操作为:
①将时序数据定义为一个矩阵 , , ;
其中,行集合G表某一食品的检测对象,列集合S代表不同的检测环境条件,矩阵中每一个元素 是检测对象 在检测条件 下的真实表达平值;
②将步骤①中的时序数据离散化为 ,k取奇数;
③将步骤②中离散化的时序数据转换成符号序列集 ,即完成对时序数据的标准化、离散化处理。
3.根据权利要求1所述的一种基于隐马尔可夫模型的食品安全溯源系统,其特征在于:所述步骤2)中根据符号序列集建立隐马尔可夫模型的步骤如下:
⑴将时序数据定义为符号序列集 ,然后建立 的隐马尔可夫模型 ,
并将 作为 所表示的类 的成员: ;
⑵计算 的 输出概率,即 ,若 ,则在 中添
加新的成员 : ,用新产生的 重新训练模型 ,否则为 建立新的隐马尔可夫模型 ,同时增加与模型相应的类别 ,并将 作为 的成员: ;
⑶对于序列 ,设定其建立k个模型: ,它们表示的类为:
找出使 取最大值的模型 ,在 中找出 输出概率最大的序
列 ,如果 ,则将 加入 中,并重新训练模型 ,否则
建立 的隐马尔可夫模型 ,同时设置模型所表示的类别 ,并将 作为 的成员:

⑷重复步骤(3)直至所有序列都已分类;
⑸对所有建立的表示各个类别的隐马尔可夫模型进行层次聚类:从所有的模型中选出模型间距离最小的两个模型 和 ,将 和 合
并为 ,然后用 中的序列重新训练 ,得到新的模型
,并将 作为其表示的类,重复以上过程,直到只有一个模型为止,即完成隐马尔可夫模型的建立。
4.根据权利要求3所述的一种基于隐马尔可夫模型的食品安全溯源系统,其特征在于:所述 是小于0.05的正数,模型 和 之间的距离按以下公式计算:
其中n、m分别为 、 所表示的类 、 中所含序列数;
根据对称性算法用以下公式计算模型间的距离:

5.根据权利要求1所述的一种基于隐马尔可夫模型的食品安全溯源系统,其特征在于:所述步骤3)中对聚类结果的分析是指:通过MATLAB仿真,从而得到聚类结果的拟合曲线图,观察图中曲线,即可分析食品被污染发生的时间、导致污染的环境因素以及主要污染源;通过观察聚类树图,从而判断出被污染食品的异常,进而找出异常原因。

说明书全文

一种基于隐尔可夫模型的食品安全溯源系统

技术领域

[0001] 本发明涉及到食品安全领域,具体的说是一种基于隐马尔可夫模型的食品安全溯源系统。

背景技术

[0002] 食品安全溯源系统最早是1997年欧盟为应对“疯病”问题而逐步建立并完善起来。它强调产品的唯一标识和过程追踪,在产品的生产、运输、存储、销售等各个环节,实行ISO9001等质量控制方法进行跟踪与追溯,一旦发生食品安全问题,可以有效地追踪到食品的源头,及时召回不合格产品,将损失降到最低。
[0003] 现有的食品安全溯源系统功能单一,食品溯源应用只能完成对食品及其原料本身相关数据的收集,以及一些直观的简单追溯和信息统计等应用。例如,一市场出售的牛肉发现了微生物污染或重金属超标,现有的追溯系统可以追查出该块牛肉来自哪里,但并不能解释微生物污染或重金属超标的原因,不能针对出现的问题做出深入分析并为决策部提供相应建议。因为在生牛长达几个月的生长过程以及屠宰、运输、销售过程中,质、饲料成分、周边环境都可能随着时间变化,现有系统无法将大量的离散数据进行有效挖掘,更不能挖掘出食品存在的潜在危害。
[0004] 食品在成产加工、运输、存储、销售、消费的流通过程中产生了大量的和时间紧密相关的数据,我们称之为时序数据。然而,若要从这些时序数据中分析预测出食品的潜在危害和安全走势却不是一件容易的事。
[0005] 聚类是对食品时序数据分析的一种很重要的方法,是利用食品信息之间的相似性对食品信息进行分组,并以此提取食品安全信息。同一类食品信息具有相似的功能,并随时间发生某些细微的变化,聚类可以通过描述食品的质量随时间变化的情况,来预测食品的质量变化趋势。
[0006] 早期对食品信息数据的聚类多采用基于距离的方法,如k-means聚类、层次聚类、基于函数模型的聚类等方法。这些聚类方法在一定程度上反映了食品信息的某些特征,然而,对于在不同时间点采样所得到的食品信息数据,它们采用的距离准则往往过度强调非关键的信号变化而忽视了食品信息数据各时间点之间的依赖关系。但能够带来高质量聚类结果的恰恰是这种时间点之间的依赖。

发明内容

[0007] 为了克服上述食品安全信息数据不能有效利用时间点之间依赖性的问题,一种基于隐马尔可夫模型的食品安全溯源系统,该溯源系统用隐马尔可夫模型描述食品信息数据的时间依赖特性,然后用层次聚类策略对建好的模型聚类,从而对食品的生产、运输、存储、销售等各个环节产生的时序数据进行智能分析、评估、挖掘,以获取深层次的、隐藏的、不明确的食品安全隐患信息,为消费者食品安全提供更高层次的保障。
[0008] 本发明为解决上述技术问题所采用的技术方案为:一种基于隐马尔可夫模型的食品安全溯源系统,通过对食品的生产、运输、储存和销售环节进行监控并采集数据,将采集的数据经处理建立隐马尔可夫模型,然后对建立的隐马尔可夫模型进行聚类分析,根据聚类分析的结果采取相应措施来确保食品的安全,包括如下步骤:1)分别采集食品在生产、运输、储存和销售环节中的各项时序数据:
,其中 表示某种条件, 表示在条件 下检测的值,然后将这
些时序数据进行标准化处理,并用离散符号来对标准化处理之后的时序数据进行离散化处理;
所表示的含义为:假设有两种条件 和 , 表示微生物,
表示温度,那么 就表示某种微生物 在某个温度 下检测的数据的集合;当等于p, 等于q时, 表示第p种微生物在温度q下的检测值;
2)将步骤1)经离散化的时序数据转换成符号序列集,并根据符号序列集建立隐马尔可夫模型,形成表示某个时序数据的模型空间,然后在所有时序数据的模型空间中对模型进行聚类;
3)根据步骤2)聚类的结果分析食品发生污染的源头,以采取针对性措施进行改善。
[0009] 所述步骤1)中时序数据的标准化处理和离散化处理的具体操作为:①将时序数据定义为一个矩阵 , , ;
其中,行集合G表某一食品的检测对象,列集合S代表不同的检测环境条件,矩阵中每一个元素 是检测对象 在检测条件 下的真实表达水平值;
②将步骤①中的时序数据离散化为 ,k取奇数;
③将步骤②中离散化的时序数据转换成符号序列集 ,即完成对时序数据的标准化、离散化处理。
[0010] 所述步骤2)中根据符号序列集建立隐马尔可夫模型的步骤如下:⑴将时序数据定义为符号序列集 ,然后建立 的隐马尔可夫模型 ,
并将 作为 所表示的类 的成员: ;
⑵计算 的 输出概率,即 ,若 ,则在 中添
加新的成员 : ,用新产生的 重新训练模型 ,否则为 建立新的隐马尔可夫模型 ,同时增加与模型相应的类别 ,并将 作为 的成员: ;
⑶对于序列 ,设定其建立k个模型: ,它们表示的类为:
找出使 取最大值的模型 ,在 中找出 输出概率最大的序
列 ,如果 ,则将 加入 中,并重新训练模型 ,否则
建立 的隐马尔可夫模型 ,同时设置模型所表示的类别 ,并将 作为 的成员:

⑷重复步骤(3)直至所有序列都已分类;
⑸对所有建立的表示各个类别的隐马尔可夫模型进行层次聚类:从所有的模型中选出模型间距离最小的两个模型 和 ,将 和 合
并为 ,然后用 中的序列重新训练 ,得到新的模型
,并将 作为其表示的类,重复以上过程,直到只有一个模型为止,即完成隐马尔可夫模型的建立。
[0011] 所述 是小于0.05的正数,模型 和 之间的距离按以下公式计算:其中n、m分别为 、 所表示的类 、 中所含序列数;
根据对称性算法用以下公式计算模型间的距离:

[0012] 所述步骤3)中对聚类结果的分析是指:通过MATLAB仿真,从而得到聚类结果的拟合曲线图,观察图中曲线,即可分析食品被污染发生的时间、导致污染的环境因素以及主要污染源;通过观察聚类树图,从而判断出被污染食品的异常,进而找出异常原因。
[0013] 本发明中,对任意两个Markov链,当它们具有相同的动态特征时,它们之间的距离为零。它们之间的动态特征差异越大,距离值就越大,这样就能够得到任意两个训练序列之间的距离。聚类的过程就是以距离为度量方式,将相似度较高的对象合并到同一个簇中。在聚簇的过程中应当使得到的结果簇尽可能地紧凑和独立,达到最佳的聚簇效果,而对不同的应用数据,其聚簇方法的选择,聚簇算法的选择及改进是达到最佳聚簇效果的关键。基于以上分析,即可利用聚类的方法将训练数据集聚成几个类,通过调节距离的门槛值,可控制得到的聚类个数。
[0014] 有益效果:本发明通过采集食品从生产到最终销售过程中各环节的时序数据,然后利用数据建立隐马尔可夫模型,并对建立的隐马尔可夫模型进行聚类分析,当食品出现安全问题时,可以根据聚类分析的结果得出具体是在哪一环节、什么原因导致的,从而可以采取相应措施来确保食品的安全,如,政府相关部门可以根据食品安全数据分析的结果,采取相应的对策进行预防和控制;企业可以根据分析结果调整生产战略,为企业创造更大的利润;消费者可以根据分析结果调整自己的饮食规律等。附图说明
[0015] 图1为本发明中层次聚类算法流程图

具体实施方式

[0016] 如图1所示,一种基于隐马尔可夫模型的食品安全溯源系统,通过对食品的生产、运输、储存和销售环节进行监控并采集数据,将采集的数据经处理建立隐马尔可夫模型,然后对建立的隐马尔可夫模型进行聚类分析,根据聚类分析的结果采取相应措施来确保食品的安全,具体步骤如下:1、数据处理
在建立食品信息时序数据的HMM模型之前要对其进行预处理。首先进行数据的标准化,然后用离散符号表示标准化后的数据,将离散符号作为模型的状态观测值。将给定的食品信息时序数据统一成标准格式,例如,冷鲜牛肉细菌指数、屠宰车间环境指数、运输车辆温度以及位置数据、市场接触面菌落指数等,将这些数值都转换为一些固定的格式,这样便于分析和处理,然后对这些标准化后的数据进行离散化处理;
上述“数据的标准化”中,数据指的正是食品领域中检测所得的数据,下面以牛肉为例只是对“数据标准化”做进一步的解释,旨在将数据标准化的含义具体化便于理解。后文聚类过程中提到的数据都是指食品领域中的数据,不单指牛肉检测数据。在“3、聚类结果分析和应用”中以牛肉为例,只是为了更清晰的说明本发明的用法,并不是只用在对牛肉数据的分析。
[0017] 本发明采用Odibat等人提出的基于K-means的方法对时序数据进行离散化,将某一种食品的全部检测对象的时序数据的值作为一个整体进行离散化,而不是对某一种食品的某一种检测对象的值进行离散化。
[0018] 食品安全信息时序数据可以被定义为一个矩阵 , ,。其中,行集合G表某一食品的检测对象,列集合S代表不同的检测环境条件。矩阵中每一个元素 是检测对象 在检测条件 下的真实表达水平值。将真实数据离散化可以降低噪声、提高数据处理效率,而传统的数据离散化方法将时序数据离散化成-1、0、1三个值,使得离散后的数据丢失了一些重要信息。本文在传统的离散化方法上进行扩展,将时序数据离散化为 这样的多值(通常k
取奇数),相比传统离散化方法的三个值更好地量化了食品信息水平。
[0019] 最后将给定的经过离散化的食品信息时序数据转换成符号序列集 。在完成食品时序数据的标准化和离散化之后,就可以对其建立HMM模型了;
2、聚类算法
在对食品信息时序数据进行聚类时,HMM-HC方法首先建立每一类数据的HMM模型,形成表示数据的模型空间,然后在模型空间中对模型进行聚类,从而实现数据的聚类。具体算法步骤如下:
对于给定的食品信息时序数据序列集: ,建立 的隐马尔可夫模型 ,
并将 作为 所表示的类 的成员: 。
[0020] 计算 的 输出概率,即 ,若 ,则在 中添加新的成员 : ,用新产生的 重新训练模型 ,否则为 建立新的隐马尔可夫模型 ,同时增加与模型相应的类别 ,并将 作为 的成员: 。
[0021] 对于序列 ,设定其建立k个模型: ,它们表示的类为:找出使 取最大值的模型 ,在 中找出 输出概率最大的序
列 ,如果 ,则将 加入 中,并重新训练模型 ,否则
建立 的隐马尔可夫模型 ,同时设置模型所表示的类别 ,并将 作为 的成员:

[0022] 重复步骤(3)直至所有序列都已分类;对所有建立的表示各个类别的隐马尔可夫模型进行层次聚类:从所有的模型中选出模型间距离最小的两个模型 和 ,将 和 合并为
,然后用 中的序列重新训练 ,得到新的模型
,并将 作为其表示的类,重复以上过程,直到只有一个模型为止,即完成隐马尔可夫模型的建立。
[0023] 在上述算法中, 是小于0.05的正数,其大小可以根据需要进行调整,模型 和之间的距离按以下公式计算:其中n、m分别为 、 所表示的类 、 中所含序列数;
根据对称性算法用以下公式计算模型间的距离:
对任意两个Markov链,当它们具有相同的动态特征时,它们之间的距离为零。它们之间的动态特征差异越大,距离值就越大,这样就能够得到任意两个训练序列之间的距离。聚类的过程就是以距离为度量方式,将相似度较高的对象合并到同一个簇中。在聚簇的过程中应当使得到的结果簇尽可能地紧凑和独立,达到最佳的聚簇效果,而对不同的应用数据,其聚簇方法的选择,聚簇算法的选择及改进是达到最佳聚簇效果的关键。基于以上分析,即可利用聚类的方法将训练数据集聚成几个类,通过调节距离的门槛值,可控制得到的聚类个数;
3、聚类结果分析和应用
以上述中牛肉时序数据为例:通过MATLAB仿真,可以得到聚类结果的拟合曲线图,通过观察图中曲线,分析被污染牛肉中菌落在形态上的相似性,找出牛肉污染发生的时间和导致污染的环境因素,以及主要污染源。通过观察聚类树图,判断被污染牛肉运输环节冷藏车和托盘菌落总数的异常,找出异常原因。
[0024] 找出牛肉污染原因之后,管理人员就可以采取针对性措施,例如,控制环境温度、抑制某种菌落的繁殖、对屠宰工具严格灭菌等,确保牛肉不被污染。
[0025] 本发明的应用举例:选取现实生活中某一段时间的具有连续监控数据的牛肉供应链各工序接触面及胴体表面微生物污染状况数据,通过对牛肉供应链中屠宰、运输、销售等环节微生物污染状况的监测,分析微生物污染因素。采用单位面积的细菌总数来衡量微生物污染指标,随着时间的变化,温度和湿度对牛肉表面和各接触面的影响导致细菌总数不断变化。通过观察聚类结果,分析出牛肉污染的原因,以及可能会出现的其他污染情况。由此可以为决策者和进一步分析提供依据。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈