首页 / 专利分类库 / 基本电子电路 / 一般编码、译码或代码转换 / 一种基于大数据的智慧产业园区管理方法

一种基于大数据的智慧产业园区管理方法

申请号 CN202410068033.3 申请日 2024-01-17 公开(公告)号 CN117891894A 公开(公告)日 2024-04-16
申请人 浙江乌镇街科技有限公司; 嘉兴职业技术学院; 发明人 白岚;
摘要 本 发明 涉及数据编码技术领域,具体涉及一种基于 大数据 的智慧产业园区管理方法,包括:采集多个维度的环境监控数据;获取每个维度的环境监控数据的最终的字符组合序列;根据每个维度的最终的字符组合序列中每个元素的字符长度和数量,获取每个元素的第一影响权重和第二影响权重;获取每个元素的综合影响权重;根据每个维度的最终的字符组合序列中每个元素的分布及综合影响权重,获取每个元素的综合优选权重;根据每个维度的最终的字符组合序列中每个元素的综合优选权重,构建霍夫曼树,进行编码和存储管理。本发明提高了霍夫曼编码在智慧产业园区数据的压缩效率,提高智慧产业园区的数据管理效率。
权利要求

1.一种基于大数据的智慧产业园区管理方法,其特征在于,该方法包括以下步骤:
采集多个维度的环境监控数据;
获取每个维度的环境监控数据的最终的字符组合序列,所述最终的字符组合序列中包含若干元素;
根据每个维度的最终的字符组合序列中每个元素的字符长度和数量,获取每个元素的第一影响权重;
预设字符分布范围,根据每个维度的最终的字符组合序列中每个元素的字符分布范围,获取每个元素的第二影响权重;
根据每个维度的最终的字符组合序列中每个元素的第一影响权重和第二影响权重,获取每个元素的综合影响权重;
根据每个维度的最终的字符组合序列中每个元素的分布及综合影响权重,获取每个元素的综合优选权重;
根据每个维度的最终的字符组合序列中每个元素的综合优选权重,构建霍夫曼树,依据霍夫曼树对所有维度的环境监控数据进行编码和存储管理。
2.根据权利要求1所述的一种基于大数据的智慧产业园区管理方法,其特征在于,所述获取每个维度的环境监控数据的最终的字符组合序列,所述最终的字符组合序列中包含若干元素,包括的具体步骤如下:
将任意一个维度记为目标维度,根据目标维度的环境监控数据中所有单字符构建第一字符序列;根据目标维度的环境监控数据中所有单字符类别构建第一字符类别序列;
根据目标维度的第一字符序列和第一字符类别序列,获取每个字符类别的字符组合序列;
将目标维度的所有字符类别的字符组合序列组合为最终的字符组合序列。
3.根据权利要求2所述的一种基于大数据的智慧产业园区管理方法,其特征在于,所述根据目标维度的第一字符序列和第一字符类别序列,获取每个字符类别的字符组合序列,包括的具体步骤如下:
获取第一字符类别序列中的第一个字符类别,首先将第一个字符类别在第一字符序列对应的所有字符记为目标字符,第一字符序列中存在若干目标字符;其次,对于第一字符序列中第一个目标字符,将第一个目标字符的后一个字符记为第一待组合字符,统计第一个目标字符与第一待组合字符构成的组合在第一字符序列出现的频数,若所述频数大于1,则将第一个目标字符与第一待组合字符进行组合得到第一个目标字符组合;然后统计第一个目标字符组合与第一待组合字符的后一个字符构成的组合在第一字符序列出现的频数,若频数大于1,则将第一个目标组合字符与第一待组合字符的后一个字符进行组合,组成第二个目标字符组合;依次类推,直到构成的组合在第一字符序列出现的频数等于1时的字符组合不进行字符组合,并将所有第一个字符类别的目标字符组合构成第一个字符类别的字符组合序列;
获取所有字符类别的字符组合序列。
4.根据权利要求1所述的一种基于大数据的智慧产业园区管理方法,其特征在于,所述根据每个维度的最终的字符组合序列中每个元素的字符长度和数量,获取每个元素的第一影响权重,包括的具体步骤如下:
将任意一个维度记为目标维度,根据目标维度的最终的字符组合序列中元素对应的字符组合的字符长度进行分类,将相同字符长度的元素作为同一类元素;
将第i个元素所属的元素类记为第一元素类,记字符长度大于第一元素类的除第一元素外的其他元素类为第二元素类;
根据目标维度的不同类元素之间的元素分布,获取第i个元素的第一影响权重。
5.根据权利要求4所述的一种基于大数据的智慧产业园区管理方法,其特征在于,所述根据目标维度的不同类元素之间的元素分布,获取第i个元素的第一影响权重,包括的具体步骤如下:
目标维度的最终的字符组合序列的第i个元素的第一影响权重αi的计算方法为:
其中,I表示目标维度的最终的字符组合序列的元素的数量;Mi表示第一元素类中元素的数量;Ni表示第二元素类的数量;li表示第一元素类的字符长度; 表示第ni个第二元素类的字符长度;max(l)表示所有元素类中的字符长度的最大值;min(l)表示所有元素类中的字符长度的最小值; 表示第ni个第二元素类的元素的数量; 表示第ni个第二元素类中含有第i个元素对应的字符组合的元素数量。
6.根据权利要求2所述的一种基于大数据的智慧产业园区管理方法,其特征在于,所述预设字符分布范围,根据每个维度的最终的字符组合序列中每个元素的字符分布范围,获取每个元素的第二影响权重,包括的具体步骤如下:
根据目标维度的环境监控数据与除目标维度外的其他所有维度的环境监控数据之间的皮尔逊相关系数值,获取目标维度与除目标维度外的其他所有维度的相关维度组合;
预设字符分布范围,根据目标维度的每个元素在第一字符序列的若干字符组合的字符分布范围在相关维度组合之间的关系变化,获取每个元素的第二影响权重。
7.根据权利要求6所述的一种基于大数据的智慧产业园区管理方法,其特征在于,所述根据目标维度的每个元素在第一字符序列的若干字符组合的字符分布范围在相关维度组合之间的关系变化,获取每个元素的第二影响权重,包括的具体步骤如下:
目标维度的最终的字符组合序列的第i个元素的第二影响权重εi的计算方法为:
其中,H表示目标维度与除目标维度外的其他所有维度的相关维度组合的数量;S表示第i个元素在第一字符序列的字符组合的数量;Rhs表示第s个字符组合的分布范围内第h个相关维度组合的维度的环境监控数据之间的皮尔逊相关系数;R′h表示第h个相关维度组合的维度的环境监控数据之间的皮尔逊相关系数;f(Rhs,R′h)表示Rhs与R′h之间的映射函数,其中 ||表示取绝对值函数。
8.根据权利要求1所述的一种基于大数据的智慧产业园区管理方法,其特征在于,所述根据每个维度的最终的字符组合序列中每个元素的第一影响权重和第二影响权重,获取每个元素的综合影响权重,包括的具体步骤如下:
将任意一个维度记为目标维度,目标维度的最终的字符组合序列的第i个元素的综合影响权重δi的计算方法为:
δi=(1+εi)×αi
其中,αi表示目标维度的最终的字符组合序列的第i个元素的第一影响权重;εi表示目标维度的最终的字符组合序列的第i个元素的第二影响权重。
9.根据权利要求2所述的一种基于大数据的智慧产业园区管理方法,其特征在于,所述根据每个维度的最终的字符组合序列中每个元素的分布及综合影响权重,获取每个元素的综合优选权重,包括的具体步骤如下:
对于目标维度的最终的字符组合序列的第i个元素的综合优选权重 的计算方法为:
其中,Ui表示目标维度的最终的字符组合序列的第i个元素的字符长度; 表示目标维度的最终的字符组合序列的第i个元素的第ui个字符在第一字符序列中出现的频数;W表示第一字符序列的字符总数量;wi表示目标维度的最终的字符组合序列的第i个元素对应的字符组合在第一字符序列中出现的频数;li表示第一元素类的字符长度;log2()表示以2为底数的对数函数;δi表示目标维度的最终的字符组合序列的第i个元素的综合影响权重。
10.根据权利要求1所述的一种基于大数据的智慧产业园区管理方法,其特征在于,所述根据每个维度的最终的字符组合序列中每个元素的综合优选权重,构建霍夫曼树,依据霍夫曼树对所有维度的环境监控数据进行编码和存储管理,包括的具体步骤如下:
将任意一个维度记为目标维度,在霍夫曼树的构建过程中,将得到的目标维度的最终的字符组合序列的所有元素的综合优选权重值的大小,代替霍夫曼树的构建过程中使用的字符的频率,其中各个元素所对应的字符及字符组合作为霍夫曼树的树节点,进而得到目标维度的环境监控数据的霍夫曼树,并依据霍夫曼树对目标维度的环境监控数据进行编码和存储管理。

说明书全文

一种基于大数据的智慧产业园区管理方法

技术领域

[0001] 本发明涉及数据编码技术领域,具体涉及一种基于大数据的智慧产业园区管理方法。

背景技术

[0002] 随着物联网(IoT)技术的发展,智慧产业园区能够通过各种传感器和监控设备,实时采集关于环境、能源、设备状态和安全的海量数据。这些数据对于实现园区的智能化管理至关重要,涉及能效管理、安全监控、资产管理、环境监控等多个方面。
[0003] 由于在进行智慧产业园区的环境监控过程中,所采集到的数据大多都为正常数据,因此会出现较多的重复项数据,若将重复项数据不经过处理后进行存储,会造成极大的空间冗余。霍夫曼编码通过统计字符出现频率为每个字符分配变长的编码,同时霍夫曼编码是一种无损压缩方法,即在解压缩后能够还原原始数据,不会丢失任何信息,而由于因为智慧产业园区环境监控过程中,需要准确还原原始的环境监控数据,以便进行准确的分析和处理。然而重复字符之间也同样具有重复性特征,即对应的为重复字符进行组合得到字符组合之后,字符组合仍具有重复性特征,因此霍夫曼编码的过程中并没有利用智慧产业园区的重复信息,使得压缩效率较低。

发明内容

[0004] 为了解决上述问题,本发明提供一种基于大数据的智慧产业园区管理方法。
[0005] 本发明的一种基于大数据的智慧产业园区管理方法采用如下技术方案:
[0006] 本发明一个实施例提供了一种基于大数据的智慧产业园区管理方法,该方法包括以下步骤:
[0007] 采集多个维度的环境监控数据;
[0008] 获取每个维度的环境监控数据的最终的字符组合序列,所述最终的字符组合序列中包含若干元素;
[0009] 根据每个维度的最终的字符组合序列中每个元素的字符长度和数量,获取每个元素的第一影响权重;
[0010] 预设字符分布范围,根据每个维度的最终的字符组合序列中每个元素的字符分布范围,获取每个元素的第二影响权重;
[0011] 根据每个维度的最终的字符组合序列中每个元素的第一影响权重和第二影响权重,获取每个元素的综合影响权重;
[0012] 根据每个维度的最终的字符组合序列中每个元素的分布及综合影响权重,获取每个元素的综合优选权重;
[0013] 根据每个维度的最终的字符组合序列中每个元素的综合优选权重,构建霍夫曼树,依据霍夫曼树对所有维度的环境监控数据进行编码和存储管理。
[0014] 进一步的,所述获取每个维度的环境监控数据的最终的字符组合序列,所述最终的字符组合序列中包含若干元素,包括的具体步骤如下:
[0015] 将任意一个维度记为目标维度,根据目标维度的环境监控数据中所有单字符构建第一字符序列;根据目标维度的环境监控数据中所有单字符类别构建第一字符类别序列;
[0016] 根据目标维度的第一字符序列和第一字符类别序列,获取每个字符类别的字符组合序列;
[0017] 将目标维度的所有字符类别的字符组合序列组合为最终的字符组合序列。
[0018] 进一步的,所述根据目标维度的第一字符序列和第一字符类别序列,获取每个字符类别的字符组合序列,包括的具体步骤如下:
[0019] 获取第一字符类别序列中的第一个字符类别,首先将第一个字符类别在第一字符序列对应的所有字符记为目标字符,第一字符序列中存在若干目标字符;其次,对于第一字符序列中第一个目标字符,将第一个目标字符的后一个字符记为第一待组合字符,统计第一个目标字符与第一待组合字符构成的组合在第一字符序列出现的频数,若所述频数大于1,则将第一个目标字符与第一待组合字符进行组合得到第一个目标字符组合;然后统计第一个目标字符组合与第一待组合字符的后一个字符构成的组合在第一字符序列出现的频数,若频数大于1,则将第一个目标组合字符与第一待组合字符的后一个字符进行组合,组成第二个目标字符组合;依次类推,直到构成的组合在第一字符序列出现的频数等于1时的字符组合不进行字符组合,并将所有第一个字符类别的目标字符组合构成第一个字符类别的字符组合序列;
[0020] 获取所有字符类别的字符组合序列。
[0021] 进一步的,所述根据每个维度的最终的字符组合序列中每个元素的字符长度和数量,获取每个元素的第一影响权重,包括的具体步骤如下:
[0022] 将任意一个维度记为目标维度,根据目标维度的最终的字符组合序列中元素对应的字符组合的字符长度进行分类,将相同字符长度的元素作为同一类元素;
[0023] 将第i个元素所属的元素类记为第一元素类,记字符长度大于第一元素类的除第一元素外的其他元素类为第二元素类;
[0024] 根据目标维度的不同类元素之间的元素分布,获取第i个元素的第一影响权重。
[0025] 进一步的,所述根据目标维度的不同类元素之间的元素分布,获取第i个元素的第一影响权重,包括的具体步骤如下:
[0026] 目标维度的最终的字符组合序列的第i个元素的第一影响权重αi的计算方法为:
[0027]
[0028] 其中,I表示目标维度的最终的字符组合序列的元素的数量;Mi表示第一元素类中元素的数量;Ni表示第二元素类的数量;li表示第一元素类的字符长度; 表示第i个第二元素类的字符长度;max(l)表示所有元素类中的字符长度的最大值;min(l)表示所有元素类中的字符长度的最小值; 表示第i个第二元素类的元素的数量; 表示第ni个第二元素类中含有第i个元素对应的字符组合的元素数量。
[0029] 进一步的,所述预设字符分布范围,根据每个维度的最终的字符组合序列中每个元素的字符分布范围,获取每个元素的第二影响权重,包括的具体步骤如下:
[0030] 根据目标维度的环境监控数据与除目标维度外的其他所有维度的环境监控数据之间的皮尔逊相关系数值,获取目标维度与除目标维度外的其他所有维度的相关维度组合;
[0031] 预设字符分布范围,根据目标维度的每个元素在第一字符序列的若干字符组合的字符分布范围在相关维度组合之间的关系变化,获取每个元素的第二影响权重。
[0032] 进一步的,所述根据目标维度的每个元素在第一字符序列的若干字符组合的字符分布范围在相关维度组合之间的关系变化,获取每个元素的第二影响权重,包括的具体步骤如下:
[0033] 目标维度的最终的字符组合序列的第i个元素的第二影响权重εi的计算方法为:
[0034]
[0035] 其中,Hn表示目标维度与除目标维度外的其他所有维度的相关维度组合的数量;S表示第i个元素在第一字符序列的字符组合的数量;Rhs表示第s个字符组合的分布范围内第h个相关维度组合的维度的环境监控数据之间的皮尔逊相关系数;R′h表示第h个相关维度组合的维度的环境监控数据之间的皮尔逊相关系数;f(Rhs,R′h)表示Rhs与R′h之间的映射函数,其中 | |表示取绝对值函数。
[0036] 进一步的,所述根据每个维度的最终的字符组合序列中每个元素的第一影响权重和第二影响权重,获取每个元素的综合影响权重,包括的具体步骤如下:
[0037] 将任意一个维度记为目标维度,目标维度的最终的字符组合序列的第i个元素的综合影响权重δi的计算方法为:
[0038] δi=(1+εi)×αi
[0039] 其中,αi表示目标维度的最终的字符组合序列的第i个元素的第一影响权重;εi表示目标维度的最终的字符组合序列的第i个元素的第二影响权重。
[0040] 进一步的,所述根据每个维度的最终的字符组合序列中每个元素的分布及综合影响权重,获取每个元素的综合优选权重,包括的具体步骤如下:
[0041] 对于目标维度的最终的字符组合序列的第i个元素的综合优选权重 的计算方法为:
[0042]
[0043] 其中,Ui表示目标维度的最终的字符组合序列的第i个元素的字符长度; 表示目标维度的最终的字符组合序列的第i个元素的第ui个字符在第一字符序列中出现的频数;W表示第一字符序列的字符总数量;wi表示目标维度的最终的字符组合序列的第i个元素对应的字符组合在第一字符序列中出现的频数;li表示第一元素类的字符长度;log2( )表示以2为底数的对数函数;δi表示目标维度的最终的字符组合序列的第i个元素的综合影响权重。
[0044] 进一步的,所述根据每个维度的最终的字符组合序列中每个元素的综合优选权重,构建霍夫曼树,依据霍夫曼树对所有维度的环境监控数据进行编码和存储管理,包括的具体步骤如下:
[0045] 将任意一个维度记为目标维度,在霍夫曼树的构建过程中,将得到的目标维度的最终的字符组合序列的所有元素的综合优选权重值的大小,代替霍夫曼树的构建过程中使用的字符的频率,其中各个元素所对应的字符及字符组合作为霍夫曼树的树节点,进而得到目标维度的环境监控数据的霍夫曼树,并进行霍夫曼编码。
[0046] 本发明的技术方案的有益效果是:本发明通过对采集的智慧产业园区的多维度数据进行自适应霍夫曼编码的方式对数据进行压缩,以实现智慧产业园区管理。其中通过获取每个维度的环境监控数据的不同字符之间的组合获取字符组合序列,并根据字符组合序列中不同类元素之间的分布来获取元素的第一影响权重,并根据每个元素在相关维度组合之间的关系变化获取元素的第二影响权重,进而得到元素的综合影响权重。根据元素的综合影响权重中以及元素中每个字符的分布来获取元素的综合优选权重,并构建霍夫曼树,实现自适应霍夫曼编码。避免了传统的霍夫曼编码过程中没有利用智慧产业园区的重复信息,使得压缩效率较低的缺点,使得可以提高智慧产业园区多维度数据的压缩效率,提高智慧产业园区的数据管理效率。附图说明
[0047] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0048] 图1为本发明的一种基于大数据的智慧产业园区管理方法的步骤流程图

具体实施方式

[0049] 为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的智慧产业园区管理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
[0050] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
[0051] 下面结合附图具体的说明本发明所提供的一种基于大数据的智慧产业园区管理方法的具体方案。
[0052] 请参阅图1,其示出了本发明一个实施例提供的一种基于大数据的智慧产业园区管理方法的步骤流程图,该方法包括以下步骤:
[0053] S001.通过布置传感器采集智慧产业园区的环境监控数据。
[0054] 需要说明的是,在智慧产业园区中需要采集与环境相关的各种信息和指标,并进行环境监督以及环境预警等工作,因此本实施例中通过对采集的智慧产业园区的环境监控数据进行自适应压缩处理,通过利用各个字符数据之间的重复性特征,对重复的字符数据构建霍夫曼树,提高智慧产业园区的环境监控数据的压缩效率。
[0055] 具体的,本实施例通过安装传感器来采集智慧产业园区的各类型的环境监控数据,包括污染气体浓度、颗粒物浓度、温度、湿度、气压和光照强度等,其中各类型的环境监控数据的采样频率设置为相同,即每1分钟采集一次数据,每个时刻采集所有类型的环境监控数据,其中本实施例将不同类型的环境监控数据记为不同维度的环境监控数据。
[0056] S002.获取每个维度的环境监控数据的最终的字符组合序列;根据每个维度的最终的字符组合序列中每个元素的字符长度和数量,获取每个元素的综合影响权重。
[0057] 需要说明的是,大数据的产生和应用呈现爆炸式的增长趋势,而大数据的传输和存储成本较高,因此需要对大数据进行有效的压缩以达到减少数据的存储和传输成本的目的,由于在进行智慧产业园区的环境监控过程中,所采集到的数据大多都为正常数据,因此会出现较多的重复项数据,若将重复项数据不经过处理后进行存储,会造成极大的空间冗余。霍夫曼编码通过统计字符出现频率,根据不同字符出现的频率,为每个字符分配变长的编码,使得重复的字符可以用较短的编码表示,同时霍夫曼编码是一种无损压缩方法,即在解压缩后能够还原原始数据,不会丢失任何信息,而由于因为智慧产业园区环境监控过程中,需要准确还原原始的环境监控数据,以便进行准确的分析和处理,因此霍夫曼编码常用于智慧产业园区的环境监控数据的存储过程中,可以减小数据传输和存储的需求,提高存储效率。
[0058] 需要进一步说明的是,传统的霍夫曼编码是利用单个重复字符的频率进行霍夫曼树的构建,并根据所构建的霍夫曼编码树,对各个字符进行编码。然而重复字符之间也同样具有重复性特征,即对应的为重复字符进行组合得到字符组合之后,字符组合仍具有重复性特征,因此霍夫曼编码的过程中并没有利用智慧产业园区的重复信息。同时由于将得到的字符组合后,会影响各个字符对应的频率,也即会影响到霍夫曼树的构建,因此每个字符组合均会影响到最终的压缩效果,因此会造成字符组合后的压缩效率比字符组合前的压缩效率较小,影响压缩的结果。不同字符组合长度的字符组合之间具有一定的联系,则表明对于含有联系的字符组合进行压缩可以得到较好的压缩效果,进而量化字符组合的影响权重;然而由于位置之间具有一定的相关性,部分字符组合可能会与维度之间相关性关系存在偏差,因此若仅考虑同一个维度之间的字符组合特征会错误估计字符组合对压缩效率的影响,进而通过量化对于不同维度之间的相关关系的变化,来对通过字符组合的影响权重进行调整。
[0059] 具体的,将任意一个维度记为目标维度,按照从前到后的时序顺序将目标维度的环境监控数据中所有单字符构建第一字符序列;同时获取目标维度的环境监控数据中所有单字符类别,并按照从前到后的时序顺序构建第一字符类别序列。获取第一字符类别序列中的第一个字符类别,首先将第一个字符类别在第一字符序列对应的所有字符记为目标字符,第一字符序列中存在若干目标字符;其次,对于第一字符序列中第一个目标字符,将第一个目标字符的后一个字符记为第一待组合字符,统计第一个目标字符与第一待组合字符构成的组合在第一字符序列出现的频数,若所述频数大于1,则将第一个目标字符与第一待组合字符进行组合得到第一个目标字符组合;然后统计第一个目标字符组合与第一待组合字符的后一个字符构成的组合在第一字符序列出现的频数,若频数大于1,则将第一个目标组合字符与第一待组合字符的后一个字符进行组合,组成第二个目标字符组合;依次类推,直到构成的组合在第一字符序列出现的频数等于1时的字符组合不进行字符组合,并将所有第一个字符类别的目标字符组合构建第一个字符类别的字符组合序列;类似操作,按照时序顺序得到第一个字符类别的其他目标字符的目标组合字符,将所有目标字符组合构成第一个字符类别的字符组合序列。
[0060] 进一步的,获取目标维度的所有字符类别的字符组合序列,将所有字符组合序列进行组合得到最终的字符组合序列,其中最终的字符组合序列中的每个元素表示的为不同的字符组合,并且字符组合的字符长度不相同,并且每个元素在第一字符序列中对应的为若干相同的字符组合。对于最终的字符组合序列的所有元素,根据元素对应的字符组合的字符长度进行分类,将相同字符长度的元素作为同一类元素,则包含若干元素类。其中记第i个元素所属的元素类为第一元素类,记字符长度大于第一元素类的除第一元素外的其他元素类为第二元素类。根据目标维度的同一类元素之间的元素分布以及第一元素类与若干第二元素类之间的相似性,获取第i个元素的第一影响权重,其中目标维度的最终的字符组合序列的第i个元素的第一影响权重αi的计算方法为:
[0061]
[0062] 其中,I表示目标维度的最终的字符组合序列的元素的数量;Mi表示第一元素类中元素的数量;Ni表示第二元素类的数量;li表示第一元素类的字符长度; 表示第ni个第二元素类的字符长度;max(l)表示所有元素类中的字符长度的最大值;min(l)表示所有元素类中的字符长度的最小值; 表示第ni个第二元素类的元素的数量; 表示第ni个第二元素类中含有第i个元素对应的字符组合的元素数量;其中, 表示第一元素类中的字符组合的元素分布,若第一元素类中的元素较多,也即第一元素类中字符组合较多,则表明第一元素类分布较为离散,此元素类表征的信息较为离散,则第i个元素所属的第一元素类的第一影响权重越大;在此基础上,通过计算 表示第一元素类与第二元素类之间的相似性,若第二元素类中包含的第i个元素的信息的元素较多,且第二元素类的字符长度与第一元素类的字符长度相似,则表明第i个元素与若干个第二元素类之间越相似,则若以第i个元素进行压缩时会提高压缩效率;其中通过同一类元素的分布 作为调整影响权重值,若元素类的元素分布较为离散,则调小第一影响权重。
[0063] 进一步的,将目标维度与除目标维度外的第a个维度记为一个维度组合,获取所述维度组合的目标维度的环境监控数据与第a个维度的环境监控数据之间的皮尔逊相关系数,预设皮尔逊相关系数阈值为0.65,若所述维度组合的皮尔逊相关系数大于等于皮尔逊相关系数阈值,则将所述维度组合记为相关维度组合,其中预设的皮尔逊相关系数阈值可根据实施者具体实施情况而定,本实施例给出的为经验参考值;类似操作,得到目标维度与除目标维度外的其他所有维度的相关维度组合。预设字符分布范围为元素在第一字符序列的左相邻5个字符组合以及右相邻5个字符组合,需要特别说明的是若元素对应的字符组合在第一字符序列中的字符组合个数不足预设的字符分布范围,则在后续计算过程中按照实际包含的字符组合进行计算。根据目标维度的第i个元素在第一字符序列的若干字符组合的字符分布范围在相关维度组合之间的关系变化,获取第i个元素的第二影响权重,其中目标维度的最终的字符组合序列的第i个元素的第二影响权重εi的计算方法为:
[0064]
[0065] 其中,H表示目标维度与除目标维度外的其他所有维度的相关维度组合的数量;S表示第i个元素在第一字符序列的字符组合的数量;Rhs表示第s个字符组合的分布范围内第h个相关维度组合的维度的环境监控数据之间的皮尔逊相关系数;R′h表示第h个相关维度组合的维度的环境监控数据之间的皮尔逊相关系数;f(Rhs,R′h)表示Rhs与R′h之间的映射函数,其中 | |表示取绝对值函数。其中通过计算第i个元素对应的字符组合在第一字符序列中的分布,在目标维度与其相关性维度之间的关系变化,若Rhs小于等于R′h,则表明第i个元素对应的字符组合影响整体维度之间的关系分布,因此若对第i个元素对应的字符组合的影响程度应降低;若Rhs大于R′h,则表明第i个元素对应的字符组合更符合整体维度之间的关系分布,因此若符合的程度越大,则第i个元素对应的字符组合的影响程度越高。
[0066] 进一步的,根据目标维度的最终的字符组合序列的第i个元素的第一影响权重值和第二影响权重值,获取目标维度的第i个元素的综合影响权重值。其中目标维度的最终的字符组合序列的第i个元素的综合影响权重δi的计算方法为:
[0067] δi=(1+εi)×αi
[0068] 其中,αi表示目标维度的最终的字符组合序列的第i个元素的第一影响权重;εi表示目标维度的最终的字符组合序列的第i个元素的第二影响权重。其中αi表示综合影响权重的基准值,在基准值的基础上,通过表示维度数据之间变化关系的第二影响权重对基准值进行放大调整。
[0069] S003.根据每个维度的最终的字符组合序列中每个元素的分布及综合影响权重,获取每个元素的综合优选权重,并构建霍夫曼树。
[0070] 需要说明的是,通过目标维度的同一类元素之间的元素分布以及第一元素类与若干第二元素类之间的相似性,以及在第一字符序列的若干字符组合的字符分布范围在相关维度组合之间的关系变化,综合得到目标维度的第i个元素的综合影响权重。根据目标维度的综合影响权重值可以作为字符组合作为整体构建霍夫曼树的影响程度,然而由于暴的令重复的字符串进行组合可能会使组合后的字符串编码的压缩效果不如组合前的单字符的编码的压缩效果,因此需要在根据目标维度的每个元素的综合影响权重的基础上,根据字符组合前的压缩变化,来确定构建霍夫曼树的字符及字符组合。
[0071] 进一步的,对于目标维度的最终的字符组合序列的第i个元素的综合优选权重的计算方法为:
[0072]
[0073] 其中,Ui表示目标维度的最终的字符组合序列的第i个元素的字符长度; 表示目标维度的最终的字符组合序列的第i个元素的第ui个字符在第一字符序列中出现的频数;W表示第一字符序列的字符总数量;wi表示目标维度的最终的字符组合序列的第i个元素对应的字符组合在第一字符序列中出现的频数;li表示第一元素类的字符长度;log2( )表示以2为底数的对数函数;δi表示目标维度的最终的字符组合序列的第i个元素的综合影响权重。其中 通过熵值来表示字符组合前的单字符数据进行压缩后的数据大小, 通过字符组合后的熵值来表示字符组合后的字
符组合进行压缩后的数据大小, 越大,则表明组合前的单字符压缩
后的数据大小越大,字符组合后的字符压缩后的数据大小越小,则第i个元素对应的字符组合的综合优选权重越大,同时结合综合影响权重δi来表征对于字符组合的选择程度,则两者乘积越大综合优选权重越大,越作为构建霍夫曼树的字符及字符组合。
[0074] 进一步的,在霍夫曼树的构建过程中,将得到的目标维度的最终的字符组合序列的所有元素的综合优选权重值的大小,代替霍夫曼树的构建过程中使用的字符的频率,其中各个元素所对应的字符及字符组合作为霍夫曼树的树节点,进而得到目标维度的环境监控数据的霍夫曼树。
[0075] S004.根据获取的目标维度的霍夫曼树进行霍夫曼编码。
[0076] 根据获取的目标维度的霍夫曼树进行霍夫曼编码,得到目标维度的数据的编码结果,其中目标维度的编码结果存储至智慧产业园区的数据库中,以实现智慧产业园区的管理,其中通过霍夫曼树进行霍夫曼编码为公知技术,在本实施例中不再赘述。
[0077] 至此,本实施例完成。
[0078] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
QQ群二维码
意见反馈