专利汇可以提供一种文本压缩方法专利检索,专利查询,专利分析的服务。并且本 发明 文本压缩方法属于字典压缩 算法 的一种应用,是根据文本的 冗余度 和重复性,在字典压缩算法的 基础 上结合有限状态 熵编码 在 硬件 平台上实现的方法,对文本进行二进制文件转换并采用哈希表存储词条的字典压缩,利用有限状态熵编码,用一个数字存储压缩前后的信息,节省内存空间,利用小数个比特记录信息,使得压缩率高、自适应强并对处理器的能 力 和内存开销的要求低,从而降低成本。,下面是一种文本压缩方法专利的具体信息内容。
1.一种文本压缩方法,其特征在于,包括以下步骤:
步骤a、转换源文件为二进制文件,采用字典压缩,利用哈希表作为词条存储结构;
步骤b、根据字典压缩输出的结果进行统一编码;
步骤c、根据编码字典对文件在硬件平台进行操作。
2.根据权利要求1所述文本压缩方法,其特征在于,步骤a所述的转换压缩过程包括:
步骤a1、将源文件按每个字符8位转换成二进制文件;
步骤a2、利用哈希表将关键字和字符串进行匹配,包括以下步骤:
步骤a21、初始化字典并记录初始化字典的大小,将前缀字符串P赋初值,P=NULL;
步骤a22、读入文件中的一个字符X;
步骤a23、判断所读文件是否为空,如果:
是,结束编码;
否,读入下一个字符X;
步骤a24、判断字符串P+X是否在字典中,如果:
是,则用P=P+X,返回步骤a22;
否,则将P+X添加到字典中,输出P的字典编码,更新P=X;
步骤a25、如果字典未溢出,则返回步骤a22;
步骤a26、判断压缩比是否小于指定阈值,如果:
是,则清除匹配率小的词条;
否,返回步骤a22。
3.根据权利要求1所述文本压缩方法,其特征在于,步骤b所述的有限状态熵编码用一个数字存储压缩前后的信息,节省内存空间,利用小数个比特记录信息。有限状态编码只需要一个自然数,即state,即可跟踪其当前位置。通过均匀地而不是在范围内分配符号来完成,即将信息放在最不重要的位置,状态x∈N包含等于log2(x)位信息,此外,不需要乘法/除法来更新状态,当我们在处理符号s时候更改规则:
。
4.根据权利要求1所述文本压缩方法,其特征在于,步骤c所述的硬件平台根据字典压缩编码进行仿真,内部体系结构主要划分为数据输入、数据处理、数据输出和时钟处理与控制模板四个部分,数据输入和数据输出模块完成硬件平台的所有数据传输工作,为了保证异步时钟数据同步,使用硬件平台的片内Block RAM构成一个FIFO是输入数据进行缓存,时钟处理与控制模块主要完成时钟的匹配与控制,对各个功能模块分配时钟,并且初始化各使能端信号,其中应用数据处理模块中的字典存储模块存储字符串,包括压缩起始阶段的初始化字符和压缩过程中生成的字符串,应用内嵌在字典模块的并行搜索模块执行字符串的搜索工作,应用压缩编码模块将匹配到的字符串进行编码,应用字典模块进行内容和编码写入地址更新。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于节点冗余度和图着色算法的无线传感器网络路由选择方法 | 2020-05-08 | 161 |
天地一体化网络SDN控制器按需动态放置方法 | 2020-05-12 | 462 |
一种对于合成图像的质量评价方法 | 2020-05-12 | 385 |
一种基于TQWT辅助SPC的轴承状态监测及故障诊断的方法 | 2020-05-11 | 356 |
中央空调的设备选型方法及系统 | 2020-05-08 | 572 |
一种新型变速箱换挡机构 | 2020-05-12 | 434 |
一种适用于同频同时全双工系统的干扰信号传输和消除方法 | 2020-05-12 | 513 |
一种复杂环境下的全光学仿生自主导航系统 | 2020-05-11 | 814 |
微型化可折叠核磁共振陀螺仪表头 | 2020-05-12 | 83 |
基于GNSS和INS的RTG大车自动行走控制系统 | 2020-05-12 | 130 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。