专利汇可以提供一种文本压缩方法专利检索,专利查询,专利分析的服务。并且本 发明 文本压缩方法属于字典压缩 算法 的一种应用,是根据文本的 冗余度 和重复性,在字典压缩算法的 基础 上结合有限状态 熵编码 在 硬件 平台上实现的方法,对文本进行二进制文件转换并采用哈希表存储词条的字典压缩,利用有限状态熵编码,用一个数字存储压缩前后的信息,节省内存空间,利用小数个比特记录信息,使得压缩率高、自适应强并对处理器的能 力 和内存开销的要求低,从而降低成本。,下面是一种文本压缩方法专利的具体信息内容。
1.一种文本压缩方法,其特征在于,包括以下步骤:
步骤a、转换源文件为二进制文件,采用字典压缩,利用哈希表作为词条存储结构;
步骤b、根据字典压缩输出的结果进行统一编码;
步骤c、根据编码字典对文件在硬件平台进行操作。
2.根据权利要求1所述文本压缩方法,其特征在于,步骤a所述的转换压缩过程包括:
步骤a1、将源文件按每个字符8位转换成二进制文件;
步骤a2、利用哈希表将关键字和字符串进行匹配,包括以下步骤:
步骤a21、初始化字典并记录初始化字典的大小,将前缀字符串P赋初值,P=NULL;
步骤a22、读入文件中的一个字符X;
步骤a23、判断所读文件是否为空,如果:
是,结束编码;
否,读入下一个字符X;
步骤a24、判断字符串P+X是否在字典中,如果:
是,则用P=P+X,返回步骤a22;
否,则将P+X添加到字典中,输出P的字典编码,更新P=X;
步骤a25、如果字典未溢出,则返回步骤a22;
步骤a26、判断压缩比是否小于指定阈值,如果:
是,则清除匹配率小的词条;
否,返回步骤a22。
3.根据权利要求1所述文本压缩方法,其特征在于,步骤b所述的有限状态熵编码用一个数字存储压缩前后的信息,节省内存空间,利用小数个比特记录信息。有限状态编码只需要一个自然数,即state,即可跟踪其当前位置。通过均匀地而不是在范围内分配符号来完成,即将信息放在最不重要的位置,状态x∈N包含等于log2(x)位信息,此外,不需要乘法/除法来更新状态,当我们在处理符号s时候更改规则:
。
4.根据权利要求1所述文本压缩方法,其特征在于,步骤c所述的硬件平台根据字典压缩编码进行仿真,内部体系结构主要划分为数据输入、数据处理、数据输出和时钟处理与控制模板四个部分,数据输入和数据输出模块完成硬件平台的所有数据传输工作,为了保证异步时钟数据同步,使用硬件平台的片内Block RAM构成一个FIFO是输入数据进行缓存,时钟处理与控制模块主要完成时钟的匹配与控制,对各个功能模块分配时钟,并且初始化各使能端信号,其中应用数据处理模块中的字典存储模块存储字符串,包括压缩起始阶段的初始化字符和压缩过程中生成的字符串,应用内嵌在字典模块的并行搜索模块执行字符串的搜索工作,应用压缩编码模块将匹配到的字符串进行编码,应用字典模块进行内容和编码写入地址更新。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于事件的延迟搜索方法和系统 | 2020-05-08 | 140 |
一种互联网电视播放内容的校验方法、机顶盒和系统 | 2020-05-11 | 642 |
一种CTF在线竞赛平台动态Flag处理方法及装置 | 2020-05-11 | 770 |
一种符合数字电影规范的三维音频节目码流传输的方法 | 2020-05-11 | 172 |
一种基于大数据和深度学习的知识推介方法及系统 | 2020-05-11 | 29 |
一种用于就地化变电站的全景网络配置检测方法 | 2020-05-11 | 424 |
具有记录安全性的区块链架构 | 2020-05-08 | 603 |
一种面向泛在电力物联网的配线网络运维系统及方法 | 2020-05-08 | 1004 |
IP地址录入方法、装置、服务器及存储介质 | 2020-05-11 | 906 |
一种生成训练样本的方法以及装置 | 2020-05-11 | 858 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。