专利汇可以提供一种富媒体文件解析方法专利检索,专利查询,专利分析的服务。并且一种富媒体文件解析方法,包括数据筛选归类,资源工厂分配,Spark多并发解析,多 节点 集群索引和 大数据 可视化 分析五个主要流出。本 发明 首先对海量富媒体文件数据筛选归类,将复杂结构数据筛选为相对规则的分类数据,从而可以对单个数据格式进行精确的格式处理。再通过资源工厂,自动分配需要处理的 硬件 资源和相应文件格式需要的数据解析 接口 ;再通过使用Spark并行计算,采用多线程、多并发的方式,最大限度提升解析速度;使用分布式全文索引技术,提升数据的安全性和整体查询速度。并且基于大 数据可视化 分析,给用户呈现直观、准确、高效的处理结果。,下面是一种富媒体文件解析方法专利的具体信息内容。
1.一种富媒体文件解析方法,其特征在于,包括:
对海量富媒体文件进行文件格式的筛选归类;
对筛选归类后的富媒体文件通过资源工厂分配需要处理的硬件资源以及相应文件格式所需要的数据解析接口;
采用Spark并行计算框架,对分配后的各节点数据解析接口进行高并发的解析处理;
对解析处理后的结果进行多节点集群索引;
基于索引的查询接口,进行大数据的可视化分析。
2.根据权利要求1所述的一种富媒体文件解析方法,其特征在于:所述富媒体文件包括ZIP压缩包、RAR压缩包、HAR压缩包、邮件的PST/OST压缩文件以及综合文档文件夹。
3.根据权利要求1所述的一种富媒体文件解析方法,其特征在于:所述对海量富媒体文件进行文件格式的筛选归类的步骤包括:
对海量的富媒体文件进行解压,使用遍历算法对文件进行多层解压缩提取;
通过内置的筛选分发引擎,对解压后的不同文件进行分拣,根据文件名称的后缀进行文件格式区分归类,并将其暂存在以不同数据格式命名的分类文件夹中。
4.根据权利要求3所述的一种富媒体文件解析方法,其特征在于:进行归类后的文件包括Word文档、Excel文档、PPT文档/PDF文档、图片文件、Eml文件、手机备份/勘验数据以及硬盘备份/勘验数据。
5.根据权利要求3所述的一种富媒体文件解析方法,其特征在于,所述通过资源工厂分配需要处理的硬件资源以及相应文件格式所需要的数据解析接口的步骤包括:
根据不同数据格式的文件分配解析接口,当输入为Word文档、Excel文档、PPT文档、PDF文档时,资源工厂分配文档解析接口;当输入为Eml文件、音频文件、视频文件时,资源工厂自动分配媒体文件解析接口;当输入文件为手机取证勘验、硬盘取证勘验时,分配取证勘验解析接口;
根据不同解析接口的数据大小分配不同的硬件资源,得到各个数据节点的硬件资源。
6.根据权利要求5所述的一种富媒体文件解析方法,其特征在于,所述采用Spark并行计算框架,对分配后的各节点数据解析接口进行高并发的解析处理的步骤包括:
将各节点的硬件资源进行汇总到Spark框架中;
通过Spark计算框架将一个整体任务划分为若干个小的任务,根据单个任务执行需要分配的资源进行并发线程分配和计算,并对单个任务执行的结果进行汇总和持久化。
7.根据权利要求1所述的一种富媒体文件解析方法,其特征在于,所述对解析处理后的结果通过分布式全文索引技术进行多节点集群索引。
8.根据权利要求1所述的一种富媒体文件解析方法,其特征在于,所述大数据的可视化分析采用关系对象查询技术。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种富媒体文件解析方法 | 2020-05-12 | 939 |
数据上传方法及终端 | 2020-05-08 | 570 |
一种基于物联网多协议通信的网关 | 2020-05-08 | 246 |
一种基于WebSocket和缓存的多终端在线聊天系统 | 2020-05-08 | 55 |
一种文件下载异常监测定位系统及其异常监测定位方法 | 2020-05-17 | 602 |
一种保护操作系统内核不被外来程序破坏的内核加固系统 | 2020-05-08 | 962 |
一种电网接线图多终端监视控制方法及系统 | 2020-05-08 | 370 |
一种文档鉴伪批量盖章一体机及处理方法 | 2020-05-08 | 440 |
一种可调式工程经济管理安全保存柜 | 2020-05-08 | 977 |
一种物业管理多用途柜 | 2020-05-11 | 371 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。