专利汇可以提供大规模数据管理与数据分发系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及数据分发技术领域,具体地说,涉及大规模数据管理与数据分发系统及方法。其包括 数据采集 子系统、 数据处理 子系统和数据分发子系统。该大规模数据管理与数据分发系统及方法中,采用数据采集子系统,在数据接入时记录所有采集数据源及分类的信息,提供统一采集工具进行开发配置管理,对源数据进行粉料,以便于后期数据的数据和分发,采用数据处理子系统,基于 卷积神经网络 算法 实现数据信息的分类,并对数据进行统一管理,提高数据处理效率,解决 数据中心 内部系统和外部系统之间的数据 接口 问题,提高数据分发效率。,下面是大规模数据管理与数据分发系统及方法专利的具体信息内容。
1.大规模数据管理与数据分发系统,包括数据采集子系统、数据处理子系统和数据分发子系统,其特征在于:数据采集子系统用于在数据接入时记录所有采集数据源及分类的信息,提供统一采集工具进行开发配置管理,数据处理子系统用于对收集的数据进行分类训练并处理,数据分发子系统用于解决数据中心内部系统和外部系统之间的数据接口问题。
2.根据权利要求1所述的大规模数据管理与数据分发系统,其特征在于:数据采集子系统包括如下模块:
模块一:文件预处理,在接口机上通过配置实现文件解压、小文件合并、大文件拆分以及目标格式文件的压缩、清洗、转换、加载功能;
模块二:数据稽核检验,在采集层提供的数据稽核功能包括数据校验记录文件获取与信息解析、各类数据校验及校验规则配置、数据质量监控管理;
模块三:统一运维监控,提供数据源采集统一运维监控功能,支持重传、自动重做、人工重做的异常重做,实现采集层的统一运;
模块四:通过前台界面可视化,拖拽式实现采集的开发。
3.根据权利要求1所述的大规模数据管理与数据分发系统,其特征在于:数据处理子系统步骤如下:
①、输入数据,将数据采集子系统采集的数据传输至数据处理子系统内进行保存;
②、数据卷积处理,通过局部感受域与上一层神经元实现部分连接,在同一局部感受域内的神经元与图像区域中对应像素有固定二维平面编码信息关联,迫使神经元提取局部特征;
③、数据池化处理,选择卷积特征图中不同的连续范围的作为池化区域,然后取特征的最大值或平均值作为池化区域的特征;
④、模型训练,采用Softmax分类器,对数据进行训练,并生成分类模型。
4.根据权利要求3所述的大规模数据管理与数据分发系统,其特征在于:Softmax分类器方法为:假设输入特征记为x(i),样本标签记为y(i),构成了分类层有监督学习的训练集s={(x(1),y(1)),……,(x(m),y(m))},假设函数hθ(X)和逻辑回归代价函数形式分别如下:
其中,θ1,θ2,……,θk是模型的可学习参数, 为归一化项;
其中,1{y(i)=j}为指标性函数,即当大括号中的值为真时,该函数的结果就为1,否则其结果就为0。
5.根据权利要求4所述的大规模数据管理与数据分发系统,其特征在于:模型训练基于卷积神经网络算法实现,训练步骤如下:
①、串行代码根据算法预设的网络结构和学习率、训练子集大小等参数来初始化待训练的DCNN;
②、通过创建CUDA-cuDNN句柄等来初始化运行时环境,将图像数据集以矩阵的形式读取到CPU内存中,分配所需显存空间和定义传输数据格式为四维张量,并将一批训练样本传送至GPU显存中;
③、由CUDA-cuDNN调用内核函数来运行GPU设备并行代码,内核函数具体调用形式如下:
KernelFunction<<<DimGrid,DimBlock>>>(dev_batch_data,dev_batch_result,trainOpts);
//DimGrid描述线程网栺的配置信息
//DimBlock描述线程网栺配置信息
//dev_batch_data是存放训练子集数据指针变量,dev_batch_result是用于保存训练子集在GPU上的计算结果变量;
④、实现DCNN的前向传递和反向传递两个并行运算过程;
⑤、串行代码从GPU显存中取回相应参数的梯度,并更新各层的权重和偏置;
⑥、将下一批训练样本传送至GPU显存中重复步骤③-④的过程,直至最后一个训练子集;
⑦、反复重复训练上述步骤②⑤的过程若干次,以使算法收敛于最优值。
6.根据权利要求1所述的大规模数据管理与数据分发系统,其特征在于:数据分发子系统包括以下模块:
模块一:分发配置,用于分发配置信息;
模块二:运行监控,设置不同的组合条件来筛选所需要的数据;
模块三:分发任务运行调度,分发任务并进行调度。
7.大规模数据管理与数据分发方法,包括权利要求1-6中任意一项所述的大规模数据管理与数据分发系统,其方法步骤如下:
S1、在接口机上配置云平台处理接口文件,通过数据采集子系统采集数据,并将对应接口数据传输至云平台的数据抽取目录;
S2、云平台对需要抽取的接口进行配置,配置内容包括接口名、文件名规律、接口文件个数等;
S3、数据传输完毕后,气动数据处理子系统对数据进行分类;
S4、数据分类完成后,启动数据分发子系统,基于配置将数据分发到各个数据集市。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种数据加载清洗引擎、调度与存储系统 | 2020-05-16 | 542 |
一种基于大数据平台数据分析域构架方法 | 2020-05-21 | 199 |
一种能源数据仓库系统构建方法及装置 | 2020-05-08 | 318 |
一种古村落空间舒适度测量方法及拟合算法 | 2020-05-19 | 700 |
一种测试方法、装置、服务器及存储介质 | 2020-05-13 | 348 |
大规模数据管理与数据分发系统及方法 | 2020-05-14 | 762 |
一种皮肤病患者规范化系统 | 2020-05-12 | 342 |
基于大数据的安全事件上报平台及方法 | 2020-05-14 | 623 |
基于JSON文档结构的工业大数据多维分析与可视化方法 | 2020-05-15 | 31 |
一种高效的用户兴趣类别预测方法 | 2020-05-11 | 681 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。