首页 / 专利库 / 电信 / 迭代 / 一种用于联邦学习的图形化模型全生命周期建模方法

一种用于联邦学习的图形化模型全生命周期建模方法

阅读:751发布:2020-05-11

专利汇可以提供一种用于联邦学习的图形化模型全生命周期建模方法专利检索,专利查询,专利分析的服务。并且本 发明 提出了一种用于联邦学习的图形化模型全生命周期建模方法,包括:建模前对数据样本进行分析,确定联邦学习方案;根据联合分析运算结果,拟定建模策略;采用拖拉拽方式,利用联邦特征工程手段对数据进行处理;联邦模型训练过程:双方分别构建模型后,交换计算得到的中间态模型和损失函数;对联邦模型进行预测使用;对联邦模型的运行过程进行监控,得到模型监控统计指标,实现对联邦模型的维护 迭代 。本发明通过图形化增加联邦学习建模各步骤中的人员可参与优化点、降低人员参与优化难度,并提供后期模型应用维护的途径,提升联邦学习技术的应用场景和易用性。,下面是一种用于联邦学习的图形化模型全生命周期建模方法专利的具体信息内容。

1.一种用于联邦学习的图形化模型全生命周期建模方法,其特征在于,包括如下步骤:
步骤S1,建模前对数据样本进行分析,确定联邦学习方案,参与方上传原始数据到建模平台的本地客户端后进行同态加密,加密完成后,其他参与方通过平台请求与该参与方数据进行联合分析运算,其中,其他参与方仅能得到联合分析运算结果,而不会直接获取参与方上传的原始数据;所述联合分析运算结果以图表形式通过可视化界面呈现;
步骤S2,根据联合分析运算结果,拟定建模策略,包括对数据进行的处理、加工、衍生、算法选择的过程;
步骤S3,采用拖拉拽方式,利用联邦特征工程手段对数据进行处理,包括:在运算时,目标变量Y标签的所属方先获取对方同态加密后的X维度,进行第一次信息交换;然后进行数据运算,将运算结果返回对方进行分析调试,进行第二次信息交换如此往复;
步骤S4,联邦模型训练过程:双方分别构建模型后,交换计算得到的中间态模型和损失函数,如此往复迭代
步骤S5,构建完成联邦模型后,对所述联邦模型进行预测使用,其中,在预测使用过程中,参与方获知自己提供的数据变量的含义和权重,但无法获知其他参与方提供数据的含义,仅可获知其他参与方提供数据的权重;
步骤S6,对所述联邦模型的运行过程进行监控,得到模型监控统计指标,实现对联邦模型的维护迭代。
2.如权利要求1所述的用于联邦学习的图形化模型全生命周期建模方法,其特征在于,在所述步骤S1中,所述联邦学习方案包括:横向联邦、纵向联邦还是迁移联邦学习。
3.如权利要求1所述的用于联邦学习的图形化模型全生命周期建模方法,其特征在于,所述同态加密为对参与方上传的原始数据进行加密,无需解密即可实现对加密后的数据进行分析运算,获取分析运算结果,最后对分析运算结果进行解密;参与方和建模平台均允许在无法获知其他参与方的原始数据的基础上,对加密后的数据进行运算,以对应对方数据进行模型优化。
4.如权利要求1所述的用于联邦学习的图形化模型全生命周期建模方法,其特征在于,在所述步骤S2中,所述联合分析运算结果包括:原始Y标签有效样本数量、横向联邦学习样本交集、纵向联邦学习总样本量、样本维度。
5.如权利要求1所述的用于联邦学习的图形化模型全生命周期建模方法,其特征在于,在所述步骤S3中,所述联邦特征工程手段包括:编码、分箱、特征组合、特征离散化、特征运算、时间切片、偏移量增维、PCA降维、IV特征筛选、算法特征筛选。
6.如权利要求1所述的用于联邦学习的图形化模型全生命周期建模方法,其特征在于,在步骤S4中,第一参与方将根据第一数据集计算所得的模型和损失函数给到第二参与方,第二参与方根据第二数据集调整模型并得到新的损失函数,再由第一参与方进一步优化,如此迭代反复,进行交换分析。
7.如权利要求1所述的用于联邦学习的图形化模型全生命周期建模方法,其特征在于,在所述步骤S6中,获取模型监控统计指标,包括:
参与方的双方在本地通过平台客户端进行同态加密,将同态加密后的数据双方进行数据交换,然后各自对交换后的加密数据进行计算统计计算,得出模型监控统计指标。
8.如权利要求7所述的用于联邦学习的图形化模型全生命周期建模方法,其特征在于,所述模型监控统计指标,包括:群体稳定性指标PSI、洛伦兹曲线KS、曲线下面积AUC,曲线下面积AUC被定义为接受者操作特征曲线ROC曲线下与坐标轴围成的面积,接受者操作特性曲线是指在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P为横坐标,以击中概率P为纵坐标,画得的各点的连线。

说明书全文

一种用于联邦学习的图形化模型全生命周期建模方法

技术领域

[0001] 本发明涉及数据处理技术领域,特别涉及一种用于联邦学习的图形化模型全生命周期建模方法。

背景技术

[0002] 联邦学习是一种很好的连接数据孤岛得出优质模型的方式。目前联邦学习的成熟技术不多,已有技术主要致于解决建模过程中的同态、半同态加解密问题。然而由于参与联邦的多方数据需要互相保密,由此所涉及到的联邦样本基础统计信息交换、联邦建模策略拟定、联邦特征工程、联邦模型训练、联邦模型的预测使用、联邦模型的维护迭代等都是联邦成员能使用优质模型的关键。其中每一步又涉及到加密、信息交换、加工运算、策略拟定、得出结论的过程。
[0003] 目前已有技术对与这些步骤或拆分不足,使得很多步骤只能使用框架默认设定而不能人工参与优化模型;或模型构建过程中某些步骤如分箱调整无法实现人工干预;或对模型训练过程约束过多,导致无法人工调整优化使得模型效果不佳;或模型训练框架较成熟的sk-learn等传统建模框架训练效果差异过大;或可实现的模型类型限制于LR、BOOST模型;或采用“调试后台”类的交互方式,需要使用者不仅有专业的控建模能力,还需要对其中用到的各类软件框架非常熟悉,能够读懂晦涩的调试日志;或模型后期应用、维护困难。

发明内容

[0004] 本发明的目的旨在至少解决所述技术缺陷之一。
[0005] 为此,本发明的目的在于提出一种用于联邦学习的图形化模型全生命周期建模方法。
[0006] 为了实现上述目的,本发明的实施例提供一种用于联邦学习的图形化模型全生命周期建模方法,包括如下步骤:
[0007] 步骤S1,建模前对数据样本进行分析,确定联邦学习方案,参与方上传原始数据到建模平台的本地客户端后进行同态加密,加密完成后,其他参与方通过平台请求与该参与方数据进行联合分析运算,其中,其他参与方仅能得到联合分析运算结果,而不会直接获取参与方上传的原始数据;所述联合分析运算结果以图表形式通过可视化界面呈现;
[0008] 步骤S2,根据联合分析运算结果,拟定建模策略,包括对数据进行的处理、加工、衍生、算法选择的过程;
[0009] 步骤S3,采用拖拉拽方式,利用联邦特征工程手段对数据进行处理,包括:在运算时,目标变量Y标签的所属方先获取对方同态加密后的X维度,进行第一次信息交换;然后进行数据运算,将运算结果返回对方进行分析调试,进行第二次信息交换如此往复;
[0010] 步骤S4,联邦模型训练过程:双方分别构建模型后,交换计算得到的中间态模型和损失函数,如此往复迭代;
[0011] 步骤S5,构建完成联邦模型后,对所述联邦模型进行预测使用,其中,在预测使用过程中,参与方获知自己提供的数据变量的含义和权重,但无法获知其他参与方提供数据的含义,仅可获知其他参与方提供数据的权重;
[0012] 步骤S6,对所述联邦模型的运行过程进行监控,得到模型监控统计指标,实现对联邦模型的维护迭代。
[0013] 进一步,在所述步骤S1中,所述联邦学习方案包括:横向联邦、纵向联邦还是迁移联邦学习。
[0014] 进一步,同态加密为对参与方上传的原始数据进行加密,无需解密即可实现对加密后的数据进行分析运算,获取分析运算结果,最后对分析运算结果进行解密;参与方和建模平台均允许在无法获知其他参与方的原始数据的基础上,对加密后的数据进行运算,以对应对方数据进行模型优化。
[0015] 进一步,在所述步骤S2中,所述联合分析运算结果包括:原始Y标签有效样本数量、横向联邦学习样本交集、纵向联邦学习总样本量、样本维度。
[0016] 进一步,在所述步骤S3中,所述联邦特征工程手段包括:编码、分箱、特征组合、特征离散化、特征运算、时间切片、偏移量增维、PCA降维、IV特征筛选、算法特征筛选。
[0017] 进一步,在步骤S4中,第一参与方将根据第一数据集计算所得的模型和损失函数给到第二参与方,第二参与方根据第二数据集调整模型并得到新的损失函数,再由第一参与方进一步优化,如此迭代反复,进行交换分析。
[0018] 进一步,在所述步骤S6中,获取模型监控统计指标,包括:
[0019] 参与方的双方在本地通过平台客户端进行同态加密,将同态加密后的数据双方进行数据交换,然后各自对交换后的加密数据进行计算统计计算,得出模型监控统计指标。
[0020] 进一步,所述模型监控统计指标,包括:群体稳定性指标PSI、洛伦兹曲线KS、曲线下面积AUC,曲线下面积AUC被定义为接受者操作特征曲线ROC曲线下与坐标轴围成的面积,接受者操作特性曲线是指在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标,画得的各点的连线。
[0021] 根据本发明实施例的用于联邦学习的图形化模型全生命周期建模方法,通过图形化的建模平台实现联邦学习的功能,在保障联邦参与方信息安全的前提下,使得联邦学习可以应用于LR、BOOST以及其他的模型,同时通过图形化增加联邦学习建模各步骤中的人员可参与优化点、降低人员参与优化难度,并提供后期模型应用维护的途径,提升联邦学习技术的应用场景和易用性。
[0022] 本发明可以使得两个企业以更低的学习槛进行联邦学习建模,并对模型长期的使用、维护、迭代进行管理,使得模型长期可追踪,反向推动联邦成员对模型质量维护的积极性。通过图形化拖拉拽形式的平台,传统数据分析师不需要精通软件工程师的领域,即可快速建立联邦学习,进一步促进大数据行业打破数据孤岛,保障数据隐私,构建良好的数据科学发展体系。
[0023] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明
[0024] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0025] 图1为根据本发明实施例的用于联邦学习的图形化模型全生命周期建模方法的流程图
[0026] 图2为根据本发明实施例的企业与联合模型之间的交互流程图;
[0027] 图3为根据本发明实施例的用于联邦学习的图形化模型全生命周期建模方法的工作流程图;
[0028] 图4为根据本发明实施例的样本统计信息交换的配置界面图;
[0029] 图5为根据本发明实施例的联邦特征工程计算的配置界面图;
[0030] 图6为根据本发明实施例的分箱详情的配置界面图;
[0031] 图7为根据本发明实施例的联邦模型训练的配置界面图。

具体实施方式

[0032] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0033] 本发明提供一种用于联邦学习的图形化模型全生命周期建模方法,可以通过可视化、图形化、拖拉拽的形式实现联邦学习的模型全生命周期的建模平台。本发明通过拖拉拽的交互形式进行联邦学习建模,增加分箱等细节调试手段,并在保护隐私的前提下为联邦学习构建的模型后期使用提供持续的监控的设计方案。
[0034] 如图1和图3所示,本发明实施例的用于联邦学习的图形化模型全生命周期建模方法,包括如下步骤:
[0035] 步骤S1,建模前对数据样本进行分析,确定联邦学习方案。
[0036] 在本发明的实施例中,联邦学习方案包括:横向联邦、纵向联邦还是迁移联邦学习等。
[0037] 样本统计信息交换:参与方上传原始数据到建模平台的本地客户端后进行同态加密。同态加密为对参与方上传的原始数据进行加密,无需解密即可实现对加密后的数据进行分析运算,获取分析运算结果,最后对分析运算结果进行解密。即,其他参与方不会直接得到密文数据,而是根据不同的分析步骤直接从平台获取分析结果。
[0038] 在本步骤中,对于参与方A所提供的变量a,A可以看到变量a在整体样本的分布分析及其含义。对于A所不具备的变量b,A仅可看到变量b的分布分析,但不知其含义。
[0039] 参与方和建模平台均允许在无法获知其他参与方的原始数据的基础上,对加密后的数据进行运算,以对应对方数据进行模型优化。
[0040] 加密完成后,其他参与方通过平台请求与该参与方数据进行联合分析运算。其中,其他参与方仅能得到联合分析运算结果,而不会直接获取参与方上传的原始数据;联合分析运算结果以图表形式通过可视化界面呈现。即,通过平台可视化界面看到两方数据的分析报告,如样本重合度、变量分布情况等信息。具体需要统计分析生成哪些报表,可以通过平台拖拉拽组件进行配置,如图4所示。
[0041] 步骤S2,根据联合分析运算结果,拟定建模策略,包括对数据进行的处理、加工、衍生、算法选择的过程。
[0042] 在本步骤中,联合分析运算结果包括:原始Y标签有效样本数量、横向联邦学习样本交集、纵向联邦学习总样本量、样本维度等。
[0043] 步骤S3,采用拖拉拽方式,利用联邦特征工程手段对数据进行处理,包括:在运算时,目标变量Y标签的所属方先获取对方同态加密后的X维度,进行第一次信息交换;然后进行数据运算,将运算结果返回对方进行分析调试,进行第二次信息交换如此往复。
[0044] 在本发明的实施例中,联邦特征工程手段包括:编码、分箱、特征组合、特征离散化、特征运算、时间切片、偏移量增维、PCA降维、IV特征筛选、算法特征筛选等。
[0045] 需要说明的是,部分特征工程与Y标签紧密挂钩。在运算时,Y标签的所属方先获取对方同态加密后的X维度,进行IV值等计算,后将计算结果返回对方进行分析调试,如此往复。如图5所示,通过平台拖拉拽组件进行配置选择计算方式。
[0046] 部分如分箱等调整,还可以通过界面看到其统计信息,进行细致的手工调整,如图6所示。
[0047] 步骤S4,联邦模型训练过程:双方分别构建模型后,交换计算得到的中间态模型和损失函数,如此往复迭代。
[0048] 联邦模型训练过程根据每种算法略有不同,其核心逻辑是不交换完整数据,双方分别构建模型后,交换其中间态模型和损失函数。具体来说,第一参与方A将根据第一数据集a计算所得的模型和损失函数给到第二参与方B,第二参与方B根据第二数据集b调整模型并得到新的损失函数,再由第一参与方进一步优化,如此迭代反复,进行交换分析。
[0049] 例如LR模型使用梯度下降法进行模型迭代时,即可将梯度、模型预测概率一同交换分析,直到双方数据都显示模型损失函数满足收敛条件即建模完成。如图7所示,通过平台拖拉拽组件进行配置使用哪种模型进行训练。
[0050] 步骤S5,构建完成联邦模型后,对联邦模型进行预测使用.
[0051] 联邦模型构建完成后,参与联邦提供数据的多方都可以使用。在预测使用过程中,参与方获知自己提供的数据变量的含义和权重,但无法获知其他参与方提供数据的含义,仅可获知其他参与方提供数据的权重。
[0052] 即,企业A无法得知数据b贡献的变量的具体含义,但可以知道该变量的权重,同样,企业B无法得知数据a贡献的变量的具体含义,但可以知道该变量的权重,并且企业A、B都可以使用建模平台进行模型预测。
[0053] 步骤S6,对联邦模型的运行过程进行监控,得到模型监控统计指标,实现对联邦模型的维护迭代。
[0054] 联邦模型的维护迭代:联邦模型的维护主要是持续监控,以及迭代的触发。通常来说,监控分为准确度监控和稳定性监控。准确度和稳定性监控需要获取企业A、B两方的调用信息,而双方又要保有数据隐私。因此,参与方的双方在本地通过平台客户端进行同态加密,将同态加密后的数据双方进行数据交换,然后各自对交换后的加密数据进行计算统计计算,得出模型监控统计指标。同样的,企业A仅可获得数据a相关的指标统计情况和变量解释,但仅可以看到企业B所提供的数据b的统计情况而不能看到解释。
[0055] 在本发明的实施例中,模型监控统计指标,包括:群体稳定性指标PSI、洛伦兹曲线KS、曲线下面积AUC等。曲线下面积AUC被定义为接受者操作特征曲线ROC曲线下与坐标轴围成的面积,接受者操作特性曲线是指在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标,画得的各点的连线。
[0056] 如图2所示,应用时企业A和企业B的数据都是各自的隐私数据资产,不能对外泄露。协作者C作为一个中间服务者,提供一套独立部署的硬件设备环境,搭载建模平台供企业A和企业B使用。使用时,企业A和企业B通过联邦学习建模平台的客户端,在本地进行同态加密,加密后上传到协作者C。同态加密加密后可以隐去原始数据中的信息,且无需解密,可以直接对加密后的数据进行运算,最后将运算完成的数据进行解密。由此,企业A、企业B、协作者C都不能获取其他参与方的原始数据,但是可以利用对方的数据优化模型。
[0057] 根据本发明实施例的用于联邦学习的图形化模型全生命周期建模方法,通过图形化的建模平台实现联邦学习的功能,在保障联邦参与方信息安全的前提下,使得联邦学习可以应用于LR、BOOST以及其他的模型,同时通过图形化增加联邦学习建模各步骤中的人员可参与优化点、降低人员参与优化难度,并提供后期模型应用维护的途径,提升联邦学习技术的应用场景和易用性。
[0058] 本发明可以使得两个企业以更低的学习门槛进行联邦学习建模,并对模型长期的使用、维护、迭代进行管理,使得模型长期可追踪,反向推动联邦成员对模型质量维护的积极性。通过图形化拖拉拽形式的平台,传统数据分析师不需要精通软件工程师的领域,即可快速建立联邦学习,进一步促进大数据行业打破数据孤岛,保障数据隐私,构建良好的数据科学发展体系。
[0059] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0060] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈