首页 / 专利库 / 资料储存系统 / 数据治理 / 基于大数据的投保人用户画像挖掘方法

基于大数据的投保人用户画像挖掘方法

阅读:748发布:2020-05-13

专利汇可以提供基于大数据的投保人用户画像挖掘方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 大数据 的投保人用户画像挖掘方法,包括:对保险公司现有 数据库 里面的各维度数据,按照保险行业协会标准进行治理,让其符合行业标准和公司标准,并通过用户的身份证号或者保险号进行数据融合,打造成统一的 数据中心 ;采集投保人授权 访问 系统的数据,通过投保人的身份证号码与数据中心的数据进行数据融合,形成投保人数据;把投保人数据分为三级标签体系;根据构建的难易程度和三级标签体系,创建优先级标签体系,投保人数据经过优先级标签体系不断细化为各个维度的数据;采用Spark Mllib对优先级标签体系中的投保人数据进行数据分析和挖掘;生成潜在投保人用户画像。本发明能准确有效地构建出潜在投保人用户画像。,下面是基于大数据的投保人用户画像挖掘方法专利的具体信息内容。

1.一种基于大数据的投保人用户画像挖掘方法,其特征在于,包括:
对保险公司现有数据库里面的客户数据、保单数据、产品数据的各维度数据,按照保险行业协会标准进行治理,让其符合行业标准和公司标准,并通过用户的身份证号或者保险号进行数据融合,打造成统一的数据中心
采集投保人授权访问系统的数据,通过投保人的身份证号码与数据中心的数据进行数据融合,形成投保人数据;
把投保人数据分为三级标签体系;
根据构建的难易程度和三级标签体系,创建优先级标签体系,按照保险代理人勾画出来的用户标签对投保人数据进行数据提炼,投保人数据经过优先级标签体系不断细化为各个维度的数据;
采用Spark Mllib对优先级标签体系中的投保人数据进行数据分析和挖掘;
生成潜在投保人用户画像。
2.根据权利要求1所述的基于大数据的投保人用户画像挖掘方法,其特征在于,还包括:
计算标签的准确率precision:
其中|Utag|表示被打上标签的用户数,|Utag=true|表示有标签用户中被打对标签的用户数;
计算标签覆盖的用户比例coverage:
其中,|U|表示用户数;
计算覆盖用户的人均标签数average:
其中,i为权重系数,tagi为有效潜在客户数;
根据标签的准确率precision、标签覆盖的用户比例coverage和覆盖用户的人均标签数average验证评估投保人用户画像的合理性和准确性。
3.根据权利要求1所述的基于大数据的投保人用户画像挖掘方法,其特征在于,三级标签体系结构如下:
一级标签:人口属性、行业偏好;
二级标签:从属于人口属性的基本属性和地理位置,从属于行业偏好的金融、旅游、房产和汽车
三级标签:从属于基本属性的性别、年龄和学历。
4.根据权利要求1所述的基于大数据的投保人用户画像挖掘方法,其特征在于,按照事实标签到模型标签到高级标签的优先级,构建优先级标签体系,其结构如下:
事实标签:使用次数、活跃天数、历史趋势、投诉次数、资金流入流出、购买次数;
模型标签:人口属性、地理位置、行业兴趣、产品偏好、购买产品兴趣、活跃度;
高级标签:人群属性、潜在消失、消费能
5.根据权利要求1所述的基于大数据的投保人用户画像挖掘方法,其特征在于,用户标签包括:客户的年龄、偏爱的保险产品、地理位置和消费能力。
6.根据权利要求1所述的基于大数据的投保人用户画像挖掘方法,其特征在于,采用Spark Mllib中的LR、线性SVM算法对优先级标签体系中的投保人数据进行数据分析和挖掘,并采用AirFlow进行在线训练。
7.根据权利要求1所述的基于大数据的投保人用户画像挖掘方法,其特征在于,潜在投保人用户画像包括:潜在投保人的年龄段、性别、对于具体产品的兴趣度、偏爱度和城市的区域位置。

说明书全文

基于大数据的投保人用户画像挖掘方法

技术领域

[0001] 本发明涉及大数据技术领域,尤其涉及基于大数据的投保人用户画像挖掘方法。

背景技术

[0002] 由于互联网和移动技术的发展,各种保险销售网站、手机APP软件成为了保险公司新的保费增长点。这种情况下,材料真实性验证难度较大,信息不对称性更为突出,机会型欺诈险增加,异地出险的增加。对核保和核赔工作提出较高要求,容易出现保险服务流程衔接的空白。在传统保险销售过程中,销售人员与客户面对面地沟通,有一个了解客户和核实的过程。但是互联网+移动网络的发展让这个过程基本消失,核保部失去了一道天然屏障,增加了风险控制的难度。保险公司为了有效的把控风险,提出建立精准的投保人用户画像,以确认是否存在潜在的风险。

发明内容

[0003] 本发明的目的在于提供一种基于大数据的投保人用户画像挖掘方法,能准确有效地构建出潜在投保人用户画像。
[0004] 实现上述目的的技术方案是:
[0005] 一种基于大数据的投保人用户画像挖掘方法,包括:
[0006] 对保险公司现有数据库里面的客户数据、保单数据、产品数据的各维度数据,按照保险行业协会标准进行治理,让其符合行业标准和公司标准,并通过用户的身份证号或者保险号进行数据融合,打造成统一的数据中心
[0007] 采集投保人授权访问系统的数据,通过投保人的身份证号码与数据中心的数据进行数据融合,形成投保人数据;
[0008] 把投保人数据分为三级标签体系;
[0009] 根据构建的难易程度和三级标签体系,创建优先级标签体系,按照保险代理人勾画出来的用户标签对投保人数据进行数据提炼,投保人数据经过优先级标签体系不断细化为各个维度的数据;
[0010] 采用Spark Mllib对优先级标签体系中的投保人数据进行数据分析和挖掘;
[0011] 生成潜在投保人用户画像。
[0012] 优选的,还包括:
[0013] 计算标签的准确率precision:
[0014]
[0015] 其中|Utag|表示被打上标签的用户数,|Utag=true|表示有标签用户中被打对标签的用户数;
[0016] 计算标签覆盖的用户比例coverage:
[0017]
[0018] 其中,|U|表示用户数;
[0019] 计算覆盖用户的人均标签数average:
[0020]
[0021] 其中,i为权重系数,tagi为有效潜在客户数;
[0022] 根据标签的准确率precision、标签覆盖的用户比例coverage和覆盖用户的人均标签数average验证评估投保人用户画像的合理性和准确性。
[0023] 优选的,三级标签体系结构如下:
[0024] 一级标签:人口属性、行业偏好;
[0025] 二级标签:从属于人口属性的基本属性和地理位置,从属于行业偏好的金融、旅游、房产和汽车
[0026] 三级标签:从属于基本属性的性别、年龄和学历。
[0027] 优选的,按照事实标签到模型标签到高级标签的优先级,构建优先级标签体系,其结构如下:
[0028] 事实标签:使用次数、活跃天数、历史趋势、投诉次数、资金流入流出、购买次数;
[0029] 模型标签:人口属性、地理位置、行业兴趣、产品偏好、购买产品兴趣、活跃度;
[0030] 高级标签:人群属性、潜在消失、消费能
[0031] 优选的,用户标签包括:客户的年龄、偏爱的保险产品、地理位置和消费能力。
[0032] 优选的,采用Spark Mllib中的LR、线性SVM算法对优先级标签体系中的投保人数据进行数据分析和挖掘,并采用AirFlow进行在线训练。
[0033] 优选的,潜在投保人用户画像包括:潜在投保人的年龄段、性别、对于具体产品的兴趣度、偏爱度和城市的区域位置
[0034] 本发明的有益效果是:本发明在通过大数据技术整理保险公司的内部数据资源的基础上,通过接入其他行业的数据(如客户的就医记录、其他保险公司的既往投保记录、客户授权保险公司查询的相关信息),构建出准确投保人的用户画像。能够针对保险对象保险标的展开全方位多维度的信息收集【例如所在区域(自然条件、地形地貌自然灾害、地质灾害等)、隐患、事故、公估理赔、收入平、信用评价等信息】,扩充关于客户的综合风险数据库,帮助保险公司核保人员掌握拟投保客户风险情况,精准核保,降低风险发生率,降低事故发生概率。利用大数据技术拥有的多种计算模型,对已经收集存储的风险相关数据进行数据挖掘隐藏在海量数据中的有用信息,发现并掌控潜在风险。传统核保规则统一设置,而且不够详细精确,无法针对各行各业的客户提供个性化服务,而大数据数字化平台的应用在客户管理方面能够更好地做到“因人而异”。通过对收集到的信息进行整理、分析、加工,建立客户信用评价体系,最终得出信用分数。对于信用较好的客户,可以适当简化投保核保工作流程,提高工作效率,降低核保成本。附图说明
[0035] 图1是本发明的基于大数据的投保人用户画像挖掘方法的流程图
[0036] 图2是本发明中三级标签体系的示意图;
[0037] 图3是本发明中优先级标签体系的示意图。

具体实施方式

[0038] 下面将结合附图对本发明作进一步说明。
[0039] 请参阅图1,本发明的基于大数据的投保人用户画像挖掘方法,包括下列步骤:
[0040] 步骤S1,保险公司的保险代理人勾画出客户的用户标签,如:客户的年龄、偏爱的保险产品、地理位置、消费能力等多维度信息。
[0041] 步骤S2,对保险公司现有数据库里面的客户数据(如客户的姓名、身份证、家属信息、车辆号等信息),保单数据(如客户的保险信息、受益人信息、保单号等数据),产品数据(用户购买的保单产品名称、产品编号等数据),按照保险行业协会标准,对身份证号码、车牌号、保单号、产品编号等各维度数据治理,让其符合行业标准和公司标准,通过用户的身份证号或者保险号进行数据融合,打造成统一的高质量的数据中心。其中,治理保证高质量的数据,去除脏乱差等无效数据。
[0042] 步骤S3,采集投保人授权访问系统的数据(如行数据,医院数据等),通过投保人的身份证号码与步骤S2中数据中心的数据进行数据融合,形成投保人数据。
[0043] 步骤S4,按照图2所示的三级标签体系把投保人数据分为三级标签体系。如:一级标签:人口属性、行业偏好;二级标签:从属于人口属性的基本属性和地理位置,从属于行业偏好的金融、旅游、房产和汽车;三级标签:从属于基本属性的性别、年龄和学历。
[0044] 步骤S5,根据构建的难易程度和三级标签体系(各类标签的依存关系),创建如图3所示的优先级标签体系(事实标签->模型标签->高级标签的体系),按照保险代理人勾画出来的用户标签进行数据提炼(进行筛选,如优质客户的用户标签为:性别男,年龄33-45周岁,薪水:10K以上等),投保人数据通过每一层模型细化出一些不同维度的数据,为上一层提供数据分析支撑。例如:事实标签:使用次数(是指已有保险产品在保险公司,经常出现费用报销情况)、活跃天数、历史趋势、投诉次数、资金流入流出、购买次数;模型标签:人口属性、地理位置、行业兴趣、产品偏好、购买产品兴趣、活跃度;高级标签:人群属性、潜在消失(已有保险产品在保险公司,在报销过程中经常出现投诉情况)、消费能力。
[0045] 步骤S6,采用Spark(是专为大规模数据处理而设计的快速通用的计算引擎)Mllib(机器学习“machine learning,ML”MLlib是Spark提供的可扩展的机器学习库)中的LR(逻辑回归)、线性SVM(支持向量机)算法对优先级标签体系中的投保人数据进行数据分析和挖掘,并采用AirFlow(一个可编程,调度和监控的工作流平台)进行在线训练。其中,数据分析指:根据优质投保人的特征用LR和SVM两个方法,对海量数据进行分析统计出优质投保人信息。就比如去菜市场里挑选芒果,从一堆芒果中拿出一个,根据果皮颜色、大小、软硬等属性或叫做特征,我们就会知道它甜还是不甜。
[0046] 步骤S7,根据步骤S6中的数据分析和挖掘的方法生成潜在投保人用户画像,包含了潜在投保人的年龄段、性别、对于具体产品的兴趣度、偏爱度和城市的区域位置等关联数据。
[0047] 步骤S8,潜在投保人准确率及其验证:标签的准确率precis ion指的是被打上正确标签的用户比例,准确率是用户画像最核心的指标,一个准确率非常低的标签是没有应用价值的。验证方法采用如下公式:
[0048]
[0049] 其中|Utag|表示被打上标签的用户数,|Utag=true|表示有标签用户中被打对标签的用户数。
[0050] 步骤S9,潜在投保人覆盖率及其验证:标签的覆盖率指的是被打上标签的用户占全量用户的比例,希望标签的覆盖率尽可能的高。但覆盖率和准确率是一对矛盾的指标,需要对二者进行权衡,一般的做法是在准确率符合一定标准的情况下,尽可能的提升覆盖率。希望覆盖尽可能多的用户,同时给每个用户打上尽可能多的标签,因此标签整体的覆盖率一般拆解为两个指标来评估。一个是标签覆盖的用户比例,另一个是覆盖用户的人均标签数,前一个指标是覆盖的广度,后一个指标表示覆盖的密度
[0051] 标签覆盖的用户比例coverage计算公式如下:
[0052]
[0053] 其中,|U|表示用户数。
[0054] 覆盖用户的人均标签数average计算公式如下:
[0055]
[0056] 其中,i为权重系数,tagi为有效潜在客户数。
[0057] 以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈