首页 / 专利库 / 资料储存系统 / 大数据 / 一种基于大数据的渠道协同满意度调查方法及系统

一种基于大数据的渠道协同满意度调查方法及系统

阅读:987发布:2020-05-08

专利汇可以提供一种基于大数据的渠道协同满意度调查方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 大数据 的渠道协同满意度调查方法及系统,方法包括如下步骤:步骤一、偏好模型构建;步骤二,内容压缩规则构建;步骤三,优化服务部署;步骤四,生成调查任务;步骤五,执行调查任务。系统包括:偏好模 块 、内容压缩模块、调查模块,所述偏好模块,包括获取模块、处理模块、训练模块,用于获取被调查者数据并进行 整理 ,通过 机器学习 发现被调查者的偏好;所述内容压缩模块,用于压缩调查数据,使调查项能更适用于被调查者;所述调查模块,基于所述偏好模块和所述内容压缩模块,生成并执行调查任务。,下面是一种基于大数据的渠道协同满意度调查方法及系统专利的具体信息内容。

1.一种基于大数据的渠道协同满意度调查方法,其特征在于,包括如下步骤:
步骤一,偏好模型构建,通过对历史调查数据的整理、统计和分析,得到患者特征与调查渠道、调查时段之间的隐含关联,建立患者群体对调查渠道、调查时段的偏好模型;包括如下步骤:
(1)数据收集:
确定候选数据项,包括诊疗数据、个体属性;
获取调查的历史数据;
获取患者的个体信息;
通过患者标识将所述患者的个体信息与所述调查的历史数据建立关联形成单个数据集;
对所述数据集的数据进行格式转换;
数据脱敏,包括对所述数据集按规则进行变换、排除敏感项、降低时间数据的精度
(2)数据整理,包括数据剔出、分层抽样有效性检验、数据清理,识别所述数据集中有用部分并进行清洗转换,对所述数据集中的数据项,逐一进行探查,排除不适宜作为特征的数据内容,对部分缺失的内容进行填充处理;
(a)数据项剔除,分析所述数据项之间的相关性,识别相似的数据项,只保留其中的一个;舍弃质量差、采集到的值不多、与预想值域偏差大的数据项;排除与调查结果弱相关性的数据项;
(b)分层抽样有效性检验,采用分层抽样法,根据所选数据项的特征对所述数据集进行抽样;所述特征是患者个人信息,所述分层即对所述特征分别进行分段后即获得分组数据,通过对各特征分层的数据量进行统计汇总,查验是否存在校本数据,来判定数据是否有效;
(c)数据清理,包括缺失数据的填充、数据的转换映射、连续数值的散列处理;
(3)训练算法,将患者特征数据作为输入数据,将实际调查时段、调查渠道作为类别,通过机器学习训练数据集,发现所述输入数据与所述类别之间的相关性,从而得到优选的调查时段、调查渠道的算法模型;
包括如下步骤:
(a)数据分离,将所述数据集拆分为输入数据和类别,所述输入数据是所述数据项的特征,所述类别包括调查渠道、调查时段;
(b)数据标准化,将所述特征的值规划到同一数值范围内;
(c)将类别进行独热编码,有多种类别便将每条训练数据的类别转化为多维向量;
(d)划分训练集和测试集,将所述数据集按一定的比例划分为训练集和测试集,训练集用于得到的神经网络模型,测试集用于测试神经网络的泛化能
(e)训练神经网络,输入数据集中每条数据的特征,通过神经网络计算输出结果,并将所述结果与训练集中的类别进行对比,得出偏差值;通过偏差值对所述神经网络进行逐步调优,直到偏差值满足预期精度要求;
步骤二,内容压缩规则构建,包括个性化选项的识别与激活规则建立、递进式激活规则建立;
(1)个性化选项的识别与激活规则建立,识别调查项与疾病类型、诊疗方式的相关性;
激活规则包括激活项、激活条件,所述激活项是对历史调查问卷中缺省的调查项,默认不在所述调查问卷中显示;所述激活条件是当患者个体诊断数据中涉及了对应的调查项时,激活对应的调查项;
(2)递进式激活规则建立,对调查项进行两两组合,标识出存在递进依赖关系的组合,将被依赖项的特定应答项作为依赖项的递进激活条件;
(3)建立综合评价规则,合并相似项,一个评价项有多个评价主体,针对多个所述评价主体,分别设置其权重,从而可以通过一个评价项,获取多个主体的评价结果;
步骤三,优化服务部署,将偏好模型和内容压缩规则转化为可以调用的调查优化服务、内容压缩服务,所述调查优化服务包括渠道优选服务、时段优选服务;
所述渠道优选服务,输入调查对象的基本信息,得到按所述调查对象接受程度排列的调查渠道列表;
时段优选服务,输入调查对象的基本信息,得到按所述调查对象接受程度排列的调查时段列表;
内容压缩服务,输入问卷内容项列表、患者就诊记录,得到激活的问卷项列表;
步骤四,生成调查任务,包括如下步骤:
(1)调查样本数据同步,包括同步所述患者的个体信息和所述调查的历史数据,同步时间在患者离院后即行开始;
(2)调查内容压缩,调用内容压缩服务,根据同步的调查样本数据,调取激活规则进行对照,对满足激活条件的项进行激活;
(3)调查对象过滤,根据不宜调查的特征信息和不宜调查对象的问卷反馈,将不宜调查的对象移出调查队列;所述不宜调查的特征信息包括:重症住院、已死亡、已投诉、加入免打扰名单的对象;所述不宜调查对象的问卷反馈包括:未回复调查或回复不希望继续推送调查;
(4)调查内容执行最优方式,调用所述渠道优选服务、所述时段优选服务,根据调查对象的差异,选择调查效果最优的调查渠道、最适宜的调查时段;
步骤五,执行调查任务,根据最优调查渠道、最优调查时段排序执行调查任务,根据调查任务生成任务队列,并按时执行;对于存在递进式激活规则的调查任务,在执行过程中将患者的回复情况与激活规则进行对比,在符合激活条件的情形下,激活对应的调查项;通过满意度结果评价算法,得出调查对象的整体满意度情况;将满意度结果汇总、反馈医院。
2.根据权利要求1所述的一种基于大数据的渠道协同满意度调查方法,其特征在于,所述步骤一,所述调查的历史数据、所述患者个体信息需要达到十万以上的数量级。
3.根据权利要求1所述的一种基于大数据的渠道协同满意度调查方法,其特征在于,所述步骤一,所述格式转换是将调查的历史数据、患者个体信息转换为符号分隔文件,将所述符号分隔文件按照统一编码字典进行转换处理。
4.根据权利要求1所述的一种基于大数据的渠道协同满意度调查方法,其特征在于,所述步骤一,所述探查包括对数据项的类型、取值范围、统计学特征进行观察;所述数据项的类型包括数值、离散值;所述统计学特征包括数据值分布、特异值、缺值和空值。
5.根据权利要求1所述的一种基于大数据的渠道协同满意度调查方法,其特征在于,所述步骤一,所述分析数据项之间的相关性,是通过计算协方差来衡量两个数据项的总体误差,如果协方差不为零说明他们相关,为零或趋近零说明不相关或弱相关。
6.根据权利要求1所述的一种基于大数据的渠道协同满意度调查方法,其特征在于,所述步骤一,所述划分训练集和测试集的方法是随机数划分,读取所述数据集,提取所述类别和所述输入数据,利用随机函数,将所述类别和所述输入数据随机划分为输入数据训练集、输入数据测试集、类别训练集、类别测试集,所述训练集和所述测试集的比例为9:1。
7.根据权利要求1所述的一种基于大数据的渠道协同满意度调查方法,其特征在于,所述步骤一,所述训练神经网络包括如下步骤:
(1)网络初始化,设定参数,包括设定各权重为一个区间内的随机数,设定各神经元偏置为一个区间内的随机数,设定误差,设定计算精度;
(2)前向传输,进入隐藏层,通过所述权重和所述偏置计算所述隐藏层神经元的输入,调用激活函数,计算隐藏层各神经元的输出;
(3)计算全局误差,判断模型合理性,判断当前模型是否满足所述计算精度要求,若满足,则结束,若不满足,则进入逆向反馈;
(4)逆向反馈进行误差计算,利用所述神经网络期望输出和实际输出,以及各神经元的偏导数、权重,计算输出层、隐藏层各神经元的误差;
(5)修正权重,利用输出层各神经元的偏导数、输出层各神经元的误差和隐藏层各神经元的输出,修正隐藏层与输出层之间各神经元的权重和偏置;
(6)修正权重,利用隐藏层各神经元的偏导数、隐藏层各神经元的误差和输入层各神经元的输出,修正输入层与隐藏层之间各神经元的权重和偏置。
8.根据权利要求1所述的一种基于大数据的渠道协同满意度调查方法,其特征在于,所述步骤四,所述同步时间,设置为一个弹性时间窗口,将出院一段时间内未进行调查的患者也加入到同步窗口队列中。
9.根据权利要求1所述的一种基于大数据的渠道协同满意度调查方法,其特征在于,所述步骤五,在执行任务过程中,根据反馈的情况,调整调查策略,生成候选调查渠道的调查任务。
10.一种基于大数据的渠道协同满意度调查系统,包括偏好模、内容压缩模块、调查模块,其特征在于,所述偏好模块,包括获取模块、处理模块、训练模块,用于获取被调查者数据并进行整理,通过机器学习发现被调查者的偏好;所述内容压缩模块,用于压缩调查数据,使调查项能更适用于被调查者;所述调查模块,基于所述偏好模块和所述内容压缩模块,生成并执行调查任务。

说明书全文

一种基于大数据的渠道协同满意度调查方法及系统

技术领域

[0001] 本发明涉及满意度调查技术领域,尤其是涉及了一种基于大数据的渠道协同满意度调查方法。

背景技术

[0002] 随着医疗服务的日益完善,患者满意度调查日益受到重视,患者满意度是患者及家属对医疗机构所提供服务质量的直接评价,也是医疗机构获取外界意见及建议的重要渠道,医院能够参照患者满意度对所属医护人员进行内部考核,并针对患者集中反馈的薄弱环节进行改进;卫生行政部可以据此掌握群众健康需求、监管医疗机构基本状况,以便统筹规划医疗机构的进一步发展方向。
[0003] 当前不少医疗机构采用基于概率抽样的满意度调查方法,医疗机构按一定时间(月、季、年)进行满意度调查,由医院内设部门(或委托第三方调查机构)具体完成调查任务。调查对象为医院的就诊患者,约定门诊患者、出院患者样本量比例(也有医院按照不同科室、病区确定患者样本量),抽取方法包括配额偶遇、分层随机等。调查途径包括面访和电访。通过对样本的调查结果的统计和分析,来推断整个机构的服务状况。
[0004] 也有不少医疗机构采用基于自助填写的满意度调查方法,由医院或自行组织,借助网络满意度调查系统完成。该方法通常由三部分组成:调查入口、调查填写网页、调查统计分析,(1)调查入口:由带有机构标识的链接,通过院内二维码图片、微信入口菜单等方式提供,引导患者方便地进入调查;(2)调查填写网页:由多个调查项组成的网页,患者可在自有设备上完成填写和提交至服务器;(3)调查统计分析:根据所收到的反馈数据,计算得到社会评价情况。
[0005] 以上方法仍存在的局限性:(1)由于不了解患者就诊情况,调查问卷存在无效的内容引起患者的反感,例如很多病人没有做检查也会被问及对检查(医技)部门的服务态度感受;(2)调查渠道单一,患者参与意愿不高,例如上班族可能对工作时间接到调查报有抵触情绪;(3)调查接触时间缺乏控制,错过离院一周内的最佳接触时间段;(4)未充分发挥多种渠道的协同作用,调查覆盖面窄,样本缺乏代表性。以上因素均会不同程度地引发患者拒绝接受调查或中途退出调查,无效调查增加,调查工作量增加,其中第(1)、(2)、(3)种因素会导致回收率偏低,第(4)点则会影响调查结果的客观性、有效性。

发明内容

[0006] 为解决现有技术的不足,实现多渠道人性化的调查,提高调查客观性、有效性,本发明采用如下的技术方案:一种基于大数据的渠道协同满意度调查方法,包括如下步骤:
步骤一,偏好模型构建,通过对历史调查数据的整理、统计和分析,得到患者特征与调查渠道、调查时段之间的隐含关联,建立患者群体对调查渠道、调查时段的偏好模型;包括如下步骤:
(1)数据收集:
确定候选数据项,包括诊疗数据、个体属性;
获取调查的历史数据;
获取患者的个体信息;
通过患者标识将所述患者的个体信息与所述调查的历史数据建立关联形成单个数据集;
对所述数据集的数据进行格式转换;
数据脱敏,包括对所述数据集按规则进行变换、排除敏感项、降低时间数据的精度;使数据内容不能逆向推导出患者真实身份,但仍可保持调查历史数据与患者档案之间的关联,从而使数据可以安全合规地用于分析利用;
(2)数据整理,包括数据剔出、分层抽样有效性检验、数据清理,识别所述数据集中有用部分并进行清洗转换,对所述数据集中的数据项,逐一进行探查,排除不适宜作为特征的数据内容,对部分缺失的内容进行填充处理;
(a)数据项剔除,分析所述数据项之间的相关性,识别相似的数据项,只保留其中的一个;舍弃质量差、采集到的值不多、与预想值域偏差大的数据项;排除与调查结果弱相关性的数据项;
(b)分层抽样有效性检验,采用分层抽样法,根据所选数据项的特征对所述数据集进行抽样;所述特征是患者个人信息,所述分层即对所述特征分别进行分段后即获得分组数据,通过对各特征分层的数据量进行统计汇总,查验是否存在校本数据,来判定数据是否有效;
(c)数据清理,包括缺失数据的填充、数据的转换映射、连续数值的散列处理;
(3)训练算法,将患者特征数据作为输入数据,将实际调查时段、调查渠道作为类别,通过机器学习训练数据集,发现所述输入数据与所述类别之间的相关性,从而得到优选的调查时段、调查渠道的算法模型;
包括如下步骤:
(a)数据分离,将所述数据集拆分为输入数据和类别,所述输入数据是所述数据项的特征,所述类别包括调查渠道、调查时段;
(b)数据标准化,输入特征数据的数值范围并不一致,不便于神经网络的处理,需要将所述特征的值规划到同一数值范围内;
(c)将类别进行独热编码,有多种类别便将每条训练数据的类别转化为多维向量;
(d)划分训练集和测试集,为防止过拟合,将所述数据集按一定的比例划分为训练集和测试集,训练集用于得到的神经网络模型,测试集用于测试神经网络的泛化能
(e)训练神经网络,输入数据集中每条数据的特征,通过神经网络计算输出结果,并将所述结果与训练集中的类别进行对比,得出偏差值;通过偏差值对所述神经网络进行逐步调优,直到偏差值满足预期精度要求;
步骤二,内容压缩规则构建,包括个性化选项的识别与激活规则建立、递进式激活规则建立,控制调查问卷的题量,提升互动的效率;
(1)个性化选项的识别与激活规则建立,识别调查项与疾病类型、诊疗方式的相关性;
激活规则包括激活项、激活条件,所述激活项是对历史调查问卷中缺省的调查项,默认不在所述调查问卷中显示;所述激活条件是当患者个体诊断数据中涉及了对应的调查项时,激活对应的调查项;
(2)递进式激活规则建立,对调查项进行两两组合,标识出存在递进依赖关系的组合,将被依赖项的特定应答项作为依赖项的递进激活条件;
(3)建立综合评价规则,合并相似项,针对综合评价项的设置和回收分析,提供一对多评价的解决思路,一个评价项有多个评价主体,针对多个所述评价主体,分别设置其权重,从而可以将单项评价转换成多个主体的评价结果;
步骤三,优化服务部署,将偏好模型和内容压缩规则转化为可以调用的调查优化服务、内容压缩服务,所述调查优化服务包括渠道优选服务、时段优选服务;
所述渠道优选服务,输入调查对象的基本信息,得到按所述调查对象接受程度排列的调查渠道列表;
时段优选服务,输入调查对象的基本信息,得到按所述调查对象接受程度排列的调查时段列表;
内容压缩服务,输入问卷内容项列表、患者就诊记录,得到激活的问卷项列表;
步骤四,生成调查任务,包括如下步骤:
(1)调查样本数据同步,包括同步所述患者的个体信息和所述调查的历史数据;为保证任务的时效,同步时间在患者离院后即行开始;
(2)调查内容压缩,调用内容压缩服务,根据同步的调查样本数据,调取激活规则进行对照,对满足激活条件的项进行激活;
(3)调查对象过滤,根据不宜调查的特征信息和不宜调查对象的问卷反馈,将不宜调查的对象移出调查队列;所述不宜调查的特征信息包括:重症住院、已死亡、已投诉、加入免打扰名单的对象;所述不宜调查对象的问卷反馈包括:未回复调查或回复不希望继续推送调查;
(4)调查内容执行最优方式,调用所述渠道优选服务、所述时段优选服务,根据调查对象的差异,选择调查效果最优的调查渠道、最适宜的调查时段,提升调查内容的传达率以及反馈率;
步骤五,执行调查任务,根据最优调查渠道、最优调查时段排序执行调查任务,根据调查任务生成任务队列,并按时执行;对于存在递进式激活规则的调查任务,在执行过程中将患者的回复情况与激活规则进行对比,在符合激活条件的情形下,激活对应的调查项;通过满意度结果评价算法,得出调查对象的整体满意度情况;将满意度结果汇总、反馈医院。
[0007] 所述步骤一,所述调查的历史数据、所述患者个体信息需要达到十万以上的数量级,以确保在后续按特征分层(如按年龄段分成老、中、青、幼)后各层都有足够的数据规模,从而保障后续分析和模型建立的代表性和有效性。
[0008] 所述步骤一,所述格式转换是将调查的历史数据、患者个体信息转换为符号分隔文件,便于后续的处理;将所述符号分隔文件按照统一编码字典进行转换处理。
[0009] 所述步骤一,所述探查包括对数据项的类型、取值范围、统计学特征进行观察;所述数据项的类型包括数值、离散值;所述统计学特征包括数据值分布、特异值、缺值和空值。
[0010] 所述步骤一,所述分析数据项之间的相关性,是通过计算协方差来衡量两个数据项的总体误差,如果协方差不为零说明他们相关,为零或趋近零说明不相关或弱相关。
[0011] 所述步骤一,所述划分训练集和测试集的方法是随机数划分,读取所述数据集,提取所述类别和所述输入数据,利用随机函数,将所述类别和所述输入数据随机划分为输入数据训练集、输入数据测试集、类别训练集、类别测试集,所述训练集和所述测试集的比例为9:1。
[0012] 所述步骤一,所述训练神经网络包括如下步骤:(1)网络初始化,设定参数,包括设定各权重为一个区间内的随机数,设定各神经元偏置为一个区间内的随机数,设定误差,设定计算精度;
(2)前向传输,进入隐藏层,通过所述权重和所述偏置计算所述隐藏层神经元的输入,调用激活函数,计算隐藏层各神经元的输出;
(3)计算全局误差,判断模型合理性,判断当前模型是否满足所述计算精度要求,若满足,则结束,若不满足,则进入逆向反馈;
(4)逆向反馈进行误差计算,利用所述神经网络期望输出和实际输出,以及各神经元的偏导数、权重,计算输出层、隐藏层各神经元的误差;
(5)修正权重,利用输出层各神经元的偏导数、输出层各神经元的误差和隐藏层各神经元的输出,修正隐藏层与输出层之间各神经元的权重和偏置;
(6)修正权重,利用隐藏层各神经元的偏导数、隐藏层各神经元的误差和输入层各神经元的输出,修正输入层与隐藏层之间各神经元的权重和偏置;
所述步骤四,所述同步时间,设置为一个弹性时间窗口,将出院一段时间内未进行调查的患者也加入到同步窗口队列中,防止医院信息系统中的离院时间没有及时得到更新而遗漏了已出院的患者。
[0013] 所述步骤五,在执行任务过程中,根据反馈的情况,调整调查策略,生成候选调查渠道的调查任务。
[0014] 一种基于大数据的渠道协同满意度调查系统,包括偏好模、内容压缩模块、调查模块,所述偏好模块,包括获取模块、处理模块、训练模块,用于获取被调查者数据并进行整理,通过机器学习发现被调查者的偏好;所述内容压缩模块,用于压缩调查数据,使调查项能更适用于被调查者;所述调查模块,基于所述偏好模块和所述内容压缩模块,生成并执行调查任务。
[0015] 本发明的优势和有益效果在于:本发明通过对满意度调查历史数据的挖掘分析,有效压缩调查内容,减少作答次数,从而提高满意度调查的效率,提升调查体验;通过优化机制为不同的调查方提供更合适的调查渠道和时机,对于渠道和时机的优选,将激活更多的沟通渠道,提高被调查方的参与意愿,提高调查的成功率;在不增加人工工作量的同时,提高满意度调查的覆盖率、回复率,有利于帮助调查方更全面、客观地了解被调查方的真实感受,从而使调查方针对被调查方更客观的评价,查漏补缺、改善服务,提高调查方的认同,增强调查方的竞争力。
附图说明
[0016] 图1是本发明的方法流程图
[0017] 图2是本发明中训练神经网络结构图。
[0018] 图3是本发明中系统示意图。

具体实施方式

[0019] 以下结合附图和具体实施例对本发明作具体的介绍。
[0020] 如图1所示,一种基于大数据的渠道协同满意度调查方法,包括如下步骤:步骤一,偏好模型构建,通过对历史调查数据的整理、统计和分析,得到患者特征与调查渠道、调查时段之间的隐含关联,建立患者群体对调查渠道、调查时段的偏好模型;包括如下步骤:
(1)数据收集:
确定候选数据项,通过文献收集、专家(医务人员)访谈等手段,利用已经积累的专家认知、经验和数据,得出可能对患者满意度调查过程造成影响的因素;包括诊疗数据、个体属性,所述诊疗数据包括诊断分型、患者的身体状况、是否适宜使用手机、作息时间等,所述个体属性包括患者的年龄、教育背景、社会环境等;
获取调查的历史数据;
典型的数据来源包括医院委托第三方(如社会调查服务机构)完成的人工面访记录、电话随访记录(包括录音),以及由医院内设机构(医院办公室或监察部门、行部门)完成的患者满意度调查记录,获取包括患者标识、联系方式、调查渠道、调查执行时间、反馈状况、回复时间等历史数据;
最优质的数据源为随访信息中产生的记录,直接存储在关系数据库中,可利用软件本身的查询导出功能,获得符号分隔的文本文件,方便数据的探查、变换处理;
一家三甲医院通常会对其门诊、住院患者展开满意度调查,每年百万量级的患者中按比例2-5%进行抽样,可形成2-5万的调查记录,可以满足训练对数据规模的需求;但大三甲医院的门诊量更多来源于城镇人口,需要增加2-3家二甲、三乙医院的数据收集;
面访(包括暗访、上门调查)由于实施成本较高,记录偏少,一般在信息系统中无法直接获取,可通过医院主管部门及行业协会等机构获得电子表格或纸质文档,经数字化后形成可处理的文本格式数据;
获取患者的个体信息;可从医院信息系统中获取,包括在电子病历或CRM等系统中登记的联系方式、历史调查渠道、患者的性别、年龄、城镇居住地、学历等属性,以及诊断结果;诊断结果数据较复杂,本实施例仅获取患者离院时间、诊断分型、身体状况、是否适宜使用手机、作息时间;
通过患者标识(内部ID、就诊卡号、身份证号等)将所述患者的个体信息与所述调查的历史数据建立关联,将两类数据拼接在一起,形成包括基本信息和调查结果的单个数据集,与调查历史无关的患者数据在后续分析过程中并没有用处,可直接排除在采集范围之外;
对所述数据集的数据进行格式转换,这些数据可能采用半结构化(电子表格、录音文件)或结构化(信息系统、数据库)形式存储,通过基本的文件分行读取、内容查找替换等手段;
数据脱敏,包括对所述数据集按规则进行变换、排除敏感项、降低时间数据的精度;由于调查历史数据和患者信息包括有姓名、诊断、联系方式等个人隐私信息,直接采集使用将侵害个人隐私、违反信息安全有关法律法规;患者的标识信息通常为信息系统内部ID、身份证号、就诊卡号,通过对其进行脱敏处理,使用摘要算法(MD5)进行变换,使数据内容不能逆向推导出患者真实身份,但仍可保持调查历史数据与患者档案之间的关联;对于姓名、地址等隐私数据,则已经排除在采集范围内;对于时间可降低精度,舍弃分、秒信息,从而使数据可以安全合规地用于分析利用;
(2)数据整理,包括数据剔出、分层抽样有效性检验、数据清理,识别所述数据集中有用部分并进行清洗转换,对所述数据集中的数据项,逐一进行探查,排除不适宜作为特征的数据内容,对部分缺失的内容进行填充处理;
(a)数据项剔除,分析所述数据项之间的相关性,识别相似,即存在显著相关性的数据项,只保留其中的一个;舍弃质量差、采集到的值不多、与预想值域偏差大的数据项,这些数据项如果纳入分析将影响结果的客观性;排除与调查结果弱相关性的数据项;
所述数据收集中获得的患者的个体信息包括:诊断分型、身体状况、是否适宜使用手机、作息时间、联系方式、性别、年龄、学历、居住地;其中诊断分型、身体状况医院提供的数据只有诊断结果,是一段描述的文字,很难转换成用于分析的定性或定量数据,暂时予以排除;是否适宜使用手机这一项数据无从获取,即便患者本人不宜参与调查互动,其家属也可以代劳,对调查结果影响较小,因此将该项予以排除;作息时间属于患者个人隐私,没有方便的获取来源,予以排除;联系方式数据较全,但没有直接的用途,可以根据号码归属地数据库进行转换,获得患者常住区域;居住地数据在患者信息中表现为填写不够规范,存在很多空值,难于利用,但是可以通过患者结算使用的医保类型来得出患者户籍(城镇或乡村);
所述数据收集中获得的调查的历史数据包括:调查渠道、调查时间、反馈状态、回复时间,其中回复时间可与发送时间想减,计算出回复时延;发送时间只需要用时、分信息,其他部分可丢弃;
经过上述处理,得到用于训练的数据集中数据项包括:患者性别、年龄、学历、户籍、调查时段、调查渠道、反馈结果;
(b)分层抽样有效性检验,采用分层抽样法,根据所选数据项的特征对所述数据集进行抽样;所述特征是患者个人信息,包括性别、年龄、学历、户籍,所述分层即对所述特征分别进行分段后即获得分组数据,通过对各特征分层的数据量进行统计汇总,查验是否存在校本数据,来判定数据是否有效;
对数据集按年龄段、性别等字段,分别进行分组统计,查看组内数据的计数,例如以数据集年龄段为30至50之间、区域为农村为条件,对记录数进行计数,发现只有10条多记录,说明来自农村户籍的中青年数据量,相对其他分层较为缺乏,可增加对区县、地市医院和基础卫生机构数据的收集来解决;
(c)数据清理,包括缺失数据的填充、数据的转换映射、连续数值的散列处理;
数据经转换得到下表:
S/N Gender Age Educ Area Channel Period Resp
0 2 4   1 3 7 1
1 2 3   1 2 6 1
2 2 3 1 1 1 7 0
3 2 3 1 1 2 3 0
4 1 4   2 1 4 1
5 2 3   2 1 4 1
Gender表示性别,1(男)和2(女)之外的编码全部转为9(其他);
调查渠道:除1(微信)、2(电话)、3(短信)、4(面访)之外的数据,包括空值,均替换为9(其他);
Age表示年龄,对年龄数值进行散列化,按baby(<10)、student(10-20)、young(21-35)、mature(36-59)、old(>60),转换成幼、学、青、中、老;(编码为1、2、3、4、5)Period表示调查时段,从连续的时间戳格式去掉日期,并转换为散列化的时间段,对时间段进行转换编码,编码方式如下:
时段 值
23:00-7:00 0
7:00-9:00 1
9:00-11:00 2
11:00-13:00 3
13:00-15:00 4
15:00-17:00 5
17:00-19:00 6
19:00-21:00 7
21:00-23:00 8
Resp表示反馈结果,将不是0(未反馈)、1(已反馈)的内容,包括空值,均替换为0(未反馈);
(3)训练算法,将患者特征数据作为输入数据,将实际调查时段、调查渠道作为类别标签,通过机器学习训练数据集,发现所述输入数据与所述类别标签之间的相关性,从而得到能够用于满意度调查的优选的调查时段、调查渠道的算法模型;
患者特征数据对调查渠道的偏好,可以转换为不同患者群体(如留守老人、城镇未成年、上班族)倾向于使得何种调查渠道(微信、电话、短信、面访),属于多标签分类(Multilabel classification)问题,即每个样本对应的结果,是从一组目标标签中选取一个;通过一个模型,将目标标签作为输入,映射到二值向量中,从而将多标签问题转化成一系列的二元分类问题,然后可以使用多个单标签分类器进行处理;也可以直接使用多标签分类算法来完成;训练过程可采用的机器学习算法包括:Boosting(AdaBoost.MH和AdaBoost.MR,AdaBoost的多标签数据扩展版本)、KNN(将k-NN分类器扩展到多标签数据)、决策树(使用向量输出的核方法)、神经网络(BP-MLL,反向传播算法的多标签学习问题的扩展);
包括如下步骤:
(a)数据分离,将所述数据集拆分为输入数据和类别标签,所述输入数据是所述数据项的特征,包括患者性别、年龄、学历、户籍,所述类别标签包括调查渠道、调查时段;
(b)数据标准化,输入特征数据的数值范围并不一致,不便于神经网络的处理,需要将所述特征的值规划到同一数值范围内,通过将大的特征值缩小,即(x-min)/(max-min)变换到[0,1]的范围内;
(c)将类别标签进行独热(one-hot)编码,有n种类别便将每条训练数据的类别标签转化为n维向量,其对应正确类别的索引下的值为1,其余为0;
(d)划分训练集和测试集,为防止过拟合,将所述数据集按一定的比例划分为训练集和测试集,训练集用于得到的神经网络模型,测试集用于测试神经网络的泛化能力;
(e)训练神经网络,输入数据集中每条数据的特征(年龄、性别、学历、户籍),通过神经网络计算输出结果,并将所述结果与训练集中的类别标签(调查渠道、调查时段)进行对比,得出偏差值;通过偏差值对所述神经网络进行逐步调优,直到偏差值满足预期精度要求;
以基于前馈神经网络的多分类器为例:神经网络模型包括一个输入层,一个输出层,一个隐藏层,如图2所示,神经网络中,输入层包括4个神经元:x1、x2、x3、x4,分别代表患者的性别、年龄、学历、户籍;隐藏层包括5个神经元:h1、h2、h3、h4、h5,分别代表患者群体中的广场舞大妈、留守老人、上班族、带娃族、其它;输出层包括4个神经元:y1、y2、y3、y4,分别代表调查渠道微信、电话、短信、面访;每层神经元与下一层神经元之间完全互连,神经元之间不存在同层连接和跨层连接;各层之间神经元的连接都有一个连接权重w,如输入层到隐藏层各神经元之间的连接权重:w1、w2、w3、w4,分别代表输入层神经元性别、年龄、学历、户籍的权重。
[0021] 每一个神经元都是一个“阈值逻辑单元”,分为两部分,前一部分计算总输入值,即通过权重和偏置计算输入数据的加权和,后一部分先计算总输入值与该神经元阈值的差值,然后通过激活函数(activation function)的处理,产生该神经元的输出;神经网络的训练包含多次的迭代训练过程,每一次迭代训练过程都使用训练集的所有样本,每一轮训练完成后判断训练样本的分类正确率和最大训练次数是否满足设定条件,如果满足则停止训练,不满足则从前向传输进入到逆向反馈阶段;逆向反馈从最后一层即输出层开始,逐层进行误差计算并对权重和偏置进行调整;神经网络的学习过程就是根据训练数据来调整神经元之间的权重和偏置的过程。
[0022] 步骤二,内容压缩规则构建,包括个性化选项的识别与激活规则建立、递进式激活规则建立,即建立患者个体就诊数据(患者来源是门诊还是住院、就诊环节等)与调查内容的对应规则库,从而在为单个患者生成的调查问卷内容中不会包含与其就诊过程无关的调查项,控制调查问卷的题量,提升互动的效率;(1)个性化选项的识别与激活规则建立,可以通过专家访谈的方法来完成,主要与临床医生和护士进行交流,获取他们对所有问卷选项的认知,识别调查项与疾病类型、诊疗方式的相关性;激活规则是一个数据清单,包括item激活项(调查项名称)、cond激活条件,所述item激活项是对历史调查问卷中缺省答案为“未接触”或“不清楚”的调查项,默认不在所述调查问卷中显示;所述cond激活条件是当患者个体诊断数据中涉及规则中所列的医院部门时,根据医院部门与调查项的对应关系,激活对应的调查项;
为提高激活项识别的效率,采用数据统计法,调取1000份以上医院门急诊满意度调查问卷的结果数据作为候选的激活项,针对每个单题,统计9项出现回复为“未接触”或“不清楚”的项如下:
①您对门急诊医生的服务态度和技术满意吗
②您门急诊护士的服务态度满意吗
③您对挂号收费人员的态度满意吗
④您对药房人员的服务态度满意吗
⑤您对检验科的服务态度满意吗
⑥您对CT、磁共振人员的服务态度满意吗
⑦您对B超、心脏彩超工作人员的服务态度满意吗
⑧您对胃肠镜室工作人员的服务态度满意吗
⑨您对医院的卫生保洁满意吗
统计发现,共5个选项(④⑤⑥⑦⑧)回复“未接触”的次数超过了总回复次数的40%;仔细核对,发现这些问题确实并不是每次就诊都会接触到,就纳入到激活规则中;例如就诊数据中有检验记录,就激活(显示)“⑤您对检验科的服务态度满意吗”问题。
[0023] (2)递进式激活规则建立,对调查项进行两两组合,标识出存在递进依赖关系的组合,将被依赖项的特定应答项作为依赖项的递进激活条件;例如:调查项“对投诉互动过程满意吗”,当用户评价不满意时,激活条件“对【投诉互动过程】不满意”成立,激活项“对投诉渠道的便捷性评价”被激活,显示调查项“对投诉渠道的便捷性满意吗”,当用户评价满意时,激活条件“对【投诉渠道的便捷性评价】满意”成立,激活项“对投诉处理结果评价”被激活;(3)建立综合评价规则,合并相似项,有时医院需要收集较细粒度的评价,将调查结果应用到具体科室甚至个人的绩效评价中,但患者由于缺乏对医院内部职责分工与运作流程的充分了解,并不能进行细致的区分;针对综合评价项的设置和回收分析,提供一对多评价的解决思路,一个评价项有n个评价主体,针对n个所述评价主体,分别设置其权重,从而可以通过一个评价项,获取多个主体的评价结果;以“对就医环境的满意度”为例,医院希望获得对a大楼保洁、b公共环境绿化、c住院环境卫生、d餐厅环境卫生等不同场所的评价,但患者往往只有一个总体印象,因此在问卷中只设置单个评价项,其评价规则为:0.2,0.2,0.2,
0.2;即在回收分析阶段,4个评价主体(a大楼保洁、b公共环境绿化、c住院环境卫生、d餐厅环境)各自的得分,为患者实际评价(对就医环境的评分)*0.2;
步骤三,优化服务部署,将偏好模型和内容压缩规则转化为可以调用的调查优化服务、内容压缩服务,所述调查优化服务包括渠道优选服务、时段优选服务;
所述渠道优选服务,输入调查对象的基本信息,得到按所述调查对象接受程度进行降序排列的调查渠道列表;
时段优选服务,输入调查对象的基本信息,得到按所述调查对象接受程度进行降序排列的调查时段列表;
内容压缩服务,输入问卷内容项列表、患者就诊记录,得到激活的问卷项列表;
步骤四,生成调查任务,当有新的患者需要进行调查渠道、调查时段的优选预测时,可以采用分类的方法将其划分到与其具有相似特征信息的群体中,从而预测出该患者调查效果最优的渠道排序、最适宜的调查时段;在为患者生成调查问卷时,检索其基本档案与诊疗数据,按照规则库对不需要调查的选项进行过滤屏蔽,将子题置于父题的特定反馈之后出现,确保问卷的个性化和精准化;包括如下步骤:
(1)调查样本数据同步,与医院业务系统对接,定期从医院业务系统同步患者的数据;
数据主要用于优选渠道和时机,以及内容压缩,需要包括同步所述患者的个体信息和所述调查的历史数据,如患者年龄、性别、就诊时间、离院时间、诊断、疗程、检查检验等;为保证任务的时效,同步时间在患者离院后即行开始;
(2)调查内容压缩,调用内容压缩服务,根据同步的调查样本数据,如住院记录、手术记录、检验检查记录、用药记录等诊疗记录,调取激活规则库进行对照,对满足激活条件的项进行激活(显示);
(3)调查对象过滤,根据不宜调查的特征信息和不宜调查对象的问卷反馈,将不宜调查的对象移出调查队列;所述不宜调查的特征信息包括:重症住院、已死亡、已投诉、加入免打扰名单的对象;所述不宜调查对象的问卷反馈包括:未回复调查或回复不希望继续推送调查;
所述调查对象进入调查队列之后,会根据调查任务对其批量推送调查问卷,实际的使用过程,不是所有的就医患者都是调查的目标对象,会出现不宜调查的对象,并且对象的就医环节结束之后,不会上推送满意度调查,而是在患者离院的某几天之后,才会进行任务的执行,在这期间内,对象可能出现不宜调查的相关特征信息;例如从医院同步的样本数据中,可以识别出调查对象是否重症住院、抑或已死亡等不宜调查的信息时,该部分调查对象需要移除;已经产生投诉或加入免打扰名单的对象也会从调查队列移除;根据调查对象问卷的反馈内容进行判断是否移除对象,如患者连续3次未回复调查内容,或在调查内容里反馈以后不希望发送调查;
(4)调查内容执行最优方式,调用所述渠道优选服务、所述时段优选服务,根据调查对象的行为习惯、作息情况、通讯方式等存在差异,选择调查效果最优的调查渠道、最适宜的调查时段,提升调查内容的传达率以及反馈率;
步骤五,执行调查任务,根据最优调查渠道、最优调查时段排序执行调查任务,根据调查任务的详细信息,如执行时间点、执行渠道、执行方式等生成任务队列,并通过定时器来触发推送执行;调查渠道包括电话、微信、短信、App;对于存在递进式激活规则的调查任务,在执行过程中将患者的回复情况与激活规则进行对比,在符合激活条件的情形下,激活对应的调查项;例如患者表示对医院的检验科医生不满意,则可以跳出后续的相关题目,进一步询问哪个环节不满意;通过满意度结果评价算法,得出调查对象的整体满意度情况;该算法可以自由配置不同题目的占比及得分;将满意度结果汇总、反馈医院。
[0024] 所述步骤一,所述调查的历史数据、所述患者个体信息需要达到20万的数量级,以确保在后续按特征分层(如按年龄段分成老、中、青、幼)后各层都有足够的数据规模,从而保障后续分析和模型建立的代表性和有效性。
[0025] 所述步骤一,所述格式转换是将调查的历史数据、患者个体信息转换为符号分隔文件(CSV),便于后续的处理;将所述符号分隔文件包括调查时间、是否完成、调查渠道等信息,按照统一编码字典进行转换处理。
[0026] 样例数据如下表所示:S/N Gender Age tel Channel Educ Area Dx Cond smart Resp Leave_time Send_time
0 2 49.0 ** 3   1       1 11/10/2019 14/10/2019 20:
11:10:01 08:08
1 2 29.0 ** 2   1       1 10/10/2019 14/10/2019 18:
14:10:38 16:00
2 2 27.0 ** 1 1 1       0 13/10/2019 14/10/2019 19:
16:35:27 37:38
3 2 22.0 ** 2 1 1       0 14/10/2019 14/10/2019 12:
12:30:43 30:43
4 1 39.0 ** 1   2       1 14/10/2019 14/10/2019 14:
18:23:27 35:27
5 2 31.0 ** 1   2       1 04/10/2019 14/10/2019 14:
14:10:49 10:48
列S/N为序号;列Gender为性别,1表示男、2表示女、9表示不明;列Age为年龄;列tel为联系电话,因涉及隐私未列出内容,列Channel为调查渠道,1表示微信、2表示电话、3表示短信、4表示面访、9表示空值;列Educ为学历;列area为居住地;列resp为反馈结果,0表示未反馈,1表示已反馈;列leave_time为离院时间,格式为“日/月/年 时:分:秒”;列send_time为问卷发送时间,格式为“日/月/年 时:分:秒”;中间未获取到数据的3列(dx/cond/smart)分别对应诊断分型、身体状况、是否使用智能手机;
初步估算,涉及到的可用特征有4个,即性别、学历、年龄、居住地,用于调查渠道分析,对应的调查渠道类别分为5种,而用于调查时段分析,对应的时段类别分为9种;选取20万条数据,即能从总体上保证样本覆盖;
所述步骤一,所述探查包括对数据项的类型、取值范围、统计学特征进行观察;所述数据项的类型包括数值、离散值;所述统计学特征包括数据值分布、特异值、缺值和空值。
[0027] 所述步骤一,所述分析数据项之间的相关性,是通过计算协方差来衡量两个数据项的总体误差,如果协方差不为零说明他们相关,为零或趋近零说明不相关或弱相关。
[0028] 所述步骤一,所述划分训练集和测试集的方法是随机数划分,导入相应的库,包括导入numpy模块中的随机函数,用于数据切分的klearn.model_selection模块中的train_test_split函数;读取所述数据集(.CSV文件)成矩阵的形式,提取所述类别标签和所述输入数据,矩阵后4列的数值为y(标签),其余列为x(输入数据);利用train_test_split随机函数,将所述类别标签和所述输入数据随机划分为输入数据训练集(X_train)、输入数据测试集(X_test)、类别(标签)训练集(y_train)、类别(标签)测试集(y_test),所述训练集和所述测试集的比例为9:1。
[0029] 所述步骤一,所述训练神经网络包括如下步骤:(1)网络初始化,设定参数,包括设定各权重为一个区间在[-1,1]内的随机数,设定各神经元偏置为一个区间在[0,1]内的随机数,设定误差函数,设定计算精度和最大学习次数,即最大迭代次数;
(2)前向传输,进入隐藏层,通过所述权重和所述偏置计算所述隐藏层神经元的输入,调用激活函数,计算隐藏层各神经元的输出;
(3)计算全局误差,判断模型合理性,判断当前模型是否满足所述计算精度要求,若满足,则结束,若不满足,则进入逆向反馈;
(4)逆向反馈进行误差计算,利用所述神经网络期望输出和实际输出,以及代价函数对输出层的各神经元的偏导数、权重,计算输出层、隐藏层各神经元的误差;
(5)修正权重,利用输出层各神经元的偏导数、输出层各神经元的误差和隐藏层各神经元的输出,修正隐藏层与输出层之间各神经元的权重和偏置;
(6)修正权重,利用隐藏层各神经元的偏导数、隐藏层各神经元的误差和输入层各神经元的输出,修正输入层与隐藏层之间各神经元的权重和偏置;
所述步骤四,所述同步时间,设置为一个弹性时间窗口,将出院一段时间内未进行调查的患者也加入到同步窗口队列中,防止医院信息系统中的离院时间没有及时得到更新而遗漏了已出院的患者。
[0030] 所述步骤五,在执行任务过程中,根据反馈的情况(任务未触达或未反馈时),调整调查策略,生成候选调查渠道的调查任务。如微信调查推送后,1天未反馈,则改用电话调查;在错过调查时间窗口后仍未反馈,则关闭调查。
[0031] 如图3所示,一种基于大数据的渠道协同满意度调查系统,包括偏好模块、内容压缩模块、调查模块,所述偏好模块,包括获取模块、处理模块、训练模块,用于获取被调查者数据并进行整理,通过机器学习发现被调查者的偏好;所述内容压缩模块,用于压缩调查数据,使调查项能更适用于被调查者;所述调查模块,基于所述偏好模块和所述内容压缩模块,生成并执行调查任务。
[0032] 患者数据通过调查系统的前置机,从医院信息系统传入调查系统服务器的调查系统的渠道偏好模型、时机偏好模型、压缩规则,渠道偏好模型和时机偏好模型收集患者数据,并进行整理,通过机器学习得到患者对调查渠道和调查时间的偏好,压缩规则库模型收集患者数据,有针对性的选择调查项,使调查项更适合患者,渠道偏好模型、时机偏好模型、压缩规则库通过调查优化引擎与调查模块连接,调查模块根据压缩规则生成适合患者的调查问卷,根据患者对调查渠道、调查时段的偏好生成调查任务队列,在指定的时段,以微信、电话、短信、面访等渠道向患者发起调查,最终将调查结果反馈给医院。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈