首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 说明书 / 本技术领域的技术人员 / 人员危险度预测方法、装置、电子设备和可读存储介质

人员危险度预测方法、装置、电子设备和可读存储介质

阅读:788发布:2020-05-11

专利汇可以提供人员危险度预测方法、装置、电子设备和可读存储介质专利检索,专利查询,专利分析的服务。并且本 申请 实施例 提供了一种人员危险度预测方法、装置、 电子 设备和可读存储介质,涉及 人工智能 技术领域。该人员危险度预测方法,首先获取待预测人员的待预测信息,然后,基于预先建立的危险度 预测模型 ,根据所述待预测信息进行危险度预测,得到所述待预测人员的危险度数值,如此,提高了识别违法人员的危险度的效率,降低了识别违法人员危险度的难度。,下面是人员危险度预测方法、装置、电子设备和可读存储介质专利的具体信息内容。

1.一种人员危险度预测方法,其特征在于,所述方法包括:
获取待预测人员的待预测信息;
基于预先建立的危险度预测模型,根据所述待预测信息进行危险度预测,得到所述待预测人员的危险度数值。
2.根据权利要求1所述的人员危险度预测方法,其特征在于,所述危险度预测模型通过以下步骤建立:
获取至少一个历史标识人员的人员信息及至少一个普通人员的人员信息,对各所述人员信息进行预处理;
将预处理后的各人员信息按照预设比例划分为人员信息训练集和人员信息测试集;
基于所述人员信息训练集和所述人员信息测试集,建立危险度预测模型。
3.根据权利要求2所述的人员危险度预测方法,其特征在于,所述获取至少一个历史标识人员的人员信息及至少一个普通人员的人员信息,对各所述人员信息进行预处理的步骤包括:
获取至少一个历史标识人员的人员信息及至少一个普通人员的人员信息,根据预设的异常数据检测法对各所述人员信息进行异常数据检测;
根据异常数据检测结果,对各所述人员信息进行剔除或填补处理;
基于预设的标准化方法,对进行剔除或填补处理后的各所述人员信息进行标准化处理。
4.根据权利要求3所述的人员危险度预测方法,其特征在于,所述根据异常数据检测结果,对各所述人员信息进行剔除或填补处理的步骤包括:
针对每个人员信息,若检测得到该人员信息中存在异常的样本数据的数量大于第一预设阈值,则剔除该存在异常的样本数据,否则,对该存在异常的样本数据进行填补处理。
5.根据权利要求4所述的人员危险度预测方法,其特征在于,所述人员信息中包括身份证号码和手机号码,所述对该存在异常的样本数据进行填补处理的步骤之后,所述方法还包括:
检测填补处理后的各人员信息中包括的身份证号码是否符合第一预设规范,若不符合,则剔除所述身份证号码;
检测填补处理后的各人员信息中包括的手机号码是否符合第二预设规范,若不符合,则剔除所述手机号码。
6.根据权利要求4所述的人员危险度预测方法,其特征在于,所述对该存在异常的样本数据进行填补处理的步骤包括:
使用该存在异常的样本数据的均值、中位数或第一预设数值对该存在异常的样本数据进行填补。
7.根据权利要求2所述的人员危险度预测方法,其特征在于,所述基于所述人员信息训练集和所述人员信息测试集,建立危险度预测模型的步骤包括:
针对所述人员信息训练集,使用逻辑回归算法建立危险度预测模型;
将所述人员信息测试集输入所述危险度预测模型,获得所述人员信息测试集中各历史标识人员和各普通人员的危险度预测数值;
统计危险度预测数值大于第二预设数值的各历史标识人员和各普通人员的数量,并根据该数量计算预测的准确率;
比较所述准确率是否小于第二预设阈值,若所述准确率小于所述第二预设阈值,则再次使用所述人员信息训练集训练所述危险度预测模型,直至所述准确率大于或等于所述第二预设阈值。
8.一种人员危险度预测装置,其特征在于,所述装置包括:
获取模,用于获取待预测人员的待预测信息;
预测模块,用于基于预先建立的危险度预测模型,根据所述待预测信息进行危险度预测,得到所述待预测人员的危险度数值。
9.一种电子设备,其特征在于,所述电子设备包括处理器、存储器及总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器及所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行权利要求1-7中任意一项所述的人员危险度预测方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1-7中任一项所述的人员危险度预测方法。

说明书全文

人员危险度预测方法、装置、电子设备和可读存储介质

技术领域

[0001] 本发明涉及人工智能技术领域,具体而言,涉及一种人员危险度预测方法、装置、电子设备和可读存储介质。

背景技术

[0002] 运用互联网进行违法活动的模式日渐突出,由于公安人员办案时追踪环节多,追踪难度大,利用互联网进行违法活动,已然成为不法分子的最新发展趋势。目前,可以通过人脸识别、声纹识别提高可疑人员的追踪筛选效率。但是公安业务中对于违法人员的危险度判别往往都是基于公安人员的业务知识或者报案人员提供的线索信息,只是简单的依靠人工方式进行,效率低,难度大。如何提高识别违法人员的危险度的效率,降低识别违法人员的危险度的难度,是当前亟需解决的问题。

发明内容

[0003] 有鉴于此,本申请实施例提供了一种人员危险度预测方法、装置、电子设备和可读存储介质,以解决上述问题。
[0004] 本发明的实施例可以这样实现:
[0005] 第一方面,实施例提供一种人员危险度预测方法,所述方法包括:
[0006] 获取待预测人员的待预测信息;
[0007] 基于预先建立的危险度预测模型,根据所述待预测信息进行危险度预测,得到所述待预测人员的危险度数值。
[0008] 在可选的实施方式中,所述危险度预测模型通过以下步骤建立:
[0009] 获取至少一个历史标识人员的人员信息及至少一个普通人员的人员信息,对各所述人员信息进行预处理;
[0010] 将预处理后的各人员信息按照预设比例划分为人员信息训练集和人员信息测试集;
[0011] 基于所述人员信息训练集和所述人员信息测试集,建立危险度预测模型。
[0012] 在可选的实施方式中,所述获取至少一个历史标识人员的人员信息及至少一个普通人员的人员信息,对各所述人员信息进行预处理的步骤包括:
[0013] 获取至少一个历史标识人员的人员信息及至少一个普通人员的人员信息,根据预设的异常数据检测法对各所述人员信息进行异常数据检测;
[0014] 根据异常数据检测结果,对各所述人员信息进行剔除或填补处理;
[0015] 基于预设的标准化方法,对进行剔除或填补处理后的各所述人员信息进行标准化处理。
[0016] 在可选的实施方式中,所述根据异常数据检测结果,对各所述人员信息进行剔除或填补处理的步骤包括:
[0017] 针对每个人员信息,若检测得到该人员信息中存在异常的样本数据的数量大于第一预设阈值,则剔除该存在异常的样本数据,否则,对该存在异常的样本数据进行填补处理。
[0018] 在可选的实施方式中,所述人员信息中包括身份证号码和手机号码,所述对该存在异常的样本数据进行填补处理的步骤之后,所述方法还包括:
[0019] 检测填补处理后的各人员信息中包括的身份证号码是否符合第一预设规范,若不符合,则剔除所述身份证号码;
[0020] 检测填补处理后的各人员信息中包括的手机号码是否符合第二预设规范,若不符合,则剔除所述手机号码。
[0021] 在可选的实施方式中,所述对该存在异常的样本数据进行填补处理的步骤包括:
[0022] 使用该存在异常的样本数据的均值、中位数或第一预设数值对该存在异常的样本数据进行填补。
[0023] 在可选的实施方式中,所述基于所述人员信息训练集和所述人员信息测试集,建立危险度预测模型的步骤包括:
[0024] 针对所述人员信息训练集,使用逻辑回归算法建立危险度预测模型;
[0025] 将所述人员信息测试集输入所述危险度预测模型,获得所述人员信息测试集中各历史标识人员和各普通人员的危险度预测数值;
[0026] 统计危险度预测数值大于第二预设数值的各历史标识人员和各普通人员的数量,并根据该数量计算预测的准确率;
[0027] 比较所述准确率是否小于第二预设阈值,若所述准确率小于所述第二预设阈值,则再次使用所述人员信息训练集训练所述危险度预测模型,直至所述准确率大于或等于所述第二预设阈值。
[0028] 第二方面,实施例提供一种人员危险度预测装置,所述装置包括:
[0029] 获取模,用于获取待预测人员的待预测信息;
[0030] 预测模块,用于基于预先建立的危险度预测模型,根据所述待预测信息进行危险度预测,得到所述待预测人员的危险度数值。
[0031] 第三方面,实施例提供一种电子设备,所述电子设备包括处理器、存储器及总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器及所述存储器之间通过总线通信,所述处理器执行所述机器可读指令,以执行前述实施方式中任意一项所述的人员危险度预测方法的步骤。
[0032] 第四方面,实施例提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被执行时实现前述实施方式中任一项所述的人员危险度预测方法。
[0033] 本申请实施例提供了一种人员危险度预测方法、装置、电子设备和可读存储介质,该人员危险度预测方法,首先获取待预测人员的待预测信息,然后,基于预先建立的危险度预测模型,根据所述待预测信息进行危险度预测,得到所述待预测人员的危险度数值,如此,提高了识别违法人员的危险度的效率,降低了识别违法人员危险度的难度。附图说明
[0034] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0035] 图1为本申请实施例提供的电子设备的方框示意图。
[0036] 图2为本申请实施例提供的人员危险度预测方法的流程图之一。
[0037] 图3为本申请实施例提供的人员危险度预测方法的流程图之二。
[0038] 图4为本申请实施例提供的图3中步骤S100的子步骤示意图。
[0039] 图5为本申请实施例提供的图3中步骤S300的子步骤示意图。
[0040] 图6为本申请实施例提供的人员危险度预测装置的功能模块框图
[0041] 图标:100-电子设备;110-存储器;120-处理器;130-人员危险度预测装置;131-获取模块;132-预测模块。

具体实施方式

[0042] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0043] 因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0044] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0045] 此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0046] 需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
[0047] 近年来,随着互联网全方位地介入社会各个领域,互联网违法活动呈现出高发频发的态势,而网络毒品犯罪在网络犯罪中占居的比例在不断攀升,呈现快速蔓延趋势。不法分子利用互联网跨越时间、跨越空间的特点,足不出户,通过QQ、微信等交互式社交软件移动电话即时通信工具便可在网上购买毒品,达到吸食毒品的目的,传播和学习制毒方式方法,寻找交易上下线,通过形形色色的互联网购物平台进行交易,用微信、支付宝、行卡等现代支付功能快速付款,再用杂乱无章的物流网络、快递公司进行收发送货,吸毒、制毒、运毒“一站式”违法贩毒活动全部依靠互联网完成。运用互联网进行违法活动的模式日渐突出,由于公安人员办案时追踪环节多,追踪难度大,利用互联网进行违法活动,已然成为不法分子的最新发展趋势。
[0048] 如背景技术所介绍,目前,可以通过人脸识别、声纹识别提高可疑人员的追踪筛选效率。但是公安业务中对于违法人员的危险度判别往往都是基于公安人员的业务知识或者报案人员提供的线索信息,只是简单的依靠人工方式进行,效率低,难度大。在运用互联网络进行贩毒或进行其他违法活动日益突出的情况下,如何提高识别违法人员的危险度的效率,降低识别违法人员的危险度的难度,是当前亟需解决的问题。
[0049] 有鉴于此,本申请实施例提供了一种人员危险度预测方法,该方法使用预先建立的危险度预测模型,根据待预测人员的待预测信息进行危险度预测。如此,提高了识别违法人员的危险度的效率,降低了识别违法人员危险度的难度。下面对上述方法进行详细阐述。
[0050] 请参阅图1,图1为本申请实施例提供的一种电子设备100的结构示意图。所述设备可以包括处理器120、存储器110、人员危险度预测装置130及总线,所述存储器110存储有所述处理器120可执行的机器可读指令,当电子设备100运行时,所述处理器120及所述存储器110之间通过总线通信,所述处理器120执行所述机器可读指令,并执行人员危险度预测方法的步骤。
[0051] 所述存储器110、处理器120以及其他各元件相互之间直接或间接地电性连接,以实现信号的传输或交互。
[0052] 例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。人员危险度预测装置130包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中的软件功能模块。所述处理器120用于执行存储器110中存储的可执行模块,例如所述人员危险度预测装置130所包括的软件功能模块或计算机程序。
[0053] 其中,存储器110可以是,但不限于,随机读取存储器(Random Access memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
[0054] 处理器120可以是一种集成电路芯片,具有信号处理。上述处理器120可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等。
[0055] 还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0056] 本实施例中,存储器110用于存储程序,处理器120用于在接收到执行指令后,执行所述程序。本申请实施例任一实施方式所揭示的流程定义的方法可以应用于处理器120中,或者由所述处理器120实现。
[0057] 可以理解,图1所示的结构仅为示意。电子设备100还可以具有比图1所示更多或者更少的组件,或者具有与图1所示不同的配置。图1所示的各组件可以采用硬件、软件或其组合实现。
[0058] 本申请实施例提供了一种人员危险度预测方法,应用于上述的电子设备100,请结合参阅图2,图2为本申请实施例提供的人员危险度预测方法的流程图之一。下面对图2所示的具体流程进行详细描述。
[0059] 步骤S1,获取待预测人员的待预测信息。
[0060] 步骤S2,基于预先建立的危险度预测模型,根据所述待预测信息进行危险度预测,得到所述待预测人员的危险度数值。
[0061] 其中,待预测信息可以包括待预测人员的身份信息、社交信息、交通信息,例如,身份信息可以包括待预测人员的身份证号码、身高、体重、年龄、职业以及性别等。社交信息可以包括待预测人员的手机号码、在社交平台中包括的不同人员的信息以及与他人的通话信息等。交通信息可以包括待预测人员的公共交通乘坐信息、旅店住宿信息等。
[0062] 当需要获知待预测人员违反某一法律的危险度时,将获取到的待预测人员的待预测信息输入至预先建立的危险度预测模型,该危险度预测模型则根据待预测信息进行危险度预测,如此,得到所述待预测人员的危险度数值。
[0063] 作为一种可能的情况,当相关部门调查一起犯罪案件,并且涉案人员有A、B、C、D四人,此时可将与案件相关的涉案人员A、B、C、D的人员信息分别输入该危险度预测模型中,基于该危险度预测模型,获得涉案人员A的危险度数值为0.9,涉案人员B的危险度数值为0.72,涉案人员C的危险度数值为0.31,涉案人员D的危险度数值为0.56。此时,相关部门的工作人员可着手重点调查危险度数值较高的涉案人员A、涉案人员B及涉案人员D,如此,便于协助相关部门进行案件调查,提高案件调查的效率。
[0064] 作为另一种可能的情况,当相关部门想要获知记录在案,有盗窃、抢劫或诈骗前科的人员张三,发生吸毒或其他违法事件的概率,此时,同样可将张三的人员信息输入危险度预测模型中,基于该危险度预测模型,获得张三发生吸毒或其他违法事件的概率。
[0065] 作为又一种可能的情况,相关部门还可以基于上述危险度预测模型,预测正在服刑期间的违法人员在出狱后再犯罪的概率,例如,可以预测有盗窃、抢劫或诈骗前科的人员在出狱后再犯罪的概率,根据预测出的概率来推测具有再犯罪危险性的人员,以提高服刑人员出狱后的预后工作效果,保障社会安全。
[0066] 本申请实施例提供的人员危险度预测方法,通过使用预先建立的危险度预测模型,根据待预测人员的待预测信息进行危险度预测。如此,提高了识别违法人员的危险度的效率,降低了识别违法人员危险度的难度。
[0067] 进一步地,请结合参阅图3,图3为本申请实施例提供的人员危险度预测方法的流程图之二。上述危险度预测模型可通过以下步骤S100-步骤S300建立:
[0068] 步骤S100,获取至少一个历史标识人员的人员信息及至少一个普通人员的人员信息,对各所述人员信息进行预处理。
[0069] 步骤S200,将预处理后的各人员信息按照预设比例划分为人员信息训练集和人员信息测试集。
[0070] 步骤S300,基于所述人员信息训练集和所述人员信息测试集,建立危险度预测模型。
[0071] 其中,历史标识人员为进行过违法活动并记录在案的人员,普通人员则为未有任何违法记录的人员。
[0072] 下面以历史标识人员为盗窃、抢劫或诈骗前科的人员为例,本申请实施例中,人员信息中的社交信息还可以包括该历史标识人员或普通人员与其他有盗窃、抢劫或诈骗前科的人员的通话的时长、该历史标识人员或普通人员与其他有盗窃、抢劫或诈骗前科的人员的通话总次数、该历史标识人员或普通人员与其他有盗窃、抢劫或诈骗前科的人员的平均通话时间间隔、该历史标识人员或普通人员与其他有盗窃、抢劫或诈骗前科的人员的最近一次通话距今的天数。
[0073] 以及该历史标识人员或普通人员与其他有盗窃、抢劫或诈骗前科的人员的发短信的总频次、该历史标识人员或普通人员与其他有盗窃、抢劫或诈骗前科的人员的发短信的平均时间间隔、该历史标识人员或普通人员与其他有盗窃、抢劫或诈骗前科的人员的最近一次发短信距今的天数。
[0074] 以及该历史标识人员或普通人员的通讯录中保存人员的联系方式的总数量、该历史标识人员或普通人员的通讯录中保存有其他有盗窃、抢劫或诈骗前科的人员的联系方式的数量,该历史标识人员或普通人员被其他有盗窃、抢劫或诈骗前科的人员在通讯录中保存过的总数量。
[0075] 以及该历史标识人员或普通人员的一度关系人(即,该历史标识人员或普通人员的亲朋好友)中有盗窃、抢劫或诈骗前科的总人数,该历史标识人员或普通人员的二度关系人(即,该历史标识人员或普通人员的亲朋好友的亲朋好友)中有盗窃、抢劫或诈骗前科的总人数。
[0076] 以及该历史标识人员或普通人员与其他有盗窃、抢劫或诈骗前科的人员之间是否有过寄快递的记录、该历史标识人员或普通人员给其他有盗窃、抢劫或诈骗前科的人员寄快递的次数、其他有盗窃、抢劫或诈骗前科的人员给该历史标识人员或普通人员寄快递的次数、该历史标识人员或普通人员接收其他有盗窃、抢劫或诈骗前科的人员寄送的快递的次数。
[0077] 以及该历史标识人员或普通人员在社交软件的聊天中是否有与“盗窃、抢劫或诈骗”相关的字眼、该历史标识人员或普通人员与其他有盗窃、抢劫或诈骗前科的人员一同居住的次数。
[0078] 以及该历史标识人员是否还有其他违法犯罪行为记录,例如,该历史标识人员是否有赌博记录、该历史标识人员是否有涉毒记录,该历史标识人员是否有卖淫或嫖娼记录。
[0079] 进一步地,针对每个人员信息中的交通信息还可以包括该历史标识人员或普通人员入住酒店的总次数、该历史标识人员或普通人员平均每月入住酒店的次数,该历史标识人员或普通人员平均每周入住酒店的次数,该历史标识人员或普通人员在午夜入住酒店的次数、该历史标识人员或普通人员最近一次入住酒店距今的天数,该历史标识人员或普通人员更换酒店的平均时间间隔、该历史标识人员或普通人员与其他有盗窃、抢劫或诈骗前科的人员一同乘坐交通工具的次数,该历史标识人员或普通人员与其他有盗窃、抢劫或诈骗前科的人员一同乘坐交通工具的平均时间间隔。
[0080] 需要说明的是,上述仅为作为举例,人员信息中还可以包括其他信息。
[0081] 进一步地,每个人员信息中的身份信息还可以包括该历史标识人员或普通人员是否是酒吧、KTV、按摩泡脚等娱乐场所的从业人员。
[0082] 作为一种可选的实施方式,本申请实施例中,可按照4:1的预设比例随机将将预处理后的各人员信息划分为人员信息训练集和人员信息测试集。容易理解的是,划分后得到的人员信息训练集占预处理后的各人员信息的80%,人员信息测试集则占预处理后的各人员信息的20%。
[0083] 作为另一种实施方式,本申请实施例中,还可按照7:3的预设比例随机将将预处理后的各人员信息划分为人员信息训练集和人员信息测试集。容易理解的是,划分后得到的人员信息训练集占预处理后的各人员信息的70%,人员信息测试集则占预处理后的各人员信息的30%。
[0084] 可以理解,上述预设比例还可以是6:4或5:5,根据实际需求确定即可,本申请实施例不做限制。
[0085] 作为一种可选的实施方式,请结合参阅图4,可通过以下步骤S110-步骤S130对各所述人员信息进行预处理。
[0086] 步骤S110,获取至少一个历史标识人员的人员信息及至少一个普通人员的人员信息,根据预设的异常数据检测法对各所述人员信息进行异常数据检测。
[0087] 步骤S120,根据异常数据检测结果,对各所述人员信息进行剔除或填补处理。
[0088] 步骤S130,基于预设的标准化方法,对进行剔除或填补处理后的各所述人员信息进行标准化处理。
[0089] 其中,预设的异常数据检测法可以是基于高斯分布的异常数据检测方法、基于分类模型的异常值检测法及孤立森林法等。实际使用时可根据需要选择任意一种方法,上述方法的具体原理及步骤可参照现有技术,在此不做赘述。
[0090] 上述人员信息可以来自公安备案中的记录,还可以来自网络或相关人员的提供的信息。一些数据由于时间久远或者在记录时由于工作人员疏忽导致数据不清晰或数据遗失,使得获取到的各人员信息中包括存在异常的样本数据。因此,需要对存在异常的样本数据进行填补处理或剔除处理。
[0091] 本申请实施例中,可通过以下方法根据异常数据检测结果,对各所述人员信息进行剔除或填补处理。
[0092] 针对每个人员信息,若检测得到该人员信息中存在异常的样本数据的数量大于第一预设阈值,则剔除该存在异常的样本数据,否则,对该存在异常的样本数据进行填补处理。
[0093] 其中,第一预设阈值可以是50%、60%、70%......可以理解的是,若第一预设阈值为50%,则表示人员信息中存在异常的样本数据的数量占总数量的一半。第一预设阈值越大,表示人员信息中存在异常的样本数据的数量占总数量的数量越大。因此,为了使得处理后的数据是可以为识别人员危险度提供价值的数据,第一预设阈值需要设定在合理范围内,不应过大或过小。
[0094] 作为一种可选的实施方式,对于存在异常的样本数据中的数值类型的缺失数据,可以使用平均值或中位数填补的方式进行处理,例如,历史标识人员或普通人员与其他有盗窃、抢劫或诈骗前科的人员在近三个月内的通话的时长。而对于存在异常的样本数据中除此之外的离散型的数据,则可以使用第一预设数值:“1”或“0”进行填补。例如,历史标识人员或普通人员有无涉毒前科、待识别人员是否与有涉毒前科的人员有寄快递的记录等等。
[0095] 作为另一种可选的实施方式,填补处理的方式还可以是,对于存在异常的样本数据中的数值类型的缺失数据采取热卡填充或聚类填充法进行处理。例如,使用就近补充的方式或K最近距离领法,将最接近的数据填充至缺失数据。
[0096] 作为又一种可选的实施方式,为了更好的获得有效的数据,在上述方法的基础上,还可以进一步检测填补处理后的各人员信息中包括的身份证号码是否符合第一预设规范,若不符合,则剔除所述身份证号码。
[0097] 同时,检测填补处理后的各人员信息中包括的手机号码是否符合第二预设规范,若不符合,则剔除所述手机号码。
[0098] 由于身份证号码与手机号码具有一定的规律性,同时还是识别人员信息的重要数据,因此,在进行了上述的剔或填补处理后,本申请实施例中还对人员信息中的手机号码及身份证号码进行了进一步预处理,使得获取到的数据的可用性更强。
[0099] 其中,第一预设规范可根据有关身份证号码编排的规定来制定,例如,身份证号码由17位数字本体码和一位数字校验码组成,排列顺序从左至右依次为:6位数字地址码,8位数字出生日期码,3位数字顺序码和1位数字校验码。其中,顺序码的奇数分给男性,偶数分给女性。若已知待预测人员李四为男性,但其身份证号码的3位数字顺序码为偶数,则可以确定该身份证号码不符合第一预设规范,需要剔除该身份证号码。
[0100] 可以理解的是,第二预设规范也与身份证号码类似,可根据有关手机号码编排的规定来制定,在此不做赘述。
[0101] 如此,通过填补处理或剔除处理,使得存在异常的样本数据得到处理,提高了后续利用该填补处理或剔除处理后的数据建立的危险度预测模型的准确度。
[0102] 进一步地,预设的标准化处理方法可以是,根据异常数据检测后的各人员信息的均值及标准差,按以下公式对各所述人员信息进行标准化处理:
[0103]
[0104] 其中,μ为进行剔除或填补处理后的人员信息的均值,σ为进行剔除或填补处理后的历史录取数据的标准差。
[0105] 作为另一种实施方式,本申请实施例中还可以根据最小-最大标准化,对所述人员信息进行标准化处理,具体公式如下:
[0106]
[0107] 其中,min为进行剔除或填补处理后的人员信息的最小值,max为进行剔除或填补处理后的人员信息的最大值。
[0108] 如此,通过预设的标准化方法对进行剔除或填补处理后的人员信息进行标准化处理,提高了后续利用该标准化处理后的数据建立的危险度预测模型的准确度。
[0109] 请结合参阅图5,作为一种可选的实施方式,可通过以下步骤S310-步骤S350建立危险度预测模型。
[0110] 步骤S310,针对所述人员信息训练集,使用逻辑回归算法建立危险度预测模型。
[0111] 步骤S320,将所述人员信息测试集输入所述危险度预测模型,获得所述人员信息测试集中各历史标识人员和各普通人员的危险度预测数值。
[0112] 步骤S330,统计危险度预测数值大于第二预设数值的各历史标识人员和各普通人员的数量,并根据该数量计算预测的准确率。
[0113] 步骤S340,比较所述准确率是否小于第二预设阈值。若所述准确率小于所述第二预设阈值,则再次使用所述人员信息训练集训练所述危险度预测模型,直至所述准确率大于或等于所述第二预设阈值。
[0114] 步骤S350,得到建立好的危险度预测模型。
[0115] 其中,逻辑回归算法(Logistic Regression,LR)是一种由监督的学习分类模型,逻辑回归的作用是用于估计事件发生的概率,例如可以预测有盗窃、抢劫或诈骗前科的人员在出狱后再犯罪的概率。使用逻辑回归算法所构建的危险度预测模型如下:
[0116]
[0117] 其中,ρ是感兴趣结果的估计条件概率(例如再犯罪的概率),β0是常数项,β1、β2、….,i是预测自变量xi所对应的逻辑偏回归系数,对于是否再犯罪两种分类,逻辑回归默认的分类概率阈值(即上述第二预设数值)为0.5,即,如果某个有盗窃、抢劫或诈骗的人员在出狱后再犯罪的概率大于或等于0.5,就认为他会再犯罪。
[0118] 然而,可以理解的是,在实际应用中,不同的情况可以选择不同的第二预设数值,如果对预测的准确性要求高,可以选择第二预设数值大一些。如果对预测的准确性要求低,则可以选择第二预设数值小一些,例如,为了提高安全监管平,最大程度上降低服刑人员回归社会后的再犯罪率,在预测服刑人员的再犯罪危险度时,应该选择更小的第二预设数值,来尽可能最大限度上预测出那些具有再犯罪危险性的人员。
[0119] 作为另一种实施方式,还可以选择其他方法建立危险度预测模型,例如,决策树算法或神经网络(neural networks,NN)算法。
[0120] 其中,决策树算法是一种预测模型,同样可以用于预测人员是否再犯罪。利用决策树算法建立的危险度预测模型为:
[0121]
[0122] 其中,xpq代表第p个人员信息的第q个样本数据值,Epq是第p个人员信息的所有样本数据值的均值。
[0123] 神经网络算法则是借鉴了生物神经网络的工作原理而形成的一种非线性机器学习模型,其具体原理可参照现有技术,在此不做赘述。
[0124] 进一步地,上述第二预设阈值可根据人员信息测试集确定。例如,若人员信息测试集中包括1000名历史标识人员以及普通人员的人员信息,其中,历史标识人员的人员信息为900份,普通人员的人员信息为100份,则可以将第二预设阈值设置为90%。
[0125] 作为一种可能的情况,当统计获得的危险度预测数值大于第二预设数值的各历史标识人员和普通人员的数量为700人,则计算获得预测的准确率为70%。由于该预测的准确率70%低于第二预设阈值90%。因此,可以知道当前的危险度预测模型的准确率较低,并没有达到预想的预测效果,则再次使用所述人员信息训练集训练所述危险度预测模型,直至准确率大于或等于所述第二预设阈值。
[0126] 例如,当统计获得的危险度预测数值大于第二预设数值的各历史标识人员和普通人员的数量为950人,则计算获得预测的准确率为95%。由于该预测的准确率95%高于第二预设阈值90%,则可以知道当前的危险度预测模型的准确率较高,已达到预想的预测效果。可以使用当前的危险度预测模型进行人员的危险度预测。
[0127] 又例如,当统计获得的危险度预测数值大于第二预设数值的各历史标识人员和普通人员的数量为900人,则计算获得预测的准确率为90%。由于该预测的准确率95%等于第二预设阈值90%,则可以知道当前的危险度预测模型的准确率较高,已达到预想的预测效果。可以使用当前的危险度预测模型进行人员的危险度预测。
[0128] 可以理解的是,上述第二预设阈值还可以根据其他方式确定,例如,可以是经过多次实验获得的经验值等等,在此不做限定。
[0129] 本申请实施例通过将人员信息分为人员信息训练集和人员信息测试集,先针对人员信息训练集通过预设的算法建立危险度预测模型,再通过人员测试集去获得危险度预测模型的准确率,直至危险度预测模型的准确度达到预想效果,提高了危险度预测模型进行预测人员危险度的准确性。
[0130] 请结合参阅图6,本申请实施例还提供了一种人员危险度预测装置130,所述装置包括:
[0131] 获取模块131,用于获取待预测人员的待预测信息。
[0132] 预测模块132,用于基于预先建立的危险度预测模型,根据所述待预测信息进行危险度预测,得到所述待预测人员的危险度数值。
[0133] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的人员危险度预测装置130的具体原理,可以参考前述方法中的对应过程,在此不再过多赘述。
[0134] 本实施例还提供了一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被执行时实现上述的人员危险度预测方法。
[0135] 综上所述,本申请实施例提供了一种人员危险度预测方法、装置、电子设备和可读存储介质,该人员危险度预测方法首先获取待预测人员的待预测信息,然后,基于预先建立的危险度预测模型,根据所述待预测信息进行危险度预测,得到所述待预测人员的危险度数值,如此,提高了识别违法人员的危险度的效率,降低了识别违法人员危险度的难度。
[0136] 以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈