首页 / 专利库 / 人工智能 / 人工神经网络 / 基于人机交互行为特征的用户身份属性检测方法

基于人机交互行为特征的用户身份属性检测方法

阅读:626发布:2021-05-16

专利汇可以提供基于人机交互行为特征的用户身份属性检测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 人机交互 行为特征的用户身份属性检测方法,通过分析用户与智能计算系统交互过程中操作人机交互设备(例如 鼠标 、 键盘 、 触摸屏 等)所产生的人机交互行为,提取人机交互行为特征,并基于人机交互特征建立用户的身份属性模板,对用户的身份属性(性别、年龄、种族等)进行检测和判别。本发明方法的优点在于:人机交互行为填补了在智能计算系统中对操作者身份属性进行分析的空白,为计算机及移动网络用户信息 感知 分析提供了一种全新的思路。此外,本发明可以在用户与智能计算系统交互过程中对用户进行持续的分析,且不会对用户的正常行为产生干扰。,下面是基于人机交互行为特征的用户身份属性检测方法专利的具体信息内容。

1.一种基于人机交互行为特征的用户身份属性检测方法,其特征在于,包括建立身份属性模型和检测身份属性两个部分:
(1)建立身份属性模型,包括下述步骤:
第一步,在计算机及智能手机用户正常使用人机交互设备的过程中,采集并记录用户的人机交互行为数据,包括鼠标交互行为数据、击键交互行为数据、触摸交互行为数据;
第二步,针对所有计算机及智能手机用户,定义身份属性的种类,及每种身份属性的划分类别;
第三步,以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据;根据用户的身份属性的种类及每种身份属性的划分对这些行为数据块进行标记;
第四步,针对每个标记的数据块,提取并标记人机交互行为特征向量,将不同数据块中的人机交互行为特征向量组合形成用户的身份属性特征向量训练集;
第五步,针对每种身份属性,根据身份属性种类的标记,得到每个身份属性对应的特征向量训练集;根据每个身份属性划分类别的标记,得到训练集中每个特征向量的标记;分别将每个身份属性对应的特征向量训练集作为训练样本,同时将训练集中特征向量的标记作为训练样本的标记,对每个身份属性分别构建身份属性模型;
(2)检测身份属性,包括下述步骤:
第一步,用户登入计算机或智能手机后,捕获当前用户的人机交互行为,以长度T为周期,获取T内用户人机交互行为数据并提取对应的人机交互行为特征向量,进而生成对应每个身份属性的特征向量;
第二步,对当前用户的身份属性进行检测:将生成的身份属性特征向量作为已建立的身份属性推测模型的输入,得到用户身份属性的检测值,对用户的身份属性进行判断。
2.根据权利要求1所述的基于人机交互行为特征的用户身份属性检测方法,其特征在于,所述建立身份属性模型部分第四步中形成用户的身份属性特征向量训练集的具体步骤如下:
第一步,在观测时间长度为T的人机交互行为数据块中,遍历人机交互事件序列,依次分离出不同类型的交互行为事件,包括鼠标交互行为事件、击键交互行为事件、触摸交互行为事件;
第二步,针对不同类型的交互行为事件,提取交互行为特征向量,包括鼠标行为特征向量、击键行为特征向量、触摸行为特征向量;
第三步,将不同数据块中的人机交互行为特征向量组合在一起,形成身份属性特征向量训练集。
3.根据权利要求1所述的基于人机交互行为特征的用户身份属性检测方法,其特征在于,所述计算机或智能手机用户产生的人机交互行为数据为基本人机交互事件组成的序列,基本人机交互事件的格式为:{交互时间戳,交互屏幕位置,包括鼠标、键盘、或触摸板的交互设备类型,交互事件类型}。
4.根据权利要求1所述的基于人机交互行为特征的用户身份属性检测方法,其特征在于,所述身份属性是指计算机及智能手机用户所固有的生理或行为特性,包括用户的性别、年龄、种族、语言、左右手使用习惯、文化程度、计算机使用熟练程度、职业、手指健康状况。
5.根据权利要求1所述的基于人机交互行为特征的用户身份属性检测方法,其特征在于,所述建立身份属性模型由一种或多种分类器联合实现,所述分类器包括加权随机森林分类器、人工神经网络分类器、支持向量机分类器。
6.根据权利要求5所述的基于人机交互行为特征的用户身份属性检测方法,其特征在于,由加权随机森林分类器建立身份属性模型的具体步骤为:
1)初始化训练样本集中特征样本的个数为N,每个特征样本中特征分量的个数为M,决策树的个数为P,每个决策树的决策特征的个数为m,m远小于M;
2)为了消除不同的特征量纲的影响,将各维特征向量进行归一化处理,将其取值限制在[0,1]之间;
3)使用Bagging算法对N个特征样本取样P次,得到P个特征集合;
4)对每一个随机树随机选取一个特征集合,并对该决策树进行评估及误差分析,对于树中的每一个节点,随机选择m个基于此点的特征分量,并针对不同类别的特征样本,赋予不同的权值以寻找最佳的分割方式;
5)根据分类效果最好的特征节点将节点划分为两个分支,再递归调用步骤4)直到这棵树能够准确分类训练样本集,或所有属性都已经被使用过;决策树完整成长之后,不对其进行剪枝
6)重复步骤3)、4)、5)直到建立了全部P棵决策树;
7)采用基于加权的多数投票的方法来综合决定多个决策树的分类结果,即得到加权随机森林分类器的分类结果。

说明书全文

基于人机交互行为特征的用户身份属性检测方法

技术领域

[0001] 本发明涉及一种计算机及移动网络用户信息感知分析技术,特别涉及一种基于计算机及智能手机用户人机交互行为特征的身份属性检测方法。

背景技术

[0002] 随着社会信息化、网络化大潮的推进,在计算机及移动网络中对用户信息的感知分析变得越来越重要。一方面,在电子商务、网络行等网络虚拟化经济活动中,商家迫切希望能够尽量充分的了解客户,以提供针对性的商品或服务从而提高商业活动的成功率;另一方面,计算机网络和移动网络信息犯罪活动也越来越严重,提取和分析存在于计算网络系统中的电子证据进而确定操作者的性别、年龄、种族、语言等身份属性能够为网络犯罪活动的发现和遏制提供重要的帮助。
[0003] 近年来,有研究人员提出基于生物特征检测用户的信息或身份属性,他们根据人脸、指纹、虹膜、掌纹等生理特征对用户的性别、年龄、种族等信息进行检测,但是此类方法需要使用特定的生物信息采集设备,如摄像头、指纹传感器等,不适用于现有的计算网络环境。目前还没有可以在现有的计算网络环境中大规模应用的分析检测用户身份属性的技术或方法。
[0004] 针对上述需求,本发明提出一种基于人机交互行为特征来分析检测用户身份属性的技术或方法。

发明内容

[0005] 本发明的目的是提供一种基于人机交互行为特征的计算机及智能手机用户身份属性检测技术,特别是利用用户操作人机交互设备过程中所产生的交互行为特征作为依据来检测操作者的身份属性的方法。
[0006] 为达到以上目的,本发明是采取如下技术方案予以实现的:
[0007] 一种基于人机交互行为特征的用户身份属性检测方法,其特征在于,包括建立身份属性模型和检测身份属性两个部分:
[0008] (1)建立身份属性模型,包括下述步骤:
[0009] 第一步,在计算机及智能手机用户正常使用人机交互设备的过程中,采集并记录用户的人机交互行为数据,包括鼠标交互行为数据、击键交互行为数据、触摸交互行为数据;
[0010] 第二步,针对所有计算机及智能手机用户,定义身份属性的种类,及每种身份属性的划分类别;
[0011] 第三步,以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据;根据用户的身份属性的种类及每种身份属性的划分对这些行为数据块进行标记;
[0012] 第四步,针对每个标记的数据块,提取并标记人机交互行为特征向量,将不同数据块中的人机交互行为特征向量组合形成用户的身份属性特征向量训练集;
[0013] 第五步,针对每种身份属性,根据身份属性种类的标记,得到每个身份属性对应的特征向量训练集;根据每个身份属性划分类别的标记,得到训练集中每个特征向量的标记;分别将每个身份属性对应的特征向量训练集作为训练样本,同时将训练集中特征向量的标记作为训练样本的标记,对每个身份属性分别构建身份属性模型。
[0014] (2)检测身份属性,包括下述步骤:
[0015] 第一步,用户登入计算机或智能手机后,捕获当前用户的人机交互行为,以长度T为周期,获取T内用户人机交互行为数据并提取对应的人机交互行为特征向量,进而生成对应每个身份属性的特征向量;
[0016] 第二步,对当前用户的身份属性进行检测:将生成的身份属性特征向量作为已建立的身份属性推测模型的输入,得到用户身份属性的检测值,对用户的身份属性进行判断。
[0017] 上述方法中,所述建立身份属性模型部分第四步中形成用户的身份属性特征向量训练集的具体步骤如下:
[0018] (1)在观测时间长度为T的人机交互行为数据块中,遍历人机交互事件序列,依次分离出不同类型的交互行为事件,包括鼠标交互行为事件、击键交互行为事件、触摸交互行为事件;
[0019] (2)针对不同类型的交互行为事件,提取交互行为特征向量,包括鼠标行为特征向量、击键行为特征向量、触摸行为特征向量;
[0020] (3)将不同数据块中的人机交互行为特征向量组合在一起,形成身份属性特征向量训练集。
[0021] 所述计算机或智能手机用户产生的人机交互行为数据为基本人机交互事件组成的序列,基本人机交互事件的格式为:{交互时间戳,交互屏幕位置,包括鼠标、键盘、或触摸板的交互设备类型,交互事件类型}。
[0022] 所述身份属性是指计算机及智能手机用户所固有的生理或行为特性,包括用户的性别、年龄、种族、语言、左右手使用习惯、文化程度、计算机使用熟练程度、职业、手指健康状况。
[0023] 所述建立身份属性模型由一种或多种分类器联合实现,所述分类器包括加权随机森林分类器、人工神经网络分类器、支持向量机分类器。其中,由加权随机森林分类器建立身份属性模型的具体步骤为:
[0024] 1)初始化训练样本集中特征样本的个数为N,每个特征样本中特征分量的个数为M,决策树的个数为P,每个决策树的决策特征的个数为m,m远小于M;
[0025] 2)为了消除不同的特征量纲的影响,将各维特征向量进行归一化处理,将其取值限制在[0,1]之间;
[0026] 3)使用Bagging算法对N个特征样本取样P次,得到P个特征集合;
[0027] 4)对每一个随机树随机选取一个特征集合,并对该决策树进行评估及误差分析,对于树中的每一个节点,随机选择m个基于此点的特征分量,并针对不同类别的特征样本,赋予不同的权值以寻找最佳的分割方式;
[0028] 5)根据分类效果最好的特征节点将节点划分为两个分支,再递归调用步骤4)直到这棵树能够准确分类训练样本集,或所有属性都已经被使用过;决策树完整成长之后,不对其进行剪枝
[0029] 6)重复步骤3)、4)、5)直到建立了全部P棵决策树;
[0030] 7)采用基于加权的多数投票的方法来综合决定多个决策树的分类结果,即得到加权随机森林分类器的分类结果。
[0031] 本发明以人机交互事件序列的形式描述用户在人机交互过程中体现出的行为特性,以此来检测操作者的身份属性,为计算机及移动网络用户信息感知分析提供了一种全新的思路。其优点是:首先,身份属性分析所需数据可从人机交互过程中直接获得,无需配备额外的仪器以及设备;其次,身份属性分析是基于人机交互行为特征,无需记忆或携带,很难进行模仿和伪造;另外,在计算机用户和智能手机用户操作设备的过程中可以持续捕获用户操作所产生的人机交互信息,因此可以基于人机交互行为特征持续对用户身份属性进行判断分析,而且不会干扰用户的正常行为,具有广泛的安全性和适用性。附图说明
[0032] 下面结合附图和具体实施方式对本发明做进一步的详细描述。
[0033] 图1是本发明方法的步骤框图
[0034] 图2是本发明方法中人机交互行为的身份属性特征生成步骤框图。
[0035] 图3是本发明方法中基于加权随机森林的身份属性模型建立方法步骤框图。
[0036] 图4是采用本发明方法检测计算机用户身份属性的实验结果图。图中黑色的错误条表示在20次随机数据采样后的身份属性准确率的标准差。

具体实施方式

[0037] 系统结构
[0038] 参见图1,本发明基于人机交互行为特征的计算机及智能手机用户身份属性检测方法,可用于电子商城、网络银行等电子商务活动中用户身份属性感知,以提供针对性的商品或服务;也可用于企业信息系统中的信息取证分析,对重要信息系统进行安全保护。本发明包含建立身份属性模型和身份属性检测两个部分,具体的实施步骤如下:
[0039] 1)建立身份属性模型部分包括下述步骤:
[0040] (1)在计算机及智能手机用户正常使用人机交互设备的过程中,采集并记录用户的人机交互行为数据,包括鼠标交互行为数据、击键交互行为数据、触摸交互行为数据,进而形成身份属性模型建立所需的交互行为数据集;基本人机交互数据的格式为:{交互时间戳,交互屏幕位置,交互类型,交互事件类型},交互类型包括鼠标交互、键盘交互和触摸屏交互,交互事件类型包括鼠标点击和移动事件、键盘击键事件、手指在触摸屏上的按压和触摸移动事件;
[0041] (2)针对所有计算机及智能手机用户,定义身份属性的种类,及每种身份属性的划分类别;
[0042] (3)以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块;根据用户的身份属性的种类及每种身份属性的划分对这些行为数据块进行标记;
[0043] (4)针对每个标记的数据块,提取并标记人机交互行为特征向量,包括鼠标行为特征向量、击键行为特征向量、触摸行为特征向量。其中鼠标行为特征向量是指由鼠标移动产生的时空轨迹曲线及鼠标点击等操作所衍生出的一系列行为测量量,可以使用一次移动的轨迹曲线,速度曲线加速度曲线、平均移动速度与距离的关系,平均移动速度与方向的关系,平均移动加速度与距离的关系,平均移动加速度与方向的关系,移动轨迹距离与位移的比值作为特征;击键行为特征向量是指由键盘各键按下和弹起事件所组成的时间序列衍生得到的一系列行为测量量,可以使用单键按键的持续时间和相邻按键的间隔时间作为特征;触摸行为特征向量是指手指在触摸屏上移动产生的时空轨迹曲线及按压等操作所衍生出的一系列行为测量量,可以使用屏幕触摸压、触摸点击时间、触摸移动轨迹、触摸移动速度曲线、触摸移动时间作为特征。将不同数据块中的人机交互行为特征向量组合在一起,形成用户的身份属性特征向量训练集;
[0044] (5)针对每个身份属性(用户的性别、年龄、种族、语言、左右手使用习惯、文化程度、计算机使用熟练程度、职业、手指健康状况等属性),根据身份属性种类的标记,得到每个身份属性对应的特征向量训练集;根据每个身份属性划分类别的标记,得到训练集中每个特征向量的标记;分别将每个身份属性对应的特征向量训练集作为训练样本,同时将训练集中特征向量的标记作为训练样本的标记,对每个身份属性分别构建基于加权随机森林的身份属性检测模型。以用户的性别属性检测模型为例,将带有性别标记的特征向量训练集作为模型的训练数据,将性别属性的检测视为一个二分类问题(男或女),从而构建基于人机交互行为的性别属性检测模型。
[0045] 2)身份属性检测部分包括下述步骤:
[0046] (1)在用户使用计算机或智能手机等智能系统的过程中,捕获当前用户的人机交互行为,以长度T(T一般可以设为30秒或更长时间)为周期,获取T内用户人机交互数据并提取行为特征,生成身份属性特征向量;
[0047] (2)将生成的身份属性特征向量作为身份属性检测模型的输入,得到用户身份属性的检测值,将该检测值与对应的身份属性模型的阈值ε(ε根据模型训练的精度进行选取,一般可设定为50%)进行比较,判别用户相应的身份属性。以用户的性别属性检测为例,将从T时间周期内提取的对应性别的身份属性向量作为已建立的性别属性检测模型的输入,得到该模型的检测值,将检测值与对应的阈值进行比较,若检测值大于阈值,则判定当前用户的性别为男性;若检测值小于阈值,则判定当前用户的性别为女性。
[0048] 基于加权随机森林的身份属性检测模型
[0049] 上述1)建立身份属性模型部分的第(5)步中基于加权随机森林的身份属性检测模型建立过程参见图3,具体步骤如下:
[0050] (1)初始化训练特征集中特征样本的个数为N,每个特征样本中特征分量的个数为M,决策树的个数为P,每个决策树的决策特征的个数为m(m远小于M);
[0051] (2)为了消除不同的特征量纲的影响,将各维特征向量进行归一化处理,将其取值限制在[0,1]之间;
[0052] (3)使用Bagging算法对N个特征样本取样P次,得到P个特征集合;
[0053] (4)对每一个随机树随机选取一个特征集合,并对该决策树进行评估及误差分析。对于树中的每一个节点,随机选择m个基于此点的特征分量,并针对不同类别的特征样本,赋予不同的权值以寻找最佳的分割方式;
[0054] (5)根据分类效果最好的特征节点将节点划分为两个分支,再递归调用步骤(4)直到这棵树能够准确分类训练样本集,或所有属性都已经被使用过;决策树完整成长之后,不对其进行剪枝;
[0055] (6)重复步骤(3)、(4)、(5)直到建立了全部P棵决策树;
[0056] (7)采用基于加权的多数投票的方法来综合决定多个决策树的分类结果,即得到了加权随机森林分类器的分类结果。
[0057] 决策特征变量个数的选择方法、最佳的分割方式的描述
[0058] “基于加权随机森林的身份属性检测模型”的第(1)步中决策特征变量个数m的选择是指在构造每棵决策树是需从特征样本中随机选取m维特征,并在这m维特征中选取分类效果最好的特征节点。在整个随机森林的构造过程中m是一个常数,我们选取m=int(log2m+1),其中int是取整函数。
[0059] 第(4)步中最佳的分割方式是指使每个节点上的分类数据尽可能来自同一类别,从而使每个节点的不纯度达到最小的分割方式(当某节点i上的分类数据全部来自于同一类别,则该节点的不纯度为0)。在每棵决策树构造的过程中,其生成遵循自顶向下的递归分裂原则,即从根节点开始依次对训练集进行划分。对于每个节点,按照节点不纯度最小原则,分裂为左节点和有节点,它们分别包含训练数据的一个子集,按照同样的规则使节点继续分裂,直到分支停止生长。若节点i上的分类数据均来自于同一类别,则该节点的不纯度I(i)=0。不纯度的度量方法是基于Gini不纯度准则的,即假设P(wj)是节点i上属于wj类样本个数占训练样本总数的频率,则Gini不纯度准则表示为:
[0060]
[0061] 基于加权多数投票的决策方法
[0062] “基于加权随机森林的身份属性检测模型”的第(7)步中基于加权的多数投票的方法是指对特征样本数目少的类别赋予更大的权值。在身份属性检测过程中,以性别信息的检测为例(2类分类问题:男或女),一个样本x经过每个决策树分类器Ti后,就会产生2个输出结果,为2个置信度值,c∈{1,2},每个置信度p(f(x)=j)表示了该样本x属于第j类的概率值,最终的判决基于所有决策树结果的加权值,如下式所示。
[0063]
[0064] 其中权值αi的具体计算方法为该类别的投票数乘以针对该类别的重复采样的次数,并对其进行归一化。
[0065] 最后,将得到的决策值与决策阈值ε进行比较,对用户的身份属性进行判别。若F≥ε,则当前用户的性别为男性;若F<ε,则当前用户的性别为女性。其中,ε的选取可在模型训练时采用交叉验证,通过不断变化ε的取值进行调整和优化,以取得较好的模型训练结果。
[0066] 根据本发明检测性别属性的步骤
[0067] 第一步,定义性别属性的类别,在本实施例中将性别属性划分为2类:第一类为男性用户;第二类为女性用户。
[0068] 第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的性别属性对这些行为数据块进行标记。
[0069] 第三步,生成性别属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有性别属性标记的性别属性特征向量训练集;该性别属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
[0070] 第四步,建立性别属性检测模型。将性别属性的检测问题视为2分类的问题,以性别属性对应的特征向量训练集作为训练样本,同时以每个特征向量的性别标记作为训练样本的标记,对性别属性构建基于加权随机森林的身份属性检测模型。
[0071] 第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取性别属性对应的特征向量。
[0072] 第六步,生成性别属性的检测结果。将生成的性别属性对应的特征向量作为已建立的性别属性检测模型的输入,得到用户性别属性的检测值;将该检测值与决策阈值进行比较,对用户的性别属性进行判断。
[0073] 根据本发明检测年龄属性的步骤
[0074] 第一步,定义年龄属性的类别,在本实施例中将年龄属性划分为3类:第一类为年龄小于30岁的用户;第二类为年龄在30岁到60岁之间的用户;第三类为大于60岁的用户。
[0075] 第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的年龄属性对这些行为数据块进行标记。
[0076] 第三步,生成年龄属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有年龄属性标记的年龄属性特征向量训练集;该年龄属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
[0077] 第四步,建立年龄属性检测模型。将年龄属性的检测问题视为3分类的问题,以年龄属性对应的特征向量训练集作为训练样本,同时以每个特征向量的年龄标记作为训练样本的标记,对年龄属性构建基于加权随机森林的身份属性检测模型。
[0078] 第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取年龄属性对应的特征向量。
[0079] 第六步,生成年龄属性的检测结果。将生成的年龄属性对应的特征向量作为已建立的年龄属性检测模型的输入,得到用户年龄属性的检测值;将该检测值与决策阈值进行比较,对用户的年龄属性进行判断。
[0080] 根据本发明检测语言属性的步骤
[0081] 第一步,定义语言属性的类别,在本实施例中将语言属性划分为2类:第一类为英语为母语的用户;第二类为非英语为母语的用户。
[0082] 第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的语言属性对这些行为数据块进行标记。
[0083] 第三步,生成语言属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有语言属性标记的语言属性特征向量训练集;该语言属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
[0084] 第四步,建立语言属性检测模型。将语言属性的检测问题视为2分类的问题,以语言属性对应的特征向量训练集作为训练样本,同时以每个特征向量的语言标记作为训练样本的标记,对语言属性构建基于加权随机森林的身份属性检测模型。
[0085] 第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取语言属性对应的特征向量。
[0086] 第六步,生成语言属性的检测结果。将生成的语言属性对应的特征向量作为已建立的语言属性检测模型的输入,得到用户语言属性的检测值;将该检测值与决策阈值进行比较,对用户的语言属性进行判断。
[0087] 根据本发明检测左右手使用习惯属性的步骤
[0088] 第一步,定义左右手使用习惯属性的类别,在本实施例中将左右手使用习惯属性划分为2类:第一类为以左手为习惯操作人机交互设备的用户;第二类为以右手为习惯操作人机交互设别的用户。
[0089] 第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的左右手使用习惯属性对这些行为数据块进行标记。
[0090] 第三步,生成左右手使用习惯属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有左右手使用习惯属性标记的左右手使用习惯属性特征向量训练集;该左右手使用习惯属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
[0091] 第四步,建立左右手使用习惯属性检测模型。将左右手使用习惯属性的检测问题视为2分类的问题,以左右手使用习惯属性对应的特征向量训练集作为训练样本,同时以每个特征向量的左右手使用习惯标记作为训练样本的标记,对左右手使用习惯属性构建基于加权随机森林的身份属性检测模型。
[0092] 第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取左右手使用习惯属性对应的特征向量。
[0093] 第六步,生成左右手使用习惯属性的检测结果。将生成的左右手使用习惯属性对应的特征向量作为已建立的左右手使用习惯属性检测模型的输入,得到用户左右手使用习惯属性的检测值;将该检测值与决策阈值进行比较,对用户的左右手使用习惯属性进行判断。
[0094] 根据本发明检测文化程度属性的步骤
[0095] 第一步,定义文化程度属性的类别,在本实施例中将文化程度属性划分为3类:第一类为文化程度在小学及以下的用户;第二类为文化程度在初中到高中的用户;第三类为文化程度在大学及以上的用户。
[0096] 第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的文化程度属性对这些行为数据块进行标记。
[0097] 第三步,生成文化程度属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有文化程度属性标记的文化程度属性特征向量训练集;该文化程度属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
[0098] 第四步,建立文化程度属性检测模型。将文化程度属性的检测问题视为3分类的问题,以文化程度属性对应的特征向量训练集作为训练样本,同时以每个特征向量的文化程度标记作为训练样本的标记,对文化程度属性构建基于加权随机森林的身份属性检测模型。
[0099] 第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取文化程度属性对应的特征向量。
[0100] 第六步,生成文化程度属性的检测结果。将生成的文化程度属性对应的特征向量作为已建立的文化程度属性检测模型的输入,得到用户文化程度属性的检测值;将该检测值与决策阈值进行比较,对用户的文化程度属性进行判断。
[0101] 根据本发明检测计算机使用熟练程度属性的步骤
[0102] 第一步,定义计算机使用熟练程度属性的类别,在本实施例中将计算机使用熟练程度属性划分为3类:第一类为非常不熟练的用户(没有相应人机交互设备使用经历);第二类为一般熟练的用户(使用相应人机交互设备在1个月到3个月之间);第三类为非常熟练的用户(使用相应人机交互设备超过3个月)。
[0103] 第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的计算机使用熟练程度属性对这些行为数据块进行标记。
[0104] 第三步,生成计算机使用熟练程度属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有计算机使用熟练程度属性标记的计算机使用熟练程度属性特征向量训练集;该计算机使用熟练程度属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
[0105] 第四步,建立计算机使用熟练程度属性检测模型。将计算机使用熟练程度属性的检测问题视为3分类的问题,以计算机使用熟练程度属性对应的特征向量训练集作为训练样本,同时以每个特征向量的计算机使用熟练程度标记作为训练样本的标记,对计算机使用熟练程度属性构建基于加权随机森林的身份属性检测模型。
[0106] 第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取计算机使用熟练程度属性对应的特征向量。
[0107] 第六步,生成计算机使用熟练程度属性的检测结果。将生成的计算机使用熟练程度属性对应的特征向量作为已建立的计算机使用熟练程度属性检测模型的输入,得到用户计算机使用熟练程度属性的检测值;将该检测值与决策阈值进行比较,对用户的计算机使用熟练程度属性进行判断。
[0108] 根据本发明检测职业属性的步骤
[0109] 第一步,定义职业属性的类别,在本实施例中将职业属性划分为2类:第一类为计算机从业的用户;第二类为非计算机从业的用户。
[0110] 第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的职业属性对这些行为数据块进行标记。
[0111] 第三步,生成职业属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有职业属性标记的职业属性特征向量训练集;该职业属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
[0112] 第四步,建立职业属性检测模型。将职业属性的检测问题视为2分类的问题,以职业属性对应的特征向量训练集作为训练样本,同时以每个特征向量的标记作为训练样本的标记,对职业属性构建基于加权随机森林的身份属性检测模型。
[0113] 第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取职业属性对应的特征向量。
[0114] 第六步,生成职业属性的检测结果。将生成的职业属性对应的特征向量作为已建立的职业属性检测模型的输入,得到用户职业属性的检测值;将该检测值与决策阈值进行比较,对用户的职业属性进行判断。
[0115] 根据本发明检测手指健康属性的步骤
[0116] 第一步,定义手指健康属性的类别,在本实施例中将手指健康属性划分为2类:第一类为手指健康的用户;第二类为手指非健康的用户。
[0117] 第二步,捕获人机交互行为训练数据。以固定观测时间长度T为周期对记录的人机交互行为数据进行划分,形成多个时间长度为T的人机交互行为数据块,并根据用户的手指健康属性对这些行为数据块进行标记。
[0118] 第三步,生成手指健康属性的特征训练集。针对每个标记的数据块,提取并标记人机交互行为特征向量;将不同数据块中的人机交互行为特征向量组合在一起,形成带有手指健康属性标记的手指健康属性特征向量训练集;该手指健康属性特征训练集中的每个特征向量可以为整个人机交互行为特征向量,也可以为经过特征选择后的人机交互行为特征向量的子向量。
[0119] 第四步,建立手指健康属性检测模型。将手指健康属性的检测问题视为2分类的问题,以手指健康属性对应的特征向量训练集作为训练样本,同时以每个特征向量的标记作为训练样本的标记,对手指健康属性构建基于加权随机森林的身份属性检测模型。
[0120] 第五步,监控用户的实时人机交互行为数据并提取行为特征向量。在用户接入计算机或智能手机时,以观测时间T捕获新的人机交互行为数据;从时间长度为T的人机交互数据中提取手指健康属性对应的特征向量。
[0121] 第六步,生成手指健康属性的检测结果。将生成的手指健康属性对应的特征向量作为已建立的手指健康属性检测模型的输入,得到用户手指健康属性的检测值;将该检测值与决策阈值进行比较,对用户的手指健康属性进行判断。
[0122] 关于实施例中身份属性类别设定的说明
[0123] 在实施例中的身份属性类别设定,仅作为本发明内容的一种实施方案。实际应用中可以有其他的身份属性类别设定方案。如年龄属性也可以根据需要划分为4类:第一类为年龄小于15岁的用户;第二类为年龄在15-30岁之间的用户;第三类为大于30-50岁的用户,第四类为大于50岁的用户。此时只需要在建立身份属性检测模型过程中使用相同的类别设定,即可使用本发明所述的方法。
[0124] 根据本发明检测部分身份属性的实验结果
[0125] 通过收集58名用户的鼠标行为数据及51名用户的击键行为数据建立人机交互行为数据集。通过实验对本发明提出的方法与技术进行验证。表1列出了身份属性信息的检测结果。
[0126] 表1.身份属性信息检测的统计结果。
[0127]
[0128] *:上栏表示使用键盘行为进行性别检测的结果,下栏表示使用鼠标行为进行性别检测的结果。
[0129] 如表1及图4的实验结果所示,本发明提出的方法能够准确地对用户的身份属性信息进行检测。当利用人机交互信息对用户身份属性信息进行检测时,准确率均高于85%。当利用键盘交互数据对用户的种族信息进行检测时,相关的准确率为87.32%。该结果验证了本发明所提出方法的可行性,表明该方法可为计算机及移动网络用户信息感知分析提供一种有效的技术手段。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈