首页 / 专利库 / 商业 / 在线信誉 / 一种基于半监督学习的在线服务信誉度量方法

一种基于半监督学习的在线服务信誉度量方法

阅读:897发布:2020-05-24

专利汇可以提供一种基于半监督学习的在线服务信誉度量方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于半 监督学习 的在线服务信誉度量方法,属于 在线信誉 度量及在线服务领域,本发明方法首先对服务的属性评分矩阵R进行归一化处理并分析主成分,从而对服务属性进行 降维 ,然后综合服务多维度 属性信息 人工标注训练集并训练分类器模型,并基于改进半监督协同训练 算法 利用所得分类器对服务进行信誉分类,将分类后的服务和分类标签加入到训练集中重新训练分类器,最后利用得到的新的分类器对在线服务进行分类实现信誉度量,本发明通过建立对服务的多分类器模型实现对服务的信誉度量,同时在建模分类器时利用 半监督学习 算法将未标注服务加入到训练集重新训练分类器,实现在提升分类器模型分类性能的同时减少人工标注样本的成本。,下面是一种基于半监督学习的在线服务信誉度量方法专利的具体信息内容。

1.一种基于半监督学习的在线服务信誉度量方法,其特征在于,首先对服务的属性评分矩阵R进行归一化处理并分析主成分,从而对服务属性进行降维,然后综合服务多维度属性信息人工标注训练集并训练分类器模型,然后基于改进半监督协同训练算法利用所得分类器对服务进行信誉分类,将分类后的服务和分类标签加入到训练集中重新训练分类器,最后利用得到的新的分类器对在线服务进行分类实现信誉度量。
2.根据权利要求1所述的基于半监督学习的在线服务信誉度量方法,其特征在于:所述方法的具体步骤如下:
步骤(1)首先对服务的属性评分矩阵R进行归一化处理,并进行主成分分析:
(1.1)设服务集为S={s1,s2,…,si,…,sp}(1≤i≤p),每个服务样本的属性信息集为A={a1,a2,…,aj,…,aq}(1≤j≤q),采用随机抽样方法从服务集S中抽取部分样本作为训练集T,剩余样本作为测试集D,记服务标签集合Tg={t1,t2,…,tg,…,t5}(1≤g≤5),对训练集T中的部分服务样本用服务信誉标签进行人工标注,人工标注信誉标签后的服务样本作为标注训练集X,X={s1,s2,…,sL}(1<L<p),训练集T中未标注的服务样本记为未标注服务样本集Y,Y={y1,y2,…,yk},然后根据公式(1)对标注训练集X和未标注服务样本集Y中的每个服务样本的属性评分进行归一化处理,记未标注服务样本集Y中的服务yh,1≤h≤k,归一化处理后的属性评分为(r1,r2,…,rq),记标注训练集X的服务属性评分矩阵为R,其中Rij(1≤i≤p,1≤j≤q)表示对第i服务的第j个属性的评分,得到归一化后的评分矩阵其中,式(1)中 为所有服务属性j的最大值、 为所有服务属性j的最小值,
为对评分Rij归一化后的值;
(1.2)对归一化后的服务属性评分矩阵 进行主成分分析,得到决策主属性;
步骤(2)将服务信誉度量问题建模成对服务的分类问题,训练对服务分类的最优分类器模型:
(2.1)采用Bootstrap Sample采样方法,每次随机、等概率地从标注训练集X中抽取一个服务样本后放回,连续采样L次组成一个样本训练集记为X1,然后以同样的方式进行放回采样得到训练集X2、X3,利用CART决策树算法对三个训练集X1、X2、X3中的决策主属性进行训练得到三个不同的初始决策树分类器模型DT1、DT2、DT3;
然后基于半监督协同训练算法提出基于带距离约束的改进半监督协同训练算法对未标注服务集Y中的每一个服务yh进行预测,具体算法步骤为:
(2.11)首先利用DT2、DT3两个分类器对服务yh进行标签的分类预测,得到分类标签th2、th3且th2∈Tg、th3∈Tg,并判断分类结果th2和th3是否一致:
①如果tj2=tj3,表示分类器DT2、DT3对yj的分类结果相同,则将服务yj的预测信誉标签记为tj,tj∈Tg,且tj2=tj3=tj;
②如果th2≠th3,表示分类器DT2、DT3对yh的分类结果不相同,则将服务yh返回到服务集Y中;
然后对于结果①,计算服务yh与标注训练集X={s1,s2,…,sL}中的每个服务sl,l∈(1,L)之间欧氏距离 并求得与yh欧氏距离最近的服务sl,设服务sl的信誉标签为tn,欧氏距离公式如下:
比较服务yh的信誉标签th和服务sl的信誉标签tn,若th=tn,则将服务yh加入至样本训练集X1中,得到X′1,Y减少了服务yh得到Y′,若th≠tn,则样本训练集X1和未标注服务集Y不变,即如公式(5)所示:
且当th=tn时,对得到的新样本训练集X′1的决策主属性重新利用CART决策树算法训练得到新分类器;
(2.12)利用DT1、DT3两个分类器对服务yh进行标签的分类预测,重复步骤(2.11)的过程,得到新训练集X2′,利用CART决策树算法对新训练集X2′中的决策主属性训练得到新分类器;
(2.13)利用DT1、DT2两个分类器对Y={y1,y2,…,yk}中的服务yh进行标签的分类预测,重复步骤(2.11)的过程,得到新训练集X3′,利用CART决策树算法对新训练集X2′中的决策主属性训练得到新分类器;
在每次迭代得到的新分类器的基数上对样本集Y={y1,y2,…,yk}中的y1,y2,…,yk依次重复步骤2.11、2.12和2.13,直到将服务集Y中所有服务迭代完成,得到最终更新后的3个决策树分类器DT1′、DT2'、DT3′,利用这三个分类器模型DT1′、DT2'、DT3′基于少数服从多数的简单投票法则对Y={y1,y2,…,yk}中的服务yh进行信誉度量。
步骤(3)增加协同训练中决策树分类器数量,并对服务属性集随机采样,构造随机森林分类器进一步提高所训练分类器的分类性能,具体步骤为:
(3.1)基于Bootstrap Sample采样策略对标注训练集X再次进行采样,每采样L次组成一个样本训练集,重复此步骤采样,共采样出M个不同的训练集记为x1、x2、…、xM;
(3.2)对M个不同训练集中的每个服务样本的属性信息集A={a1,a2,…,ah,…,aq}(1≤j≤q)分别进行随机采样,采样出log2q个属性作为该M个不同训练集中所有服务的决策属性集;
(3.3)利用CART决策树算法基于步骤(3.2)中的决策属性集对步骤(3.1)中的出M个不同训练集x1、x2、…、xM训练,得到M个决策树分类器T1、T2、…、TM,然后利用少数服从多数的简单投票机制组成随机森林强分类器模型RF,并使用RF分类器对Y={y1,y2,…,yk}中的服务yh进行信誉标签预测,并将预测的服务yh及该服务预测的信誉标签共同依次加入至训练集x1、x2、…、xM中,得到新的训练集x1′、x2′、…、xM′,然后再利用CART决策树算法基于步骤(3.2)中的决策属性集对新的训练集x1′、x2′、…、xM′训练得到新的M个决策树分类器T1′、T2'、…、TM′,利用简单少数服从多数的投票机制组成新的随机森林强分类器模型RF',使用该新的随机森林模型RF'投票确定在线服务yh的分类信誉标签th,并将th作为服务信誉。
3.根据权利要求2所述的基于半监督学习的在线服务信誉度量方法,其特征在于:所述步骤(1)中(1.1)的采用随机抽样方法从服务集S中抽取70%样本作为训练集T,剩余30%样本作为测试集D,且对训练集T中的20%的服务样本用服务信誉标签进行人工标注,训练集T中剩余80%未标注的服务样本记为未标注服务样本集Y。

说明书全文

一种基于半监督学习的在线服务信誉度量方法

技术领域

[0001] 本发明涉及一种基于半监督学习的在线服务信誉度量方法,属于在线信誉度量以及在线服务领域。

背景技术

[0002] 近年来随着互联网和普适计算技术的不断成熟,在线服务因获取便利、操作简单、成本低廉而得到广泛应用,并成为当今服务产业发展的主要驱动。然而在面对大量相同功能的服务时用户难以合理选择,不仅要考虑功能方面的需求,还要考虑到非功能属性服务质量(Quality of Service,QoS)的需求。信誉作为衡量QoS的一个重要指标,在选择服务时已成为用户参考的主要信息之一。由于互联网的虚拟性、信息不对称性,以及网络环境的开放性、动态性,使得交易欺诈、虚假信息现象频发,不能保证服务提供者发布的信息都是客观、真实、可信的,因此,研究一种客观的在线服务信誉度量方法以反映服务的实际信誉状况,受到行业研究者的广泛关注。
[0003] 公知方法中基于单维度服务属性进行信誉的方法,例如,Amazon使用平均值法,根据用户反馈评分进行平均值度量服务的信誉;Song-feng(,2009)等通过用户对服务的评价获得直接信任值,通过推荐用户获取服务的间接信任值,最后整合直接信任值和间接信任值来计算出服务的信誉;Marsh(,1994)的在线信誉评价模型将信誉定义为[-1,1]上的主观实数,在此范围内设计了一组表述基本信誉和总体信誉的语义符号,进一步提出了度量情境信誉的公式集合。基于多维度信息进行信誉度量的方法,例如,Ye Diana Wang(,2005,21(1))从电子商务网站设计的度对在线信誉的影响因素进行研究,指出内容设计、社会因素、生动化设计和结构设计等影响在线信誉。Abdul-Rahman(,2000,6(s 1-2))的在线信誉评价模型根据现实社会中的信誉特征对信誉度进行4种不同的划分,在此基础上提出了基于信任机制的在线信誉评价模型;Mui(<35th Hawaii International Conference on System Sciences>,2002)的在线信誉评价模型运用贝叶斯概率的数学方法,描述了信任信誉以及它们之间的关系,通过交易主体的历史交易信息和信誉信息进行信誉度的推导。李浩,李胜等(<计算机应用与软件>,2015,10(32))针对电子商务主体信誉评价多维度的特点,提出一种多角色评价、制度信任、历史行为、第三方信用记录的多维度主体信誉模型。Guo L(<计算机科学技术学报(英文版)>,2015,30(3))等提出了一种基于用户属性的细度化声誉评价体系,将一个用户可以对服务体系中的其他用户的属性进行评价,而且在评价的过程中避开了用户身份的影响,从而提高服务评价的可信度。上述方法在一定程度上都可以实现在线服务信誉度量,但是局限性也显而易见。例如,基于单维度服务属性进行信誉度量的方法通过对用户评分进行简单的累加或者平均来获得服务的信誉度,而并不关注服务的各维度属性情况,导致信誉度量中粒度过粗。而利用多维度信息进行信誉度量的方法中,仅仅基于用户对服务的各属性评价信息进行度量,没有考虑服务自身的属性信息,如服务消费者保障、服务规模属性等对服务信誉度的影响,导致信誉度量中维度考虑不全。

发明内容

[0004] 本发明的目的在于提供了一种基于半监督学习的在线服务信誉度量方法,用以解决现有在线服务信誉度量中粒度过粗、维度考虑不全的缺陷,并且克服了人工标注服务训练集所带来成本过高的问题。
[0005] 本发明涉及的技术方案是:一种基于半监督学习的在线服务信誉度量方法,首先对服务的属性评分矩阵R进行归一化处理并分析主成分,从而对服务属性进行降维,然后综合服务多维度属性信息人工标注训练集并训练分类器模型,然后基于改进半监督协同训练算法利用所得分类器对服务进行信誉分类,将分类后的服务和分类标签加入到训练集中重新训练分类器,最后利用得到的新的分类器对在线服务进行分类实现信誉度量。
[0006] 所述基于半监督学习的在线服务信誉度量方法的具体步骤如下:
[0007] 步骤(1)首先对服务的属性评分矩阵R进行归一化处理,并进行主成分分析:
[0008] (1.1)设服务集为S={s1,s2,…,si,…,sp}(1≤i≤p),每个服务样本的属性信息集为A={a1,a2,…,aj,…,aq}(1≤j≤q),采用随机抽样方法从服务集S中抽取部分样本作为训练集T,剩余样本作为测试集D,记服务标签集合Tg={t1,t2,…,tg,…,t5}(1≤g≤5),对训练集T中的部分服务样本用服务信誉标签进行人工标注,人工标注信誉标签后的服务样本作为标注训练集X,X={s1,s2,…,sL}(1<L<p),训练集T中未标注的服务样本记为未标注服务样本集Y,Y={y1,y2,…,yk},然后根据公式(1)对标注训练集X和未标注服务样本集Y中的每个服务样本的属性评分进行归一化处理,记未标注服务样本集Y中的服务yh,1≤h≤k,归一化处理后的属性评分为(r1,r2,…,rq),记标注训练集X的服务属性评分矩阵为R,其中Rij(1≤i≤p,1≤j≤q)表示对第i服务的第j个属性的评分,得到归一化后的评分矩阵[0009]
[0010] 其中,式(1)中Rjmax为所有服务属性j的最大值、Rjmin为所有服务属性j的最小值,为对评分Rij归一化后的值;
[0011] (1.2)对归一化后的服务属性评分矩阵 进行主成分分析,得到决策主属性;
[0012] 步骤(2)将服务信誉度量问题建模成对服务的分类问题,训练对服务分类的最优分类器模型:
[0013] (2.1)采用Bootstrap Sample采样方法,每次随机、等概率地从标注训练集X中抽取一个服务样本后放回,连续采样L次组成一个样本训练集记为X1,然后以同样的方式进行放回采样得到训练集X2、X3,利用CART决策树算法对三个训练集X1、X2、X3中的决策主属性进行训练得到三个不同的初始决策树分类器模型DT1、DT2、DT3;
[0014] 然后基于半监督协同训练算法提出基于带距离约束的改进半监督协同训练算法对未标注服务集Y中的每一个服务yh进行预测,具体算法步骤为:
[0015] (2.11)首先利用DT2、DT3两个分类器对服务yh进行标签的分类预测,得到分类标签2 3 2 3 2 3
th、th且th∈Tg、th∈Tg,并判断分类结果th和th是否一致:
[0016] ①如果tj2=tj3,表示分类器DT2、DT3对yj的分类结果相同,则将服务yj的预测信誉标签记为tj,tj∈Tg,且tj2=tj3=tj;
[0017] ②如果th2≠th3,表示分类器DT2、DT3对yh的分类结果不相同,则将服务yh返回到服务集Y中;
[0018] 然后对于结果①,计算服务yh与标注训练集X={s1,s2,…,sL}中的每个服务sl,l∈(1,L)之间欧氏距离 并求得与yh欧氏距离最近的服务sl,设服务sl的信誉标签为tn,欧氏距离公式如下:
[0019]
[0020]
[0021]
[0022]
[0023] 比较服务yh的信誉标签th和服务sl的信誉标签tn,若th=tn,则将服务yh加入至样本训练集X1中,得到X′1,Y减少了服务yh得到Y′,若th≠tn,则样本训练集X1和未标注服务集Y不变,即如公式(5)所示:
[0024]
[0025] 且当th=tn时,对得到的新样本训练集X′1的决策主属性重新利用CART决策树算法训练得到新分类器;
[0026] (2.12)利用DT1、DT3两个分类器对服务yh进行标签的分类预测,重复步骤(2.11)的过程,得到新训练集X2′,利用CART决策树算法对新训练集X2′中的决策主属性训练得到新分类器;
[0027] (2.13)利用DT1、DT2两个分类器对Y={y1,y2,…,yk}中的服务yh进行标签的分类预测,重复步骤(2.11)的过程,得到新训练集X3′,利用CART决策树算法对新训练集X2′中的决策主属性训练得到新分类器;
[0028] 在每次迭代得到的新分类器的基数上对样本集Y={y1,y2,…,yk}中的y1,y2,…,yk服务依次重复步骤2.11、2.12和2.13,直到将服务集Y中所有服务迭代完成,得到最终更新后的3个决策树分类器DT1′、DT2'、DT3′,利用这三个分类器模型DT1′、DT2'、DT3′基于少数服从多数的简单投票法则对Y={y1,y2,…,yk}中的服务yh进行信誉度量。
[0029] 步骤(3)增加协同训练中决策树分类器数量,并对服务属性集随机采样,构造随机森林分类器进一步提高所训练分类器的分类性能,具体步骤为:
[0030] (3.1)基于Bootstrap Sample采样策略对标注训练集X再次进行采样,每采样L次组成一个样本训练集,重复此步骤采样,共采样出M个不同的训练集记为x1、x2、…、xM;
[0031] (3.2)对M个不同训练集中的每个服务样本的属性信息集A={a1,a2,…,aj,…,aq}(1≤j≤q)分别进行随机采样,采样出log2q个属性作为该M个不同训练集中所有服务的决策属性集;
[0032] (3.3)利用CART决策树算法基于步骤(3.2)中的决策属性集对步骤(3.1)中的出M个不同训练集x1、x2、…、xM训练,得到M个决策树分类器T1、T2、…、TM,然后利用少数服从多数的简单投票机制组成随机森林强分类器模型RF,并使用RF分类器对Y={y1,y2,…,yk}中的服务yh进行信誉标签预测,并将预测的服务yh及该服务预测的信誉标签共同依次加入至训练集x1、x2、…、xM中,得到新的训练集x1′、x2′、…、xM′,然后再利用CART决策树算法基于步骤(3.2)中的决策属性集对新的训练集x1′、x2′、…、xM′训练得到新的M个决策树分类器T1′、T2'、…、TM′,利用简单少数服从多数的投票机制组成新的随机森林强分类器模型RF',使用该新的随机森林模型RF'投票确定在线服务yh的分类信誉标签th,并将th作为服务信誉。
[0033] 所述步骤(1)中(1.1)的采用随机抽样方法从服务集S中抽取70%样本作为训练集T,剩余30%样本作为测试集D,且对训练集T中的20%的服务样本用服务信誉标签进行人工标注,训练集T中剩余80%未标注的服务样本记为未标注服务样本集Y。
[0034] 本发明的有益效果是:
[0035] (1)本发明基于在线服务多维度属性实现对服务的信誉度量:如果只考虑服务单维度属性或仅使用用户对服务的主体评价信息,而忽略服务自身的属性,会导致信誉的影响粒度较粗,信誉模型受到用户的主观偏好的影响大,从而信誉值难以客观反映服务实际的综合表现。本发明所述的方法综合考虑用户对服务的评价信息和服务自身属性信息,在多维空间中构造对服务的分类模型,更加细化服务的属性信息,从而实现对服务的分类。
[0036] (2)本发明使用决策树算法实现服务信誉度量:本发明以服务多维度属性为基础,使用决策树算法生成最优的树模型对服务进行分类,实现对服务的信誉度量。决策树算法相对于机器学习中其他分类算法有着自身特有的优点,首先将服务信誉度量建模成对服务的分类问题属于多分类,而决策树算法本质上是多分类算法,相较于其他二分类算法(如SVM算法,Logistic回归算法)可以更方便地实现多分类。其次决策树算法复杂度低、实现过程简单,而且模型属于白盒模型,对每一实现步骤都有合理的解释。最后为了更进一步提高模型分类性能,本发明引入基于集成学习思想的随机森林算法,使得模型获得比单一的决策树模型更优越的性能。
[0037] (3)本发明通过半监督协同训练算法提高分类器模型性能、降低人工标注成本:本发明通过半监督协同训练学习算法训练得到最终分类器模型,极大地减少了在训练分类器模型地过程中由人工标注样本带来的工作量,节约了人力成本。半监督协同训练算法通过并合理地应用标注数据和未标注数据训练决策树,使训练出的模型更加合理可靠,进一步增强模型的泛化能力。同时本发明为了防止半监督学习过程中错误预测样本的加入而降低模型的性能,将距离约束加入到半监督学习中,确保训练出模型的可靠性。
[0038] 本发明以服务多维度属性为依据,将对服务的信誉度量问题建模为对服务分类问题,利用决策树分类器模型依据服务多维度属性实现对服务的分类,有效地避免了信誉度量中粒度过粗,维度考虑不全的问题。同时基于半监督协同训练算法将分类器对未知服务预测结果加入到训练集重新训练分类器模型,在提升模型性能的同时降低了人工标注训练集所带来成本过高的问题,为在线服务信誉度量提供了一种新的技术方法。
[0039] 本发明基于半监督学习的在线服务信誉度量方法,综合了在线服务的多个维度的属性信息,通过对服务进行多分类从而实现对服务的信誉度量。首先使用多维度的服务信息,可以有效地消除先前信誉度量中粒度过粗,维度考虑不全的缺陷。其次利用决策树模型综合服务的多维度属性对服务进行分类,模型简单易懂,而且减少了服务信誉度量过程中的计算复杂度。最后利用半监督算法建模决策树模型,减少人工标注训练集的成本。附图说明
[0040] 图1为本发明的方法流程图
[0041] 图2为本发明的随机森林简单投票模型图。

具体实施方式

[0042] 实施例1:如图1~2所示,一种基于半监督学习的在线服务信誉度量方法,首先对服务多维度属性矩阵进行归一化处理并进行主成分分析;然后将对服务信誉度量问题建模成对服务的分类问题;综合服务多维度属性人工标注训练集并训练分类器模型,基于改进半监督协同训练算法利用所得分类器对服务进行分类并将分类结果加入到训练集重新训练分类器,利用最终得到分类器对服务进行信誉度量。
[0043] 步骤1首先对服务多维度属性矩阵进行归一化和主成分分析处理;
[0044] 1.1、选择800个在线服务的样本,服务集为S={s1,s2,…,si,…,s800}(1≤i≤800),A={a1,a2,…,aj,…,a10}(1≤j≤10)为服务的属性信息集合如表1所示,采用随机抽样方法从服务集S={s1,s2,…,si,…,s800}中抽取70%的样本作为训练集T,剩余30%的样本作为测试集D,对训练集T中20%的服务样本即110个服务数据作为标注训练集X,X={s1,s2,…,s110},且对X进行人工标注信誉标签如表2所示,用于标注的服务信誉标签集合Tg={t1,t2,…,tg,…,t5}(1≤g≤5),训练集T中未标注的剩余80%个服务样本集记未标注服务样本集Y,Y={y1,y2,…,y450},然后根据公式(1)对标注训练集X和未标注服务样本集Y中的每个服务样本的属性评分进行归一化处理,记未标注服务样本集Y中的服务yh归一化处理后的属性评分为(r1,r2,…,rq),记标注训练集X的服务属性评分矩阵为R,其中Rij(1≤i≤p,
1≤j≤q)表示对第i服务的第j个属性的评分,如表3所示,得到归一化后的评分矩阵 如表
4所示:
[0045]
[0046] 其中,式(1)中Rjmax为所有服务属性j的最大值、Rjmin为所有服务属性j的最小值,为对评分Rij归一化后的值;
[0047] 表1
[0048]
[0049]
[0050] 其中,表1中属性{a1,a2,a3,a4}为用户服务使用者所提供评价,记为A1,{a5,a7,a9}为在线服务规模属性,记为A3,{a6,a8,a10}为在线服务质量属性记为A2。
[0051] 表2
[0052]x1 t5 x11 t4
x2 t3 x12 t5
x3 t2 x13 t2
x4 t1 x14 t1
x5 t3 x15 t2
x6 t4 x16 t4
x7 t2 x17 t3
x8 t1 … …
x9 t2 x99 t2
x10 t4 x110 t5
[0053] 表3
[0054]
[0055] 表4
[0056]
[0057]
[0058] 1.2对归一化后的服务数据进行主成分分析,得到决策主属性,如表6所示:
[0059] 表6
[0060]卖家服务态度 a1 描述相符度 a2
售后速度 a3 物流质量 a4
售后率 a6 纠纷率 a8
惩罚数 a10    
[0061] 步骤2将服务信誉度量问题建模成对服务的分类问题,训练对服务分类的最优分类器模型,使用协同训练算法训练样本的决策树模型:
[0062] 2.1利用已标注的训练集X训练三个不同的决策树分类器模型:采用Bootstrap Sample采样方法,每次随机、等概率地从标注训练集X中抽取一个样本后放回,连续采样L次组成一个训练集记为X1。以同样的方式进行放回采样得到训练集X2、X3,其中样本训练集X1中的部分服务如下表7所示:
[0063] 表7
[0064]x2 t3 x19 t4
x3 t2 x19 t5
x5 t3 x20 t2
x7 t2 x21 t1
x8 t1 x22 t2
x9 t2 x24 t4
x11 t4 x26 t3
x12 t5 … …
x13 t2 x103 t2
x16 t4 x107 t4
[0065] 最终得到更新后的训练集X1、X2、X3,此三个训练集均从原始训练集X中抽样得到,这样保证了训练集X1、X2、X3之间的差异性,使得所训练的分类器之间尽可能不同。
[0066] 利用CART决策树算法对三个训练集X1、X2、X3中的决策主属性进行训练得到三个不同的初始决策树分类器模型DT1、DT2、DT3,具体为调用matlab工具箱中自带的ClassificationTree函数中fit(X1)方法,便可得到基于训练集X1的分类器DT1,同样利用X2、X3可以得到分类器DT2、DT3,然后基于半监督协同训练算法提出基于带距离约束的改进半监督协同训练算法对未标注服务集Y中的每一个服务yj进行预测,调用函数predict(DT1,yj)便可得到分类器对服务yj的预测结果具体步骤为:
[0067] 2.11首先利用DT2、DT3两个分类器对服务yh进行标签的分类预测,得到分类标签th2、th3且th2∈Tg、th3∈Tg,并判断分类结果th2和th3是否一致:
[0068] ①如果tj2=tj3,表示分类器DT2、DT3对yj的分类结果相同,则将服务yj的预测信誉标签记为tj,tj∈Tg,且tj2=tj3=tj;
[0069] ②如果th2≠th3,表示分类器DT2、DT3对yh的分类结果不相同,则将服务yh返回到服务集Y中;
[0070] 然后对于结果①,计算服务yh与标注训练集X={s1,s2,…,sL}中的每个服务sl,l∈(1,L)之间欧氏距离 并求得与yh欧氏距离最近的服务sl,设服务sl的信誉标签为tn,欧氏距离公式如下:
[0071]
[0072]
[0073]
[0074]
[0075] 比较服务yh的信誉标签th和服务sl的信誉标签tn,若th=tn,则将服务yh加入至样本训练集X1中,得到X′1,Y减少了服务yh得到Y′,若th≠tn,则样本训练集X1和未标注服务集Y不变,即如公式(5)所示:
[0076]
[0077] 且当th=tn时,对得到的新样本训练集X′1的决策主属性重新利用CART决策树算法训练得到新分类器DT1′;
[0078] (2.12)利用DT1、DT3两个分类器对服务yh进行标签的分类预测,重复步骤(2.11)的过程,得到新训练集X2′,利用CART决策树算法对新训练集X2′中的决策主属性训练得到新分类器DT2′;
[0079] (2.13)利用DT1、DT2两个分类器对Y={y1,y2,…,yk}中的服务yh进行标签的分类预测,重复步骤(2.11)的过程,得到新训练集X3′,利用CART决策树算法对新训练集X2′中的决策主属性训练得到新分类器DT3′;
[0080] 对样本集Y={y1,y2,…,yk}中的y1,y2,…,yk依次进行步骤2.11、2.12和2.13的步骤,直到将服务集Y中所有服务迭代完成,得到最终更新后的3个决策树分类器DT1′、DT2'、DT3′,利用这三个分类器模型基于少数服从多数的简单投票法则对服务进行分类得到信誉标签,将标签作为服务信誉;
[0081] 具体本实施例为计算服务y1与标注训练集X={s1,s2,…,s110}中的每个服务,之间欧氏距离D(y1,sl),并求得与y1欧氏距离最近的服务sl,欧氏距离公式如下:
[0082]
[0083]
[0084]
[0085]
[0086] 上式中r1,r2,…,r16为服务y1的归一化后属性评分大小为(0.800,0.700,0.8000.251,…,0.187)。这样得到服务y1与训练集X={s1,s2,…,s110}所有服务之间属性评分的欧氏距离大小分别记为d1,d2,…,d110,经计算得出所有距离d1,d2,…,d110中d17为最小的距离,大小约为0.455,则样本y1与样本s17有着最小的欧氏距离,样本s17的标签为t1,则将服务y1加入至样本训练集X1中,得到X′1,Y减少了服务y1得到Y′,对训练集X1与服务样本集Y中的样本分别进行更新:X1′=X1+{y1}、Y'=Y-{y1}。
[0087] 对更新后的X1′的决策主属性重新利用CART决策树算法训练分类器得到更新后的DT′1。
[0088] 利用DT1、DT3两个分类器对Y={y1,y2,…,yk}中服务y1进行标签的分类预测,重复步骤(2.11)的过程,得到新训练集X2′,利用CART决策树算法对新训练集X2′中的决策主属性训练得到新分类器DT2′;
[0089] (2.13)利用DT1、DT2两个分类器对Y={y1,y2,…,yk}中的服务y1进行标签的分类预测,重复步骤(2.11)的过程,得到新训练集X3′,利用CART决策树算法对新训练集X2′中的决策主属性训练得到新分类器DT3′;
[0090] 对样本集Y={y1,y2,…,y450}中的y1,y2,…,y450进行步骤2.11、2.12和2.13的步骤,直到将服务集Y中所有服务迭代完成,得到最终更新后的3个决策树分类器DT1′、DT2'、DT3′,利用这三个分类器模型基于少数服从多数的简单投票法则对服务进行分类得到信誉标签,将标签作为服务信誉。
[0091] 步骤3增加协同训练中决策树分类器数量,并对服务属性集随机采样,构造随机森林分类器进一步提高所训练分类器的分类性能,即对半监督协同训练算法进行扩展利用半监督随机森林算法训练分类器,具体步骤为;
[0092] 3.1基于Bootstrap Sample采样策略对标注训练集X再次进行采样,每次从标注训练集X中抽取1个样本,然后放回。不断地重复上述步骤100次,则抽取100个样本组成一个训练集。重复上述步骤直到抽取出100个训练集x1、x2、…、x100例如,训练集x1中的服务如表8所示:
[0093] 表8
[0094]x1 t3 x19 t4
x3 t2 x19 t5
x4 t3 x20 t2
x5 t2 x23 t1
x7 t1 x26 t2
x9 t2 x26 t4
x19 t4 x29 t3
x12 t5 … …
x13 t2 x106 t2
x15 t4 x109 t4
[0095] 3.2对每一个训练集xi中的服务属性集A={a1,a2,…,a16}进行随机抽样,抽取k=7个属性作为该训练集样本的决策属性集,其中x1的属性如表9所示,则这100个训练样本集会最大限度地保持不同。
[0096] 表9
[0097]卖家服务态度 a1 描述相符度 a2
物流质量 a4 宝贝种类 a5
售后率 a6 纠纷率 a8
惩罚数 a10    
[0098] 3.2、利用CART决策树算法对步骤3.1所抽取的100个训练集x1、x2、…、x100和每个训练集的决策属性集训练出100个不同的决策树T1,T2,…,T100分类器模型,具体为调用RF_MexStandalone-v0.02包中的classRF_train(X)函数便可生成由100个决策树所集成的随机森林分类器。利用所训练出来的这100个分类器进行集成,然后利用少数服从多数的简单投票法则对未标注服务集Y={y1,y2,…,y450}中的服务y1的标签进行预测,调用classRF_predict(y1)可得到这100个分类器对服务y1的预测结果,预测结果如表10所示,则将服务y1的信誉标签记为t1,将服务y1连带信誉标签t1一起加入到训练集x1、x2、…、x100中,即更新后训练集x1如表11所示,利用更新后的训练集重新训练分类器,并得到新的随机森林分类器模型RF'。
[0099] 表10
[0100]预测结果 t1 t2 t3 t4 t5
分类器个数 83 11 5 1 0
[0101] 表11
[0102]
[0103]
[0104] 同样的方法对服务集合Y={y1,y2,…,y450}中的每一个服务yj,利用T1、T2、…、T100分类器对其进行标签预测,投票得出该服务的预测标签,如此将所有Y={y1,y2,…,y450}中的样本进行投票预测并加入到训练集x1、x2、…、x100中重新训练分类器,得到最终更新后的随机森林分类器模型RF',使用最终所训练的随机森林模型RF'便可以对未知服务信誉进行度量,得到最终服务信誉度。
[0105] 通过以上步骤所述的半监督协同训练算法得到分类器,利用所得分类器模型对服务测试集D={d1,d2,…,d240}信誉度量结果进行有效性评估,计算出分类器的P(准确率)、R(召回率)和F值。实验测得半监督协同算法所构造的分类器在测试集D={d1,d2,…,d240}上的精确率P=89.44%、召回率R=89.17%和F值=89.31%。通过半监督随机森林算法得到最终的分类器模型,利用所得分类器模型对服务测试集D={d1,d2,…,d240}信誉度量结果进行有效性评估,通过实验计算出半监督随机森林分类器的精确率P=94.37%、召回率R=94.36%和F值=94.36%。与此对照,公知方法基于构造单个决策树分类器模型进行服务信誉度量在测试集D={d1,d2,…,d240}上的精确率P=80.95%、召回率R=80.74%和F值=
80.85%。
[0106] 基于以上的实施步骤得到半监督决策树分类器、半监督协同算法分类器和半监督随机森林算法分类器在测试集D上的三个指标,通过比较可以知半监督协同训练算法通过对半监督算法进行改进使得模型的三个指标均有大幅度提高,模型性能得到加强。在此基础上进一步扩展半监督协同训练算法,提出半监督随机森林算法,该模型的指标比协同训练所得模型指标有进一步明显的提高;通过实验中三个指标的对比充分地说明了本发明所提出方法的有效性。
[0107] 以上所述仅是本发明的实施方法,但是本发明并不限于以上所述的实施方法,在本领域具有相关技术的人员,均可以基于本发明且不脱离宗旨的前提下做出各种变化,这种变化也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈