基于上下文多臂赌博机的电商个性化推荐方法专利检索-赌博赌博专利检索查询-专利查询网

基于上下文多臂 赌博机的电商个性化推荐方法

阅读：586发布：2020-05-13

专利汇可以提供基于上下文多臂赌博机的电商个性化推荐方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于上下文多臂赌博机的电商个性化推荐方法，通过计算上下文信息与上下文多臂赌博机动作特征的相似度，将相似度与模型动作估计值结合为一个新的动作估计值，选择新的动作估计值最大的动作进行推荐。上下文赌博机模型利用的部分是选择相似度最大的动作，根据上下文信息进行推荐；探索的部分是选择估计值最大的动作，对应于推荐系统中的热门推荐，最后根据用户的反馈更新模型。本发明同时利用上下文信息和动作估计值进行动作选择，通过利用来最大化立即奖赏；通过探索发掘用户潜在偏好的信息，增加推荐内容的多样性。同时在上下文信息未知时，通过探索进行推荐，有效解决了推荐领域中的冷启动问题。，下面是基于上下文多臂赌博机的电商个性化推荐方法专利的具体信息内容。

权利要求

1.一种基于上下文多臂赌博机的电商个性化推荐方法，其特征在于，包括以下步骤：
S1、输入数据；
S2、初始化上下文多臂赌博机模型的动作集合A和动作特征集合B，所述动作集合为待推荐信息集合，所述动作特征集合为待推荐信息特征集合；
S3、设置上下文多臂赌博机模型动作估计值Q(i)为待推荐信息i的点击率、动作选择次数T(i)＝0为待推荐信息i的推荐次数和累积回报Sum＝0为待推荐信息i的点击量，其中i∈A；
S4、获得当前所有的待推荐信息的点击率Q(i)；
S5、判断t时刻是否存在上下文信息xt，若存在则转入步骤S6，否则转入步骤S9，所述上下文信息xt为被推荐用户的用户兴趣偏好特征；
S6、计算上下文信息xt与所有动作特征Bi相似度sim(i)，其中i∈A；
S7、根据相似度sim(i)和动作估计值Q(i)，其中i∈A，计算新的动作估计值Q′；
S8、根据新的动作估计值Q′进行推荐信息选择，t时刻选择动作k＝argmaxiQ′(i)，i∈A，转到步骤S10；
S9、根据动作估计值Q进行动作选择，t时刻选择动作k＝argmaxiQ(i)，i∈A；
S10、由t时刻用户反馈rt，更新累积回报Sum＝Sum+rt，动作k被选择次数Tk＝Tk+1以及动作k的估计值Q(k)。
2.根据权利要求1所述的基于上下文多臂赌博机的电商个性化推荐方法，其特征在于，所述步骤S6采用余弦相似度计算上下文信息xt与所有动作特征Bi相似度。
3.根据权利要求1所述的基于上下文多臂赌博机的电商个性化推荐方法，其特征在于，所述步骤S7中将相似度sim(i)作为权值乘以动作估计值Q(i)得到新的动作估计值Q′(i)，新的动作估计值计算公式：Q′(i)＝Q(i)×sim(i)，i∈A。
4.根据权利要求1所述的基于上下文多臂赌博机的电商个性化推荐方法，其特征在于，所述步骤S10中用户反馈rt服从伯努利分布，获得正反馈则rt＝1，获得负反馈则rt＝0。
5.根据权利要求1所述的基于上下文多臂赌博机的电商个性化推荐方法，其特征在于，所述步骤S13中的动作估计值采用增量式更新，动作估计值更新公式为：Qt(k)＝Qt-1(k)+(rt-Qt-1(k))/t。
6.根据权利要求1所述的基于上下文多臂赌博机的电商个性化推荐方法，其特征在于，所述步骤S3中动作估计值设置为1，即Q(i)＝1，所有待推荐信息的点击率相等。

说明书全文

基于上下文多臂赌博机的电商个性化推荐方法

技术领域

[0001] 本发明涉及一种电商个性化推荐方法，特别是涉及一种基于上下文多臂赌博机的电商个性化推荐方法。

背景技术

[0002] 强化学习是智能体从环境状态到行为映射的学习，用于解决序列决策问题。任何决策问题都涉及探索与利用，其中利用是根据当前已知知识经验选择最优策略，探索是尝试其他次优策略。利用能获得最大立即奖赏，但当学习不充分时，算法会陷入局部最优，而探索能充分学习各策略的奖赏，发现最优策略而不易使智能体陷入局部最优，有助于最大化累积回报，但探索需要花费更多的学习时间，同时减缓了算法的收敛速度，探索与利用实际是相互矛盾的。多臂赌博机(Multi-armed Bandit，称为MAB)问题是强化学习中平衡探索与利用的经典问题，对应强化学习中单步学习任务。

[0003] 多臂赌博机的一个变体是上下文赌博机(Contextual MAB，称为CMAB)，引入了上下文特征。CMAB动作的奖赏由上下文特征和动作共同决定，并且动作的奖赏满足独立同分布。目前三个最突出的上下文赌博机模型是：(1)奖赏与上下文特征满足利普西茨连续性(2)奖赏与上下文特征满足一种线性关系(3)奖赏回报满足一个固定策略类。在线内容推荐都可以建模为CMAB模型。在此类问题中，向用户推荐的过程对应于CMAB的动作选择过程。

[0004] 个性化推荐系统根据用户当前所处环境及兴趣偏好向用户推荐物品。环境特征及用户兴趣偏好在CMAB模型中称为上下文信息，根据上下文信息推荐符合用户兴趣偏好的信息，可以获得用户的正反馈。但仅推荐用户偏好的信息，会降低用户对信息的兴趣程度，推荐结果同时要富有新颖性。基于内容的推荐算法、基于协同过滤的算法和混合推荐算法是三种传统的推荐算法，其通过维护用户物品评分矩阵，预测用户对信息的评分，再进行推荐。传统的推荐系统有两个主要问题：(1)冷启动问题，新用户没有评分矩阵，无法进行推荐(2)推荐信息的多样性，传统的推荐算法很难探索用户潜在的兴趣偏好，仅根据历史信息，推荐结果不具有新颖性。

发明内容

[0005] 本发明的目的是提供一种基于上下文多臂赌博机的电商个性化推荐方法，充分利用上下文信息进行推荐，同时从估计值较高的动作进行探索，来发现用户潜在的兴趣偏好，增加推荐信息的多样性。

[0006] 本发明的技术方案是这样的：一种基于上下文多臂赌博机的电商个性化推荐方法，包括以下步骤：

[0007] S1、输入数据；

[0008] S2、初始化上下文多臂赌博机模型的动作集合A和动作特征集合B，所述动作集合为待推荐信息集合，所述动作特征集合为待推荐信息特征集合；

[0009] S3、设置上下文多臂赌博机模型动作估计值Q(i)为待推荐信息i的点击率、动作选择次数T(i)＝0为待推荐信息i的推荐次数和累积回报Sum＝0为待推荐信息i的点击量，其中i∈A；

[0010] S4、获得当前所有的待推荐信息的点击率Q(i)；

[0011] S5、判断t时刻是否存在上下文信息xt，若存在则转入步骤S6，否则转入步骤S9，所述上下文信息xt为被推荐用户的用户兴趣偏好特征；

[0012] S6、计算上下文信息xt与所有动作特征Bi相似度sim(i)，其中i∈A；

[0013] S7、根据相似度sim(i)和动作估计值Q(i)，其中i∈A，计算新的动作估计值Q′；

[0014] S8、根据新的动作估计值Q′进行推荐信息选择，t时刻选择动作k＝argmaxiQ′(i)，i∈A，转到步骤S10；

[0015] S9、根据动作估计值Q进行动作选择，t时刻选择动作k＝argmaxiQ(i)，i∈A；

[0016] S10、由t时刻用户反馈rt，更新累积回报Sum＝Sum+rt，动作k被选择次数Tk＝Tk+1以及动作k的估计值Q(k)。

[0017] 优选地，所述步骤S6采用余弦相似度计算上下文信息xt与所有动作特征Bi相似度，充分利用上下文信息。

[0018] 优选地，所述步骤S7中将相似度sim(i)作为权值乘以动作估计值Q(i)得到新的动作估计值Q′(i)，新的动作估计值计算公式：Q′(i)＝Q(i)×sim(i)，i∈A。

[0019] 优选地，所述步骤S10中用户反馈rt服从伯努利分布，获得正反馈则rt＝1，获得负反馈则rt＝0。

[0020] 优选地，所述步骤S13中的动作估计值采用增量式更新，只需保存当前动作估计值和获得的奖赏。动作估计值更新公式为：Qt(k)＝Qt-1(k)+(rt-Qt-1(k))/t。

[0021] 优选地，所述步骤S3中动作估计值设置为1，即Q(i)＝1，所有待推荐信息的点击率相等。

[0022] 本发明所提供的技术方案的有益效果是，

[0023] 上下文多臂赌博机模型利用部分是根据上下文信息进行动作，可以最大化立即奖赏，探索部分是选择动作估计值较大的动作。将推荐系统建模为上下文多臂赌博机模型，从点击率最高的待推荐信息出发进行探索，不易获得负反馈，有助于最大化累积回报，发现用户潜在偏好的信息，不易获得用户负反馈，能有效保证推荐物品的准确性和多样性。

[0024] 通过余弦相似度充分利用上下文信息，计算上下文特征与动作特征相似度，将相似度与动作估计值结合成一个新的动作估计值，根据新的动作估计值进行动作选择，在上下文多臂赌博机模型中充分利用了上下文信息。附图说明

[0025] 图1为本发明方法流程示意图；

[0026] 图2为本发明实施例采用的Yahoo！R6A推荐数据集；

[0027] 图3为本发明实施例采用的Yahoo！R6A推荐数据集中的一行数据；

[0028] 图4为本发明实施例基于Yahoo！R6A数据集将推荐系统建模为上下文多臂赌博机模型的算法框架图；

[0029] 图5为本发明实施例在Yahoo！R6A数据集上推荐效果示意图；

[0030] 图6为本发明实施例在Yahoo！R6A数据集上与其他上下文多臂赌博机算法推荐结果比较示意图。

具体实施方式

[0031] 下面结合实施例对本发明作进一步说明，但不作为对本发明的限定。

[0032] 请结合图1所示，本发明基于上下文多臂赌博机的电商个性化推荐方法，包括以下步骤：

[0033] S1、输入Yahoo！R6A数据集；

[0034] S2、初始化上下文多臂赌博机模型的动作集合A和动作特征集合B，所述动作集合为待推荐信息集合，所述动作特征集合为待推荐信息特征集合；

[0035] S3、设置上下文多臂赌博机模型动作估计值Q(i)＝1为待推荐信息i的点击率、动作选择次数T(i)＝0为待推荐信息i的推荐次数和累积回报Sum＝0为待推荐信息i的点击量，其中i∈A，所有待推荐信息的点击率相等；

[0036] S4、获得当前所有的待推荐信息的点击率Q(i)；

[0037] S5、判断t时刻是否存在上下文信息xt，若存在则转入步骤S6，否则转入步骤S9，所述上下文信息xt为被推荐用户的用户兴趣偏好特征；

[0038] S6、采用余弦相似度计算上下文信息xt与所有动作特征Bi相似度sim(i)充分利用上下文信息，其中i∈A；

[0039] S7、根据相似度sim(i)和动作估计值Q(i)，其中i∈A，将相似度sim(i)作为权值乘以动作估计值Q(i)计算新的动作估计值Q′，新的动作估计值计算公式：Q′(i)＝Q(i)×sim(i)，i∈A；

[0040] S8、根据新的动作估计值Q′进行推荐信息选择，t时刻选择动作k＝argmaxiQ′(i)，i∈A，转到步骤S10；估计值Q较大的动作和相似度sim较大的动作被选中的可能性都较大。sim较大的动作是上下文多臂赌博机模型利用的部分，根据上下文进行动作选择，可以最大化立即奖赏；Q较大的动作是上下文多臂赌博机模型探索的部分，从估计值较高的动作出发进行探索，尝试选择其他动作，不易获得环境的负反馈，有助于最大化累积回报。

[0041] S9、根据动作估计值Q进行动作选择，t时刻选择动作k＝argmaxiQ(i)，i∈A；将推荐系统建模为上下文多臂赌博机模型，推荐点击率最高的动作属于热门推荐，符合多数用户的兴趣偏好，缺乏上下文信息时，热门推荐不易获得用户的负反馈。

[0042] S10、由t时刻用户反馈rt，更新累积回报Sum＝Sum+rt，动作k被选择次数Tk＝Tk+1以及动作k的估计值Q(k)，采用增量式更新，只需保存当前动作估计值和获得的奖赏，动作估计值更新公式为：Qt(k)＝Qt-1(k)+(rt-Qt-1(k))/t。用户反馈rt服从伯努利分布，获得正反馈则rt＝1，获得负反馈则rt＝0。

[0043] 参见图2所示，Yahoo！R6A数据集经过审核，符合雅虎的数据保护标准，专门用于推荐系统。R6A数据集包含Yahoo！Today模块显示的新闻文章在2009年5月的前十天用户的点击日志。该数据集包含45,811,883位用户对Today模块的访问日志，用户和每篇文章都用6维向量表示其特征。雅虎R6A数据集中的上下文信息就是6维的特征向量。其中，访问用户特征包括：性别、年龄、地域信息、历史行为类别；文章特征包括：文章的来源URL、文章类别(所属标签)。首先将用户特征向量归一化为单位向量，再进行降维，将一千多维的用户特征映射到八十多维文章特征空间。分别根据文章特征和降维后的用户特征进行聚类，得到5个文章类簇和5个用户类簇，最后加上恒定特征1，用6维向量表示用户和文章特征。已有研究证明选定6维特征的效果最优，同时也降低了计算复杂度和存储空间。本发明讨论的上下文特征信息就是雅虎媒体推荐数据集中的6维的特征向量。

[0044] 参见图3所示，为图2所示的Yahoo！R6A数据集中的一行数据。图3中每行分别表示：用户访问的时间戳、实际显示的文章ID、用户是否点击标志(1表示用户点击、0表示未点击)、用户特征、当天的所有文章及文章的特征。

[0045] 数据集中多数记录用户是否点击标志为0，即显示这篇文章时，没有得到用户的反馈，这些记录并不能用作实验数据。只有用户点击文章才表示用户对该篇文章感兴趣。首先，过滤掉这些无效数据，挑选出所有用户点击的记录作为实验数据。

[0046] 以2009年5月1日数据为例，过滤数据后得到如下结果：当天共显示了49篇文章，用户的点击信息共2107条记录，其中用户最少点击了一篇，最多点击了49篇。将点击超过两篇文章的用户，作为推荐的目标用户。从用户点击的文章中选择其中一篇文章作为用户的历史记录，该文章特征即是用户特征，将其他点击的文章作为测试数据。当为用户推荐时首先获得用户特征，将用户特征与当天所有文章计算特征相似度，将相似度作为权值乘以动作估计值，作为新的动作估计值，根据新的估计值向用户进行推荐，测试数据用来判断用户是否会点击推荐的文章。

[0047] 参见图4所示，根据Yahoo！R6A数据集，将新闻推荐系统建模为上下文多臂赌博机模型的算法框架。推荐过程对应于上下文多臂赌博机模型动作选择过程。其中，新闻文章对应于上下文多臂赌博机模型的动作，文章特征和用户特征对应于上下文多臂赌博机模型的上下文信息。上下文多臂赌博机模型中动作估计值对应于新闻文章的点击率，动作选择次数对应于新闻文章被推荐次数，累积回报对应于用户的累积点击次数。用户特征是用户历史点击的文章特征。

[0048] 在进行推荐时，先获得推荐的用户特征，计算用户特征与所有待推荐文章特征的相似度sim，将特征相似度sim作为权值与待推荐文章动作估计值Q结合成一个新的动作估计值Q′＝sim×Q，每次推荐选择新的估计值Q′最大的文章。通过计算用户特征与所有待推荐文章特征的相似度，向用户推荐符合其兴趣偏好的文章，同时从点击率高的文章出发进行探索，尝试推荐其他文章，来发现用户潜在感兴趣的文章，增加推荐内容的广度。观察推荐后用户的反馈，根据用户反馈更新文章点击率、文章被推荐次数和用户累积点击量。

[0049] 参见图5所示，在Yahoo！R6A数据集上仿真实验进行推荐。选取Yahoo！R6A数据集中2009年5月1日数据，为2107位用户进行推荐，每位用户推荐10篇文章，推荐后用户累积点击量如图5所示。

[0050] 参见图6所示，在Yahoo！R6A数据集上仿真实验进行推荐。Context算法，仅根据上下文信息进行推荐，推荐与用户特征最相似的文章；Clicks算法，仅根据文章点击率进行推荐，推荐点击率最高的文章；RandomChoice算法，随机选择文章推荐；LinUCB算法是一种经典的上下文赌博机算法，假设用户反馈与文章特征呈线性关系，已应用于雅虎的新闻推荐系统中。选取Yahoo！R6A数据集中2009年5月1日数据，为2107位用户进行推荐，每位用户推荐10篇文章，与上述四种上下文推荐算法相比较，本发明基于上下文多臂赌博机的推荐算法效果最优，推荐结果如图6所示。

标题	发布/更新时间	阅读量
基于卷积神经网络的赌博网站识别方法和系统	2020-05-12	400
基于上下文多臂赌博机的电商个性化推荐方法	2020-05-13	586
智能开发数字牌	2020-05-23	19
进行辅助刺激赌博的电子系统和方法	2020-05-12	403
一种比特币区域流向的统计方法	2020-05-25	699
使OFDM主用户收益最大化的认知无线电频谱分配方法	2020-05-26	287
一种认知无线电实现最优传输的在线学习方法	2020-05-20	792
用于凭单及赠券打印的接口和方法	2020-05-22	379
用于方便游戏的系统和方法	2020-05-20	202
多跳蜂窝网络架构中对于环境感知的信息中心化资源管理方法	2020-05-18	602

基于上下文多臂赌博机的电商个性化推荐方法

基于上下文多臂赌博机的电商个性化推荐方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：