首页 / 专利库 / 赌博 / 赌博 / 一种基于多臂赌博机置信上限的推荐系统冷启动方法

一种基于多臂赌博机置信上限的推荐系统冷启动方法

阅读:408发布:2020-05-14

专利汇可以提供一种基于多臂赌博机置信上限的推荐系统冷启动方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于多臂 赌博 机置信上限的推荐系统 冷启动 方法,包括:进行数据收集构建商品数据集并预处理,获得格式规范的商品显性特征;根据商品显性特征,基于潜在狄利克雷 算法 构造商品隐形特征,设置输出的商品隐形特征维度,重新标记商品;基于商品数据集构建候选商品集:根据商品隐形特征对商品数据集进行聚类,将商品聚类,在同一类簇中的商品具有相似的性质,在不同类簇中的商品差异性较大,从每个类簇中分别随机 抽取 一个商品,构建候选商品集;将从候选商品集中挑选最优商品视为多臂赌博机问题,基于置信区间上界算法计算出估分最高的商品,作为推荐商品;将候选商品集中评分最高的商品推荐给用户后,根据反馈更新用户特征以及权重参数。,下面是一种基于多臂赌博机置信上限的推荐系统冷启动方法专利的具体信息内容。

1.一种基于多臂赌博机置信上限的推荐系统冷启动方法,包括下列步骤:
(1)进行数据收集构建商品数据集并预处理,获得格式规范的商品显性特征:从网络平台选取一定数量的商品,构成商品数据集,其中包括商品ID,用户和商家对该商品所打标签、评价信息,对商品文本信息进行预处理,输出格式规范的商品显性特征;
(2)根据商品显性特征,基于潜在狄利克雷算法构造商品隐形特征,设置输出的商品隐形特征维度,重新标记商品ID;
(3)初始化用户特征及相关参数:在冷启动问题中,用户特征未知,需要对用户特征以及相应的权重参数赋予初始值;
(4)基于商品数据集构建候选商品集:根据商品隐形特征对商品数据集进行K-means聚类,将商品聚类,在同一类簇中的商品具有相似的性质,在不同类簇中的商品差异性较大,从每个类簇中分别随机抽取一个商品,构建候选商品集;
(5)将从候选商品集中挑选最优商品视为多臂赌博机问题,基于置信区间上界算法计算出估分最高的商品,作为推荐商品;
(6)将候选商品集中评分最高的商品推荐给用户后,用户将根据自身喜好,选择是否点击该商品,从而系统获得用户对推荐结果的反馈,根据反馈更新用户特征以及权重参数;
(7)重复上述(3)到(6)步骤,对用户进行多轮推荐,根据多轮反馈结果,不断更新用户特征,从而达到越来越高的用户特征拟合度,从而获得较为准确的推荐,缓解冷启动问题。

说明书全文

一种基于多臂赌博机置信上限的推荐系统冷启动方法

技术领域

[0001] 本发明涉及个性化推荐技术,具体涉及一种基于多臂赌博机置信上限的推荐系统冷启动方法。技术背景
[0002] 随着信息科技的快速发展,互联网每一天都以爆炸式的速度产生海量的数据,人们生产、复制、传播信息的能大大增强,每一个用户都成为互联网信息的生产者。用户在选择自己需要的信息时花费越来越多的时间,甚至根本无法自主筛选,导致信息使用效率降低,信息量大反而成为了一种负担,出现了信息过载问题。为了更好的解决信息过载问题,个性化推荐系统应运而生,该系统能够根据用户历史行为信息准确预判用户需求,进而进行推荐。这是建立在海量数据挖掘基础上的一种高级商务智能系统,为用户提供了完全个性化的决策支持和信息服务,使人们更加受益于互联网、大数据
[0003] 个性化推荐系统是根据用户的历史行为和购买记录等信息,构建针对具体用户的个性化用户特征,将商品进行筛选,推荐给与用户特征相近的商品。目前,个性化推荐系统已经在互联网的各个领域得到了广泛的应用。如亚逊,淘宝等电子商务领域,今日头条等新闻领域,网易音乐等音乐领域,Netflix、豆瓣等电影领域都在使用推荐算法。目前个性化推荐系统方法主要有基于规则的推荐、协同过滤推荐、基于内容的推荐、基于社交的推荐和混合推荐系统等。
[0004] 个性化推荐系统的整体流程主要包括:收集并整理用户的历史记录和行为反馈构建数据集;根据数据集运用相应的算法得到用户特征;根据用户特征选取相对应的商品,并将商品推荐给用户;记录用户对推荐商品的反馈,评价推荐效果并更新数据集。

发明内容

[0005] 本发明的目的就是将多臂赌博机模型中的置信区间上限算法运用到推荐系统的冷启动中,将推荐过程视为多臂赌博机模型,并基于置信区间上限算法为特征未知的用户进行推荐,根据用户的点击行为,不断拟合出趋近于用户真实的特征,从而为用户进行越来越准确的推荐,解决冷启动问题。
[0006] 一种基于多臂赌博机置信上限的推荐系统冷启动方法,包括下列步骤:
[0007] (1)进行数据收集构建商品数据集并预处理,获得格式规范的商品显性特征:从网络平台选取一定数量的商品,构成商品数据集,其中包括商品ID,用户和商家对该商品所打标签、评价信息,对商品文本信息进行预处理,输出格式规范的商品显性特征;
[0008] (2)根据商品显性特征,基于潜在狄利克雷算法构造商品隐形特征,设置输出的商品隐形特征维度,重新标记商品ID;
[0009] (3)初始化用户特征及相关参数:在冷启动问题中,用户特征未知,需要对用户特征以及相应的权重参数赋予初始值;
[0010] (4)基于商品数据集构建候选商品集:根据商品隐形特征对商品数据集进行K-means聚类,将商品聚类,在同一类簇中的商品具有相似的性质,在不同类簇中的商品差异性较大,从每个类簇中分别随机抽取一个商品,构建候选商品集;
[0011] (5)将从候选商品集中挑选最优商品视为多臂赌博机问题,基于置信区间上界算法计算出估分最高的商品,作为推荐商品;
[0012] (6)将候选商品集中评分最高的商品推荐给用户后,用户将根据自身喜好,选择是否点击该商品,从而系统获得用户对推荐结果的反馈,根据反馈更新用户特征以及权重参数;
[0013] (7)重复上述(3)到(6)步骤,对用户进行多轮推荐,根据多轮反馈结果,不断更新用户特征,从而达到越来越高的用户特征拟合度,从而获得较为准确的推荐,缓解冷启动问题。

具体实施方式

[0014] 本发明在推荐过程的冷启动问题中,引入了多臂赌博机模型和置信区间的思想。该思想的主要内容是:利用特征已知的商品数据集,为特征未知的用户进行推荐,根据用户的点击行为,不断拟合出趋近于用户真实的特征,从而为用户进行越来越准确的推荐,解决冷启动问题。具体步骤如下:
[0015] 1数据集预处理
[0016] 首先从网络平台选取一定数量的商品,默认所选商品不是新上架商品,因此可以根据商家提供的信息,以及用户对商品的评价、分类来获取商品的显性特征。然后对商品显性特征进行预处理,因为显性特征中用户对商品所打标签用词存在不规范现象,如将两词连写在一起,同义词,无意义的乱码等,因此要进行切词、取词干、停用等处理,最终将显性特征整理成规范的关键词的形式,便于后续处理。
[0017] 2计算商品潜在特征,构建商品数据集
[0018] 将每个商品的规范的显性特征,利用潜在狄利克雷算法计算出商品的隐形特征,并将特征维数设置为25维,商品特征用x表示,x是25维的列向量。提取潜在特征后的商品重新标记ID,放置于数据库中以待使用。其中,在scikit-learn中提供了基于Python语言的集成为模的潜在狄利克雷算法,可以方便地将经过预处理的数据输入该模块中,并输出商品的潜在特征。
[0019] 3初始化用户特征及参数
[0020] 在推荐系统的冷启动问题中,用户特征是未知的,因此需要先预设一个初始值,用户特征用θ表示。这里还需定义两个参数,25维矩阵A以及25维列向量b,用户特征θ可由如下公式表示:
[0021] θ=A-1b
[0022] 式中A的初始值设置为单位矩阵,b的初始值设置为零向量。
[0023] 4从商品数据集中选出候选商品
[0024] 根据潜在特征对商品数据集进行K-means聚类,将商品分为100个类簇,在同一类簇中的商品具有相似的性质,在不同类簇中的商品差异性较大。每次从100个类簇中分别随机抽取一个商品,因此可以保证100个商品互不相似。并将随机抽取出的100个候选商品放入候选商品集中。
[0025] 5从候选商品集中计算最优商品
[0026] 候选商品集中存放的候选商品数量任然较大,将全部候选商品推荐给用户就失去了改进的效果,因此需要进一步筛选出用户最可能感兴趣的商品进行推荐,在最少推荐次数下拟合出用户潜在特征。因此采用多臂赌博机模型中置信区间上界算法,对已知用户喜欢的商品类型多进行开发推荐,对未知领域进行少量尝试,不断探索,转化为数学的形式就是根据根据尝试的次数和用户的反馈为商品打分,商品分数用p表示,公式如下:
[0027]
[0028] 式中,x为5.1中利用潜在狄利克雷算法计算出商品的隐形特征。
[0029] 将100个候选商品分别与用户计算评分,并将商品按照评分从高到低的排列,选择其中评分最高的商品对用户进行推荐。
[0030] 6用户进行反馈并更新用户特征及参数
[0031] 将候选商品集中评分最高的商品推荐给用户后,用户将根据自身喜好,也就是潜在特征,选择是否点击该商品,此处引入点击率r来记录用户的操作行为,点击率r是布尔型参数,点击则r=1,未点击则r=0。获得用户反馈后,则对参量A与b进行更新,更新公式如下:
[0032] A=A+xxT
[0033] b=b+rx
[0034] 7重复推荐,拟合到用户特征
[0035] 重复执行以上3到6中的步骤,即重复为用户进行推荐,用户感兴趣的商品类型被推荐的概率将不断增大,用户未明显表明感兴趣的商品类型将以较小概率推荐,用于探索用户兴趣,用户多次表明不感兴趣的商品类型被推荐的概率将越来越低。重复执行多次之后,用户的潜在特征将得到准确拟合,冷启动问题得到有效解决。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈