首页 / 专利库 / 人工智能 / 预测模型 / 一种基于人工智能的特征向量计算方法和相关装置

一种基于人工智能特征向量计算方法和相关装置

阅读:1022发布:2020-05-28

专利汇可以提供一种基于人工智能特征向量计算方法和相关装置专利检索,专利查询,专利分析的服务。并且本 申请 实施例 公开一种 特征向量 的计算方法在计算媒体数据的特征向量时,根据历史用户行为数据从历史媒体数据中确定 训练数据 集,历史用户行为数据包括用户点击过的历史媒体数据。根据训练数据集,利用向量 预测模型 得到历史媒体数据的特征向量。由于类型标识可以体现历史媒体数据的内容特点,故统计训练数据集中包括的类型标识,根据类型标识所对应的历史媒体数据的特征向量确定类型标识的特征向量,类型标识的特征向量可以体现出历史媒体数据的内容特点。若获取到未计算得到特征向量的目标媒体数据,目标媒体数据与具有相同类型标识的历史媒体数据类似,则根据目标媒体数据所具有的类型标识的特征向量可以计算得到目标媒体数据的特征向量。,下面是一种基于人工智能特征向量计算方法和相关装置专利的具体信息内容。

1.一种基于人工智能特征向量计算方法,其特征在于,所述方法包括:
根据历史用户行为数据从历史媒体数据中确定训练数据集,所述历史用户行为数据包括用户点击过的历史媒体数据;
根据所述训练数据集,利用向量预测模型得到所述历史媒体数据的特征向量;
统计所述训练数据集中包括的类型标识,所述类型标识用于体现所述历史媒体数据的内容特点;
根据所述类型标识所对应的历史媒体数据的特征向量确定所述类型标识的特征向量;
若获取到未计算特征向量的目标媒体数据,根据所述目标媒体数据所具有的类型标识的特征向量计算所述目标媒体数据的特征向量。
2.根据权利要求1所述的方法,其特征在于,若所述目标媒体数据具有历史用户行为数据,在获取到所述目标媒体数据后,所述方法还包括:
根据所述目标媒体数据的历史用户行为数据,通过增量式学习方法得到所述目标媒体数据的特征向量。
3.根据权利要求1所述的方法,其特征在于,若在预设时间后,针对所述目标媒体数据产生新用户行为数据,所述方法还包括:
根据所述新用户行为数据,通过增量式学习方法更新全部媒体数据的特征向量,所述全部媒体数据包括所述目标媒体数据和所述历史媒体数据。
4.根据权利要求1所述的方法,其特征在于,若所述类型标识对应的历史媒体数据包括多个,所述根据所述类型标识所对应的历史媒体数据的特征向量确定所述类型标识的特征向量,包括:
从所述训练数据集中获取所述类型标识所对应的所有历史媒体数据;
将所有历史媒体数据的特征向量取平均值作为所述类型标识的特征向量。
5.根据权利要求1-4任一项所述的方法,其特征在于,若所述历史媒体数据已经被查看,所述历史用户行为数据还包括评论信息。
6.根据权利要求5所述的方法,其特征在于,所述根据历史用户行为数据从历史媒体数据中确定训练数据集,包括:
根据所述评论信息确定具有正面评论信息的历史媒体数据;
根据具有正面评论信息的历史媒体数据确定所述训练数据集。
7.根据权利要求1-4任一项所述的方法,其特征在于,得到的全部媒体数据的特征向量用于训练推荐模型,所述全部媒体数据包括所述目标媒体数据和所述历史媒体数据。
8.一种特征向量计算装置,其特征在于,所述装置包括第一确定单元、第二确定单元、统计单元、第三确定单元和计算单元:
所述第一确定单元,用于根据历史用户行为数据从历史媒体数据中确定训练数据集,所述历史用户行为数据包括用户点击过的历史媒体数据;
所述第二确定单元,用于根据所述训练数据集,利用向量预测模型得到所述历史媒体数据的特征向量;
所述统计单元,用于统计所述训练数据集中包括的类型标识,所述类型标识用于体现所述历史媒体数据的内容特点;
所述第三确定单元,用于根据所述类型标识所对应的历史媒体数据的特征向量确定所述类型标识的特征向量;
所述计算单元,用于若获取到未计算特征向量的目标媒体数据,根据所述目标媒体数据所具有的类型标识的特征向量计算所述目标媒体数据的特征向量。
9.一种用于特征向量计算的设备,其特征在于,所述设备包括处理器以及存储器
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-7任一项所述的方法。

说明书全文

一种基于人工智能特征向量计算方法和相关装置

技术领域

[0001] 本申请涉及计算机领域,特别是涉及一种基于人工智能的媒体数据推荐方法和相关装置。

背景技术

[0002] 随着信息技术的发展,用户可方便快捷地接触到大量信息例如媒体数据。在互联网网站中,为了有针对性地向用户提供所需要或感兴趣的媒体数据例如新闻、广告、视频等,进而出现了用于向用户推荐媒体数据的系统。
[0003] 基于媒体数据相似度的推送是推荐系统的核心,而媒体数据可以通过媒体数据的特征向量来表示,因此,为了实现媒体数据的推荐通常需要计算媒体数据的特征向量,以便根据特征向量的相似度确定媒体数据的相似度,实现媒体数据的推荐。
[0004] 目前,通过无监督训练得到媒体数据的特征向量,之后将媒体数据的特征向量用于推荐任务。然而,当推送系统中新产生媒体数据时,这种方法无法计算新产生的媒体数据的特征向量,从而难以准确地实现推荐服务。发明内容
[0005] 为了解决上述技术问题,本申请提供了一种基于人工智能的特征向量计算方法和相关装置,可以计算得到目标媒体数据的特征向量。从而将全部媒体数据的特征向量用户推荐模型的训练,可以准确地实现推荐服务,同时无需重新学习全部媒体数据便可以计算得到目标媒体数据的特征向量,避免消耗大量时间和空间。
[0006] 本申请实施例公开了如下技术方案:
[0007] 第一方面,本申请实施例提供一种基于人工智能的特征向量计算方法,所述方法包括:
[0008] 根据历史用户行为数据从历史媒体数据中确定训练数据集,所述历史用户行为数据包括用户点击过的历史媒体数据;
[0009] 根据所述训练数据集,利用向量预测模型得到所述历史媒体数据的特征向量;
[0010] 统计所述训练数据集中包括的类型标识,所述类型标识用于体现所述历史媒体数据的内容特点;
[0011] 根据所述类型标识所对应的历史媒体数据的特征向量确定所述类型标识的特征向量;
[0012] 若获取到未计算特征向量的目标媒体数据,根据所述目标媒体数据所具有的类型标识的特征向量计算所述目标媒体数据的特征向量。
[0013] 第二方面,本申请实施例提供一种特征向量计算装置,所述装置包括第一确定单元、第二确定单元、统计单元、第三确定单元和计算单元:
[0014] 所述第一确定单元,用于根据历史用户行为数据从历史媒体数据中确定训练数据集,所述历史用户行为数据包括用户点击过的历史媒体数据;
[0015] 所述第二确定单元,用于根据所述训练数据集,利用向量预测模型得到所述历史媒体数据的特征向量;
[0016] 所述统计单元,用于统计所述训练数据集中包括的类型标识,所述类型标识用于体现所述历史媒体数据的内容特点;
[0017] 所述第三确定单元,用于根据所述类型标识所对应的历史媒体数据的特征向量确定所述类型标识的特征向量;
[0018] 所述计算单元,用于若获取到未计算特征向量的目标媒体数据,根据所述目标媒体数据所具有的类型标识的特征向量计算所述目标媒体数据的特征向量。
[0019] 第三方面,本申请实施例提供一种用于特征向量计算的设备,所述设备包括处理器以及存储器
[0020] 所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
[0021] 所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。
[0022] 第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的方法。
[0023] 由上述技术方案可以看出,在计算媒体数据的特征向量时,根据历史用户行为数据从历史媒体数据中确定训练数据集,历史用户行为数据包括用户点击过的历史媒体数据。根据训练数据集,利用向量预测模型得到历史媒体数据的特征向量。由于类型标识可以体现历史媒体数据的内容特点,故统计训练数据集中包括的类型标识,根据类型标识所对应的历史媒体数据的特征向量确定类型标识的特征向量,类型标识的特征向量可以体现出历史媒体数据的内容特点。若获取到未计算得到特征向量的目标媒体数据,目标媒体数据与具有相同类型标识的历史媒体数据类似,则根据目标媒体数据所具有的类型标识的特征向量可以计算得到目标媒体数据的特征向量。从而将全部媒体数据的特征向量用户推荐模型的训练,可以准确地实现推荐服务,同时无需重新学习全部媒体数据便可以计算得到目标媒体数据的特征向量,避免消耗大量时间和空间。
附图说明
[0024] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0025] 图1为本申请实施例提供的一种特征向量计算方法的应用场景示意图;
[0026] 图2为本申请实施例提供的一种特征向量计算方法的流程图
[0027] 图3为本申请实施例提供的一种用户点击的视频的示例图;
[0028] 图4为本申请实施例提供的一种特征向量计算方法的流程图;
[0029] 图5a为本申请实施例提供的一种特征向量计算装置的结构图;
[0030] 图5b为本申请实施例提供的一种特征向量计算装置的结构图;
[0031] 图5c为本申请实施例提供的一种特征向量计算装置的结构图;
[0032] 图6为本申请实施例提供的一种用于特征向量计算设备的结构图;
[0033] 图7为本申请实施例提供的一种服务器的结构图。

具体实施方式

[0034] 下面结合附图,对本申请的实施例进行描述。
[0035] 在推荐系统当中,每天都有许多新产生的媒体数据加入。传统方法在离线数据集上无监督训练得到媒体数据的特征向量,之后将媒体数据的特征向量用于推荐任务。当新产生的媒体数据加入时,无法计算得到新产生的媒体数据的特征向量,进而难以准确地实现推送服务。
[0036] 为了解决上述技术问题,本申请实施例提供一种基于人工智能的特征向量计算方法,该方法针对一个未计算特征向量的目标媒体数据,可以利用目标媒体数据所具有的类型标识的特征向量计算得到目标媒体数据的特征向量。从而将全部媒体数据的特征向量用户推荐模型的训练,以便可以准确地实现推荐服务,同时无需重新学习全部媒体数据便可以计算得到目标媒体数据的特征向量,避免消耗大量时间和空间。
[0037] 需要强调的是,本申请实施例所提供的特征向量计算方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0038] 人工智能技术是一综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0039] 在本申请实施例中,主要涉及的人工智能软件技术包括上述自然语言处理和机器学习等方向。
[0040] 例如可以涉及自然语言处理(Nature Language processing,NLP),文本预处理(Text preprocessing)、语义理解(Semantic understanding)、与搜索相关的,如排序、关键词、推荐等。
[0041] 例如可以涉及机器学习(Machine learning,ML),机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术,深度学习包括人工神经网络(artificial neural network),例如卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、深度神经网络(Deep neural network,DNN)等。
[0042] 该方法可以应用到数据处理设备,该数据处理设备可以是终端设备,终端设备例如可以是智能终端、计算机、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑等设备。
[0043] 该数据处理设备还可以是服务器,该服务器可以为独立服务器,也可以为集群服务器。
[0044] 本申请实施例提供的特征向量计算方法可以应用到媒体数据推荐的场景中,在该场景中,利用数据处理设备计算得到的媒体数据的特征向量向用户推荐媒体数据。
[0045] 可以理解的是,在产品侧该方法可以用于各种媒体数据推荐软件,该软件可以安装在终端设备上,从而通过该方法计算得到的媒体数据的特征向量向用户推荐媒体数据。
[0046] 为了便于理解本申请的技术方案,下面结合实际应用场景,以数据处理设备是服务器为例对本申请实施例提供的特征向量计算方法进行介绍。
[0047] 参见图1,图1为本申请实施例提供的特征向量计算方法的应用场景示意图。该应用场景中包括服务器101和终端设备102,服务器101通过终端设备102根据计算得到的特征向量向用户推荐媒体数据。其中,媒体数据可以是不同的形式,例如可以是图片、视频、新闻、广告等。
[0048] 在计算媒体数据的特征向量时,服务器101可以获取历史用户行为数据,历史用户行为数据中包括用户点击过的历史媒体数据。
[0049] 服务器101根据历史用户行为数据从历史媒体数据中确定训练数据集,根据训练数据集,利用向量预测模型得到历史媒体数据的特征向量。由于类型标识可以体现历史媒体数据的内容特点,故服务器101可以统计训练数据集中包括的类型标识,根据类型标识所对应的历史媒体数据的特征向量确定类型标识的特征向量,类型标识的特征向量可以体现出历史媒体数据的内容特点。若服务器101获取到未计算得到特征向量的目标媒体数据,目标媒体数据与具有相同类型标识的历史媒体数据类似,则服务器101可以根据目标媒体数据所具有的类型标识的特征向量可以计算得到目标媒体数据的特征向量。从而将全部媒体数据的特征向量用户推荐模型的训练,以便可以准确地实现推荐服务。
[0050] 这样,当终端设备102对应的用户点击过某个媒体数据后,服务器101便可以利用训练得到的推荐模型,根据该媒体数据向用户推荐其他用户可能喜欢的媒体数据。图1主要以各种媒体数据例如历史媒体数据、目标媒体数据是视频为例进行介绍,当然,本申请实施例对媒体数据的形式不做限定。
[0051] 接下来,将结合附图以数据处理设备是服务器为例,对本申请实施例提供的特征向量计算方法进行详细介绍。
[0052] 参见图2,图2示出了一种特征向量计算方法的流程图,方法包括:
[0053] S201、根据历史用户行为数据从历史媒体数据中确定训练数据集。
[0054] 历史用户行为数据可以为用户针对历史媒体数据的操作行为,例如点击历史媒体数据的行为。其中,历史用户行为数据包括用户点击过的历史媒体数据。
[0055] 在本实施例中,确定训练数据集的一种可能方式可以是服务器可以从产品线批量获取历史用户行为数据,搜集用户点击过的历史媒体数据,将一个用户点击的所有历史媒体数据组成这个用户的句子,句子中的每一个单位是一个历史媒体数据,将所有用户的句子组成训练数据集。
[0056] 以历史媒体数据是视频为例,用户通过视频推荐软件观看视频时,可以点击自己喜欢的视频,图3为用户点击过的部分视频的示例图。服务器可以获取用户点击的所有视频,一个用户点击过的视频组成这个用户的句子,将所有用户的句子组成训练数据集。
[0057] 可以理解的是,用户对历史媒体数据的点击行为表达的是用户在查看历史媒体数据之前的感受,例如,用户在看到视频(历史媒体数据)的标题、封面等信息之后,想要观看视频。然而,用户可能在点击一个视频之后,观看了一会,发现不是自己喜欢的视频,于是很快划过,或者一个用户观看完一个视频之后觉得视频很好,于是发表了评论信息,例如点了一个赞。
[0058] 用户的评论信息反映了用户对历史媒体数据的喜欢程度,而历史媒体数据的特征向量是用于向用户推荐媒体数据的,因此,为了使得历史媒体数据的特征向量可以更准确地体现用户对历史媒体数据的喜欢程度,以便向用户推荐用户喜欢的媒体数据,在一种可能的实现方式中,若历史媒体数据已经被查看,则历史用户行为数据还包括评论信息。
[0059] 在这种情况下,S201中确定训练数据集的方式可以是根据评论信息确定具有正面评论信息的历史媒体数据,从而根据具有正面评论信息的历史媒体数据确定训练数据集。例如,在训练数据集中,增加具有正面评论信息的历史媒体数据的采样率,从而使得根据训练数据集确定出的历史媒体数据的特征向量能够准确地体现出用户对历史媒体数据的喜
欢程度,从而提高推荐用户喜欢的媒体数据的概率。
[0060] S202、根据所述训练数据集,利用向量预测模型得到所述历史媒体数据的特征向量。
[0061] 需要说明的是,用户点击的历史媒体数据存在一定的上下文关系,因此,在本实施例中,向量预测模型可以是跳字模型(skip-gram),即利用skip-gram方法训练得到每个历史媒体数据的特征向量(即embedding)。
[0062] S203、统计所述训练数据集中包括的类型标识。
[0063] 服务器可以统计训练数据集中包括的类型标识。其中,类型标识用于体现历史媒体数据的内容特点。类别标识可以是预先设定的,类别标识例如可以是类目、标签。
[0064] 类目可以标识历史媒体数据的分类情况,类目可以分为一级类目、二级类目……,一级类目可以包括游戏、生活、军事、科技、教育、人文、景观等;二级类目可以是一级类目下的子类别,如游戏下的王者荣耀、绝地求生等。例如,历史媒体数据为视频,该视频为“王者荣耀”这个游戏的直播视频,则该视频的一级类目可以是游戏,二级类目可以是王者荣耀。
[0065] 标签可以标识历史媒体数据的对应内容。如历史媒体数据的标签为明星、运动员。标签可以为一个或多个。
[0066] 训练数据集中包括了历史媒体数据,每个历史媒体数据可能具有对应的类型标识,历史媒体数据可能具有上述类型标识中的一种或多种,故可以统计训练数据集中包括的类型标识。
[0067] 例如,训练数据集中包括视频1和视频2,其中,视频1具有对应的一级类目“生活”、视频2具有对应的一级类目“游戏”和二级类目“王者荣耀”,则可以确定训练数据集中包括一级类目“生活”、一级类目“游戏”和二级类目“王者荣耀”。
[0068] S204、根据所述类型标识所对应的历史媒体数据的特征向量确定所述类型标识的特征向量。
[0069] 服务器获取每个类型标识对应的历史媒体数据,从而根据该类型标识所对应的历史媒体数据的特征向量确定该类型标识的特征向量。
[0070] 在一种情况下,类型标识对应的历史媒体数据包括多个,此时,服务器可以从训练数据集中获取所述类型标识所对应的所有历史媒体数据,将所有历史媒体数据的特征向量取平均值作为类型标识的特征向量。
[0071] 例如,类型标识为一级类目,历史媒体数据为视频,对于一级类目下的“生活”这个类目,将训练数据集中“生活”这一个类目下的所有视频的特征向量的平均值作为“生活”这一个类目的特征向量。
[0072] S205、若获取到未计算特征向量的目标媒体数据,根据所述目标媒体数据所具有的类型标识的特征向量计算所述目标媒体数据的特征向量。
[0073] 当服务器获取到目标媒体数据时,服务器可以获取目标媒体数据的类型标识,从而根据该类型标识的特征向量计算目标媒体数据的特征向量。其中,目标媒体数据为未计算得到特征向量的媒体数据。
[0074] 在一些情况下,目标媒体数据可能包括多个类型标识,此时,服务器可以将多个类型标识的特征向量求平均值作为目标媒体数据的特征向量。
[0075] 例如,目标媒体数据为视频,目标媒体数据的一级类目为“游戏”、二级类目为“王者荣耀”,则可以将一级类目和二级类目的特征向量求平均值作为该视频的特征向量。
[0076] 需要说明的是,在本申请实施例中目标媒体数据可以是新产生的媒体数据,也可以是历史媒体数据中未计算得到特征向量的媒体数据。若目标媒体数据是历史媒体数据中未计算得到特征向量的媒体数据,则该目标媒体数据具有对应的历史用户行为数据,此时,在服务器获取到目标媒体数据后,可以根据目标媒体数据的历史用户行为数据,通过增量式学习方法得到目标媒体数据的特征向量。即利用增量式skip-gram得到目标媒体数据的特征向量。
[0077] 可以理解的是,由于目标媒体数据的加入,随着时间的推移,每个媒体数据被用户喜欢的程度可能发生变化,那么,其对应的特征向量也应该发生变化,以准确地反映用户对媒体数据的喜欢程度。因此,在一种可能的实现方式中,若在预设时间后,针对目标媒体数据产生新用户行为数据,还可以根据新用户行为数据,通过增量式学习方法更新全部媒体数据的特征向量。其中,全部媒体数据包括所述目标媒体数据和所述历史媒体数据。
[0078] 在计算得到特征向量后,可以将全部媒体数据的特征向量用于训练推荐模型。该推荐模型可以根据数据的媒体数据的特征向量,预测哪些媒体数据可能是用户喜欢的,从而向用户推荐喜欢的媒体数据。在推荐的过程中可以实现媒体数据的召回和/或媒体数据的排序。
[0079] 通过增量式学习方法得到目标媒体数据的特征向量与利用类型标识的特征向量得到目标媒体数据的特征向量可以互为补充,一起用于推荐模型的训练与预测。
[0080] 由上述技术方案可以看出,在计算媒体数据的特征向量时,根据历史用户行为数据从历史媒体数据中确定训练数据集,历史用户行为数据包括用户点击过的历史媒体数据。根据训练数据集,利用向量预测模型得到历史媒体数据的特征向量。若获取到未计算得到特征向量的目标媒体数据,由于类型标识可以体现历史媒体数据的内容特点,故统计训练数据集中包括的类型标识,根据类型标识所对应的历史媒体数据的特征向量确定类型标识的特征向量,类型标识的特征向量可以体现出历史媒体数据的内容特点。目标媒体数据与具有相同类型标识的历史媒体数据类似,则根据目标媒体数据所具有的类型标识的特征向量可以计算得到目标媒体数据的特征向量。从而将全部媒体数据的特征向量用户推荐模型的训练,可以准确地实现推荐服务,同时无需重新学习全部媒体数据便可以计算得到目标媒体数据的特征向量,避免消耗大量时间和空间。
[0081] 另外,通过本申请实施例提供的方法,有效提升了线下的模型评估指标(area under the curve,AUC),提升线上的点击率、渗透率、拉新率等指标。
[0082] 接下来,将结合实际应用场景对本申请实施例提供的特征向量计算方法进行介绍。在该应用场景中,媒体数据为视频,得到的特征向量可以用于视频的召回和排序。参见图4,该方法包括:
[0083] S401、服务器收集用户点击过的视频。
[0084] S402、服务器将用户点击的视频组成用户的句子,构成训练数据集。
[0085] S403、服务器根据数据训练集,通过skip-gram模型得到视频的特征向量。
[0086] S404、服务器将视频的特征向量转化为类目、标签的特征向量。
[0087] S405、服务器收集推荐系统中的数据。
[0088] S406、服务器利用类目、标签的特征向量计算新视频的特征向量。
[0089] S407、服务器利用增量skip-gram模型计算新视频的特征向量。
[0090] S408、服务器利用特征向量进行召回和排序。
[0091] 基于前述实施例提供的特征向量计算方法,本申请实施例还提供一种特征向量计算装置,参见图5a,所述装置包括第一确定单元501、第二确定单元502、统计单元503、第三确定单元504和计算单元505:
[0092] 所述第一确定单元501,用于根据历史用户行为数据从历史媒体数据中确定训练数据集,所述历史用户行为数据包括用户点击过的历史媒体数据;
[0093] 所述第二确定单元502,用于根据所述训练数据集,利用向量预测模型得到所述历史媒体数据的特征向量;
[0094] 所述统计单元503,用于统计所述训练数据集中包括的类型标识,所述类型标识用于体现所述历史媒体数据的内容特点;
[0095] 所述第三确定单元504,用于根据所述类型标识所对应的历史媒体数据的特征向量确定所述类型标识的特征向量;
[0096] 所述计算单元505,用于若获取到未计算特征向量的目标媒体数据,根据所述目标媒体数据所具有的类型标识的特征向量计算所述目标媒体数据的特征向量。
[0097] 在一种可能的实现方式中,所述目标媒体数据具有历史用户行为数据,参见图5b,所述装置还包括第四确定单元506:
[0098] 所述第四确定单元506,用于根据所述目标媒体数据的历史用户行为数据,通过增量式学习方法得到所述目标媒体数据的特征向量。
[0099] 在一种可能的实现方式中,若在预设时间后,针对所述目标媒体数据产生新用户行为数据,参见图5c,所述装置还包括更新单元507:
[0100] 所述更新单元507,用于根据所述新用户行为数据,通过增量式学习方法更新全部媒体数据的特征向量,所述全部媒体数据包括所述目标媒体数据和所述历史媒体数据。
[0101] 在一种可能的实现方式中,若所述类型标识对应的历史媒体数据包括多个,所述第三确定单元504,具体用于:
[0102] 从所述训练数据集中获取所述类型标识所对应的所有历史媒体数据;
[0103] 将所有历史媒体数据的特征向量取平均值作为所述类型标识的特征向量。
[0104] 在一种可能的实现方式中,若所述历史媒体数据已经被查看,所述历史用户行为数据还包括评论信息。
[0105] 在一种可能的实现方式中,所述第一确定单元501,用于:
[0106] 根据所述评论信息确定具有正面评论信息的历史媒体数据;
[0107] 根据具有正面评论信息的历史媒体数据确定所述训练数据集。
[0108] 在一种可能的实现方式中,得到的全部媒体数据的特征向量用于训练推荐模型,所述全部媒体数据包括所述目标媒体数据和所述历史媒体数据。
[0109] 本申请实施例还提供了一种用于特征向量计算的设备,下面结合附图对用于特征向量计算的设备进行介绍。请参见图6所示,本申请实施例提供了一种用于特征向量计算的设备600,该设备600还可以是终端设备,该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,简称PDA)、销售终端(Point of Sales,简称POS)、车载电脑等任意智能终端,以终端设备为手机为例:
[0110] 图6示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图6,手机包括:射频(Radio Frequency,简称RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity,简称WiFi)模670、处理器680、以及电源690等部件。本领域技术人员可以理解,图6中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0111] 下面结合图6对手机的各个构成部件进行具体的介绍:
[0112] RF电路610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器680处理;另外,将设计上行的数据发送给基站。通常,RF电路610包括但不限于天线、至少一个放大器收发信机耦合器低噪声放大器(Low Noise Amplifier,简称LNA)、双工器等。此外,RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统
(Global System of Mobile communication,简称GSM)、通用分组无线服务(General 
Packet Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
[0113] 存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0114] 输入单元630可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元630可包括触控面板631以及其他输入设备632。触控面板631,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器680,并能接收处理器680发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631,输入单元630还可以包括其他输入设备632。具体地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球鼠标、操作杆等中的一种或多种。
[0115] 显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641,可选的,可以采用液晶显示器(Liquid Crystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板641。进一步的,触控面板631可覆盖显示面板641,当触控面板631检测到在其上或附近的触摸操作后,传送给处理器680以确定触摸事件的类型,随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中,触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。
[0116] 手机还可包括至少一种传感器650,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在手机移动到边时,关闭显示面板641和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
[0117] 音频电路660、扬声器661,传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经RF电路610以发送给比如另一手机,或者将音频数据输出至存储器620以便进一步处理。
[0118] WiFi属于短距离无线传输技术,手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块670,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
[0119] 处理器680是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器680可包括一个或多个处理单元;优选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
[0120] 手机还包括给各个部件供电的电源690(比如电池),优选的,电源可以通过电源管理系统与处理器680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0121] 尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
[0122] 在本实施例中,该终端设备所包括的处理器680还具有以下功能:
[0123] 根据历史用户行为数据从历史媒体数据中确定训练数据集,所述历史用户行为数据包括用户点击过的历史媒体数据;
[0124] 根据所述训练数据集,利用向量预测模型得到所述历史媒体数据的特征向量;
[0125] 统计所述训练数据集中包括的类型标识,所述类型标识用于体现所述历史媒体数据的内容特点;
[0126] 根据所述类型标识所对应的历史媒体数据的特征向量确定所述类型标识的特征向量;
[0127] 若获取到未计算特征向量的目标媒体数据,根据所述目标媒体数据所具有的类型标识的特征向量计算所述目标媒体数据的特征向量。
[0128] 本申请实施例还提供服务器,请参见图7所示,图7为本申请实施例提供的服务器700的结构图,服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
[0129] 服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
[0130] 上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。
[0131] 本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0132] 应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
[0133] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0134] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0135] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0136] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0137] 以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈