首页 / 专利库 / 人工智能 / 词性标注 / 一种文本推荐方法及相关设备

一种文本推荐方法及相关设备

阅读:848发布:2020-05-16

专利汇可以提供一种文本推荐方法及相关设备专利检索,专利查询,专利分析的服务。并且本 发明 实施例 公开了一种文本推荐方法及相关设备,所述方法应用于 数据处理 技术领域,包括:基于开源词向量数据确定每个已阅文本对应的各个已阅文本关键词的第一词向量、身份关键词的第二词向量、以及每个待推文本对应的各个待推文本关键词的第三词向量,将包括每个已阅文本对应的各个已阅文本关键词的第一词向量和第二词向量的向量集确定为用户兴趣向量集。进一步地,可以基于预设相关度 算法 计算每个待推文本对应的待推向量集与用户兴趣向量集的相关度得分,并将相关度得分排序前M的待推向量集对应的待推文本确定为该用户的推荐文本。采用这样的方式,有利于提高文本推荐的准确度。,下面是一种文本推荐方法及相关设备专利的具体信息内容。

1.一种文本推荐方法,其特征在于,所述方法包括:
获取用户对应的身份信息和至少一个已阅文本,并根据关键词提取算法确定所述至少一个已阅文本中每个已阅文本对应的至少一个已阅文本关键词、所述身份信息对应的身份关键词、以及至少一个待推文本中每个待推文本对应的至少一个待推文本关键词;
基于开源词向量数据确定所述每个已阅文本对应的各个已阅文本关键词的第一词向量、所述身份关键词的第二词向量、以及所述每个待推文本对应的各个待推文本关键词的第三词向量;
将包括所述每个已阅文本对应的各个已阅文本关键词的第一词向量和所述第二词向量的向量集确定为用户兴趣向量集;
基于预设相关度算法计算每个待推文本对应的待推向量集与所述用户兴趣向量集的相关度得分,所述待推文本对应的待推向量集包括所述待推文本对应各个待推文本关键词的第三词向量;
将所述相关度得分排序前M的待推向量集对应的待推文本确定为所述用户的推荐文本,所述M为大于0的整数。
2.根据权利要求1所述的方法,其特征在于,所述基于预设相关度算法计算每个待推文本对应的待推向量集与所述用户兴趣向量集的相关度得分,包括:
基于预设相关度算法计算每个待推文本对应的待推向量集中各个第三词向量与所述用户兴趣向量集中的各个词向量之间的余弦相似度;
对各个所述余弦相似度进行求和处理,并将求和结果与预设数值相除,得到所述每个待推文本对应的待推向量集与所述用户兴趣向量集的相关度得分。
3.根据权利要求1所述的方法,其特征在于,所述根据关键词提取算法确定所述至少一个已阅文本中每个已阅文本对应的至少一个已阅文本关键词,包括:
根据关键词提取算法确定第一已阅文本对应的至少一个已阅文本候选关键词中各个已阅文本候选关键词的第一词权重值,所述第一已阅文本为所述至少一个已阅文本中的任一个已阅文本;
基于权重值调整规则对所述第一已阅文本对应各个已阅文本候选关键词的第一词权重值进行调整,得到各个已阅文本候选关键词的词权重调整值;
按照词权重调整值从大到小的顺序进行排序,并将所述调整词权重排序前N的已阅文本候选关键词确定为所述第一已阅文本对应的N个已阅文本关键词,所述N为大于0的整数。
4.根据权利要求3所述的方法,其特征在于,所述基于权重值调整规则对所述第一已阅文本对应各个已阅文本候选关键词的第一词权重值进行调整,得到各个已阅文本候选关键词的词权重调整值,包括:
若检测到所述第一已阅文本对应的至少一个已阅文本候选关键词中的任一已阅文本候选关键词同为第二已阅文本的已阅文本候选关键词,则获取所述任一已阅文本候选关键词在所述第二已阅文本中的第二词权重;
将所述第二词权重和所述第一词权重的和值作为所述任一已阅文本候选关键词在所述第一已阅文本中的词权重调整值;
若检测到所述至少一个已阅文本候选关键词中的任一已阅文本候选关键词不为第二已阅文本的已阅文本候选关键词,则将所述任一已阅文本候选关键词在所述第一已阅文本中的第一词权重确定为所述任一已阅文本候选关键词在所述第一已阅文本中的词权重调整值。
5.根据权利要求3所述的方法,其特征在于,所述根据关键词提取算法确定第一已阅文本对应的至少一个已阅文本候选关键词中各个已阅文本候选关键词的第一词权重值之前,所述方法还包括:
基于标点符号将所述第一已阅文本分割为至少一个句子;
对所述至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个已阅文本候选关键词,所述已阅文本候选关键词的词性包括以下至少一种:名词、动词和动名词。
6.根据权利要求5所述的方法,其特征在于,所述对所述至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个已阅文本候选关键词,包括:
对所述至少一个句子中的各个句子进行分词处理,得到至少一个关键词;
对所述至少一个关键词中的各个关键词进行去停处理,并对去停处理后的关键词进行词性标注
从去停处理后的关键词中将词性为预设词性的关键词确定为已阅文本候选关键词,所述预设词性包括名词、动词和动名词中的至少一种。
7.根据权利要求1所述的方法,其特征在于,所述将所述相关度得分排序前M的待推向量集对应的待推文本确定为所述用户的推荐文本之后,所述方法还包括:
将所述推荐文本与所述用户的账号信息关联存储至存储装置中;
当检测到所述用户基于所述账号信息登录时,输出所述推荐文本。
8.一种文本推荐装置,其特征在于,所述装置包括:
获取模,用于获取用户对应的身份信息和至少一个已阅文本;
处理模块,用于根据关键词提取算法确定所述至少一个已阅文本中每个已阅文本对应的至少一个已阅文本关键词、所述身份信息对应的身份关键词、以及至少一个待推文本中每个待推文本对应的至少一个待推文本关键词;
所述处理模块,还用于基于开源词向量数据确定所述每个已阅文本对应的各个已阅文本关键词的第一词向量、所述身份关键词的第二词向量、以及所述每个待推文本对应的各个待推文本关键词的第三词向量;
所述处理模块,还用于将包括所述每个已阅文本对应的各个已阅文本关键词的第一词向量和所述第二词向量的向量集确定为用户兴趣向量集,并基于预设相关度算法计算每个待推文本对应的待推向量集与所述用户兴趣向量集的相关度得分,所述待推文本对应的待推向量集包括所述待推文本对应各个待推文本关键词的第三词向量;
所述处理模块,还用于将所述相关度得分排序前M的待推向量集对应的待推文本确定为所述用户的推荐文本,所述M为大于0的整数。
9.一种服务器,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-7任意一项所述的方法。

说明书全文

一种文本推荐方法及相关设备

技术领域

[0001] 本发明涉及数据处理技术领域,尤其涉及一种文本推荐方法及相关设备。

背景技术

[0002] 目前的文本推荐方法,主要依靠用户的已阅文档等数据建立用户兴趣向量,并计算每个待推文本与用户已阅文档之间关联度,进而将关联度大于一定阈值的待推文档推荐给用户。其中,在计算关联度的过程中,基本只考虑了待推文本与用户已阅文档之间关键词的严格匹配,并未考虑关键词的语义信息,使得文本推荐结果不够准确。

发明内容

[0003] 本发明实施例提供了一种文本推荐方法及相关设备,可以提高文本推荐的准确度。
[0004] 第一方面,本发明实施例提供了一种文本推荐方法,所述方法应用于服务器,该方法包括:
[0005] 获取用户对应的身份信息和至少一个已阅文本,并根据关键词提取算法确定所述至少一个已阅文本中每个已阅文本对应的至少一个已阅文本关键词、所述身份信息对应的身份关键词、以及至少一个待推文本中每个待推文本对应的至少一个待推文本关键词;
[0006] 基于开源词向量数据确定所述每个已阅文本对应的各个已阅文本关键词的第一词向量、所述身份关键词的第二词向量、以及所述每个待推文本对应的各个待推文本关键词的第三词向量;
[0007] 将包括所述每个已阅文本对应的各个已阅文本关键词的第一词向量和所述第二词向量的向量集确定为用户兴趣向量集;
[0008] 基于预设相关度算法计算每个待推文本对应的待推向量集与所述用户兴趣向量集的相关度得分,所述待推文本对应的待推向量集包括所述待推文本对应各个待推文本关键词的第三词向量;
[0009] 将所述相关度得分排序前M的待推向量集对应的待推文本确定为所述用户的推荐文本,所述M为大于0的整数。
[0010] 在一个实施例中,所述基于预设相关度算法计算每个待推文本对应的待推向量集与所述用户兴趣向量集的相关度得分的具体实施方式为:
[0011] 基于预设相关度算法计算每个待推文本对应的待推向量集中各个第三词向量与所述用户兴趣向量集中的各个词向量之间的余弦相似度;
[0012] 对各个所述余弦相似度进行求和处理,并将求和结果与预设数值相除,得到所述每个待推文本对应的待推向量集与所述用户兴趣向量集的相关度得分。
[0013] 在一个实施例中,所述根据关键词提取算法确定所述至少一个已阅文本中每个已阅文本对应的至少一个已阅文本关键词的具体实施方式为:
[0014] 根据关键词提取算法确定第一已阅文本对应的至少一个已阅文本候选关键词中各个已阅文本候选关键词的第一词权重值,所述第一已阅文本为所述至少一个已阅文本中的任一个已阅文本;
[0015] 基于权重值调整规则对所述第一已阅文本对应各个已阅文本候选关键词的第一词权重值进行调整,得到各个已阅文本候选关键词的词权重调整值;
[0016] 按照词权重调整值从大到小的顺序进行排序,并将所述调整词权重排序前N的已阅文本候选关键词确定为所述第一已阅文本对应的N个已阅文本关键词,所述N为大于0的整数。
[0017] 在一个实施例中,所述基于权重值调整规则对所述第一已阅文本对应各个已阅文本候选关键词的第一词权重值进行调整,得到各个已阅文本候选关键词的词权重调整值的具体实施方式为:
[0018] 若检测到所述第一已阅文本对应的至少一个已阅文本候选关键词中的任一已阅文本候选关键词同为第二已阅文本的已阅文本候选关键词,则获取所述任一已阅文本候选关键词在所述第二已阅文本中的第二词权重;
[0019] 将所述第二词权重和所述第一词权重的和值作为所述任一已阅文本候选关键词在所述第一已阅文本中的词权重调整值;
[0020] 若检测到所述至少一个已阅文本候选关键词中的任一已阅文本候选关键词不为第二已阅文本的已阅文本候选关键词,则将所述任一已阅文本候选关键词在所述第一已阅文本中的第一词权重确定为所述任一已阅文本候选关键词在所述第一已阅文本中的词权重调整值。
[0021] 在一个实施例中,所述根据关键词提取算法确定第一已阅文本对应的至少一个已阅文本候选关键词中各个已阅文本候选关键词的第一词权重值之前,还可以基于标点符号将所述第一已阅文本分割为至少一个句子;对所述至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个已阅文本候选关键词,所述已阅文本候选关键词的词性包括以下至少一种:名词、动词和动名词。
[0022] 在一个实施例中,所述对所述至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个已阅文本候选关键词的具体实施方式为:对所述至少一个句子中的各个句子进行分词处理,得到至少一个关键词;对所述至少一个关键词中的各个关键词进行去停处理,并对去停处理后的关键词进行词性标注;从去停处理后的关键词中将词性为预设词性的关键词确定为已阅文本候选关键词,所述预设词性包括名词、动词和动名词中的至少一种。
[0023] 在一个实施例中,所述将所述相关度得分排序前M的待推向量集对应的待推文本确定为所述用户的推荐文本之后,还可以将所述推荐文本与所述用户的账号信息关联存储至存储装置中;当检测到所述用户基于所述账号信息登录时,输出所述推荐文本。
[0024] 第二方面,本发明实施例提供了一种文本推荐装置,该文本推荐装置包括用于执行上述第一方面的方法的模
[0025] 第三方面,本发明实施例提供了一种服务器,该服务器包括处理器、网络接口存储器,所述处理器、网络接口和存储器相互连接,其中,所述网络接口受所述处理器的控制用于收发消息,所述存储器用于存储支持服务器执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
[0026] 第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
[0027] 本申请实施例中,服务器可以获取用户对应的身份信息和至少一个已阅文本,并根据关键词提取算法确定至少一个已阅文本中每个已阅文本对应的至少一个已阅文本关键词、身份信息对应的身份关键词、以及至少一个待推文本中每个待推文本对应的至少一个待推文本关键词。进一步地,服务器可以基于开源词向量数据确定每个已阅文本对应的各个已阅文本关键词的第一词向量、身份关键词的第二词向量、以及每个待推文本对应的各个待推文本关键词的第三词向量,将包括每个已阅文本对应的各个已阅文本关键词的第一词向量和第二词向量的向量集确定为用户兴趣向量集。进一步地,服务器可以基于预设相关度算法计算每个待推文本对应的待推向量集与用户兴趣向量集的相关度得分,并将相关度得分排序前M的待推向量集对应的待推文本确定为该用户的推荐文本。采用这样的方式,增加了对关键词语义信息的考量,有利于提高文本推荐的准确度。附图说明
[0028] 为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029] 图1是本发明实施例提供的一种文本推荐方法的流程示意图;
[0030] 图2是本发明实施例提供的另一种文本推荐方法的流程示意图;
[0031] 图3是本发明实施例提供的一种候选关键词图的示意图;
[0032] 图4是本发明实施例提供的一种文本推荐装置的示意性框图
[0033] 图5是本发明实施例提供的一种服务器的示意性框图。

具体实施方式

[0034] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0035] 参见图1,图1是本发明实施例提供的一种文本推荐方法的流程示意图,该方法应用于服务器,可由服务器执行,如图所示,该文本推荐方法可包括:
[0036] S101:获取用户对应的身份信息和至少一个已阅文本,并根据关键词提取算法确定至少一个已阅文本中每个已阅文本对应的至少一个已阅文本关键词、该身份信息对应的身份关键词、以及至少一个待推文本中每个待推文本对应的至少一个待推文本关键词。
[0037] 其中,该已阅文本可以为电子书籍、新闻、推送消息、文档等等。该身份信息可以包括用户的行业信息,例如金融、餐饮、教育等等。在一个实施例中,服务器可以在检测到用户基于账号信息登录时,获取该用户预先存储的身份信息,以及该用户对应的至少一个已阅文本。
[0038] 在另一个实施例中,服务器预先存储有多个用户的身份信息,以及该多个用户中各个用户对应的至少一个已阅文本。针对这种情况,服务器可以按照预设周期获取预先存储的各个用户对应的至少一个已阅文本和身份信息,并执行步骤S102~105,确定出各个用户的推荐文本。进一步地,服务器可以将各个用户的账号信息与对应用户的推荐文本关联存储至存储装置中,当服务器检测到用户基于账号信息登录时,可以在存储装置中查询与该账号信息关联存储的推荐文本,若查询到该推荐文本,则输出该推荐文本。
[0039] 在一个实施例中,服务器输出该推荐文本的方式可以为:将该推荐文本输出至该服务器对应的前端页面,以便于用户通过前端页面查看该推荐文本。
[0040] S102:基于开源词向量数据确定每个已阅文本对应的各个已阅文本关键词的第一词向量、身份关键词的第二词向量、以及每个待推文本对应的各个待推文本关键词的第三词向量。
[0041] 在一个实施例中,上述开源词向量数据中包括多个词以及各个词对应的词向量。针对这种情况,服务器可以从该开源词向量数据中查询每个已阅文本对应的各个已阅文本关键词的第一词向量、身份关键词的第二词向量、以及每个待推文本对应的各个待推文本关键词的第三词向量,若未在该开源词向量数据中查询到该第一词向量、第二词向量或者第三词向量,则可以构建全0向量,并将该全0向量作为该对应的第一词向量、第二词向量或者第三词向量。例如,服务器未在开源词向量数据中查询到身份关键词对应的第二词向量,则可以构建全0向量,并将该全0向量确定为该身份关键词对应的第二词向量。
[0042] S103:将包括每个已阅文本对应的各个已阅文本关键词的第一词向量和第二词向量的向量集确定为用户兴趣向量集。
[0043] S104:基于预设相关度算法计算每个待推文本对应的待推向量集与用户兴趣向量集的相关度得分,该待推文本对应的待推向量集包括待推文本对应各个待推文本关键词的第三词向量。
[0044] 在一个实施例中,服务器可以基于预设相关度算法计算每个待推文本对应的待推向量集中各个第三词向量与所述用户兴趣向量集中的各个词向量之间的余弦相似度,并对各个余弦相似度进行求和处理,并将求和结果与预设数值相除,得到每个待推文本对应的待推向量集与用户兴趣向量集的相关度得分,进而将相关度得分排序前M的待推向量集对应的待推文本确定为用户的推荐文本,该述M为大于0的整数。
[0045] 示例性地,该预设相关度算法对应的计算公式可以如公式1-1所示:
[0046]
[0047] 其中,wu为用户兴趣向量集,i为wu用户兴趣向量集中的用户兴趣向量,wt为待推文本对应的待推向量集,j为wt待推向量集中的待推向量,d为两个词向量之间的余弦相似度值。在一个实施例中,服务器可以基于该公式1-1计算出所有待推文本对应待推向量集与用户兴趣向量集之间的相关度得分S,可以理解为待推文本与用户兴趣点之间的相关度得分。
[0048] 可以看出,在用户兴趣向量集中增加了用户身份关键词对应的第二词向量,一方面可以结合用户自身的身份信息挖掘用户潜在的阅读兴趣点,可以提高文本推荐的准确度;另一方面,当该用户不存在已阅文本时,即该用户不存在历史观测数据,仍然可以基于用户的身份信息确定出该用户的推荐文本,可以有效避免“冷启动”问题。
[0049] S105:将相关度得分排序前M的待推向量集对应的待推文本确定为该用户的推荐文本,该M为大于0的整数。
[0050] 示例性地,M为1,假设目前用户对应有2个待推文本,和1个已阅文本,身份关键词为O,执行步骤S1,得到2个待推文本各自对应的待推文本关键词分别为:a1、a2、a3、a4;b1、b2、b3、b4;已阅文本对应的已阅文本关键词分别为:c1、c2、c3、c4。那么,服务器可以根据公式1-1计算出第一个待推文本对应的待推文本关键词a1、a2、a3、a4对应的第一待推向量集和用户兴趣向量集(即O和已阅文本关键词c1、c2、c3和c4对应的向量)中两两向量之间的余弦相似度值d,进而对所有的d求和并除以25,便确定出第一个待推文本与用户兴趣点之间的第一相关度得分。与之相似的,可以采用相似的方式,确定出第二待推文本与用户兴趣点之前的第二相关度得分,进而对比第一相关度得分和第二相关度得分,将相关度得分排名第一的待推文本确定为该用户的推荐文本。
[0051] 本申请实施例中,服务器可以获取用户对应的身份信息和至少一个已阅文本,并根据关键词提取算法确定至少一个已阅文本中每个已阅文本对应的至少一个已阅文本关键词、身份信息对应的身份关键词、以及至少一个待推文本中每个待推文本对应的至少一个待推文本关键词。进一步地,服务器可以基于开源词向量数据确定每个已阅文本对应的各个已阅文本关键词的第一词向量、身份关键词的第二词向量、以及每个待推文本对应的各个待推文本关键词的第三词向量,将包括每个已阅文本对应的各个已阅文本关键词的第一词向量和第二词向量的向量集确定为用户兴趣向量集。进一步地,服务器可以基于预设相关度算法计算每个待推文本对应的待推向量集与用户兴趣向量集的相关度得分,并将相关度得分排序前M的待推向量集对应的待推文本确定为该用户的推荐文本。采用这样的方式,有利于提高文本推荐的准确度。
[0052] 参见图2,图2是本发明实施例提供的另一种文本推荐方法的流程示意图,该方法应用于服务器,可由服务器执行,如图所示,该文本推荐方法可包括:
[0053] S201:获取用户对应的身份信息和至少一个已阅文本,并根据关键词提取算法确定至少一个已阅文本中每个已阅文本对应的至少一个已阅文本关键词、该身份信息对应的身份关键词、以及至少一个待推文本中每个待推文本对应的至少一个待推文本关键词。
[0054] 在一个实施例中,服务器可以根据关键词提取算法确定第一已阅文本对应的至少一个已阅文本候选关键词中各个已阅文本候选关键词的第一词权重值,第一已阅文本为至少一个已阅文本中的任一个已阅文本。进一步地,服务器可以基于权重值调整规则对第一已阅文本对应各个已阅文本候选关键词的第一词权重值进行调整,得到各个已阅文本候选关键词的词权重调整值,并按照词权重调整值从大到小的顺序进行排序,进而将调整词权重排序前N的已阅文本候选关键词确定为第一已阅文本对应的N个已阅文本关键词,该N为大于0的整数。重复执行上述相同的步骤,直到确定出用户对应的所有已阅文本各自对应的N个已阅文本关键词。
[0055] 在一个实施例中,服务器若检测到该第一已阅文本对应的至少一个已阅文本候选关键词中的任一已阅文本候选关键词同为第二已阅文本的已阅文本候选关键词,则获取任一已阅文本候选关键词在第二已阅文本中的第二词权重,并将第二词权重和第一词权重的和值作为该任一已阅文本候选关键词在第一已阅文本中的词权重调整值。若检测到至少一个已阅文本候选关键词中的任一已阅文本候选关键词不为第二已阅文本的已阅文本候选关键词,则将任一已阅文本候选关键词在所述第一已阅文本中的第一词权重确定为任一已阅文本候选关键词在第一已阅文本中的词权重调整值。
[0056] 示例性地,用户对应的已阅文本包括文本1和文本2,文本1对应的至少一个已阅文本候选关键词包括“手机”、“降价”、“处理”;文本2对应的至少一个已阅文本候选关键词包括“曲面屏”、“手机”、“上市”,“手机”在文本1中的第一词权重的K1,在文本2中的第二词权重为K2。这种情况下,由于“手机”同时出现在文本1和文本2,则可以对该“手机”的词权重进行累加,将K1+K2作为“手机”在文本1和文本2中的词权重调整值。
[0057] 在一个实施例中,服务器根据关键词提取算法确定第一已阅文本对应的至少一个已阅文本候选关键词中各个已阅文本候选关键词的第一词权重值之前,还可以基于标点符号将第一已阅文本分割为至少一个句子,对至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个已阅文本候选关键词,该已阅文本候选关键词的词性包括以下至少一种:名词、动词和动名词。
[0058] 其中,该预处理可以包括分词处理、去停处理和词性标注。在一个实施例中,服务器对至少一个句子中的各个句子进行分词处理,得到至少一个关键词,并对至少一个关键词中的各个关键词进行去停处理,对去停处理后的关键词进行词性标注。进一步地,服务器可以从去停处理后的关键词中将词性为预设词性的关键词确定为已阅文本候选关键词,该预设词性包括名词、动词和动名词中的至少一种。
[0059] 在一个实施例中,上述关键词提取算法例如可以为TextRank算法,该TextRank算法的优势在于仅依靠文本自身信息即可实现关键词的提取。
[0060] 该TextRank对应的计算公式如公式2-1所示:
[0061]
[0062] 其中,wij是Vi和Vj两个节点之间的边权重,wij初始值为句子的词数总和的倒数,WS(Vi)是节点Vi在句子中的权重,WS(Vj)是节点Vj在句子中的权重,In(Vj)表示节点Vi的前驱节点集合,wjk表示节点Vj的后驱节点集合,节点Vj的后驱节点表示为Vk,d是阻尼系数确保每个词都有大于0的权重,例如可以取0.85。其中,公式2-1中的节点在句子中可以理解为一个词语。
[0063] 在一个实施例中,当服务器确定出至少一个已阅文本候选关键词后,可以构建候选关键词图G=(V,E),其中V为节点集,由已阅文本候选关键词构成,E为图中边的集合。进一步地,服务器可以根据共现关系构建任意两个节点之间的边,两个节点之间存在的边仅当它们对应的词汇在长度为预设长度阈值的窗口中共现,也即,当两个词汇在句中的间隔长度小于预设长度阈值时,该两个词汇对应的两个节点之间存在的边才会显示在候选关键词图中。其中,该预设长度阈值例如可以为5,为开发人员预先设定,后续可以根据实际需求进行调整。
[0064] 进一步地,服务器可以上述至少一个已阅文本候选关键词的所有两两组合的已阅文本候选关键词根据上述公式2-1进行计算,直至收敛,从而得到每个已阅文本候选关键词的在对应已阅文本中的第一词权重值。
[0065] 示例性地,假设已阅文本对应的一段文本原句为:国务院关于广东、河北两省建立渔业经济体制综合改革试验区的批复,那么服务器将该文本根据标点符号分割为每个句子,然后对句子进行分词、词性标注、去停用词处理,最后只选取词性为名词、动词及动名词的词作为候选关键词的结果为:国务院广东河北两省建立渔业经济体制综合改革试验区批复,基于上述至少一个候选关键词集构建出的候选关键词图如图3所示。当图构建好以后,服务器可以遍历每条边,根据TextRank计算公式可计算出每个已阅文本候选关键词的在对应已阅文本中的第一词权重值。
[0066] 其中,根据关键词提取算法确定至少一个待推文本中每个待推文本对应的至少一个待推文本关键词的实现方式可以参照根据关键词提取算法确定出已阅文本对应的已阅文本关键词的具体描述,此处不再赘述。
[0067] S202:基于开源词向量数据确定每个已阅文本对应的各个已阅文本关键词的第一词向量、身份关键词的第二词向量、以及每个待推文本对应的各个待推文本关键词的第三词向量。
[0068] S203:将包括每个已阅文本对应的各个已阅文本关键词的第一词向量和第二词向量的向量集确定为用户兴趣向量集。
[0069] S204:基于预设相关度算法计算每个待推文本对应的待推向量集与用户兴趣向量集的相关度得分,并将相关度得分排序前M的待推向量集对应的待推文本确定为该用户的推荐文本,该M为大于0的整数。其中,步骤S201~步骤S204的具体实施方式,可以参见上述实施例中步骤S101~步骤S105的相关描述,此处不再赘述。
[0070] S205:将该推荐文本与用户的账号信息关联存储至存储装置中,当检测到该用户基于账号信息登录时,输出该推荐文本。
[0071] 在一个实施例中,服务器预先存储有多个用户的身份信息,以及该多个用户中各个用户对应的至少一个已阅文本。针对这种情况,服务器可以按照预设周期获取预先存储的各个用户对应的至少一个已阅文本和身份信息,并执行步骤S102~105,确定出各个用户的推荐文本。进一步地,服务器可以将各个用户的账号信息与对应用户的推荐文本关联存储至存储装置中,当服务器检测到用户基于账号信息登录时,可以在存储装置中查询与该账号信息关联存储的推荐文本,若查询到该推荐文本,则输出该推荐文本。
[0072] 在一个实施例中,服务器输出该推荐文本的方式可以为:将该推荐文本输出至该服务器对应的前端页面,以便于用户通过前端页面查看该推荐文本。可以看出,本申请实施例可以预先为用户确定出推荐文本,当检测用户登录时,可以直接向该用户推荐文本,可以提高文本推荐的效率。
[0073] 本发明实施例还提供了一种文本推荐装置。该装置包括用于执行前述图1或者图2所述的方法的模块,配置于服务器。具体地,参见图4,是本发明实施例提供的文本推荐装置的示意框图。本实施例的文本推荐装置包括:
[0074] 获取模块40,用于获取用户对应的身份信息和至少一个已阅文本;
[0075] 处理模块41,用于根据关键词提取算法确定所述至少一个已阅文本中每个已阅文本对应的至少一个已阅文本关键词、所述身份信息对应的身份关键词、以及至少一个待推文本中每个待推文本对应的至少一个待推文本关键词;
[0076] 所述处理模块41,还用于基于开源词向量数据确定所述每个已阅文本对应的各个已阅文本关键词的第一词向量、所述身份关键词的第二词向量、以及所述每个待推文本对应的各个待推文本关键词的第三词向量;
[0077] 所述处理模块41,还用于将包括所述每个已阅文本对应的各个已阅文本关键词的第一词向量和所述第二词向量的向量集确定为用户兴趣向量集,并基于预设相关度算法计算每个待推文本对应的待推向量集与所述用户兴趣向量集的相关度得分,所述待推文本对应的待推向量集包括所述待推文本对应各个待推文本关键词的第三词向量;
[0078] 所述处理模块41,还用于将所述相关度得分排序前M的待推向量集对应的待推文本确定为所述用户的推荐文本,所述M为大于0的整数。
[0079] 在一个实施例中,所述处理模块41,具体用于基于预设相关度算法计算每个待推文本对应的待推向量集中各个第三词向量与所述用户兴趣向量集中的各个词向量之间的余弦相似度;
[0080] 对各个所述余弦相似度进行求和处理,并将求和结果与预设数值相除,得到所述每个待推文本对应的待推向量集与所述用户兴趣向量集的相关度得分。
[0081] 在一个实施例中,所述处理模块41,还具体用于根据关键词提取算法确定第一已阅文本对应的至少一个已阅文本候选关键词中各个已阅文本候选关键词的第一词权重值,所述第一已阅文本为所述至少一个已阅文本中的任一个已阅文本;
[0082] 基于权重值调整规则对所述第一已阅文本对应各个已阅文本候选关键词的第一词权重值进行调整,得到各个已阅文本候选关键词的词权重调整值;
[0083] 按照词权重调整值从大到小的顺序进行排序,并将所述调整词权重排序前N的已阅文本候选关键词确定为所述第一已阅文本对应的N个已阅文本关键词,所述N为大于0的整数。
[0084] 在一个实施例中,所述处理模块41,还具体用于若检测到所述第一已阅文本对应的至少一个已阅文本候选关键词中的任一已阅文本候选关键词同为第二已阅文本的已阅文本候选关键词,则获取所述任一已阅文本候选关键词在所述第二已阅文本中的第二词权重;
[0085] 将所述第二词权重和所述第一词权重的和值作为所述任一已阅文本候选关键词在所述第一已阅文本中的词权重调整值;
[0086] 若检测到所述至少一个已阅文本候选关键词中的任一已阅文本候选关键词不为第二已阅文本的已阅文本候选关键词,则将所述任一已阅文本候选关键词在所述第一已阅文本中的第一词权重确定为所述任一已阅文本候选关键词在所述第一已阅文本中的词权重调整值。
[0087] 在一个实施例中,所述处理模块41,还用于基于标点符号将所述第一已阅文本分割为至少一个句子;对所述至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个已阅文本候选关键词,所述已阅文本候选关键词的词性包括以下至少一种:名词、动词和动名词。
[0088] 在一个实施例中,所述处理模块41,还具体用于对所述至少一个句子中的各个句子进行分词处理,得到至少一个关键词;
[0089] 对所述至少一个关键词中的各个关键词进行去停处理,并对去停处理后的关键词进行词性标注;
[0090] 从去停处理后的关键词中将词性为预设词性的关键词确定为已阅文本候选关键词,所述预设词性包括名词、动词和动名词中的至少一种。
[0091] 在一个实施例中,所述装置还包括输出模块42,其中,所述处理模块41,还用于将所述推荐文本与所述用户的账号信息关联存储至存储装置中;输出模块42,用于当检测到所述用户基于所述账号信息登录时,输出所述推荐文本。
[0092] 需要说明的是,本发明实施例所描述的文本推荐装置的各功能模块的功能可根据图1或者图2所述的方法实施例中的方法具体实现,其具体实现过程可以参照图1或者图2的方法实施例的相关描述,此处不再赘述。
[0093] 请参见图5,图5是本发明实施例提供的一种服务器的示意性框图,如图5所示,该服务器包括,处理器501、存储器502和网络接口503。上述处理器501、存储器502和网络接口503可通过总线或其他方式连接,在本发明实施例所示图5中以通过总线连接为例。其中,网络接口503受所述处理器的控制用于收发消息,存储器502用于存储计算机程序,所述计算机程序包括程序指令,处理器501用于执行存储器502存储的程序指令。其中,处理器501被配置用于调用所述程序指令执行:获取用户对应的身份信息和至少一个已阅文本,并根据关键词提取算法确定所述至少一个已阅文本中每个已阅文本对应的至少一个已阅文本关键词、所述身份信息对应的身份关键词、以及至少一个待推文本中每个待推文本对应的至少一个待推文本关键词;基于开源词向量数据确定所述每个已阅文本对应的各个已阅文本关键词的第一词向量、所述身份关键词的第二词向量、以及所述每个待推文本对应的各个待推文本关键词的第三词向量;将包括所述每个已阅文本对应的各个已阅文本关键词的第一词向量和所述第二词向量的向量集确定为用户兴趣向量集;基于预设相关度算法计算每个待推文本对应的待推向量集与所述用户兴趣向量集的相关度得分,所述待推文本对应的待推向量集包括所述待推文本对应各个待推文本关键词的第三词向量;将所述相关度得分排序前M的待推向量集对应的待推文本确定为所述用户的推荐文本,所述M为大于0的整数[0094] 在一个实施例中,所述处理器501,具体用于基于预设相关度算法计算每个待推文本对应的待推向量集中各个第三词向量与所述用户兴趣向量集中的各个词向量之间的余弦相似度;
[0095] 对各个所述余弦相似度进行求和处理,并将求和结果与预设数值相除,得到所述每个待推文本对应的待推向量集与所述用户兴趣向量集的相关度得分。
[0096] 在一个实施例中,所述处理器501,还具体用于根据关键词提取算法确定第一已阅文本对应的至少一个已阅文本候选关键词中各个已阅文本候选关键词的第一词权重值,所述第一已阅文本为所述至少一个已阅文本中的任一个已阅文本;
[0097] 基于权重值调整规则对所述第一已阅文本对应各个已阅文本候选关键词的第一词权重值进行调整,得到各个已阅文本候选关键词的词权重调整值;
[0098] 按照词权重调整值从大到小的顺序进行排序,并将所述调整词权重排序前N的已阅文本候选关键词确定为所述第一已阅文本对应的N个已阅文本关键词,所述N为大于0的整数。
[0099] 在一个实施例中,所述处理器501,还具体用于若检测到所述第一已阅文本对应的至少一个已阅文本候选关键词中的任一已阅文本候选关键词同为第二已阅文本的已阅文本候选关键词,则获取所述任一已阅文本候选关键词在所述第二已阅文本中的第二词权重;
[0100] 将所述第二词权重和所述第一词权重的和值作为所述任一已阅文本候选关键词在所述第一已阅文本中的词权重调整值;
[0101] 若检测到所述至少一个已阅文本候选关键词中的任一已阅文本候选关键词不为第二已阅文本的已阅文本候选关键词,则将所述任一已阅文本候选关键词在所述第一已阅文本中的第一词权重确定为所述任一已阅文本候选关键词在所述第一已阅文本中的词权重调整值。
[0102] 在一个实施例中,所述处理器501,还用于基于标点符号将所述第一已阅文本分割为至少一个句子;对所述至少一个句子中的各个句子进行预处理,并从预处理后的至少一个句子中确定出至少一个已阅文本候选关键词,所述已阅文本候选关键词的词性包括以下至少一种:名词、动词和动名词。
[0103] 在一个实施例中,所述处理器501,还具体用于对所述至少一个句子中的各个句子进行分词处理,得到至少一个关键词;
[0104] 对所述至少一个关键词中的各个关键词进行去停处理,并对去停处理后的关键词进行词性标注;
[0105] 从去停处理后的关键词中将词性为预设词性的关键词确定为已阅文本候选关键词,所述预设词性包括名词、动词和动名词中的至少一种。
[0106] 在一个实施例中,所述处理器501,还用于将所述推荐文本与所述用户的账号信息关联存储至存储装置中,当检测到所述用户基于所述账号信息登录时,通过网络接口503输出所述推荐文本。
[0107] 应当理解,在本发明实施例中,所称处理器501可以是中央处理单元(Central Processing Unit,CPU),该处理器501还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0108] 该存储器502可以包括只读存储器随机存取存储器,并向处理器501提供指令和数据。存储器502的一部分还可以包括非易失性随机存取存储器。例如,存储器502还可以存储设备类型的信息。
[0109] 具体实现中,本发明实施例中所描述的处理器501、存储器502和网络接口503可执行本发明实施例提供的图1或者图2所述的方法实施例所描述的实现方式,也可执行本发明实施例所描述的文本推荐装置的实现方式,在此不再赘述。
[0110] 在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:获取用户对应的身份信息和至少一个已阅文本,并根据关键词提取算法确定所述至少一个已阅文本中每个已阅文本对应的至少一个已阅文本关键词、所述身份信息对应的身份关键词、以及至少一个待推文本中每个待推文本对应的至少一个待推文本关键词;基于开源词向量数据确定所述每个已阅文本对应的各个已阅文本关键词的第一词向量、所述身份关键词的第二词向量、以及所述每个待推文本对应的各个待推文本关键词的第三词向量;将包括所述每个已阅文本对应的各个已阅文本关键词的第一词向量和所述第二词向量的向量集确定为用户兴趣向量集;基于预设相关度算法计算每个待推文本对应的待推向量集与所述用户兴趣向量集的相关度得分,所述待推文本对应的待推向量集包括所述待推文本对应各个待推文本关键词的第三词向量;
[0111] 将所述相关度得分排序前M的待推向量集对应的待推文本确定为所述用户的推荐文本,所述M为大于0的整数。
[0112] 所述计算机可读存储介质可以是前述任一实施例所述的服务器的内部存储单元,例如服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备,例如所述服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述服务器的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述服务器所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
[0113] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
[0114] 以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈