首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 一种基于用户历史行为特征的知识文档推荐方法

一种基于用户历史行为特征的知识文档推荐方法

阅读:1027发布:2020-05-29

专利汇可以提供一种基于用户历史行为特征的知识文档推荐方法专利检索,专利查询,专利分析的服务。并且一种基于用户历史行为特征的知识文档推荐方法,通过计算文章中每个词语的词频,以词语和词频作为项和支持度,用FP-Tree方法挖掘出与用户上传之文章最具相关性的文章,包括:对 知识库 中的和用户阅读过的文章分词提取知识库词库;扫描优化用户词库中的词表,用TF词频代替FP-tree 算法 中的支持度构建FP树,挖掘出具有用户阅读特征的频繁项集;最后确定最相关的文章,对最相关文章的重要度排序,向用户推荐。本 发明 用文章中的词语作为挖掘特征,为每个用户的历史阅读行为建模,不依赖其它用户的阅读行为,解决了企业知识库中大量有价值的文章无人阅读而用户又找不到包含相关知识文章的问题。,下面是一种基于用户历史行为特征的知识文档推荐方法专利的具体信息内容。

1.一种基于用户历史行为特征的知识文档推荐方法,
首先,由管理员将文章集建立知识库,确定知识库中文章的分类;
之后,登陆用户上传新的文章到知识库后,为上传的文章标注类别;
第三步,系统收集用户上传的以及阅读过的文章并进行归类分析;
最终,根据分析结果向该用户推荐同类别的其他文章阅读,并排列推荐文章的显示顺序,其特征是:
向用户推荐文章的方法为基于词频的关联知识挖掘方法,具体为:分析用户历史行为特征,建立用户历史行为特征库,通过计算用户上传的以及阅读过的文章中每个词语的词频,以词语和词频作为项和支持度,用FP-Tree算法挖掘出与用户上传之文章最具相关性的文章,包括下述三种,下述的N为1~15:
第一种方式,该用户上传或阅读的文章种类的知识文档中点击数最高的N篇文章;
第二种方式,该用户上传或阅读的文章种类的知识文档中好评数最多的N篇文章;
第三种方式,通过数据挖掘得到与用户上传、阅读过的文章中知识关联性最大的N篇文章;
第三种方式具体为,
对知识库中的文章做分词处理形成知识库词库,
提取用户上传过、阅读过的文章做分词处理形成用户词库,
约减用户词库形成优化用户词库,
通过FP-Tree算法对用户词库进行数据挖掘得到频繁项集,
根据频繁项集中的词在优化词库的各对应类别中的词频确定知识最相关的N篇文章。
2.根据权利要求1所述的基于用户历史行为特征的知识文档推荐方法,其特征是:所述用户历史行为特征库,是知识库用户在上传和阅读过程中,包括用户上传过的文章、上传文章的类别、阅读过的文章、阅读过文章的类别。
3.根据权利要求1所述的基于用户历史行为特征的知识文档推荐方法,其特征是:所述知识库词库以下述方式得到:
首先对知识库中的每一篇文章做分词处理,分词后,首先统计词频TF,对于在第j篇文章中的第i个词语ti,它的重要性表示为:
上式中ni,j是词ti在文章dj中出现的次数,分母是在文章dj中所有字词的出现次数之和,下标i、j、k均表示序号;
然后统计词语的逆向文档频率IDF,由下式得到:
其中:idfi表示第i个词语的IDF值,|D|是知识库中文章的总数,|{d:ti∈d}|是知识库中包含词语ti的文章数目,
再以下式计算TF-IDF词频:
tfidfi,j=tfi,j*idfi,
tfidfi,j表示第j篇文章中第i个词的TF-IDF词频,统计出的每个知识类别词语的TF-IDF词频值,以包含有【词,TF-IDF词频】对的形式作为知识库词库存储。
4.根据权利要求1所述的基于用户历史行为特征的知识文档推荐方法,其特征是:所述用户词库以下述方式得到:
首先提取用户上传和阅读过的文章组成文章集,然后用下述方法对文章集中的每篇文章提取TF词频:
首先对文章集中的每一篇文章做分词处理,分词后,首先统计词频TF,对于在第j篇文章中的第i个词语ti,它的重要性表示为:
上式中ni,j是词ti在文章dj中出现的次数,分母是在文章dj中所有字词的出现次数之和,下标i、j、k均表示序号;
然后统计词语的逆向文档频率IDF,由下式得到:
其中:idfi表示第i个词语的IDF值,|D|是知识库中文章的总数,|{d:ti∈d}|是知识库中包含词语ti的文章数目,
再以下式计算TF词频TF-IDF:
tfidfi,j=tfi,j*idfi,
tfidfi,j表示第j篇文章中第i个词的TF-IDF词频,统计出的每个知识类别词语的TF词频值,得到【词,TF词频】对,以包含有【文章,【词,TF词频】】对的形式存储为用户词库。
5.根据权利要求4所述的基于用户历史行为特征的知识文档推荐方法,其特征是:对所述用户词库进行约减,每个类别只保留TF词频与TF-IDF词频值之和在30%以上的【词,TF词频】对,作为优化用户词库存储,所述优化用户词库与所述用户词库的格式一致。
6.根据权利要求4或5所述的基于用户历史行为特征的知识文档推荐方法,其特征是:
所述通过FP-Tree算法对用户词库进行数据挖掘得到频繁项集具体为,使用数据挖掘中的FP-Tree算法对用户的阅读习惯做文本信息挖掘,找出最有可能在阅读时一起出现的词语存储为频繁项集,方法为:
输入用户词库中某一知识类别中所有该用户阅读过的文章,输出频繁项集,以【词,TF词频】对作为FP-Tree的【项,值】对,【词,TF词频】对中的“词”作为FP-Tree的搜索项,第一次搜索的时候用“TF词频”代替原算法中的项的频率,设一个词语的TF词频为支持度阈值,如果频繁项集中的项不满足支持度阈值,则丢弃该项,满足支持度阈值则生成FP-Tree。
7.根据权利要求6之一所述的基于用户历史行为特征的知识文档推荐方法,其特征是:使用数据挖掘中的FP-Tree算法对用户的阅读习惯做文本信息挖掘的具体实现方法如下:
输入词表,词表结构包括文章ID、该文章中的词语、对应词语的词频,第一步:扫描所述词表,累计所有文章中各词的TF词频之和;设最小支持度,舍弃支持度小于所述的最小支持度的累计词的这一项,得到频繁项集;
第二步:对于每一条记录,按照所述频繁项集中TF词频之和的大小重新排序;
第三步:把第二步得到的各条记录插入到FP-Tree中,构造FP-Tree,构造FP-Tree的过程为:
(1)定义FP-Tree的根节点为空,以null标记,
(2)在null标记后面插入第一条记录:文章1的词语表,
(3)在第一条记录后面插入第二条记录:文章2的词语表,
(4)在第二条记录后面插入第三条记录:文章3的词语表,直至遍历完成整个数据库,FP-Tree构造完成。
第四步:从FP-Tree中找出频繁项,以如下方式遍历FP-Tree的表头中的每一项:
(1)从FP-Tree中找到所有的“指定词”节点,向上遍历它的祖先节点。
(2)对于每一条路径上的节点,其词频值都设置为“指定词”的词频值。
(3)每一项末尾都是“指定词”,可以把“指定词”去掉,得到条件模式基,此时的后缀模式是:“指定词”。
(4)把第(3)项结果当作原始的事务数据库,递归迭代执行,模式增长通过后缀模式与条件FP-Tree产生的频繁模式链接实现,即可得到频繁项集。
8.根据权利要求6所述的基于用户历史行为特征的知识文档推荐方法,其特征是:所述确定知识最相关的N篇文章采用如下方法:
查询频繁项集中的词语在知识库词库对应类别的每篇文章中出现的次数,将具体每篇文章中出现过的频繁项集中的词语的TF-IDF词频之和为最大的N篇文章,其中不包含该用户上传和已阅读过的文章,推荐为具有最相关知识的文章。
9.根据权利要求1所述的基于用户历史行为特征的知识文档推荐方法,其特征是:所述排列推荐文章的显示顺序采用如下方法:
统计向用户推荐文章的方法中三种方式所选中的文章是否重复出现,如果重复出现则统计每篇文章重复出现的次数,按每篇文章的重复出现次数倒序排列,即,重复出现次数最多的排在最前面,重复出现次数最少的排在最后面;如果出现重复次数相同的文章,则按上传时间倒序排列,即,上传时间最晚的排在最前面,上传时间最早的排在最后面。

说明书全文

一种基于用户历史行为特征的知识文档推荐方法

技术领域

[0001] 本发明涉及企业知识库与智能推荐技术领域,具体说是一种基于用户历史行为特征的知识文档推荐方法。

背景技术

[0002] 在一些大型的IT公司中已经成立了企业知识库,以存储企业基本信息:公共关系信息、年度报告、出版物和企业总体介绍等;企业组织结构信息:地址、代理商、分公司、服务中心等的信息产品和服务的信息:技术专长、服务特点等;基本流程信息;关于专利、商标、版权,使用其他企业技术、方法学可证的信息;顾客信息等。而很多员工发现他们很难在公司中找到他们需要的知识,通常员工们不知道这些信息保存在哪里,也不知道哪些信息或者文章可以为他们所用。在上述众多信息中,知识、文件多、难以管理、知识利用率低已经成为企业知识库的首要问题之一。此时,根据企业知识库的用户需要系统能根据他们的使用习惯、在登录后主动推荐用户可能需要的知识的需求日益强烈。
[0003] 现阶段一些公司如Amazon,eBay,淘宝,豆瓣,当当网等一些商务网站已经能够根据用户的购买记录、浏览、检索、收藏行为等分析用户的购买兴趣并向其主动推荐商品。也有一些文献利用用户的阅读记录为用户的阅读行为建模,仿照购物篮模型分析有相似阅读行为的用户最喜欢阅读的文章类型,也即,分析的是“阅读这篇文章的用户还有可能阅读另外哪些文章”。这种方式的劣势在于,依赖用户群体,也称为“冷启动”,即,当一个系统刚刚启动还只有很少的用户时系统无法建立有效的模型。且如果一篇文章已经很久没有用户阅读,那么即使这篇文章的知识价值再高也难以用这种模型推荐给用户。
[0004] 本方案亟需解决企业中沉淀的大量知识无人阅读,而新员工找不到这些相关知识的问题。

发明内容

[0005] 本发明所要解决的技术问题是提供一种基于用户历史行为特征的知识文档推荐方法,是基于用户历史行为特征的知识文档推荐方法,主动向用户推荐企业知识库中存储的与用户历史行为特征相关的知识文档。
[0006] 基于用户历史行为特征的知识文档推荐方法,
[0007] 首先,由管理员将文章集建立知识库,确定知识库中文章的分类;
[0008] 之后,登陆用户上传新的文章到知识库后,为上传的文章标注类别;
[0009] 第三步,系统收集用户上传的以及阅读过的文章并进行归类分析;
[0010] 最终,根据分析结果向该用户推荐同类别的其他文章阅读,并排列推荐文章的显示顺序,其特征是:
[0011] 向用户推荐文章的方法为基于词频的关联知识挖掘方法,具体为:分析用户历史行为特征,建立用户历史行为特征库,通过计算用户上传的以及阅读过的文章中每个词语的词频,以词语和词频作为项和支持度,用FP-Tree算法挖掘出与用户上传之文章最具相关性的文章,包括下述三种,下述的N为1~15:
[0012] 第一种方式,该用户上传或阅读的文章种类的知识文档中点击数最高的N篇文章;
[0013] 第二种方式,该用户上传或阅读的文章种类的知识文档中好评数最多的N篇文章;
[0014] 第三种方式,通过数据挖掘得到与用户上传、阅读过的文章中知识关联性最大的N篇文章;
[0015] 第三种方式具体为,
[0016] 对知识库中的文章做分词处理形成知识库词库,
[0017] 提取用户上传过、阅读过的文章做分词处理形成用户词库,
[0018] 约减用户词库形成优化用户词库,
[0019] 通过FP-Tree算法对用户词库进行数据挖掘得到频繁项集,
[0020] 根据频繁项集中的词在优化词库的各对应类别中的词频确定知识最相关的N篇文章。
[0021] 所述用户历史行为特征库,是知识库用户在上传和阅读过程中,包括用户上传过的文章、上传文章的类别、阅读过的文章、阅读过文章的类别。
[0022] 所述知识库词库以下述方式得到:
[0023] 首先对知识库中的每一篇文章做分词处理,分词后,首先统计词频TF(term frequency,TF表示某个词或短语在一篇文章中出现的频率),对于在第j篇文章中的第i个词语ti,它的重要性表示为:
[0024]
[0025] 上式中ni,j是词ti在文章dj中出现的次数,分母是在文章dj中所有字词的出现次数之和,下标i、j、k均表示序号;
[0026] 然后统计词语的逆向文档频率IDF(inverse document frequency,IDF是一个词语普遍重要性的度量),由下式得到:
[0027]
[0028] 其中:idfi表示第i个词语的IDF值,|D|是知识库中文章的总数,|{d:ti∈d}|是知识库中包含词语ti的文章数目,
[0029] 再以下式计算TF-IDF(term frequency–inverse document frequency)词频:
[0030] tfidfi,j=tfi,j*idfi,
[0031] tfidfi,j表示第j篇文章中第i个词的TF-IDF词频,统计出的每个知识类别词语的TF-IDF词频值,以包含有【词,TF-IDF词频】对的形式作为知识库词库存储。
[0032] 所述用户词库以下述方式得到:
[0033] 首先提取用户上传和阅读过的文章组成文章集,然后用下述方法对文章集中的每篇文章提取TF词频:
[0034] 首先对文章集中的每一篇文章做分词处理,分词后,首先统计词频TF,对于在第j篇文章中的第i个词语ti,它的重要性表示为:
[0035]
[0036] 上式中ni,j是词ti在文章dj中出现的次数,分母是在文章dj中所有字词的出现次数之和,下标i、j、k均表示序号;
[0037] 然后统计词语的逆向文档频率IDF,由下式得到:
[0038]
[0039] 其中:idfi表示第i个词语的IDF值,|D|是知识库中文章的总数,|{d:ti∈d}|是知识库中包含词语ti的文章数目,
[0040] 再以下式计算TF词频TF-IDF:
[0041] tfidfi,j=tfi,j*idfi,
[0042] tfidfi,j表示第j篇文章中第i个词的TF-IDF词频,统计出的每个知识类别词语的TF词频值,得到【词,TF词频】对,以包含有【文章,【词,TF词频】】对的形式存储为用户词库。
[0043] 对所述用户词库进行约减,每个类别只保留TF词频值与TF-IDF词频值之和在30%以上的【词,TF词频】对,作为优化用户词库存储,所述优化用户词库与所述用户词库的格式一致。此处,词频值的约减限额也可以是其它百分比数值。
[0044] 所述通过FP-Tree算法对用户词库进行数据挖掘得到频繁项集具体为,使用数据挖掘中的FP-Tree算法对用户的阅读习惯做文本信息挖掘,找出最有可能在阅读时一起出现的词语存储为频繁项集,方法为:
[0045] 输入用户词库中某一知识类别中所有该用户阅读过的文章,输出频繁项集,以【词,TF词频】对作为FP-Tree的【项,值】对,【词,TF词频】对中的“词”作为FP-Tree的搜索项,第一次搜索的时候用“TF词频”代替原算法中的项的频率,设一个词语的TF词频为支持度阈值,如果频繁项集中的项不满足支持度阈值,则丢弃该项,满足支持度阈值则生成FP-Tree。
[0046] 使用数据挖掘中的FP-Tree算法对用户的阅读习惯做文本信息挖掘的具体实现方法如下:
[0047] 输入词表,词表结构包括文章ID、该文章中的词语、对应词语的词频,第一步:扫描所述词表,累计所有文章中各词的TF词频之和;设最小支持度,舍弃支持度小于所述的最小支持度的累计词的这一项,得到频繁项集;
[0048] 第二步:对于每一条记录,按照所述频繁项集中TF词频之和的大小重新排序;
[0049] 第三步:把第二步得到的各条记录插入到FP-Tree中,构造FP-Tree,构造FP-Tree的过程为:
[0050] (1)定义FP-Tree的根节点为空,以null标记,
[0051] (2)在null标记后面插入第一条记录:文章1的词语表,
[0052] (3)在第一条记录后面插入第二条记录:文章2的词语表,
[0053] (4)在第二条记录后面插入第三条记录:文章3的词语表,直至遍历完成整个数据库,FP-Tree构造完成。
[0054] 第四步:从FP-Tree中找出频繁项,以如下方式遍历FP-Tree的表头中的每一项:
[0055] (1)从FP-Tree中找到所有的“指定词”节点,向上遍历它的祖先节点。
[0056] (2)对于每一条路径上的节点,其词频值都设置为“指定词”的词频值。
[0057] (3)每一项末尾都是“指定词”,可以把“指定词”去掉,得到条件模式基(Conditional Pattern Base,缩写为CPB),此时的后缀模式是:“指定词”。
[0058] (4)把第(3)项结果当作原始的事务数据库,递归迭代执行,模式增长通过后缀模式与条件FP-Tree产生的频繁模式链接实现,即可得到频繁项集。
[0059] 所述确定知识最相关的N篇文章采用如下方法:
[0060] 查询频繁项集中的词语在知识库词库对应类别的每篇文章中出现的次数,将具体每篇文章中出现过的频繁项集中的词语的TF-IDF词频之和为最大的N篇文章,其中不包含该用户上传和已阅读过的文章,推荐为具有最相关知识的文章。
[0061] 所述排列推荐文章的显示顺序采用如下方法:
[0062] 统计向用户推荐文章的方法中三种方式所选中的文章是否重复出现,如果重复出现则统计每篇文章重复出现的次数,按每篇文章的重复出现次数倒序排列,即,重复出现次数最多的排在最前面,重复出现次数最少的排在最后面;如果出现重复次数相同的文章,则按上传时间倒序排列,即,上传时间最晚的排在最前面,上传时间最早的排在最后面。
[0063] 在本方案中,使用FP-tree算法的支持度在本应用中是统计每个项出现的次数,如果用支持度,就是统计1个词在多少篇文章中出现过。本方案用词频代替了支持度,先统计1个词在一篇文章中出现的次数,然后再统计这个词在所有的文章中出现了多少次。以此方式计算出所统计的词的重要性。通常一个有意义的词在文章中出现的频率越高,这个词被认为越重要。
[0064] 在本方案中,我们关心在文章中最频繁出现的词语,通常具有相关性的一组文章会具有一组高度相似的高频词组。这些高频词组对应FP-tree算法挖掘出的频繁集。FP-tree算法在处理大数据时只扫描2次数据库,且不产生候选频繁项集,运行效率相比其它算法大幅提高。
[0065] FP-tree的基本思想是:首先扫描整分词后的文章表(在实施例中是扫描TokenList),生成频繁项集,并把它们按降序排列,排除支持度计数值小于最小支持度的项,产生结果集;然后按照频繁项集描绘出一棵FP-tree,同时依然保留其中的关联信息;最后再扫描事务数据库一次,由下往上循序进行挖掘,删除FP-tree中的子节点,即可产生所需要的频繁模式。因而执行效率高。
[0066] FP-tree在执行过程中对频繁项的重要度做了排序,为后面筛选最佳词语带来优势,进一步提高了执行效率,而传统的关联规则算法产生的是无序的频繁项集。
[0067] 本方案解决了背景技术中所说的企业中沉淀的大量知识无人阅读,而新员工找不到这些相关知识的问题。系统建模之初,没有用户浏览及阅读记录,本方案分析系统中已经存在的知识文档,为这些文档内容的共性建模,按类别建立文档特征库,对文档特征的分析及推荐不依赖其它用户的阅读行为,避免了“冷启动”现象。对长时间无人阅读的文章,只要其词频特征显示这篇文章对某阅读用户非常重要,也可以出现在用户阅读的推荐列表中。
[0068] 与现有的技术相比,本发明通过多种方法向用户推荐可能相关的知识,使用了能发掘出知识库中已有的文章中知识内容潜在的关联的数据挖掘方法,也兼顾了传统方法统计得出的总点击数较高、好评度较高的文章价值也较高的结论,同时向用户推荐潜在知识关联性较高的文章,和传统认为好评数较高的文章和总点击数较高的文章,使知识推荐更全面、更快速、更准确。本发明对基于FP-Tree的文本挖掘做了改进,用词频代替FP-Tree中的支持度,提高了算法的性能。附图说明
[0069] 图1为本发明实施例提供的知识推荐流程示意图;
[0070] 图2为本发明实施例提供的智能推荐方法流程图
[0071] 图3为本发明实施例提供的构造FP树步骤一;
[0072] 图4为本发明实施例提供的构造FP树步骤二;
[0073] 图5为本发明实施例提供的构造FP树步骤三。

具体实施方式

[0074] 下面结合实施例对本发明进一步说明:如图1~5中所示,本发明提出了一种知识文档推荐的技术方案。下述本发明实施例提出的技术方案中,首先由管理员确定知识库中文章的分类,然后登陆用户上传文章到知识库、为上传的文章标注类别,再由系统收集登陆用户上传的以及阅读过的文章种类,向用户推荐同类别的其他文章阅读。推荐的方法有三种,三种推荐方法如果选中了相同的文章则按下面的方法向用户展示:如果推荐方法一选出了文章一、文章二、文章三,推荐方法二选出了文章二、文章四、文章五,推荐方法三选出了文章一、文章二、文章五,则系统向用户推荐文章一、文章二、文章三、文章四、文章五,五篇文章中三种推荐方法选中的重复次数最大的一篇文章排在推荐阅读的第一位,重复次数第二的排在推荐阅读的第二位,依次往后,重复次数相同的文章按上传日期倒序排列。下面的说明以每种方法均选中前10篇最具相关性的文章为例:
[0075] 其中,推荐方法一的具体内容是,某一文章种类的知识文档中点击最高的10篇文章。
[0076] 推荐方法二的具体内容是,某一文章种类的知识文档中好评最多的10篇文章。
[0077] 推荐方法三的具体内容是,通过数据挖掘中的关联规则算法挖掘出与用户上传、阅读过的文章中知识关联性最大的10篇文章。
[0078] 应该认识到,本发明实施例提出的技术方案中确定推荐文章的显示排列顺序并不局限于上述方式,也可以是其他方式。
[0079] 下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整的描述,显然,下面所描述的实施例是本申请的一部分实施例,而不是全部实施例。
[0080] 如图1所示,为本发明实施例提出的知识推荐流程示意图。
[0081] 知识库,系统的知识库包含了企业内用户上传的所有文章和相关操作记录,知识库用户组成的用户群上传文章到知识库,并为他们上传的文章标注类别,文章的种类是管理员在系统启用前设定好的,但管理员也可以在系统启用后增加和修改文章的种类。知识库有以下条目:
[0082]DocID 文章ID
Title 文章标题
Text 文章内容
Author 上传者
Date 上传日期
Class 文章类别
[0083] 用户行为特征库,是知识库用户在上传和阅读过程中,系统记录下来的行为特征,包括用户上传过的文章、上传文章的类别、阅读过的文章、阅读过文章的类别。用户行为特征库有以下条目:
[0084]User 用户名
OptionType 操作类型
OptionTime 操作时间
LoadedDoc 上传文章ID
DocID 文章ID
ReadDoc 阅读过的文章ID
ReadDocClass 阅读过的文章所属的知识类别
ReadClassNum 阅读过的每个类别的文章数
DocScore 文章的评分
[0085] 步骤101,统计历史行为,统计用户历史行为特征,记为用户行为特征库。为下一步推荐与用户最相关的知识文章做准备。
[0086] 具体的,采用三种方法选取与用户最相关的知识文章,分别是步骤102点击最高的10篇文章、步骤103好评最多的10篇文章、步骤104智能推荐最相关的10篇文章。用户1的历史行为包括:
[0087] 步骤102,对应方法一,具体为,点击数最高的10篇文章,取点击数最高的10篇文章然后转到步骤105。
[0088] 具体的,统计用户1上传的所有文章类别,统计所有类别中所有用户对每篇文章的点击数,取点击数最高的10篇文章。
[0089] 步骤103,对应方法二,具体为,好评数最多的10篇文章,取好评数最高的10篇文章然后转到步骤105。
[0090] 具体的,统计用户1上传的所有文章类别,统计所有类别中所有用户对每篇文章的好评数,取好评数最高的10篇文章。
[0091] 步骤104,对应方法三,以本方案规则智能推荐最相关的10篇文章,取最相关的10篇文章然后转到步骤105。
[0092] 具体的,如图2所示,为本发明实施例提供的本方案规则智能推荐方法(方法三)流程图,包括以下步骤:
[0093] 步骤201,提取词库,首先对知识库中的每一篇文章做中文分词处理,知识库中的每一篇文章都可以看做是一个汉字序列,将此汉字序列分割成一个一个单独的词,本发明选用的是Ik-Analyzer分词器。应该注意的是,这里采用Ik-Analyzer分词器只是一种实施例,也可以采用任何一种其它的中文分词器。分词后,首先统计词频(term frequency,TF),TF表示某个词或短语在一篇文章中出现的频率。对于在某一特定文章中的词语ti,它的重要性表示为:
[0094]
[0095] 上式中ni,j是词ti在文章dj中出现的次数。分母是在文章dj中所有字词的出现次数之和,其中的下标i、j、k分别表示词、文章、词的序号。
[0096] 然后统计逆向文档频率IDF(inverse document frequency),IDF是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文章数目除以包含该词语之文章的数目,再将得到的商取对数得到,词ti的IDF值为:
[0097]
[0098] 其中:|D|是知识库中文章的总数;|{d:ti∈d}|是知识库中包含词语ti的文章数目;IDF所表达的是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能
[0099] 再计算TF-IDF词频(term frequency–inverse document frequency,TF-IDF):
[0100] tfidfi,j=tfi,j*idfi;
[0101] TF-IDF词频的作用在于体现某词语的重要性,越重要、对类别的区分度越高的词语具有更高的TF-IDF值。统计出的每个知识类别词语的TF-IDF值,以(词,TF-IDF词频)对的形式作为知识库词库存储。知识库词库的内容:
[0102]Class 文章类别
Token 词
TF-IDF 词频
[0103] 步骤202,提取用户词库,首先提取用户上传和阅读过的文章组成文章集,然后用步骤201中所述方法对文章集中的每篇文章提取TF词频,以(文章,(词,TF词频))对的形式存储为用户词库,用户词库的保存格式为:
[0104]
[0105]
[0106] 表中字母n表示该类别的最大序号。
[0107] 具体的,用户词库存储了每位用户阅读过的文章词表,上表中的一行表示一位用户阅读过的一篇文章。在一个知识库中一位用户掌握的领域通常只涉及所有文章类别中的2~3种,所以对用户的阅读习惯进行数据挖掘是可行的。
[0108] 步骤203,约减词库,对用户词库进行约减,首先扫描用户词库,对用户词库中的每一个词到知识库词库中查询,查询可得到与这个词对应的TF-IDF词频,然后将TF-IDF词频与这个词的TF词频直接相加,记为综合词频并降序排序,再提取前30%的词到用户词库中查询出该词的(词,TF词频)对,作为优化用户词库存储,优化用户词库的大小比用户词库小,格式一致。约减词库的优势有二:其一,起到特征筛选的作用,TF词频体现了特定词在某领域文章中出现的频率及重要度,TF-IDF词频可体现特定词在类别间的区分度,二者相加TF-IDF词频和TF词频都大的词能排在前面,可以提高推荐的准确度。其二,在于减少冗余,提高运算速度。
[0109] 步骤204,FP-tree算法,本发明用数据挖掘中的FP-tree算法对用户的阅读习惯做文本信息挖掘,找出最有可能在阅读时一起出现的词语作为频繁项集,存储为频繁项集。
[0110] 具体的,本步骤用FP-tree算法找出每个文章类别最有可能一起阅读的文章中的词汇。算法中所用FP-tree算法的输入为:优化用户词库中某一知识类别中所有用户阅读过的文章;输出频繁项集,具体用表格描述,输入是:
[0111]
[0112]
[0113] 表格的每一行是文章,取上表中的(词,TF词频)对,作为FP-tree的(项,值)对,其中“词”作为FP-tree的搜索项,第一次搜索的时候用“TF词频”代替原算法中的项的频率。算法中设一支持度阈值,如果项集I中的项不满足最小支持度阈值,则丢弃该项,满足最小支持度阈值生成FP树。本发明中,项集是优化用户词库中的词语,支持度是词语的TF词频。频繁项集是算法运算完成后得到的一系列最有价值的关键词词表。
[0114] FP-tree算法执行用户阅读习惯挖掘的实现过程如下:
[0115] 输入词表TokenList:
[0116]文章ID 词语 TF词频
文章1 词a,词b,…… TF1,TF2,……
文章2 词a,词d,…… TF1,TF2,……
文章3 词b,词c,…… TF1,TF2,……
…… …… ……
[0117] 其中,词a、词b、……代表文章中出现的词语,与之对应的TF1、TF2、……,是相应项的TF词频。
[0118] 第一步:扫描词表TokenList,累计所有文章中词a、词b、词d……的TF词频之和;设最小支持度为MinSup,如果累计词b的支持度小于MinSup则舍弃词b这一项。例如上表,可统计得:(词a,ΣTFa),(词d,ΣTFd),(词c,ΣTFc),……,以上结果就是频繁项集1,记为F1。其中,ΣTFa、ΣTFd、ΣTFc分别是词a和词b的TF值之和,且在F1中ΣTFa≥ΣTFd≥ΣTFc。
[0119] 第二步:对于每一条记录,按照F1中的顺序重新排序。(第二次也是最后一次扫描数据库)
[0120]文章ID 词语 TF词频和
文章1 词a,…… ΣTFa1,……
文章2 词a,词d,…… ΣTFa2,ΣTFd2,……
文章3 词c,…… ΣTFc3,……
…… …… ……
[0121] 左边 第 一列 是文 章 的编 号,第二 列是 文 章中 的词 语 且已 经 按ΣTFa≥ΣTFd≥ΣTFc的顺序为词语排序,第三列是对应词语在所在文章中的TF词频之和。
[0122] 第三步:把第二步得到的各条记录插入到FP-Tree中,构造FP树。
[0123] (1)定义FP树的根节点为null。
[0124] (2)插入第一条,文章1的词语表,如图3所示。
[0125] (3)插入第二条,文章2的词语表,如图4所示。
[0126] (4)插入第三条,文章3的词语表,如图5所示,直至遍历完成整个数据库,FP树构造完成。
[0127] 第四步:从FP-Tree中找出频繁项。
[0128] 遍历表头中的每一项,以“词a”为例,执行以下(1)~(4)的步骤。
[0129] (1)从FP-Tree中找到所有的“词a”节点,向上遍历它的祖先节点。
[0130] (2)对于每一条路径上的节点,其词频值都设置为“词a”的词频值。
[0131] (3)每一项末尾都是“词a”,可以把“词a”去掉,得到条件模式基(Conditional Pattern Base,CPB),此时的后缀模式是:(词a)。
[0132] (4)把第(3)项结果当作原始的事务数据库,递归迭代执行,模式增长通过后缀模式与条件FP树产生的频繁模式链接实现,即可得到最终的频繁项集。
[0133] 步骤205,确定最相关文章,查询频繁项集中的词语在知识库词库对应类别中的每篇文章具体每篇文章中出现的次数,将具体每篇文章中出现过的频繁项集中的词语TF-IDF词频之和最大的10篇文章推荐为最具有最相关知识的文章,转到步骤105。每个用户有各自的频繁项集。对用户推荐的是每个知识类别中的前10篇文章,但不包含用户上传和已阅读过的文章。频繁项集的内容如下:
[0134]类别1
词1、词2、词3……
类别2
词1、词2、词3……
……
类别n
词1、词2、词3……
[0135] 具体的,首先扫描知识库中的文章,对其中的文章逐篇分词得到文章分词表,然后从文章分词表中筛选出在频繁项集中出现过的词语。查询这些词语的TF值及TF-IDF值,计算TF-IDF词频的累计值ΣT,其中ΣT的计算方法为:ΣT=TF*TF-IDF。再选取ΣT最大的10篇文章作为最相关的文章输出。
[0136] 特别地,如果某篇文章仅包含这些频繁项集词语中的一项或几项,则仅统计这几项的ΣT。
[0137] 步骤105,推荐文章排序,为步骤102、步骤103、步骤104选中的推荐文章排序。
[0138] 具体的,首先统计步骤102、步骤103、步骤104选中的文章中是否重复出现,如果重复出现则统计每篇文章重复出现的次数,按每篇文章的重复出现次数倒序排列,也即,重复出现次数最多的排在最前面,重复出现次数最少的排在最后面。如果出现重复次数相同的文章,则按上传时间倒序排列,也即,上传时间最晚的排在最前面,上传时间最早的排在最后面。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈