专利汇可以提供基于不确定性处理的网络论坛用户兴趣建模方法专利检索,专利查询,专利分析的服务。并且本 发明 属于网络用户行为分析技术领域,具体为一种基于不确定性的网络论坛用户兴趣建模方法。本发明在建模过程中引入隶属函数来表达用户的兴趣,采用类似的高斯型隶属函数,基于用户在论坛中的行为特征计算函数的参数;采用文本处理方法提取用户兴趣文本,并按照不同权重配置计算用户的兴趣文本向量;将用户兴趣模型建立在由文本向量与隶属函数论域所构成的高维空间中,采用概率 密度 函数描述用户在不同话题空间的兴趣分布。本发明建立的模型既能反应用户兴趣的模糊性,又能体现用户兴趣的随机性,使用户兴趣的表示更加接近用户要求,因而更合理,可用于基于网络用户兴趣的各种分析场合。,下面是基于不确定性处理的网络论坛用户兴趣建模方法专利的具体信息内容。
1.基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于具体步骤如下:
1)使用Web爬虫技术从网络论坛获取用户发帖的原始数据文件,并运用WEB信息提取技术将这些文件中的用户发帖信息转换成为结构化的用户帖子记录集;每个记录包含的内容为发帖时间、帖子标题、发帖人、帖子内容、回帖标志;
2)从用户帖子记录集中选择指定用户的所有帖子,如果是属于回帖类型,则同时找出原始帖子;对其中的每个原始帖子及相应的用户回帖,构成临时帖子集;提取原始帖子、标题的内容,并运用现有的分词及词性标注方法对文本进行处理,保留其中的名词,这些名词包括人名、地名、机构名;得到原始帖子对应的词语向量和标题对应的词语向量;
对帖子集执行以下步骤3-5,处理用户兴趣的初步标注:
3)计算该用户在这个帖子集中出现的次数,计算用户在帖子集中的回帖的平均长度;
4)根据用户发帖标志、回帖次数及回帖长度,为用户设定一个兴趣的隶属函数及参数,该隶属函数的论域是用户的兴趣等级;
5)提取用户回帖的内容,运用现有的分词及词性标注方法对文本进行处理,保留其中的名词,这些名词包括含人名、地名、机构名,得到用户回帖对应的词语向量;结合第二步中的分词结果,按照不同权重构造用户的兴趣文本向量;
6)当整个帖子记录集处理完毕后,得到指定用户对应的所有兴趣文本向量及用户兴趣隶属函数,它对应于由文本向量和兴趣论域构成的多维空间中的点,对这些点使用EM算法建立论坛用户兴趣模型,它是一种混合高斯概率模型。
2.如权利要求1所述的基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于,从用户帖子记录集中选择原始帖子,以及这个帖子下的所有回帖记录,构成一个临时帖子集,这个临时帖子集反映了指定的用户的发贴或回帖行为。
3.如权利要求1所述的基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于:记原始帖子对应词语向量V1=(tf1,tf2,...,tfn),标题对应词语向量V2=(tf1,tf2,...,tfm),用户回帖对应的词语向量V3=(tf1,tf2,...,tfk),这里tfi表示第i个词在文本中出现的次数,n、m、k分别为向量V1、V2、V3的长度,所述构造用户的兴趣文本向量V如下:
V==(tf1,tf2,...,tfl),
其中,i=1,2,...,l,l=max(m,n,k),系数β1、β2、β3反映了对不同部分的权重,满足:β1+β2+β3=1;分别为V1、V2、V3中的第i个分量。
4.如权利要求1中所述的基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于:所述为用户设定兴趣隶属函数,其形式如下:
其中,d表示用户兴趣等级,分为11个等级,取值0、1、2、3、...、10,μ,σ分别反映了用户兴趣程度及模糊程度。
5.如权利要求4所述的基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于采用以下方法计算兴趣隶属函数的两个参数的值:
其中,T1,T2分别表示用户在这段时间内,在一个帖子中的最大回帖次数,在一个帖子中回帖的长度最大值;
其中,sim表示用户所有回帖与原始帖子的相似性的最大值;回帖与原始帖子的相似性是V3中的词在V2和V1中出现的次数与所有词个数的比值。
6.如权利要求1所述的基于不确定性处理的网络论坛用户兴趣建模方法,其特征在于:所述论坛用户兴趣模型是一种混合高斯概率模型,形式如下:
其中,X是由V定义的词语空间,Y是隶属函数的论域,N是分量个数,表示各个分量的系数,qi(X,Y)是各个分量的分布函数。
本发明属于网络用户行为分析技术领域,具体涉及一种面向网络论坛用户兴趣的建模方法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种听写报读进度的控制方法及电子设备 | 2020-05-11 | 454 |
基于XML的领域要素提取配置语言系统 | 2020-05-08 | 55 |
用于增强已标注样本的方法和设备 | 2020-05-11 | 934 |
一种基于边缘信息和语义信息的句子相似度计算方法 | 2020-05-12 | 742 |
一种电商产品竞争分析方法及系统 | 2020-05-14 | 221 |
关键词提取方法、装置及存储介质 | 2020-05-08 | 775 |
一种视频文本摘要生成方法及装置 | 2020-05-08 | 687 |
一种基于Bi-LSTM网络的无监督属性的抽取方法 | 2020-05-11 | 47 |
关键词提取方法、关键词提取装置及电子设备 | 2020-05-08 | 185 |
一种使用重叠拆分规则的文本序列标注算法 | 2020-05-14 | 365 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。