首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 一种挖掘社区领域专家的方法和装置

一种挖掘社区领域专家的方法和装置

阅读:257发布:2020-05-19

专利汇可以提供一种挖掘社区领域专家的方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种挖掘社区领域专家的方法和装置,涉及网络领域,能够准确的挖掘在特定专业领域的社区领域专家。一种挖掘社区领域专家的方法,包括:获取用户输入的主题词;根据主题词获取文章列表;所述文章列表中记录具有主题词的文章、每篇文章对应的作者以及每篇文章的用户评价参数;根据所述用户评价参数统计文章的热度和 质量 ,以及根据主题词统计文章与主题词间的相关性;根据所述文章的热度和质量和文章与主题词间的相关性,统计每个作者的影响 力 ;选取影响力超过预定的影响力 阈值 的作者作为社区领域专家。本发明用于网络社区领域专家的挖掘。,下面是一种挖掘社区领域专家的方法和装置专利的具体信息内容。

1.一种挖掘社区领域专家的方法,其特征在于,包括:
获取用户输入的主题词;
根据所述主题词获取文章列表;所述文章列表中记录具有所述主题词的文章、每篇文章对应的作者以及每篇文章的用户评价参数,所述用户评价参数包括用户转发量、用户评论数,以及用户好评数;
根据所述用户评价参数统计文章的热度和质量,以及根据所述主题词统计文章与主题词间的相关性;
根据所述文章的热度、质量,以及文章与主题词间的相关性,统计每个作者的影响
选取影响力超过预定的影响力阈值的作者作为社区领域专家。
2.根据权利要求1所述的方法,其特征在于,所述根据所述用户评价参数统计文章的热度和质量,包括:
根据公式H(x)=log(用户转发量)+log(用户评论数),获得文章x的热度H(x);
和根据公式Q(x)=log(用户好评数),获得文章x的质量Q(x)。
3.根据权利要求1或2所述的方法,其特征在于,所述根据主题词统计文章与主题词间的相关性,包括:
根据公式 获得文章x与主题词t间的相关性;
其中:TFt表示所述主题词t在所述文章中出现的次数;
i表示文章中除所述主题词t之外的词语;
TFi表示第i个词在所述文章中出现的次数;IDFt表示所述主题词t的idf值;IDFi表示第i个词的idf值;idf为文档频率的倒数,文档频率是在所有文章集合中,出现过第i个词的文章数目。
4.根据权利要求3所述的方法,其特征在于,所述根据所述文章的热度、质量,以及文章与主题词间的相关性,统计每个作者的影响力,包括:
根据公式 获取作者u的影响力;其中z为作者u
对应的z篇文章,a,b为常数,其中0<a﹤1,0<b﹤1,f(t)为文章的时间衰减函数。
5.一种挖掘社区领域专家的装置,其特征在于,包括:
主题词获取单元,用于获取用户输入的主题词;
文章列表获取单元,用于根据主题词获取文章列表;
所述文章列表中记录具有主题词的文章、每篇文章对应的作者以及每篇文章的用户评价参数,所述用户评价参数包括用户转发量、用户评论数,以及用户好评数;
文章的热度和质量获取单元,用于根据所述用户评价参数获取文章的热度和质量;
相关性统计单元,用于根据主题词统计文章与主题词间的相关性;
影响力统计单元,用于根据所述文章的热度、质量,以及文章与主题词间的相关性,统计每个作者的影响力;
社区领域专家选取单元,用于选取影响力超过预定的影响力阈值的作者作为社区领域专家。
6.根据权利要求5所述的装置,其特征在于,所述用户评价参数包括用户转发量、用户评论数和用户好评数;
所述文章的热度和质量统计单元,包括:
文章热度获取子单元,用于根据公式H(x)=log(用户转发量)+log(用户评论数),获取文章x的热度H(x);
文章质量获取子单元,用于根据公式Q(x)=log(用户好评数),获取文章x的质量Q(x)。
7.根据权利要求5所述的装置,其特征在于,所述相关性统计单元,包括:
相关性统计子单元,
用于根据公式 获取文章x与主题词t间的相关
性;其中:TFt表示所述主题词t在所述文章中出现的次数;i表示文章中除所述主题词t之外的词语;TFi表示第i个词在所述文章中出现的次数;IDFt表示所述主题词t的idf值;IDFi表示第i个词的idf值;idf为文档频率的倒数,文档频率是在所有文章集合中,出现过第i个词的文章数目。
8.根据权利要求7所述的装置,其特征在于,所述影响力统计单元,包括:
影响力统计子单元,
用于根据公式 获取作者u的影响力;其中z为作
者u对应的z篇文章,a,b为常数,其中0<a﹤1,0<b﹤1,f(t)为文章的时间衰减函数。

说明书全文

一种挖掘社区领域专家的方法和装置

技术领域

[0001] 本发明涉及网络领域,尤其涉及一种挖掘社区领域专家的方法和装置。

背景技术

[0002] 在当前的互联网应用中,很多人在论坛、贴吧、个人空间等网络空间发表文章、评论,或以其他的方式在网络社区进行交流。在网络交流中,具有巨大影响的用户被称为社区领域专家。目前挖掘社区领域专家的方法有三种:第一种方法是,如果某用户的粉丝的数目或好友的数目达到一定数量,就认为该用户为网络社区领域专家;第二种方法是,如果某用户在网络空间发表的文章最多,就认为该用户为网络社区领域专家;第三种方法是,如果某用户的文章被很多人转载、评论、给予好评,就认为该用户为网络社区领域专家。
[0003] 在实现上述技术方案的过程中,发明人发现现有技术中至少存在如下问题:
[0004] 一方面,现有技术只能对用户在网络中的整体影响力作评估,而不能判断用户在特定的专业领域的影响力;另一方面,现有技术只考虑了用户的粉丝数目或好友数目,或者文章发表的数量和对文章的评价数量,而忽视了发表的文章的质量,这些都导致对社区领域专家的挖掘不够准确。

发明内容

[0005] 本发明的实施例提供了一种挖掘社区领域专家的方法和装置,能够准确挖掘某网络领域的社区领域专家。
[0006] 为达到上述目的,本发明的实施例采用如下技术方案:
[0007] 一种挖掘社区领域专家的方法,包括:
[0008] 获取用户输入的主题词;
[0009] 根据主题词获取文章列表;所述文章列表中记录具有主题词的文章、每篇文章对应的作者以及每篇文章的用户评价参数;
[0010] 根据所述用户评价参数统计文章的热度和质量,以及根据主题词统计文章与主题词间的相关性;
[0011] 根据所述文章的热度和质量和文章与主题词间的相关性,统计每个作者的影响力;
[0012] 选取影响力超过预定的影响力阈值的作者作为社区领域专家。
[0013] 一种挖掘社区领域专家的装置,包括:
[0014] 主题词获取单元,用于获取用户输入的主题词;
[0015] 文章列表获取单元,用于根据主题词获取文章列表;
[0016] 所述文章列表中记录具有主题词的文章、每篇文章对应的作者以及每篇文章的用户评价参数;
[0017] 文章的热度和质量统计单元,用于根据所述用户评价参数统计文章的热度和质量;
[0018] 相关性统计单元,用于根据主题词统计文章与主题词间的相关性;
[0019] 影响力统计单元,用于根据所述文章的热度和质量和文章与主题词间的相关性,统计每个作者的影响力;
[0020] 社区领域专家选取单元,用于选取影响力超过预定的影响力阈值的作者作为社区领域专家。
[0021] 本发明实施例提供的一种挖掘社区领域专家的方法和装置,根据指定的主题词,利用文章质量、文章热度等因素按照用户在特定的专业领域的影响力挖掘出该领域的专家,通过以上方法不仅能判断用户在特定的专业领域的影响力,而且也重视了用户在该领域所发文章的质量。并提高了社区领域专家的挖掘准确性。附图说明
[0022] 图1为本发明实施例提供的一种挖掘社区领域专家的方法流程图
[0023] 图2为本发明实施例提供的另一种挖掘社区领域专家的方法流程图;
[0024] 图3为本发明实施例提供的一种挖掘社区领域专家的装置框图
[0025] 图4为本发明实施例提供的另一种挖掘社区领域专家的装置框图;
[0026] 图5为本发明实施例提供的另一种挖掘社区领域专家的装置框图;
[0027] 图6为本发明实施例提供的另一种挖掘社区领域专家的装置框图。

具体实施方式

[0028] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0029] 本发明实施例提供了一种挖掘社区领域专家的方法,如图1所示,包括:
[0030] 101、获取用户输入的主题词。
[0031] 102、根据主题词获取文章列表。
[0032] 所述文章列表中记录具有主题词的文章、每篇文章对应的作者以及每篇文章的用户评价参数。
[0033] 用户输入主题词后,服务器会根据输入的主题词来获取文章列表,获取的文章列表中记录有与该主题词相关的文章,由于一个作者可能对应多篇文章,所以通过作者与文章的映射关系得出每篇文章对应的作者,并通过文章列表得出每篇文章的用户评价参数,所述文章的用户评价参数包括用户转发量、用户评论数和用户好评数。
[0034] 103、根据所述用户评价参数统计文章的热度和质量,以及根据主题词统计文章与主题词间的相关性。
[0035] 从文章列表得出每篇文章的用户评价参数,即用户转发量、用户评论数和用户好评数后,可以统计文章的热度和质量,以及根据主题词统计文章与主题词间的相关性。
[0036] 104、根据所述文章的热度和质量和文章与主题词间的相关性,统计每个作者的影响力。
[0037] 105、选取影响力超过预定的影响力阈值的作者作为社区领域专家。
[0038] 进一步的,本发明实施例还提供了一种挖掘社区领域专家的方法,如图2所示,包括:
[0039] 201、获取用户输入的主题词。
[0040] 202、根据主题词获取文章列表。
[0041] 所述文章列表中记录具有主题词的文章、每篇文章对应的作者以及每篇文章的用户评价参数。
[0042] 用户输入主题词后,服务器会根据输入的主题词来获取文章列表,获取的文章列表中记录有与该主题词相关的文章,由于一个作者可能对应多篇文章,所以通过作者与文章的映射关系得出每篇文章对应的作者,并通过文章列表得出每篇文章的用户评价参数,所述文章的用户评价参数包括用户转发量、用户评论数和用户好评数。
[0043] 203、根据公式H(x)=log(用户转发量)+log(用户评论数),获取文章x的热度H(x)。
[0044] 获得文章列表后,通过文章列表可以得出每篇文章的用户评价参数,所述文章的用户评价参数包括用户转发量、用户评论数和用户好评数,利用203中的公式求出文章热度H(x)。
[0045] 204、根据公式Q(x)=log(用户好评数),获取文章x的质量Q(x)。
[0046] 获得文章列表后,通过文章列表可以得出每篇文章的用户评价参数,所述文章的用户评价参数包括用户转发量、用户评论数和用户好评数,利用204中的公式求出文章的质量Q(x)。
[0047] 205、根据公式 获取文章x与主题词t间的相关性。
[0048] 获得文章列表后,通过文章列表可以得出每篇文章的用户评价参数,所述文章的用户评价参数包括用户转发量、用户评论数和用户好评数,利用205中的公式求出文章与主题词之间的相关性,在205中的公式各个参数的意义为:TFt表示所述主题词t在所述文章中出现的次数;i表示文章中除所述主题词t之外的词语;TFi表示第i个词在所述文章中出现的次数;IDFt表示所述主题词t的idf值;IDFi表示第i个词的idf值;idf为文档频率的倒数,文档频率是在所有文章集合中,出现过第i个词的文章数目。
[0049] 本发明实施例中,按照先获取文章热度,再获取文章质量,最后获取文章与主题词间的相关性的顺序,执行上述203至205,实际应用中,并不以此为限。
[0050] 206、根据公式 获取作者u的影响力。
[0051] 算出文章的热度H(x)、文章的质量Q(x)、文章与主题词之间的相关性R(x)后,由206中的公式求出作者的影响力。
[0052] a,b为常数,其中0<a<1,0<b<1,统计作者影响力时,在a、b的范围限制内取一个固定值,随后a、b的值就为所述固定值,f(t)为文章的时间衰减函数。
[0053] 207、选取影响力超过预定的影响力阈值的作者作为社区领域专家。
[0054] 举例来说明上述步骤201至207,如果用户在网上输入的主题词是红楼梦,则服务器获取到主题词红楼梦后,会根据主题词红楼梦来获得与红楼梦有关的文章列表,得到文章以后列表后从文章列表中获得与文章对应的作者,以及每篇文章的用户评价参数,用户评价参数包括用户转发量、用户评论数、用户好评数。然后利用上述步骤203到205中的公式分别求出文章热度、文章质量、文章与红楼梦的相关性,再利用206中的公式求出作者在红楼梦领域的影响力,最后根据预定的影响力阈值,选取出影响力超过影响力阈值的作者作为与红楼梦有关的社区领域专家,服务器将与输出红楼梦有关的社区领域专家的数据输出给用户。
[0055] 本发明实施例提供的一种挖掘社区领域专家的方法,根据指定的主题词获取文章列表,并根据用户对文章的用户转发量、用户评论数和用户好评数利用特定的公式求出文章质量、文章热度、文章与当前主题词的相关性等文章特征,将文章特征用于特定的公式来求解用户在此主题下的影响力,通过用户在此主题下的影响力挖掘出该领域的专家,通过以上方法不仅能判断用户在特定的专业领域的影响力,而且也重视了用户在该领域所发文章的质量,并提高了社区领域专家的挖掘准确性。
[0056] 本发明实施例还提供了一种挖掘社区领域专家的装置,如图3所示包括:
[0057] 主题词获取单元301,用于获取用户输入的主题词。
[0058] 文章列表获取单元302,用于根据主题词获取文章列表。
[0059] 所述文章列表中记录具有主题词的文章、每篇文章对应的作者以及每篇文章的用户评价参数。
[0060] 文章的热度和质量获取单元303,用于根据所述用户评价参数获取文章的热度和质量。
[0061] 相关性统计单元304,用于根据主题词统计文章与主题词间的相关性。
[0062] 影响力统计单元305,用于根据所述文章的热度和质量和文章与主题词间的相关性,统计每个作者的影响力。
[0063] 社区领域专家选取单元306,用于选取影响力超过预定的影响力阈值的作者作为社区领域专家。
[0064] 进一步的,如图4所示,文章的热度和质量获取单元303包括:
[0065] 文章热度获取子单元3031,用于根据公式H(x)=log(用户转发量)+log(用户评论数),获取文章x的热度H(x)。
[0066] 文章质量获取子单元3032,用于根据公式Q(x)=log(用户好评数),获取文章x的质量Q(x)。
[0067] 进一步的,如图5所示,相关性统计单元304包括:
[0068] 相关性统计子单元3041,
[0069] 用于根据公式 获取文章x与主题词t间的相关性;其中:TFt表示所述主题词t在所述文章中出现的次数;i表示文章中除所述主题词t之外的词语;
[0070] TFi表示第i个词在所述文章中出现的次数;IDFt表示所述主题词t的idf值;IDFi表示第i个词的idf值;idf为文档频率的倒数,文档频率是在所有文章集合中,出现过第i个词的文章数目。
[0071] 进一步的,如图6所示,影响力统计单元305,包括:
[0072] 影响力统计子单元3051,
[0073] 用于根据公式 获取作者u的影响力;其中z为作者u对应的z篇文章,a,b为常数,其中0<a<1,0<b<1,f(t)为文章的时间衰减函数。
[0074] 本发明实施例提供的挖掘社区领域专家的装置,在实际应用场景中可以集成在提供网络服务的服务器中。用户在访问网站时输入的主题词,传输到服务器,服务器针对主题词进行处理,最终得到与主题词对应的网络社区专家的信息,并将网络社区专家的信息反馈输出给用户。
[0075] 本发明实施例提供了一种挖掘社区领域专家的装置,通过主题词获取单元获取用户输入的主题词,根据主题词获取文章列表,文章列表中记录具有主题词的文章以及每篇文章的用户评价参数,利用特定的公式求出文章质量、文章热度、文章与当前主题词的相关性等文章特征,将文章特征用于特定的公式来求解用户在此主题下的影响力,通过用户在此主题下的影响力挖掘出该领域的专家,通过以上方法不仅能判断用户在特定的专业领域的影响力,而且也重视了用户在该领域所发文章的质量,并提高了挖掘社区领域专家的准确性。
[0076] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈