首页 / 专利库 / 专利权 / 第I章 / 基于媒体信息采集的原创文章影响力分析系统

基于媒体信息采集的原创文章影响分析系统

阅读:96发布:2020-05-18

专利汇可以提供基于媒体信息采集的原创文章影响分析系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于媒体信息采集的原创文章影响 力 分析系统,包括:媒体文章 数据采集 模 块 ,其用于从网络上采集媒体平台发布的文章信息,从该文章信息中提取内容文本,并存储内容文本;文章阅读评论点赞数更新模块,其用于获取文章信息的传播反馈数据,并存储;原创文章 聚类分析 模块,其用于对存储于文本 数据库 内的所有内容文本进行聚类计算,进而获取原创文章;原创文章影响力计算模块,其用于计算原创文章在媒体平台上的影响力,用于计算原创文章在所有媒体平台上的影响力。本发明还公开了一种基于媒体信息采集的原创文章影响力分析方法。本发明实现对原创文章影响力的量化分析,分析效率高,分析准确度高。,下面是基于媒体信息采集的原创文章影响分析系统专利的具体信息内容。

1.一种基于媒体信息采集的原创文章影响分析系统,其特证在于,包括:
媒体文章数据采集,其用于从网络上采集媒体平台发布的文章信息,从该文章信息中提取内容文本,并存储内容文本,所述媒体平台包括微信公众号平台、新浪微博平台日、新闻移动客户端平台以及新闻网站平台;
文章阅读评论点赞数更新模块,其用于获取所述文章信息的传播反馈数据,并存储该传播反馈数据,该传播反馈数据包括阅读数、评论数和/或点赞数;
原创文章聚类分析模块,其用于对存储于所述文本数据库内的所有内容文本进行聚类计算,进而获取原创文章;
原创文章影响力计算模块,其用于根据以下方法计算原创文章X在微信公共号平台上的影响力:
其中,Rmean和Zmean分别代表原创文章X在微信公共号平台上分布N天内的日平均阅读数和日平均点赞数,σR和μR为Rmean的方差和期望值,σZ和μZ为Zmean的方差和期望值,Φ(x)为标准正态分布函数;以及
所述原创文章影响力计算模块用于根据以下方法计算原创文章X在新浪微博平台上的影响力:
其中,Tm,Cm和Zm分别代表原创文章X在新浪微博平台上分布N天内的日平均转发数、日平均评论数和日平均点赞数,σT和μT为Tm的方差和期望值,σc和μc为Cm的方差和期望值,σz和μz为Zm的方差和期望值,Φ(x)为标准正态分布函数;以及
所述原创文章影响力计算模块用于根据以下方法计算原创文章X在新闻网站平台或新闻移动客户端平台上的影响力:
其中,Cm分别代表原创文章X在新闻网站平台或新闻移动客户端平台上分布N天内的日平均评论数,σc和μc为Cm的方差和期望值,Φ(x)为标准正态分布函数;
所述原创文章影响力计算模块还用于根据以下方法对原创文章在所有平台上的影响力进行计算:
E=a+b+1/2kc+1/2ld,
其中, 为微信公众号平台n篇原创文章中第i篇原创文章的影响力, 为新浪微博平台m篇原创文章中第i篇原创文章的影响力, 为新闻移动客户端平台k篇原创文章中第i篇原创文章的影响力, 为新闻网站平台l篇原创文章中第i篇原创文章的影响力;假设微信公众号平台的日活跃人数为a,新浪微博平台日活跃人数为b,新闻移动客户端平台的日活跃人数为c,新闻网站平台的日活跃人数为d。
2.如权利要求1所述的基于媒体信息采集的原创文章影响力分析系统,其特证在于,所述媒体文章数据采集模块还包括:
媒体文章采集装置,其用于从网络上获取媒体发布的文章信息;
文本数据提取装置,其用于解析所述文章信息,并获取所述文章信息提取文章ID和内容文本,其中,所述文章ID包括所述文章信息的发布平台、发布媒体、发布时间以及题目;
文本内存数据库,其用于存储已采集的文章信息的文章ID;
内容文本判重装置,其用于将新采集的文章信息的文章ID在所述文本内存数据库中进行比较,如在所述文本内存数据库中不存在,则用于将该新采集的文章信息存储于所述文本内存数据库;
文本数据库,其用于存储该新采集的文章信息的内容文本。
3.如权利要求1所述的基于媒体信息采集的原创文章影响力分析系统,其特证在于,所述原创文章聚类分析模块包括:
内容文本相似度判定装置,其用于利用文本聚类方法对存储于所述文本数据库内的所有内容文本进行聚类计算,从而形成多个类簇,每个类簇中具有多个相似的内容文本;
原创文章分析装置,其用于解析出每个类簇中来源最早的内容文本,并将该内容文本作为原创文章;
原创文章数据库,其用于存储原创文章;
文章传播分析装置,其用于分析计算原创文章的转发情况,从而得到原创文章的传播信息;
文章传播信息数据库,其用于存储原创文章的传播信息。
4.如权利要求1所述的基于媒体信息采集的原创文章影响力分析系统,其特证在于,所述原创文章影响力计算模块包括:
原创文章提取装置,其用于从所述原创文章数据库中获取原创文章;
平台影响力计算装置,其用于计算原创文章在任一媒体平台上的影响力;
文章影响力计算装置,其用于计算原创文章在所有媒体平台上的影响力:
文章影响力数据库,其用于存储所述原创文章在所有媒体平台上的影响力计算结果。
5.如权利要求3所述的基于媒体信息采集的原创文章影响力分析系统,其特证在于,所述原创文章分析装置用于根据以下方法解析出每个类簇中来源最早的内容文本:获取该类簇中其中一个内容文本的文章来源,建立一个来源指针,该来源指针指向被转的内容文本,再重复获取该被转的内容文本的文章来源,建立一个来源指针,对该类簇中的内容文本进行遍历,直至获取到来源最早的内容文本。
6.如权利要求5所述的基于媒体信息采集的原创文章影响力分析系统,其特证在于,通过获取类簇中任一内容文本中的标明有文章来源的字段来获取文章来源;当存在两个内容文本中不含有标明有文章来源的字段时,在两个内容文本的特征向量的最小欧氏距离小于阈值的情况下,以发布时间在先的内容文本作为发布时间在后的内容文本的文章来源。
7.一种基于媒体信息采集的原创文章影响力分析方法,其特征在于,包括以下步骤:
步骤一、从网络上采集媒体平台发布的文章信息,从该文章信息中提取内容文本,并存储内容文本,所述媒体平台包括微信公众号平台、新浪微博平台日、新闻移动客户端平台以及新闻网站平台;
步骤二、获取所述文章信息的传播反馈数据,并存储该传播反馈数据,该传播反馈数据包括阅读数、评论数和/或点赞数;
步骤三、对存储于所述文本数据库内的所有内容文本进行聚类计算,进而获取原创文章;
步骤四、计算原创文章X在任一媒体平台上的影响力:
根据以下方法计算原创文章X在微信公共号平台上的影响力:
其中,Rmean和Zmean分别代表原创文章X在微信公共号平台上分布N天内的日平均阅读数和日平均点赞数,σR和μR为Rmean的方差和期望值,σZ和μZ为Zmean的方差和期望值,Φ(x)为标准正态分布函数;以及
根据以下方法计算原创文章X在新浪微博平台上的影响力:
其中,Tm、Cm和Zm分别代表原创文章X在新浪微博平台上分布N天内的日平均转发数、日平均评论数和日平均点赞数,σT和μT为Tm的方差和期望值,σc和μc为Cm的方差和期望值,σz和μz为Zm的方差和期望值,Φ(x)为标准正态分布函数;以及
根据以下方法计算原创文章X在新闻网站平台或新闻移动客户端平台上的影响力:
其中,Cm分别代表原创文章X在新闻网站平台或新闻移动客户端平台上分布N天内的日平均评论数,σc和μc为Cm的方差和期望值,Φ(x)为标准正态分布函数;
根据以下方法对原创文章在所有平台上的影响力进行计算:
E=a+b+1/2kc+1/2ld,
其中, 为微信公众号平台n篇原创文章中第i篇原创文章的影响力, 为新浪微博平台m篇原创文章中第i篇原创文章的影响力, 为新闻移动客户端平台k篇原创文章中第i篇原创文章的影响力, 为新闻网站平台l篇原创文章中第i篇原创文章的影响力;假设微信公众号平台的日活跃人数为a,新浪微博平台日活跃人数为b,新闻移动客户端平台的日活跃人数为c,新闻网站平台的日活跃人数为d。
8.如权利要求7所述的基于媒体信息采集的原创文章影响力分析方法,其特征在于,所述步骤一具体包括:
从网络上获取媒体发布的文章信息;
解析所述文章信息,并获取所述文章信息提取文章ID和内容文本,其中,所述文章ID包括所述文章信息的发布平台、发布媒体、发布时间以及题目;
存储已采集的文章信息的文章ID;
将新采集的文章信息的文章ID在所述文本内存数据库中进行比较,如在所述文本内存数据库中不存在,则用于将该新采集的文章信息存储于所述文本内存数据库;
存储该新采集的文章信息的内容文本。
9.如权利要求7所述的基于媒体信息采集的原创文章影响力分析方法,其特征在于,所述步骤三具体包括:
利用文本聚类方法对存储于所述文本数据库内的所有内容文本进行聚类计算,从而形成多个类簇,每个类簇中具有多个相似的内容文本;
解析出每个类簇中来源最早的内容文本,并将该内容文本作为原创文章;
存储原创文章;
分析计算原创文章的转发情况,从而得到原创文章的传播信息;
存储原创文章的传播信息。
10.如权利要求7所述的基于媒体信息采集的原创文章影响力分析方法,其特征在于,根据以下方法解析出每个类簇中来源最早的内容文本:获取该类簇中其中一个内容文本的文章来源,建立一个来源指针,该来源指针指向被转的内容文本,再重复获取该被转的内容文本的文章来源,建立一个来源指针,对该类簇中的内容文本进行遍历,直至获取到来源最早的内容文本。
11.如权利要求10所述的基于媒体信息采集的原创文章影响力分析方法,其特征在于,通过获取类簇中任一内容文本中的标明有文章来源的字段来获取文章来源;当存在两个内容文本中不含有标明有文章来源的字段时,在两个内容文本的特征向量的最小欧氏距离小于阈值的情况下,以发布时间在先的内容文本作为发布时间在后的内容文本的文章来源。

说明书全文

基于媒体信息采集的原创文章影响分析系统

技术领域

[0001] 本发明涉及计算机信息技术领域,尤其涉及一种基于媒体信息采集的原创文章影响力分析系统。

背景技术

[0002] 随着互联网计算机技术的迅猛发展以及智能移动客户端的普及,新型媒体已经逐渐取代传统媒体成为用户获取新闻以及其他相关信息的主要手段之一。由于新型媒体依托互联网和移动客户端,不仅信息量大,而且阅读成本低,方便快捷,用户体验好,所以有着庞大的用户群体。同时,这也使得新型媒体在新闻信息服务传播领域和社会事件信息传播扩散方面成为影响力最大、最具发展潜力的信息传播渠道。
[0003] 目前,解放日报、新民晚报、文汇报、东方早报(澎湃新闻)等传统媒体都注册相应腾讯公众号并发布了官方移动客户端,定期发布一些原创文章,这些媒体账号发布信息权威性强,公信力高,通过大量的转发,对信息和事件的传播有着很大的推动作用。但也不乏一些自媒体通过微信公众号或者微博发布一些原创文章,迅速传播,持续发酵,最后有着很大的影响力。
[0004] 目前政府宣传部和媒体单位对发布稿件的传播以及影响力的评估主要依靠人工完成。在互联网信息指数增长的大数据时代,用人工方式来获取发布稿件或事件的影响力和传播情况具有明显的局限性。这种工作模式存在如下的问题:
[0005] 效率低:完全依靠人工操作,人工的操作查找和阅读判断需要的时间较长,对结果的计算耗费巨大的人力物力。
[0006] 准确率低:人工查找速度慢,涵盖的范围小,信息不全面。
[0007] 无法量化:无法判断一篇原创文章具体的影响力,只能定性地模糊地得出其影响力的大小。
[0008] 无法横向比较:无法衡量某个具体原创文章的影响力与其他事件的影响力大小关系,无法给人准确的直观比较结果。

发明内容

[0009] 针对上述技术问题,本发明设计开发了一种基于媒体数据采集的原创文章影响力分析系统,其目的在于代替人工操作,帮助政府宣传部门和相关媒体单位快速地、准确地获取某一原创文章的量化的影响力。
[0010] 本发明提供的技术方案为:
[0011] 一种基于媒体信息采集的原创文章影响力分析系统,包括:
[0012] 媒体文章数据采集模,其用于从网络上采集媒体平台发布的文章信息,从该文章信息中提取内容文本,并存储内容文本,所述媒体平台包括微信公众号平台、新浪微博平台日、新闻移动客户端平台以及新闻网站平台;
[0013] 文章阅读评论点赞数更新模块,其用于获取所述文章信息的传播反馈数据,并存储该传播反馈数据,该传播反馈数据包括阅读数、评论数和/或点赞数;
[0014] 原创文章聚类分析模块,其用于对存储于所述文本数据库内的所有内容文本进行聚类计算,进而获取原创文章;
[0015] 原创文章影响力计算模块,其用于根据以下方法计算原创文章X在微信公共号平台上的影响力:
[0016]
[0017] 其中,Rmean和Zmean分别代表原创文章X在微信公共号平台上分布N天内的日平均阅读数和日平均点赞数,σR和μR为Rmean的方差和期望值,σZ和μZ为Zmean的方差和期望值,Φ(x)为标准正态分布函数;以及
[0018] 所述原创文章影响力计算模块用于根据以下方法计算原创文章X在新浪微博平台上的影响力:
[0019]
[0020] 其中,Tm、Cm和Zm分别代表原创文章X在新浪微博平台上分布N天内的日平均转发数、日平均评论数和日平均点赞数,σT和μT为Tm的方差和期望值,σc和μc为Cm的方差和期望值,σz和μz为Zm的方差和期望值,Φ(x)为标准正态分布函数;以及
[0021] 所述原创文章影响力计算模块用于根据以下方法计算原创文章X在新闻网站平台或新闻移动客户端平台上的影响力:
[0022]
[0023] 其中,Cm分别代表原创文章X在新闻网站平台或新闻移动客户端平台上分布N天内的日平均评论数,σc和μc为Cm的方差和期望值,Φ(x)为标准正态分布函数;
[0024] 所述原创文章影响力计算模块还用于根据以下方法对原创文章在所有平台上的影响力进行计算:
[0025]
[0026] E=a+b+1/2kc+1/2ld,
[0027] 其中, 为微信公众号平台n篇原创文章中第i篇原创文章的影响力, 为新浪微博平台m篇原创文章中第i篇原创文章的影响力, 为新闻移动客户端平台k篇原创文章中第i篇原创文章的影响力, 为新闻网站平台l篇原创文章中第i篇原创文章的影响力;假设微信公众号平台的日活跃人数为a,新浪微博平台日活跃人数为b,新闻移动客户端平台的日活跃人数为c,新闻网站平台的日活跃人数为d。
[0028] 优选的是,所述的基于媒体信息采集的原创文章影响力分析系统中,所述媒体文章数据采集模块还包括:
[0029] 媒体文章采集装置,其用于从网络上获取媒体发布的文章信息;
[0030] 文本数据提取装置,其用于解析所述文章信息,并获取所述文章信息提取文章ID和内容文本,其中,所述文章ID包括所述文章信息的发布平台、发布媒体、发布时间以及题目;
[0031] 文本内存数据库,其用于存储已采集的文章信息的文章ID;
[0032] 内容文本判重装置,其用于将新采集的文章信息的文章ID在所述文本内存数据库中进行比较,如在所述文本内存数据库中不存在,则用于将该新采集的文章信息存储于所述文本内存数据库;
[0033] 文本数据库,其用于存储该新采集的文章信息的内容文本。
[0034] 优选的是,所述的基于媒体信息采集的原创文章影响力分析系统中,所述原创文章聚类分析模块包括:
[0035] 内容文本相似度判定装置,其用于利用文本聚类方法对存储于所述文本数据库内的所有内容文本进行聚类计算,从而形成多个类簇,每个类簇中具有多个相似的内容文本;
[0036] 原创文章分析装置,其用于解析出每个类簇中来源最早的内容文本,并将该内容文本作为原创文章;
[0037] 原创文章数据库,其用于存储原创文章;
[0038] 文章传播分析装置,其用于分析计算原创文章的转发情况,从而得到原创文章的传播信息;
[0039] 文章传播信息数据库,其用于存储原创文章的传播信息。
[0040] 优选的是,所述的基于媒体信息采集的原创文章影响力分析系统中,所述原创文章影响力计算模块包括:
[0041] 原创文章提取装置,其用于从所述原创文章数据库中获取原创文章;
[0042] 平台影响力计算装置,其用于计算原创文章在任一媒体平台上的影响力;
[0043] 文章影响力计算装置,其用于计算原创文章在所有媒体平台上的影响力:
[0044] 文章影响力数据库,其用于存储所述原创文章在所有媒体平台上的影响力计算结果。
[0045] 优选的是,所述的基于媒体信息采集的原创文章影响力分析系统中,所述原创文章分析装置用于根据以下方法解析出每个类簇中来源最早的内容文本:获取该类簇中其中一个内容文本的文章来源,建立一个来源指针,该来源指针指向被转的内容文本,再重复获取该被转的内容文本的文章来源,建立一个来源指针,对该类簇中的内容文本进行遍历,直至获取到来源最早的内容文本。
[0046] 优选的是,所述的基于媒体信息采集的原创文章影响力分析系统中,通过获取类簇中任一内容文本中的标明有文章来源的字段来获取文章来源;当存在两个内容文本中不含有标明有文章来源的字段时,在两个内容文本的特征向量的最小欧氏距离小于阈值的情况下,以发布时间在先的内容文本作为发布时间在后的内容文本的文章来源。
[0047] 一种基于媒体信息采集的原创文章影响力分析方法,包括以下步骤:
[0048] 步骤一、从网络上采集媒体平台发布的文章信息,从该文章信息中提取内容文本,并存储内容文本,所述媒体平台包括微信公众号平台、新浪微博平台日、新闻移动客户端平台以及新闻网站平台;
[0049] 步骤二、获取所述文章信息的传播反馈数据,并存储该传播反馈数据,该传播反馈数据包括阅读数、评论数和/或点赞数;
[0050] 步骤三、对存储于所述文本数据库内的所有内容文本进行聚类计算,进而获取原创文章;
[0051] 步骤四、计算原创文章X在任一媒体平台上的影响力:
[0052] 根据以下方法计算原创文章X在微信公共号平台上的影响力:
[0053]
[0054] 其中,Rmean和Zmean分别代表原创文章X在微信公共号平台上分布N天内的日平均阅读数和日平均点赞数,σR和μR为Rmean的方差和期望值,σZ和μZ为Zmean的方差和期望值,Φ(x)为标准正态分布函数;以及
[0055] 根据以下方法计算原创文章X在新浪微博平台上的影响力:
[0056]
[0057] 其中,Tm、Cm和Zm分别代表原创文章X在新浪微博平台上分布N天内的日平均转发数、日平均评论数和日平均点赞数,σT和μT为Tm的方差和期望值,σc和μc为Cm的方差和期望值,σz和μz为Zm的方差和期望值,Φ(x)为标准正态分布函数;以及
[0058] 根据以下方法计算原创文章X在新闻网站平台或新闻移动客户端平台上的影响力:
[0059]
[0060] 其中,Cm分别代表原创文章X在新闻网站平台或新闻移动客户端平台上分布N天内的日平均评论数,σc和μc为Cm的方差和期望值,Φ(x)为标准正态分布函数;
[0061] 根据以下方法对原创文章在所有平台上的影响力进行计算:
[0062]
[0063] E=a+b+1/2kc+1/2ld,
[0064] 其中, 为微信公众号平台n篇原创文章中第i篇原创文章的影响力, 为新浪微博平台m篇原创文章中第i篇原创文章的影响力, 为新闻移动客户端平台k篇原创文章中第i篇原创文章的影响力, 为新闻网站平台1篇原创文章中第i篇原创文章的影响力;假设微信公众号平台的日活跃人数为a,新浪微博平台日活跃人数为b,新闻移动客户端平台的日活跃人数为c,新闻网站平台的日活跃人数为d。
[0065] 优选的是,所述的基于媒体信息采集的原创文章影响力分析方法中,所述步骤一具体包括:
[0066] 从网络上获取媒体发布的文章信息;
[0067] 解析所述文章信息,并获取所述文章信息提取文章ID和内容文本,其中,所述文章ID包括所述文章信息的发布平台、发布媒体、发布时间以及题目;
[0068] 存储已采集的文章信息的文章ID;
[0069] 将新采集的文章信息的文章ID在所述文本内存数据库中进行比较,如在所述文本内存数据库中不存在,则用于将该新采集的文章信息存储于所述文本内存数据库;
[0070] 存储该新采集的文章信息的内容文本。
[0071] 优选的是,所述的基于媒体信息采集的原创文章影响力分析方法中,所述步骤三具体包括:
[0072] 利用文本聚类方法对存储于所述文本数据库内的所有内容文本进行聚类计算,从而形成多个类簇,每个类簇中具有多个相似的内容文本;
[0073] 解析出每个类簇中来源最早的内容文本,并将该内容文本作为原创文章;
[0074] 存储原创文章;
[0075] 分析计算原创文章的转发情况,从而得到原创文章的传播信息;
[0076] 存储原创文章的传播信息。
[0077] 优选的是,所述的基于媒体信息采集的原创文章影响力分析方法中,根据以下方法解析出每个类簇中来源最早的内容文本:获取该类簇中其中一个内容文本的文章来源,建立一个来源指针,该来源指针指向被转的内容文本,再重复获取该被转的内容文本的文章来源,建立一个来源指针,对该类簇中的内容文本进行遍历,直至获取到来源最早的内容文本。
[0078] 优选的是,所述的基于媒体信息采集的原创文章影响力分析方法中,通过获取类簇中任一内容文本中的标明有文章来源的字段来获取文章来源;当存在两个内容文本中不含有标明有文章来源的字段时,在两个内容文本的特征向量的最小欧氏距离小于阈值的情况下,以发布时间在先的内容文本作为发布时间在后的内容文本的文章来源。
[0079] 本发明所述的基于媒体数据采集的原创文章影响力分析系统具有以下有益效果:
[0080] 1、利用计算机高频自动采集各种媒体平台发布的各种信息,可以在较短时间内获得全面的各媒体文章数据,为下一步进行文本分析提供准确的数据基础
[0081] 2、利用机器学习算法可以自动判定文本之间的相似度,进行较准确聚类和分析,从而为某原创文章的影响力分析提供全面而准确的数据。
[0082] 3、根据本发明设计的算法,加权计算某原创文章的传播情况,从而得到量化的影响力。
[0083] 4、利用计算机根据设计好的算法进行加权计算,极大节省人工成本,大幅度提高原创文章影响力计算的效率。附图说明
[0084] 图1是本发明所述的原创文章影响力分析系统的功能结构图;
[0085] 图2是本发明所述的原创文章影响力分析系统的流程图
[0086] 图3是本发明所述的原创文章在系统中的数据流图;
[0087] 图4是本发明所述的原创文章影响力分析系统的文章采集模块的数据流图;
[0088] 图5是本发明所述的原创文章影响力分析系统的文章阅读评论点赞数更新模块的数据流图;
[0089] 图6是本发明所述的原创文章影响力分析系统的文本聚类分析模块数据流图;
[0090] 图7是本发明所述的原创文章影响力分析系统的原创文章影响力分析模块的数据流图。

具体实施方式

[0091] 下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
[0092] 如图1至图7所示,本发明提供一种基于媒体信息采集的原创文章影响力分析系统,包括:媒体文章数据采集模块,其用于从网络上采集媒体平台发布的文章信息,从该文章信息中提取内容文本,并存储内容文本,所述媒体平台包括微信公众号平台、新浪微博平台日、新闻移动客户端平台以及新闻网站平台;文章阅读评论点赞数更新模块,其用于获取所述文章信息的传播反馈数据,并存储该传播反馈数据,该传播反馈数据包括阅读数、评论数和/或点赞数;原创文章聚类分析模块,其用于对存储于所述文本数据库内的所有内容文本进行聚类计算,进而获取原创文章;原创文章影响力计算模块,其用于根据以下方法计算原创文章X在微信公共号平台上的影响力:
[0093]
[0094] 其中,Rmean和Zmean分别代表原创文章X在微信公共号平台上分布N天内的日平均阅读数和日平均点赞数,σR和μR为Rmean的方差和期望值,σZ和μZ为Zmean的方差和期望值,Φ(x)为标准正态分布函数;以及
[0095] 所述原创文章影响力计算模块用于根据以下方法计算原创文章X在新浪微博平台上的影响力:
[0096]
[0097] 其中,Tm、Cm和Zm分别代表原创文章X在新浪微博平台上分布N天内的日平均转发数、日平均评论数和日平均点赞数,σT和μT为Tm的方差和期望值,σc和μc为Cm的方差和期望值,σz和μz为Zm的方差和期望值,Φ(x)为标准正态分布函数;以及
[0098] 所述原创文章影响力计算模块用于根据以下方法计算原创文章X在新闻网站平台或新闻移动客户端平台上的影响力:
[0099]
[0100] 其中,Cm分别代表原创文章X在新闻网站平台或新闻移动客户端平台上分布N天内的日平均评论数,σc和μc为Cm的方差和期望值,Φ(x)为标准正态分布函数;
[0101] 所述原创文章影响力计算模块还用于根据以下方法对原创文章在所有平台上的影响力进行计算:
[0102]
[0103] E=a+b+1/2kc+1/2ld,
[0104] 其中, 为微信公众号平台n篇原创文章中第i篇原创文章的影响力, 为新浪微博平台m篇原创文章中第i篇原创文章的影响力, 为新闻移动客户端平台k篇原创文章中第i篇原创文章的影响力, 为新闻网站平台l篇原创文章中第i篇原创文章的影响力;假设微信公众号平台的日活跃人数为a,新浪微博平台日活跃人数为b,新闻移动客户端平台的日活跃人数为c,新闻网站平台的日活跃人数为d。
[0105] 在一个优选的实施例中,所述的基于媒体信息采集的原创文章影响力分析系统中,所述媒体文章数据采集模块还包括:媒体文章采集装置,其用于从网络上获取媒体发布的文章信息;文本数据提取装置,其用于解析所述文章信息,并获取所述文章信息提取文章ID和内容文本,其中,所述文章ID包括所述文章信息的发布平台、发布媒体、发布时间以及题目;文本内存数据库,其用于存储已采集的文章信息的文章ID;内容文本判重装置,其用于将新采集的文章信息的文章ID在所述文本内存数据库中进行比较,如在所述文本内存数据库中不存在,则用于将该新采集的文章信息存储于所述文本内存数据库;文本数据库,其用于存储该新采集的文章信息的内容文本。
[0106] 在一个优选的实施例中,所述的基于媒体信息采集的原创文章影响力分析系统中,所述原创文章聚类分析模块包括:内容文本相似度判定装置,其用于利用文本聚类方法对存储于所述文本数据库内的所有内容文本进行聚类计算,从而形成多个类簇,每个类簇中具有多个相似的内容文本;原创文章分析装置,其用于解析出每个类簇中来源最早的内容文本,并将该内容文本作为原创文章;原创文章数据库,其用于存储原创文章;文章传播分析装置,其用于分析计算原创文章的转发情况,从而得到原创文章的传播信息;文章传播信息数据库,其用于存储原创文章的传播信息。
[0107] 在一个优选的实施例中,所述的基于媒体信息采集的原创文章影响力分析系统中,所述原创文章影响力计算模块包括:原创文章提取装置,其用于从所述原创文章数据库中获取原创文章;平台影响力计算装置,其用于计算原创文章在任一媒体平台上的影响力;文章影响力计算装置,其用于计算原创文章在所有媒体平台上的影响力:文章影响力数据库,其用于存储所述原创文章在所有媒体平台上的影响力计算结果。
[0108] 在一个优选的实施例中,所述的基于媒体信息采集的原创文章影响力分析系统中,所述原创文章分析装置用于根据以下方法解析出每个类簇中来源最早的内容文本:获取该类簇中其中一个内容文本的文章来源,建立一个来源指针,该来源指针指向被转的内容文本,再重复获取该被转的内容文本的文章来源,建立一个来源指针,对该类簇中的内容文本进行遍历,直至获取到来源最早的内容文本。
[0109] 在一个优选的实施例中,所述的基于媒体信息采集的原创文章影响力分析系统中,通过获取类簇中任一内容文本中的标明有文章来源的字段来获取文章来源;当存在两个内容文本中不含有标明有文章来源的字段时,在两个内容文本的特征向量的最小欧氏距离小于阈值的情况下,以发布时间在先的内容文本作为发布时间在后的内容文本的文章来源。
[0110] 本发明还提供一种基于媒体信息采集的原创文章影响力分析方法,包括以下步骤:
[0111] 步骤一、从网络上采集媒体平台发布的文章信息,从该文章信息中提取内容文本,并存储内容文本,所述媒体平台包括微信公众号平台、新浪微博平台日、新闻移动客户端平台以及新闻网站平台;
[0112] 步骤二、获取所述文章信息的传播反馈数据,并存储该传播反馈数据,该传播反馈数据包括阅读数、评论数和/或点赞数;
[0113] 步骤三、对存储于所述文本数据库内的所有内容文本进行聚类计算,进而获取原创文章;
[0114] 步骤四、计算原创文章X在任一媒体平台上的影响力:
[0115] 根据以下方法计算原创文章X在微信公共号平台上的影响力:
[0116]
[0117] 其中,Rmean和Zmean分别代表原创文章X在微信公共号平台上分布N天内的日平均阅读数和日平均点赞数,σR和μR为Rmean的方差和期望值,σZ和μZ为Zmean的方差和期望值,Φ(x)为标准正态分布函数;以及
[0118] 根据以下方法计算原创文章X在新浪微博平台上的影响力:
[0119]
[0120] 其中,Tm、Cm和Zm分别代表原创文章X在新浪微博平台上分布N天内的日平均转发数、日平均评论数和日平均点赞数,σT和μT为Tm的方差和期望值,σc和μc为Cm的方差和期望值,σz和μz为Zm的方差和期望值,Φ(x)为标准正态分布函数;以及
[0121] 根据以下方法计算原创文章X在新闻网站平台或新闻移动客户端平台上的影响力:
[0122]
[0123] 其中,Cm分别代表原创文章X在新闻网站平台或新闻移动客户端平台上分布N天内的日平均评论数,σc和μc为Cm的方差和期望值,Φ(x)为标准正态分布函数;
[0124] 根据以下方法对原创文章在所有平台上的影响力进行计算:
[0125]
[0126] E=a+b+1/2kc+1/2ld,
[0127] 其中, 为微信公众号平台n篇原创文章中第i篇原创文章的影响力, 为新浪微博平台m篇原创文章中第i篇原创文章的影响力, 为新闻移动客户端平台k篇原创文章中第i篇原创文章的影响力, 为新闻网站平台l篇原创文章中第i篇原创文章的影响力;假设微信公众号平台的日活跃人数为a,新浪微博平台日活跃人数为b,新闻移动客户端平台的日活跃人数为c,新闻网站平台的日活跃人数为d。
[0128] 在一个优选的实施例中,所述的基于媒体信息采集的原创文章影响力分析方法中,所述步骤一具体包括:从网络上获取媒体发布的文章信息;解析所述文章信息,并获取所述文章信息提取文章ID和内容文本,其中,所述文章ID包括所述文章信息的发布平台、发布媒体、发布时间以及题目;存储已采集的文章信息的文章ID;将新采集的文章信息的文章ID在所述文本内存数据库中进行比较,如在所述文本内存数据库中不存在,则用于将该新采集的文章信息存储于所述文本内存数据库;存储该新采集的文章信息的内容文本。
[0129] 在一个优选的实施例中,所述的基于媒体信息采集的原创文章影响力分析方法中,所述步骤三具体包括:利用文本聚类方法对存储于所述文本数据库内的所有内容文本进行聚类计算,从而形成多个类簇,每个类簇中具有多个相似的内容文本;解析出每个类簇中来源最早的内容文本,并将该内容文本作为原创文章;存储原创文章;分析计算原创文章的转发情况,从而得到原创文章的传播信息;存储原创文章的传播信息。
[0130] 在一个优选的实施例中,所述的基于媒体信息采集的原创文章影响力分析方法中,根据以下方法解析出每个类簇中来源最早的内容文本:获取该类簇中其中一个内容文本的文章来源,建立一个来源指针,该来源指针指向被转的内容文本,再重复获取该被转的内容文本的文章来源,建立一个来源指针,对该类簇中的内容文本进行遍历,直至获取到来源最早的内容文本。
[0131] 在一个优选的实施例中,所述的基于媒体信息采集的原创文章影响力分析方法中,通过获取类簇中任一内容文本中的标明有文章来源的字段来获取文章来源;当存在两个内容文本中不含有标明有文章来源的字段时,在两个内容文本的特征向量的最小欧氏距离小于阈值的情况下,以发布时间在先的内容文本作为发布时间在后的内容文本的文章来源。
[0132] 本发明主要用于政府宣传部门以及媒体单位对发布的原创文章进行传播影响力追踪计算与分析,为各家媒体进行新媒体融合,把握社会效益提供客观评估指标,不断提高原创稿件的传播力、影响力。
[0133] 图1为概略表示原创文章影响力分析系统的功能结构图。如图1所示,系统主要分为媒体文章数据采集模块、文章阅读评论点赞数更新模块、原创文章聚类分析模块和原创文章影响力计算模块四个部分。
[0134] 对于微信公众号文章采集模块:利用现有的网络爬虫算法,分别针对移动客户端、新浪微博、微信公众号平台和新闻网站进行信息数据采集,把采集的文章经过解析处理后,建立内容文本单元,然后通过内存数据库进行判重操作,若内容文本未保存在文本数据库中,进行入库操作,并在内存数据库中记录该文本ID用于判重,入库的文本数据留作进行各种数据分析。
[0135] 对于文章阅读评论点赞数更新模块:首先从文本数据库中获取相关文章,针对该文章进行定向信息采集,然后利用文本判重装置与内存数据库中的文本进行判重操作,若为已采集文章,则解析获取该文章的阅读点赞评论数信息,并将数据存入传播数据数据库,该模块需每5分钟进行一次采集,保证及时获取文章传播过程中的相关数据信息。
[0136] 对于原创文章聚类分析模块:本模块首先利用文本提取装置从文本数据库中提取文本信息数据,然后利用内容文本相似度判定装置对所有文本进行解析并对相似度进行分析进而对文章进行聚类,针对生成的每个类簇利用原创文章分析装置进行计算,得到原创文章并存入原创文章数据库,最后针对每个类簇下的文章利用文章传播分析装置分析原创文章在该类簇下的传播分析情况并存入文章传播信息数据库。
[0137] 对于原创文章影响力计算模块:本模块首先从原创文章数据库中提取原创文章相关数据,然后利用平台影响力计算装置从文章传播信息数据库中获取相关具体数据并计算原创文章在每个平台上的影响力,最后通过文章影响力计算装置进行原创文章影响力综合计算,利用文本提取装置从文本数据库中提取文本信息数据,然后利用内容文本相似度判定装置对所有文本进行解析并对相似度进行分析进而对文章进行聚类,针对生成的每个类簇利用原创文章分析装置进行计算,得到原创文章并存入原创文章数据库,最后针对每个类簇下的文章利用文章传播分析装置分析原创文章在该类簇下的传播分析情况并存入文章传播信息数据库。
[0138] 图2是具体实施过程中原创文章影响力分析系统的流程图。该部分是由多个线程共同完成,文章采集线程和评论阅读点赞数更新线程不间断运行,保证收录的媒体文章以及相关的阅读反馈信息实时而全面,设置好相关参数之后由计算机自动运行相关程序,具体流程如下:
[0139] (1)采集媒体发布文章信息
[0140] 利用通用的网络爬虫算法,对媒体发布文章进行全面采集,实时采集新浪微博、移动客户端、新闻网站、微信公众号发布的所有文章,记录返回的所有具体信息,作为原始数据,以便进行深入的解析处理。
[0141] (2)内存数据库判断文本是否已存储
[0142] 将采集的媒体文章具体信息进行解析,将其发布平台、发布媒体、发布时间和题目作为该文章的唯一ID。利用新采集文章的唯一ID与内存数据库中存储的文章ID进行比较,若该ID已存在,表明该文章已经采集并入库,若该ID不存在,表明该文章尚未存入文本数据库。
[0143] (3)文章数据存入文本数据库
[0144] 经过内存数据库进行判断,若该文本信息并未存入文本数据库,则连同该文章唯一ID一同存入文本数据库,方便以后进行查询和读取。
[0145] (4)更新已采集文章阅读评论点赞数
[0146] 该过程需要独立线程每5分钟针对已采集文章进行传播反馈数据(即传播信息)进行采集,及时更新到传播数据数据库,为后期的原创文章影响力计算提供准确详实的数据。
[0147] (5)对文本数据进行相似度判定
[0148] 对筛选出的待测文本进行聚类,目前聚类算法有很多,各有优劣,本系统利用文本聚类算法进行聚类,聚类结果形成的每个类簇可能为某篇原创文章的转载传播形成的文章集合。
[0149] (6)分析文章在各个平台的传播情况
[0150] 针对聚类结果利用原创文章分析算法获取原创文章,存入原创文章数据库,用于原创文章查询和影响力的计算。
[0151] (7)分析文章在各个平台的传播情况
[0152] 分析原创文章在各个平台的传播情况,根据平台影响力分析算法计算每个平台的影响力,再根据文章阅读反馈数据计算获取文章在该平台的影响力。
[0153] (8)分析计算该原创文章的相对影响力
[0154] 对聚类筛选的结果利用原创文章影响力分析算法进行加权计算,得到该原创文章的影响力,最后将计算的结果存入文章影响力数据库。
[0155] 图3概略表示本系统实施过程中采集媒体数据的传输流向。如图3所示,该部分包括媒体文章数据采集模块、文章阅读评论点赞数更新模块、原创文章聚类分析模块、原创文章影响力计算模块。
[0156] 媒体文章数据采集模块用于采集并存储新浪微博、微信公众号平台、移动客户端、新闻发布平台等绝大多数媒体传播平台发布的所有文章。
[0157] 文章阅读评论点赞数更新模块用于每5分钟采集一次已采文章的传播反馈数据(包括阅读评论点赞数),并将相关数据存入传播数据数据库留待计算影响力使用。
[0158] 原创文章聚类分析模块用于对各个平台的文章进行聚类,并根据聚类结果利用相关算法计算获取原创文章并存入原创文章数据库。
[0159] 原创文章影响力计算模块用于计算并存储文章在多个平台的传播情况,并根据各个平台的影响力对其进行加权计算,得到文章的影响力。
[0160] 图4为实施过程中媒体文章数据采集模块的数据流图。如图4所示,该部分包括媒体文章采集装置、文本数据提取装置、内容文本判重装置、文本内存数据库(存储已采集文章ID)、文本数据库(存储所有已采集的文本数据)。
[0161] 媒体文章采集装置在本部分使用现有的网络爬虫算法,获取各个媒体平台发布的所有文章。
[0162] 文本数据提取装置用于解析采集文章的具体信息,获取文章的ID、内容文本和题目等。
[0163] 内容文本判重装置用于对采集的文章进行判重操作,确定该文章是否已经采集并存入文本数据库。
[0164] 文本内存数据库(记录已采集文章的ID)用于存储已采集并入库的文章的ID,便于对新采集的文章进行判断是否重复,若ID存在则表明文章已经采集入库,若ID不存在表明是新采集的媒体文章。
[0165] 文本数据库用于存储新采集的微信公众号文章数据,为接下来的数据分析,文章聚类提供最基本的原始的素材。
[0166] 图5是具体实施过程中文章阅读评论点赞数更新模块数据流图,该部分针对已采集文章,每5分钟进行一次传播反馈数据(包括阅读评论点赞数)采集,为事件影响力分析提供最直接的数据信息。如图5所示,该部分包括文本数据库、文本提取装置、文章数据采集装置、内容文本判重装置、文本内存数据库、阅读点赞评论数提取装置和传播数据数据库。
[0167] 文本提取装置从文本数据库中遍历时间节点之后的文章,然后依次提取文章,用于更新阅读评论点赞数。
[0168] 文章数据采集装置根据文本提取装置提供的文章进行定向精准采集,并将采集的信息传输至内容文本判重装置。
[0169] 阅读评论点赞数提取装置根据文章发布的平台不同,从内容文本中解析获取该文章的阅读数、评论数、点赞数其中的一项或几项,并将其传送至传播数据数据库。
[0170] 传播数据数据库用于存储已采集文章的阅读评论点赞数,作为事件影响力分析计算的基础数据。
[0171] 图6是具体实施过程中原创文章聚类分析模块流程图。该模块首先针对已采文章进行聚类,在聚类结果的基础上进行原创文章分析计算。如图6所示,该部分包括文本数据库、文本提取装置,内容文本相似度判定装置、原创文章分析装置、原创文章数据库(存储所有计算所得的原创文章)、文章传播分析装置、文章传播信息数据库。
[0172] 内容文本相似度判定装置利用文本聚类算法对文章进行聚类计算,聚类结果用于原创文章的分析计算。
[0173] 原创文章分析装置利用原创文章分析算法从聚类结果中计算获取原创文章,用于接下来的传播及影响力计算。
[0174] 原创文章数据库用于存储聚类计算所得的原创文章。为后续的传播及影响力计算提供基础信息。
[0175] 事件影响力分析装置用于对该事件相关文章进行加权计算,得到影响力分析结果。
[0176] 文章传播分析装置用于分析计算原创文章的转发情况,从而得到原创文章的传播路径等传播信息。
[0177] 文章传播信息数据库用于存储原创文章转发传播路径等传播信息,用于后续的影响力计算。
[0178] 图7为实施过程中原创文章影响力计算模块数据流图。该模块负责平台影响力的分析和计算以及原创文章影响力的计算。该模块如图7所示,该部分包括原创文章数据库、原创文章提取装置、平台影响力计算装置、文章传播信息数据库、文章影响力计算装置和文章影响力数据库。
[0179] 原创文章提取装置负责提取原创文章数据库中通过计算获取的原创文章。
[0180] 平台影响力计算装置根据平台的不同利用不同的影响力算法得到文章在该平台的影响力。
[0181] 文章影响力计算装置利用平台影响力计算装置计算的结果,利用文章影响力算法进行加权结算,得到文章影响力结果。
[0182] 文章影响力数据库负责存储原创文章的影响力计算结果,以便后期对文章传播影响情况的分析和监管。
[0183] 具体地,内容文本相似度判定装置在利用文本聚类方法进行聚类计算时,文本聚类方法的作用在于针对采集文章进行聚类,获取相似文章。其具体过程为:
[0184] 第一步为预处理,利用分词软件对内容文本文本进行分词,对比垃圾词库,对文本中的垃圾词进行过滤,然后利用TF-IDF算法获取排名前n位的词语。由于该系统待处理的信息量过于庞大,首先匹配每篇内容文本词频最高的m位,若此m个词语相同且不同内容文本的相同词语每个词频之差小于阈值α,则认为有可能为同一类内容文本,进行第二步聚类。第二步为文本聚类,本系统对第一步的结果进行计算,获取不同的关键词总数p,进行文本空间向量化,建立p维空间特征向量,词频即为向量在该维度的分量,计算向量的欧氏间的距离并进行聚类,形成k个类簇。
[0185] 原创文章分析装置在解析上述聚类结果,获取原创文章时,其具体过程如下:
[0186] 获取每篇内容文本特定字段(该特定字段标明了内容文本来源),获取该内容文本转自哪一篇内容文本,建立一个来源指针,指向被转内容文本,同时被转内容文本也建立一个被转指针,指向转发该内容文本的内容文本。对聚类的一个类簇进行遍历,最后得到最早的内容文本来源。由于其中一些内容文本未标明转自哪篇内容文本,若内容文本X未标明转发自哪篇内容文本且与内容文本Y特征向量的欧氏距离最小为b,在b小于阈值ε的情况下,若X发布时间晚于Y,则视为X内容文本转自Y;若X内容文本发布时间早于Y且Y没有标注转自哪篇内容文本,则视Y转自X。否则视X为一篇独立内容文本。
[0187] 平台影响力计算装置在计算原创文章在媒体平台上的影响力,以获取每个发布平台的影响力情况,其具体过程为:
[0188] 本系统采集的平台包括微信公众号,新浪微博,各媒体的移动客户端,媒体新闻网站。每个平台上的文章阅读反馈参数有一定的差异。例如:微信公众号平台为阅读数和点赞数,新浪微博为转发数、评论数和点赞数,新闻客户端为评论数,媒体移动客户端为评论数。
[0189] 计算原创文章在公众号平台的影响力,统计全部公众号原创文章,计算每篇原创文章发布N天内的日平均阅读数Rmean和日平均点赞数Zmean,获取其方差σR、σZ和期望μR、μZ,利用Z-score标准化方法 将某篇原创文章X的日平均阅读数和日平均点赞数归一化。则原创文章X的影响力计算公式如下(Φ(x)为标准正态分布函数):
[0190]
[0191] 计算原创文章在新浪微博的影响力,同上,计算每篇博文发布N天内的日平均转发数Tm,日平均评论数Cm,日平均点赞数Zm,分别获取其期望μTμC,μZ及其方差σT,σC,σZ,同样利用Z-score标准化方法 将原创文章X的日平均转发数、日平均阅读数和日平均点赞数归一化。则原创文章B的影响力计算公式如下(Φ(x)为标准正态分布函数):
[0192]
[0193] 计算原创文章在新闻网站和新闻移动客户端的的影响力的计算方式相同,首先计算原创文章发布N天内的日平均评论数Cm及其期望和方差μC及σC,利用Z-score标准化方法将原创文章X的日平均评论数归一化。则某篇原创文章W的影响力计算公式如下(Φ(x)为标准正态分布函数):
[0194]
[0195] 原创文章影响力计算装置根据原创原创文章分析算法和平台影响力计算算法,对原创原创文章影响力进行计算。
[0196] 首先,根据各媒体发布的官方信息或者统计机构给出的各平台的日活跃人数,以此为根本来获取各个平台的影响力权重。假设微信公众号平台的日活跃人数为a,新浪微博日活跃人数为b,新闻移动客户端的日活跃人数为c,新闻网站的日活跃人数为d。
[0197] 根据原创原创文章分析算法的计算结果,对原创原创文章在各个平台的转发(包括直接转发和间接转发)结果造成的影响进行计算,获取原创原创文章的影响力。某篇原创原创文章的影响力计算公式为:
[0198]
[0199] E=a+b+1/2kc+1/2ld
[0200] 其中 为微信公众号n篇原创文章中第i篇原创文章的影响力, 为微博b篇原创文章中第i篇原创文章的影响力, 为新闻移动客户端k篇原创文章中第i篇原创文章的影响力, 为新闻网站l篇原创文章中第i篇原创文章的影响力。
[0201] 尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈