首页 / 专利库 / 电信 / 节点 / 子节点 / 基于用户发帖行为模式的多线索社会事件总结方法

基于用户发帖行为模式的多线索社会事件总结方法

阅读:691发布:2024-02-20

专利汇可以提供基于用户发帖行为模式的多线索社会事件总结方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于用户发帖行为模式的多线索社会事件总结方法,用于解决现有多线索社会事件总结方法实用性差的技术问题。技术方案是根据相关的关键字获得社交网络中与该事件相关的微博,提取微博中的正文以及时间字段,对正文进行预处理。根据时间字段构建表示用户发帖行为模式的图模型T。根据正文内容构建表示微博内容相似性的图模型A。识别图模型T中的所有连通子图,每一个连通子图代表事件发展的不同阶段。识别图模型A中的所有连通子图,每一个连通子图代表事件中的不同线索。冗余信息剔除,得到有发展脉络的多线索社会事件总结。本发明根据用户发帖的行为模式获得更细粒度的社会事件总结,反映事件的动态发展及变化,实用性强。,下面是基于用户发帖行为模式的多线索社会事件总结方法专利的具体信息内容。

1.一种基于用户发帖行为模式的多线索社会事件总结方法,其特征在于包括以下步骤:
步骤一、当一个社会事件发生后,根据相关的关键字利用网络爬虫获得社交网络中与该社会事件相关的微博,提取微博中的正文以及时间字段,对正文进行分词预处理,过滤无用的停止词;
步骤二、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此微博作为节点,构建表示用户发帖行为模式的图模型T;
步骤三、利用TF-IDF计算正文内容中的关键词,根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此微博作为节点,构建表示微博内容相似性的图模型A;
步骤四、利用深度优先算法搜索图模型T中的所有连通子图,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段;
步骤五、利用深度优先算法搜索图模型A中的所有连通子图,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索;
步骤六、根据步骤四得到事件的不同发展阶段涉及的微博,根据步骤五得到事件的不同线索涉及的微博,将步骤五的结果映射至步骤四的结果上,得到在同一线索中微博的阶段分布,即得到线索的内部发展,进而得到有发展脉络的多线索社会事件总结;
步骤七、利用贪心算法使子模性函数最大化以剔除线索中的冗余信息,得到有发展脉络的多线索社会事件总结;
其中,子模性函数为,
其中,V代表线索,S代表最后选中的微博,i,j代表微博,这个函数的意义就是使S中的微博信息覆盖率最大,冗余率最小;利用贪心算法得到使该子模性函数最大化的微博集合S,即剔除了冗余信息后的线索。

说明书全文

基于用户发帖行为模式的多线索社会事件总结方法

技术领域

[0001] 本发明涉及一种多线索社会事件总结方法,特别涉及一种基于用户发帖行为模式的多线索社会事件总结方法。

背景技术

[0002] 近年来,随着社交媒体,如微博,Twitter等为代表的社交网络的快速发展,基于社交媒体数据进行社会事件总结的工作受到了越来越多的研究人员的关注。当某一社会事件发生时,会有大量的用户在第一时间通过社交网络发布相关的信息,进行相关的讨论,这里往往还包含了许多目击者或是现场的第一手信息。与传统媒体相比,社交媒体发布的信息更全面,然而,由于未经过专业编辑的整理过滤,这些信息往往是杂乱的。因此,需要通过有效地措施对这些社交媒体信息进行整理过滤,以得到清晰的结果用于社会事件总结,为人们了解社会事件提供有价值的参考。
[0003] 专利CN1710563提出了一种重要新闻事件检测和摘要的方法,该专利主要面向新闻视频数据,将多个电视台或电视频道的新闻视频数据库里,自动检测重要新闻,并按照重要度从高到低形成用户指定时间的新闻摘要。专利CN104850606A公开了一种移动群智感知社会事件的总结方法,利用Tucker张量分解和K-means聚类分析对社会事件进行总结。专利CN104182504A公开了一种新闻事件的动态跟踪和总结算法,采用社区发现算法从词共现图中提取与新闻事件相关的多个主题,对主题集合中的每个主题按照发生时间,从所对应的句子组序列中获得与各自主题相对应的摘要集合,从而生成与各自主题相对应的总结。这些专利的不足之处就是忽略了社会事件中有多个线索,每个线索都有自己的发展情况。比如在天津大爆炸事件中,有救援情况的线索,有清理事故现场的线索,有受灾群众安置的线索等。只有区分这些线索才可以得到一个清晰可读的社会事件总结,便于用户了解社会事件不同方面的发展概况。

发明内容

[0004] 为了克服现有多线索社会事件总结方法实用性差的不足,本发明提供一种基于用户发帖行为模式的多线索社会事件总结方法。该方法根据相关的关键字获得社交网络中与该事件相关的微博,提取微博中的正文以及时间字段,对正文进行预处理。根据时间字段构建表示用户发帖行为模式的图模型T。根据正文内容构建表示微博内容相似性的图模型A。识别图模型T中的所有连通子图,每一个连通子图代表事件发展的不同阶段。识别图模型A中的所有连通子图,每一个连通子图代表事件中的不同线索。冗余信息剔除,得到有发展脉络的多线索社会事件总结。本发明根据用户发帖的行为模式能够更加全面的考虑社会事件中不同线索的内部发展,从而获得更细粒度的社会事件总结,反映事件的动态发展及变化,实用性强。
[0005] 本发明解决其技术问题所采用的技术方案:一种基于用户发帖行为模式的多线索社会事件总结方法,其特点是包括以下步骤:
[0006] 步骤一、当一个社会事件发生后,根据相关的关键字利用网络爬虫获得社交网络中与该社会事件相关的微博,提取微博中的正文以及时间字段,对正文进行分词预处理,过滤无用的停止词。
[0007] 步骤二、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T。
[0008] 步骤三、利用TF-IDF计算正文内容中的关键词,根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A。
[0009] 步骤四、利用深度优先算法搜索图模型T中的所有连通子图,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段。
[0010] 步骤五、利用深度优先算法搜索图模型A中的所有连通子图,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索。
[0011] 步骤六、根据步骤四得到事件的不同发展阶段涉及的微博,根据步骤五得到事件的不同线索涉及的微博,将步骤五的结果映射至步骤四的结果上,得到在同一线索中微博的阶段分布,即得到线索的内部发展,进而得到有发展脉络的多线索社会事件总结。
[0012] 步骤七、利用贪心算法使子模性函数最大化以剔除线索中的冗余信息,得到有发展脉络的多线索社会事件总结。
[0013] 其中,子模性函数为,
[0014]
[0015] 其中,V代表线索,S代表最后选中的微博,i,j代表微博,这个函数的意义就是使S中的微博信息覆盖率最大,冗余率最小。利用贪心算法得到使该子模性函数最大化的微博集合S,即剔除了冗余信息后的线索。
[0016] 本发明的有益效果是:该方法根据相关的关键字获得社交网络中与该事件相关的微博,提取微博中的正文以及时间字段,对正文进行预处理。根据时间字段构建表示用户发帖行为模式的图模型T。根据正文内容构建表示微博内容相似性的图模型A。识别图模型T中的所有连通子图,每一个连通子图代表事件发展的不同阶段。识别图模型A中的所有连通子图,每一个连通子图代表事件中的不同线索。冗余信息剔除,得到有发展脉络的多线索社会事件总结。本发明根据用户发帖的行为模式能够更加全面的考虑社会事件中不同线索的内部发展,从而获得更细粒度的社会事件总结,反映事件的动态发展及变化,实用性强。
[0017] 下面结合附图和具体实施方式对本发明作详细说明。

附图说明

[0018] 图1是本发明基于用户发帖行为模式的多线索社会事件总结方法的流程图

具体实施方式

[0019] 参照图1。本发明基于用户发帖行为模式的多线索社会事件总结方法具体步骤如下:
[0020] 步骤1、根据关键字“天津塘沽大爆炸”利用网络爬虫获得关于天津大爆炸事件的微博,提取微博中的正文内容及时间字段,利用分词工具对正文内容进行分词并过滤停止词。
[0021] 步骤2、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T。
[0022] 步骤3、利用TF-IDF计算正文内容中的关键词,如消防员、震感、小区、事故现场等。根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A。
[0023] 步骤4、利用深度优先算法搜索图模型T中的所有连通子图ST,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段。比如ST1={a,b,c},ST2={d,e},a,b,c,d,e分别代表五个不同的微博。
[0024] 步骤5、利用深度优先算法搜索图模型A中的所有连通子图SA,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索。比如SA1={a,d},SA2={b,c,e}。
[0025] 步骤6、根据ST1,ST2,SA1,SA2,可以得知属于线索A1的微博a,d属于两个不同的发展阶段,a∈ST1,d∈ST2,同理可以得知属于线索A2的微博b,c和e属于两个不同的发展阶段b,c∈ST1,e∈ST2。由此,我们可以得知道该事件有两个线索,线索A1(a→d),线索A2(b→e,c→e)。
[0026] 步骤7、根据子模性函数 利用贪心算法剔除各线索中的冗余信息。经过计算,发现线索A2中c为冗余信息,则剔除c,最终的事件总结为,该事件包括线索A1以及线索A2,其内部发展情况为线索A1(a→d),线索A2(b→e)。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈