专利汇可以提供一种基于动态摘要技术的微博流信息提取方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于动态 摘要 技术的微博流信息提取方法,该发明首先设计了一种基于微博流的增量聚类方法,并提出一种新的微博类向量的数据结构,以维护类的聚集信息。同时,结 合金 字塔型时间 帧 结构,保存历史时刻的信息快照,从而支持对任意时间段进行摘要。利用聚类方法得到的信息,提出高层次摘要 算法 ,选取最具有代表性的微博作为摘要。在此 基础 上,通过检测摘要内容的变化,设计一种话题演变检测方法,自动地生成时间轴。本发明设计的方法在面向海量社会化文本进行信息提取的效率和效果上取得了良好的平衡,既使得用户在知识获取过程中更加的便利,同时也支持诸如实时报道、历史综述等数据分析工作。,下面是一种基于动态摘要技术的微博流信息提取方法专利的具体信息内容。
1.一种基于动态摘要技术的微博流信息提取方法,其特征在于,该方法的步骤如下:
(1)首先建立微博流中微博的数据模型,一条微博由三部分组成:文本内容、时间戳和权重;
(2)对微博流数据进行流聚类:通过对每一条最新接收的微博采用增量聚类的方法,维护并更新微博类的向量的数据结构,从而将源源不断的海量数据流提炼为动态更新的微博类;
(3)在步骤(2)的过程中,每隔一定时间T,将当前内存中维护的微博类的数据信息快照存入一个金字塔型时间帧的结构;
(4)基于微博的时效性特点,周期性地检查当前维护的微博类的集合中,是否含有过期的微博类,并将之删除,以此保证当前内存中维护的微博类的新鲜度;
(5)为防止微博类的数量过多导致方法效率降低以及内存消耗过大的问题,当微博类的数量达到限制数量N后,进行微博类的合并操作;
(6)基于步骤(2)和步骤(3)所维护的微博类的信息,为实时摘要和历史摘要获取不同的输入内容;实时摘要可直接提取当前内存中维护的微博类的信息,而历史摘要则需要通过时间段的两个端点,从金字塔型时间帧中获取对应时间所存储的微博类的信息,并进行相减操作来得到;
(7)基于步骤(6)中得到的微博类的信息,进行高层次摘要;首先对微博类的信息中包含的微博计算分数,然后利用该分数同时结合内容覆盖率和新颖度对微博进行排序,依次选取微博加入摘要;
(8)通过步骤(7)可得到任意一段时间内连续的时间间隔T’的摘要,然后根据摘要内容的变化幅度,来检测话题的演变情况,并动态地生成时间轴;
所述步骤(1)中,文本内容基于空间向量模型,每个维度上的数值是某个词的TF-IDF值;时间戳即该微博发布的时间;权重即该微博发布者的社会化影响力,其计算方法为:先利用社交关系建立一个用户矩阵,然后在该矩阵上计算每个用户的PageRank值,以这个值来衡量用户的影响力,并作为其发布的微博的权重;
所述步骤(2)具体为:首先积累微博并采用K-means聚类方法产生初始的类,并初始化相应的微博类的向量;微博类的向量维护了属于某个类的微博的六种聚集信息,包括正则化的文本向量和sum_v、加权文本向量和wsum_v、时间戳之和ts1、时间戳平方和ts2、包含的微博数量n以及焦点微博集合ft_set;焦点微博集合是指与当前微博类的向量中心最为相似的m条微博,微博类的向量中心可以通过wsum_v/n来得到,相似度计算采用Cosine相似度,m值的选取范围为[10,100],其数值的增大会导致微博类的向量的存储开销增大;在初始化完成后,对于每一条最新接收的微博,采用增量聚类的方法:计算各个微博类的向量中心与该微博文本向量的Cosine相似度,从而找出与该微博最相似的类;如果它们之间的相似度大于 则将该微博加入这个类当中,并更新其微博类的向量;否则,就将该微博升级为一个新建的微博类;该判断条件中,β∈(0,1),β越小则越不容易创建新的微博类,微博类数量的增长就越慢,β越大则越容易创建新的微博类,微博类数量的增长就越快;
表示属于该微博类的微博与微博类的向量中心的平均Cosine相似度,c表示微博类的向量中心,t表示属于该微博类的某条微博, 可根据以下公式计算得到:
通过这种方式,可以将源源不断的海量微博流提炼为动态更新的微博类,在保存微博信息的基础上提高处理效率。
2.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤(5)中,所述微博类的合并操作具体为:首先根据微博类中心相似度,对两两组成的类对排序,然后从最相似的微博类对开始进行合并,两个微博类的合并操作,即两个微博类的向量V1=(sum_v1,wsum_v1,ts11,ts21,ft_set1)和V2=(sum_v2,wsum_v2,ts12,ts22,ft_set2)相加得到新的微博类的向量V3=(sum_v3,wsum_v3,ts13,ts23,ft_set3),具体方法如下:
sum_v3=sum_v1+sum_v2;
wsum_v3=wsum_v1+wsum_v2;
ts13=ts11+ts12;
ts23=ts21+ts22;
ft_set3则由ft_set1∪ft_set2中与新的微博类中心向量最相似的m条微博组成。
3.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤(6)中,两个微博类的相减操作,即微博类的向量V1=(sum_v1,wsum_v1,ts11,ts21,ft_set1)减去V2=(sum_v2,wsum_v2,ts12,ts22,ft_set2)得到新的微博类的向量V3=(sum_v3,wsum_v3,ts13,ts23,ft_set3),具体方法如下:
sum_v3=sum_v1-sum_v2;
wsum_v3=wsum_v1-wsum_v2;
ts13=ts11-ts12;
ts23=ts21-ts22;
ft_set3则由ft_set1中存在但不在ft_set2中的微博组成。
4.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤(7)通过以下三个子步骤来实现:
(7.1)首先对ft_sets中所有的微博计算LexRank值;
(7.2)从每一个类中选取一条LexRank值最高的微博,并按照以下公式进行选择,依次加入摘要:
其中ti为需要计算的微博,t为ti中分数最高的微博,nti是ti所属微博类的大小,nmax是最大微博类的大小,LR(ti)是ti的LexRank值,S是摘要的集合,包含了已经选取的微博,tj是S中的微博,λ∈(0,1);
(7.3)根据上式在剩下的微博中全局地进行选取。
5.根据权利要求1所述基于动态摘要技术的微博流信息提取方法,其特征在于,所述步骤(8)中,利用JS divergence来衡量相邻时刻两个摘要的单词分布之间的距离:
其中,S1和S2分别代表较近时刻和前一时刻的摘要的单词分布;M是S1和S2的平均分布,DKL(S||M)则是KL divergence,定义了分布M到分布S的偏离,S代表S1或S2;DJS(S1,S2)为相邻时刻两个摘要的单词分布之间的距离:
其中,w是某个单词,V是摘要的词汇集合,p(w|S)即w在S中的词频,p(w|M)即w在M中的词频;
基于摘要内容的波动幅度,就可以判断某个时刻是否是话题内容发生演变的时刻,也就是时间轴上的一个节点;如果该时刻与前一时刻摘要的波动DJS大于之前的相邻时刻摘要之间的平均波动Davg的τ倍,则判定该时刻为一个话题演变节点,τ为大于1的数值;随着微博流的进行,持续地监控摘要内容波动的量化值,从而动态地产生出时间轴。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
监控视频摘要的方法 | 2020-05-13 | 796 |
一种自动文本摘要方法 | 2020-05-13 | 349 |
会议摘要 | 2020-05-11 | 938 |
摘要生成方法及装置 | 2020-05-13 | 930 |
摘要生成方法及装置 | 2020-05-11 | 33 |
视频摘要提取 | 2020-05-11 | 662 |
视频摘要提取 | 2020-05-11 | 343 |
摘要生成方法及装置 | 2020-05-12 | 623 |
图文摘要的评价方法 | 2020-05-13 | 875 |
一种摘要认证方法及摘要认证系统 | 2020-05-11 | 362 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。