专利汇可以提供一种基于话题模型的社会化视频主题提取系统的提取方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于话题模型的社会化视频主题提取系统及方法,涉及社会化视频主题 抽取 技术。提取系统包括用户评论采集模 块 ,原始评论 数据库 ,用户评论预处理模块,主题检测模块,主题数据库以及结果展示模块;首先用户评论采集模块爬取某段时间内待处理视频的用户评论数据;用户评论预处理模块对每一条用户评论数据进行预处理,主题检测模块对预处理结果采用主题提取 算法 进行计算,获得细粒度主题关键词集合;将细粒度主题关键词集合写入主题数据库进行存储;结果展示模块调用主题数据库中的细粒度主题关键词进行展示。本发明基于人物的弹幕 数据挖掘 ,填补了空白,从一定程度上缓解弹幕语义稀疏性的问题,展示的结果更好。,下面是一种基于话题模型的社会化视频主题提取系统的提取方法专利的具体信息内容。
1.一种基于话题模型的社会化视频主题提取系统的提取方法,其特征在于,所述提取系统包括:用户评论采集模块,原始评论数据库,用户评论预处理模块,主题检测模块,主题数据库以及结果展示模块;
用户评论采集模块从视频服务网站采集用户的原始评论数据,并存储到原始评论数据库中,用户评论预处理模块从原始评论数据库中提取原始评论数据进行预处理;并将处理后的评论数据,送入主题检测模块中,经主题检测算法获得与特定视频片段相关的细粒度主题关键词集合,并将结果写入主题数据库进行存储,供结果展示模块使用;
结果展示模块负责接受外部请求,并返回查询请求以及展示结果;
所述提取方法的步骤如下:
步骤一、针对用户选定的待处理视频,用户评论采集模块爬取某段时间内该视频的用户评论数据;
步骤二、用户评论预处理模块对每一条用户评论数据进行预处理,得到该条评论数据的预处理结果;
步骤三、主题检测模块对该待处理视频的预处理结果采用主题检测算法进行计算,获得细粒度主题关键词集合;
具体步骤如下:
步骤301、将每一条用户评论数据的预处理结果视为一个文档,该待处理视频该段时间内所有的预处理结果组成文档集合;
文档集合用D表示;
步骤302、针对每个文档,设定角色c,情感极性l和话题z三个标签并分别进行初始化;
步骤303、针对初始化标记后的文档,统计该段时间内所有文档中的四种弹幕条数数量;
四种弹幕统计量包括:关于角色c的弹幕条数数量 关于角色c和情感极性l的弹幕条数数量 表示关于角色c,情感极性l和话题z的弹幕条数数量 以及在整个弹幕文档集合构建的词袋模型词典中,用来统计关于角色c,情感极性l,话题z下词汇w的词频数量步骤304、基于概率图模型对文档集合进行建模,挖掘出隐含在弹幕中的与视频内容相关的主题信息;
该待处理视频所对应的每个用户评论数据中均包含了“角色”、“情感极性”、“话题”隐含变量;通过求后验分布,获得各个隐含变量的概率分布,构建的概率模型如下:
zd,ld,cd表示文档d所在弹幕的随机变量; 表示除去文档d所在弹幕的所有其余弹幕的随机变量;
其中,角色c通过多项分布抽样产生,c~Multionmial(ω);ω是C维向量,表示关于角色c的多项式分布;C表示该待处理视频中人物的个数;根据狄利克雷分布获得“角色”的概率分布:ω~Dirichlet(δ);δ是C维向量,表示角色c的先验信息;
在给定角色c的条件下,抽样生成该条评论的用户对角色c的情感极性l,即:l~Multionmial(πc,l);πc,l是C×L维矩阵,表示关于角色c的多项式分布;L表示该待处理视频中情感极性的个数;对于每一个角色c,根据狄利克雷分布获得其情感极性l的概率分布:πc~Dirichlet(γc);γc是L维向量,表示以角色c作为情感的先验信息;
在给定角色c,情感极性l的条件下,选取该条评论所对应的话题z,即:z~Multionmial(θc,l,k);θc,l,k是C×L×K维矩阵,表示关于角色c和情感极性l的多项式分布;K表示该待处理视频中话题的个数;对于每一个角色c和情感极性l,获得其话题z的概率分布:θc,l~Dirichlet(αc,l);αc,l是C×L维矩阵,表示以角色c和情感极性l作为话题的先验信息;
在给定角色c,情感极性l以及话题z的条件下,生成评论中的各个词汇w,即:
是C×L×K×V维矩阵,表示关于角色c,情感极性l和话题z的
单词的多项式分布;V表示该待处理视频中字典的长度;对于每一个角色c,情感极性l和话题z,获得词汇w的概率分布: βc,l,k,v是C×L×K×V维矩阵,表示以
角色c,情感极性l,话题z作为单词的先验信息;
Nd表示文档d中单词的数量;d∈D; 表示文档d中单词v的重复个数;
步骤305、将四种弹幕统计量 和 分别带入构建的概率模型中进
行迭代,得到每个文档真实的角色c,情感极性l和话题z;
步骤306、利用每个文档真实的角色c,情感极性l和话题z,再次统计该段时间内所有文档中真实的四种弹幕数量;
步骤307、将每个文档真实的四种弹幕数量值分别带入数学期望公式,求取多项式分布生成的概率值;
ωc为角色c的多项式分布,πc,l为角色c-情感极性l的多项式分布,θc,l,k为角色c-情感极性l-话题z的多项式分布; 为角色c-情感极性l-话题z-词汇w的多项式分布;
步骤308、取概率值最大的前N个单词作为角色c在真正的情感极性l下的真正话题所对应的细粒度主题关键词;
步骤四、将细粒度主题关键词集合写入主题数据库进行存储;
步骤五、结果展示模块调用主题数据库中的细粒度主题关键词进行展示。
2.如权利要求1所述的提取方法,其特征在于,步骤一中所述的每条评论数据即每条弹幕,包含视频标识,评论标识,评论时间,用户标识和评论内容。
3.如权利要求1所述的提取方法,其特征在于,步骤二中所述的预处理包括:对弹幕进行分词处理、去停用词处理,按照弹幕的出现时间对弹幕进行排序,以及过滤主题无关的噪声词汇。
4.如权利要求1所述的提取方法,其特征在于,所述的步骤302中,对角色c,情感极性l和话题z分别进行初始化,具体如下:
首先,预先设置人物角色词典和情感极性词典;情感极性包括积极的正极情感和消极的负极情感;
然后,针对每个文档,根据该文档中所包含的角色对角色标签c进行初始化:如果一条弹幕中出现了人物角色词典中的单词,则设定该弹幕的角色标签为c,否则,对没有出现在人物角色词典中的角色随机设定;
根据情感极性词典对情感极性标签l进行初始化:如果一条弹幕中出现了情感极性词典中的单词,则设定该弹幕的情感极性标签为所在情感极性词典下的标签l,否则,对没有出现在情感极性词典中的情感标签随机设定;
同时,对话题标签z做随机初始化。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种自然语言处理方法和装置 | 2020-05-12 | 309 |
文本的情感分析方法、装置、电子设备及可读存储介质 | 2020-05-12 | 974 |
一种微博文本分类系统 | 2020-05-13 | 722 |
一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 | 2020-05-14 | 942 |
句子的情感极性分析方法、装置及存储介质 | 2020-05-16 | 85 |
酒店评分方法、酒店推荐方法、电子装置和存储介质 | 2020-05-08 | 810 |
一种基于深度学习的物流智能客服系统的用户情感分析系统及方法 | 2020-05-08 | 795 |
针对虚拟人的性格训练系统及其方法 | 2020-05-08 | 806 |
一种基于社交媒体大数据的公司形象提升系统架构 | 2020-05-11 | 451 |
一种基于语义的大数据分析智能服务系统 | 2020-05-11 | 286 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。