首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 摘要 / 基于用户评论文本特征的自动摘要方法及其自动摘要系统

基于用户评论文本特征的自动摘要方法及其自动摘要系统

阅读:377发布:2020-05-14

专利汇可以提供基于用户评论文本特征的自动摘要方法及其自动摘要系统专利检索,专利查询,专利分析的服务。并且一种基于用户评论文本特征的自动 摘要 方法及其自动摘要系统,该方法包括以下步骤:爬取并解析用户评论网页,并对用户评论进行一系列预处理;从用户评论中识别出被用户评价的特征;将用户评论句按其评价的特征进行分类,并根据评论句分类的结果过滤特征;以及计算评论句的得分, 抽取 若干文摘句生成摘要。本 发明 能够从大量用户评论中准确地识别用户关注的特征,根据评论的特征进行评论句分类,然后使用基于句子抽取的文本摘要方法自动生成简洁、全面的摘要,从而帮助用户显著提高获取知识的效率和 质量 ;本发明应用于 电子 商务领域能够缩短用户挑选商品的时间,提高购物效率,改善购物体验。,下面是基于用户评论文本特征的自动摘要方法及其自动摘要系统专利的具体信息内容。

1.一种基于用户评论文本特征的自动摘要方法,其包括以下步骤:
步骤1,用户评论预处理:爬取并解析用户评论网页,得到用户评论,然后 对所述用户评论进行预处理,得到预处理后的用户评论;
步骤2,特征识别:通过分析所述预处理后的用户评论,从中识别出被用户 评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征;
步骤3,评论句分类:将所述预处理后的用户评论句按所述候选特征分类, 从而得到相应候选特征的评论句类;
步骤4,特征过滤:根据所述评论句类对所述候选特征进行过滤,从而得到 最终特征及其所对应的候选评论句类;
步骤5,摘要生成:计算所述候选评论句类中每个句子的得分,抽取若干 文摘句生成摘要。
2.根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特征 是:步骤1中,所述爬取并解析用户评论网页是指,针对选取的特定的事物爬 取该事物的所有用户评论网页,得到爬取的用户评论,然后解析所述爬取的用 户评论,获得用户评论文本。
3.根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特 征是:步骤1中,对所述用户评论进行预处理是指,标注所述用户评论中的所 有词语的词性,去除其中的停用词,并对剩余词语进行词干抽取,得到所述预 处理后的用户评论。
4.根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特 征是,步骤2中所述被用户评价的特征是指是用户在评价某件事物时着眼的某 个侧面、某个细节、某个属性或者某个组成部分。
5.根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特征 是,步骤2中所述使用统计方法识别出候选特征是指:提取所述被用户评价的特 征相应的用户评论句中的所有名词,计算单个名词出现的频率以及任意两个名 词共现的频率;选取出现频率最高的单个名词和共现频率最高的名词作为候选 特征。
6.根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特征 是:步骤4中所述的对候选特征进行过滤是指,根据组成特征的名词在评论句中 出现的相对位置,以及各个特征之间意义上的泛化与特化关系,过滤无意义和 冗余的候选特征。
7.根据权利要求1所述的基于用户评论文本特征的自动摘要方法,其特征 是:步骤5中所述计算所述候选评论句的得分是指根据所述候选评论句的长度、 位置和内容计算所述候选评论句的得分。
8.根据权利要求1或7所述的基于用户评论文本特征的自动摘要方法,其特 征是:步骤5进一步包括:采用统计方法计算出表现各个评论句类主题的关键词, 然后根据评论句内容与主题的契合度、评论句的长度以及评论句在整篇评论中 出现的位置,计算评论句的得分,然后抽取用户评论句类中得分最高的若干原 评论句组织生成摘要。
9.根据权利要求8所述的基于用户评论文本特征的自动摘要方法,其特征 是:所述采用统计方法计算出表现各个评论句类主题的关键词是指,在对评论 句分类的基础上,使用统计的方法找出每个类的关键词,构造作为表示该评论 句类主题的伪句子的质心,计算基于评论句与质心的相似度;所述评论句内容 与主题的契合度是指评论句与质心的相似度。
10.一种基于用户评论文本特征的自动摘要系统,其包括:
用户评论预处理模:其用于爬取并解析用户评论网页,得到用户评论, 然后对所述用户评论进行预处理,得到预处理后的用户评论;
特征识别模块:其通过分析所述预处理后的用户评论,从中识别出被用户 评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征;
评论句分类模块:其将所述预处理后的用户评论句按所述候选特征分类, 从而得到相应候选特征的评论句类;
特征过滤模块:其根据所述评论句分类对所述候选特征进行过滤,从而得 到最终特征及其所对应的候选评论句类;
摘要生成模块:计算所述候选评论句类中每个句子的得分,抽取若干文摘 句生成摘要,
其中,用户评论预处理模块将预处理结果发送到特征识别模块,得到识别 出的候选特征;将经过所述用户评论模块预处理后的用户评论文本和特征识别 模块识别出的候选特征送入评论句分类模块进行分类,得到评论句类;对所述 候选特征进行过滤得到最终特征及其对应的候选评论句类;摘要生成模块以所 述候选评论句类和所述最终特征作为输入进行统计分析并生成摘要。

说明书全文

技术领域

发明涉及一种针对用户评论的文本特征进行文本自动摘要的自动摘要方 法及其自动摘要系统,属于知识挖掘技术领域。

背景技术

基于文本特征的自动摘要技术是使用计算机技术自动地为电子文档生成 “一段较原文短小且涵盖了原文中重要信息的文本”。随着互联网的深入发展, 信息爆炸式增长使得文本自动摘要技术的应用越来越广泛。根据处理对象的不 同,文本摘要可分为单文档自动摘要和多文档自动摘要两类。
单文档自动摘要技术是为单一文档自动生成摘要的技术,主要采用基于句 子抽取的方法,即首先依据词频、句子的位置、句法结构、文档结构等因素计 算句子的得分,然后选取得分最高的若干句子作为文摘句,将所有文摘句按它 们在原文中的顺序组织成文摘。此外,单文档自动摘要还可以采用基于自然语 言理解的文摘生成方法,利用语言学知识分析文本的深层语言结构,并且利用 领域知识对语义进行判断、推理,得到文档的语义表示,然后根据文档的语义 表示生成摘要。相较而言,句子抽取的方法较简单,适用范围广;而基于自然 语言理解的文摘生成方法十分复杂,且依赖于领域知识库,具有严格领域受限 的特性。因此,目前主流的单文档自动摘要仍然采取基于句子抽取的方法。
多文档自动摘要是为同一主题下的多个文档自动生成摘要,需要考虑不同 文档内容上的冗余与冲突。多文档自动摘要主要有三类方法:(1)使用信息抽 取技术抽取各个文档中的重要信息,人工定制或半自动地生成摘要的模板,将 抽取的信息填入模板生成摘要;(2)首先使用单文档文摘技术为各个文档生成 摘要,然后过滤其中冗余和冲突的内容,将剩余内容组织生成摘要;(3)首先 对组成文档的所有句子进行分类或聚类,然后从各个集合中选取表现主题的句 子组织成文摘。采用第三种方法的一个典型工具是MEAD,具体参见Radev D R, Jing H,Stys M,et al.Centroid-based summarization of multiple documents. Information Processing and Management,2004,40:919-938。MEAD是一个基 于文档聚类和文档集合特征的多文档自动摘要系统,MEAD先对多文档中的句子 进行聚类,使用统计方法选取各个句子集合中词频最高的词和短语组成伪句子 作为集合的“质心”,然后计算集合中其他句子与质心的相似度作为句子的得分, 最后选取各个集合中得分最高的句子作为文摘句,将文摘句组织起来生成文档 摘要。
随着Web2.0的发展,互联网逐渐成为一个人们可以自由发表言论的平台, 网络上开始出现大量的包含丰富的主观见解的文本,如用户评论等。目前,文 本自动摘要的研究对象主要是科技文献和新闻等具有严谨的文档结构、语言 格相对统一、陈述客观事实的文本;而用户评论往往是针对事物特定方面表达 主观见解的文本,其具有结构灵活松散、语言风格多样化特点。考虑到用户评 论的以上特点,本发明采用了基于特征的分类方法,即首先分析大量评论,从 中识别出用户评论的所有特征,然后根据句子评价的特征对单个评论句进行分 类。目前情感分析领域提出了一些从用户评论中识别特征的方法,如频繁项集 挖掘方法,基于概率语言模型的方法,模式发现与模式匹配的方法,以及基于 启发式规则的监督学习方法等。
这些主观性本文数量巨大且分布比较分散,所以要获得其中包含的丰富的 知识往往要花费大量的时间和精。本发明主要采用第三类方法为用户评论生 成摘要,提出一种特征识别与过滤算法,通过对比实验说明特征识别的查准率 和F1值都有较大的提高。

发明内容

为了克服现有技术结构的不足,本发明提供一种基于用户评论文本特征的 自动摘要方法及其自动摘要系统,其能够自动为大量的用户评论生成简洁、全面 的摘要,以帮助人们更快更好地从用户评论中获取知识。本发明特征识别的查 准率和F1值都有较显著的提高。本发明解决其技术问题所采用的技术方案是:
一种基于用户评论文本特征的自动摘要方法,其包括以下步骤:
步骤1,用户评论预处理:爬取并解析用户评论网页,得到用户评论,然后 对所述用户评论进行预处理,得到预处理后的用户评论;
步骤2,特征识别:通过分析所述预处理后的用户评论,从中识别出被用户 评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征;
步骤3,评论句分类:将所述预处理后的用户评论句按所述候选特征分类, 从而得到相应候选特征的评论句类;
步骤4,特征过滤:根据所述评论句类对候选特征进行过滤,从而得到最终 特征及其所对应的候选评论句类;
步骤5,摘要生成:计算所述候选评论句类中每个句子的得分,抽取若干 文摘句生成摘要。
上述步骤1中进一步包括,所述爬取并解析用户评论网页是指,针对选取 的特定的事物爬取该事物的所有用户评论网页,得到爬取的用户评论,然后解 析所述爬取的用户评论,获得用户评论文本。
上述步骤1中,对所述用户评论进行预处理是指,标注用户评论中的所所 有词语的词性,去除其中的停用词,并对剩余词语进行词干抽取,得到预处理 后的用户评论文本。
上述步骤2中,所述被用户评价的特征是指是用户在评价某件事物时着眼 的某个侧面、某个细节、某个属性或者某个组成部分。
上述步骤2中,所述使用统计方法识别出候选特征是指:提取所述被用户 评价的特征相应的用户评论句中的所有名词,计算单个名词出现的频率以及任 意两个名词共现的频率;选取出现频率最高的单个名词和共现频率最高的名词 作为候选特征。
上述步骤4中所述的对候选特征进行过滤是指,根据组成特征的名词在评 论句中出现的相对位置,以及各个特征之间意义上的泛化与特化关系,过滤无 意义和冗余的候选特征。
上述步骤5中进一步包括:采用统计方法计算出表现各个评论句类主题的关 键词,然后根据评论句内容与主题的契合度、评论句的长度以及评论句在整篇 评论中出现的位置,计算评论句的得分,然后抽取用户评论句类中得分最高的 若干原评论句组织生成摘要。
一种基于用户评论文本特征的自动摘要方法,进一步包括所述采用统计方 法计算出表现各个评论句类主题的关键词是指,在对评论句分类的基础上,使 用统计的方法找出每个类的关键词,构造表示该评论句类主题的伪句子一质心, 计算基于评论句与质心的相似度;所述评论句内容与主题的契合度是指评论句 与质心的相似度。
一种基于用户评论文本特征的自动摘要系统,其包括:
用户评论预处理模:其用于爬取并解析用户评论,然后对所述用户评论 进行预处理;
特征识别模块:其通过分析所述预处理后的用户评论,从用户评论中识别 出被用户评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出 候选特征。
评论句分类模块:其将用户评论句按所述候选特征分类,从而得到相应候 选特征的评论句类;
特征过滤模块:其根据评论句分类的结果对候选特征进行进一步过滤,从 而得到感兴趣的候选特征作为最终特征,以及得到所对应的候选评论句类;
摘要生成模块:其用来计算所述候选评论句类的得分,抽取若干文摘句生 成摘要。
其中,用户评论预处理模块将预处理结果发送到特征识别模块,得到识别 出的候选特征,将经过所述用户评论模块预处理后的用户评论文本和特征识别 模块识别出的候选特征送入评论句分类模块进行分类,得到评论句类;对所述 候选特征进行过滤得到最终特征及其对应的候选评论句类;摘要生成模块以所 述候选评论句类和所述最终特征作为输入进行统计分析并生成摘要。
本发明的有益效果:
本发明提出了一种基于用户评论文本的自动摘要方法,第一次将文本自动 摘要技术应用于包含丰富主观信息的用户评论,并且针对用户评论的特点提出 了基于特征的分类方法。
本发明方法能够生成简洁、全面的用户评论摘要,大大缩短用户阅读评论 获取有用信息的时间,提高知识利用率;基于特征的本方法是切合用户评论自 身特点的,本发明提出的特征识别与特征过滤算法的查准率可达81%以上,查全 率可达52%,查准率和F1值较选取的对比算法都有较大的提高。在网络时代信息 爆炸式增长的背景下,根据本发明的用户评论自动摘要方法具有重大的意义, 可以广泛应用于电子商务等诸多领域,能够显著提高从海量信息中获取知识的 质量和效率。
附图说明
图1为根据本发明的基于用户评论文本特征的自动摘要方法的总流程图
图2为根据本发明方法的评论句分类的流程图;
图3为根据本发明方法的摘要生成的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述:
实施例1:
以下结合一个在电子商务中为用户评论生成摘要的例子,详细描述本发明 的具体实施方式。
电子商务是互联网上重要的Web应用,电子商务网站往往允许用户对商品 发表评论,这些包含着用户对商品购买和使用的主观性体验的评论,常常可以 作为其他用户挑选商家和商品的参考,也可以作为商家改进服务的依据。大型 网站上的热商品往往包含成百上千条用户评论,阅读十分耗时。本发明可以 为大量用户评论自动生成简洁、全面的摘要,大大提高知识获取的效率。
如图1所示,基于特征的用户评论自动摘要方法主要包括以下几个步骤:
步骤1用户评论预处理:爬取并解析用户评论,然后对所述用户评论进行 预处理。
为电子商务中商品的用户评论生成摘要,首先需要从电子商务网站上爬取 针对该商品的所有用户评论网页。在本实施例中,从www.amazon.com上爬取针 对商品Apple iPod touch的所有用户评论网页,解析网页得到939条用户评论。
在开始自动摘要之前,需要对用户评论进行一系列预处理。使用Stanford Part-of-Speech Tagger对用户评论进行词性标注,Stanford Part-of-Speech Tagger是一个使用最大熵模型的词性标注器,准确率可达96.86%。此外,删除 用户评论中的删除停用词,使用Porter Stemmer为剩余的词语抽取词干。处理 后的评论句采用向量空间模型表示和存储。
步骤2特征识别:通过分析大量用户评论,从用户评论中识别出被用户评价 的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征。
如前所述,事物的特征是用户在评价某件事物时着眼的某个侧面、某个细 节或者某个属性、某个组成部分。在电子商务领域中,用户着眼的往往是商品 本身的属性或组成部分,或者购物过程中的某个侧面或细节,这些被统称为特 征。这些特征往往是名词或者两个名词组成的词组;因为不同用户采用相同的 词语表示特征,而往往用不同的词语表达他们的购物和用户体验,所以表示特 征的词语出现的频率较其他词语更高。基于此,本发明采用一种基于频繁项集 挖掘的统计方法进行特征识别,能够自适应地识别各种商品的特征。
频繁项集挖掘的问题描述是:D=是一个含N个项集的集合,其 中i=1,2,...,N是一个Ni项集,tj,j=1,2,...,ni是一个项。给定一个参数 最小支持度minsupport,频繁项集挖掘是为了找出所有满足以下条件的项集S: D中至少存在N*minsupport个项集Sk,使得
Apriori算法是频繁项集挖掘的经典算法之一。它采用宽度优先搜索策略, 利用Apriori性质,即满足最小支持度要求的m项集一定是所有满足要求的n 项集的并集的子集(m>n),有效地缩小了搜索空间。
与Apriori算法不同,本文的特征算法仅识别单字和双字特征,即1-项集 和2-项集,尤其特别为两者指定了不同的最小支持度minsupport1和 minsupport2。之所以如此,是因为组成双字特征两个词语共现的频率要远低于 单字特征出现的频率。若两者采用同样的最小支持度,则参数太大会导致无法 有效识别双字特征,参数太小会导致识别大量错误的单字特征。该算法步骤如 下:
1)抽取用户评论中所有名词生成事务文件,文件每行为一个评论句中出现 的名词;
2)遍历事务文件,统计每个名词的支持度;事务文件的总行数,即评论句 总数为N;
3)选取支持度不小于minsupport1的名词为单字特征;
4)以所有支持度不小于minsupport2的名词作为双字特征候选集;
5)遍历事务文件,统计任意两个名词所组成的词组的支持度,选取支持度 不小于minsupport2的词组作为双字特征。
如算法步骤4)所示,选取支持度不小于minsupport2的名词而不是所有名 词作为双字特征候选集,是利用Apriori性质以缩小搜索空间。算法中的两个 参数minsupport1和minsupport2通过一些列实验学习得到,其中单字特征支 持度minsupport1为0.012,双字特征支持度minsupport2为0.005。
步骤3评论句分类:将用户评论句按所述候选特征分类,从而得到相应候 选特征的评论句类。
识别出商品的所有被评价的特征后,依次分析每一个评论句评价的特征, 将评论句分到该特征对应的评论句类中。于是得到一系列评论句类,其中每一 个类对应一个特征,包含评价该特征的所有评论句。
步骤4特征过滤:根据评论句分类的结果对候选特征进行过滤,从而得到 感兴趣的候选特征及其所对应的候选评论句。
完成评论句分类后,需要根据分类的结果,考虑组成双字特征的两个词语 在评论句中出现的位置以及出现的次数,过滤无意义的双字特征;然后根据候 选单字特征在概念上与双字特征的包含关系过滤冗余的单字特征。
对于双字特征过滤,观察到组成双字特征的两个词语在评论句中的出现往 往距离较近,而且保持一致的相对顺序。为此定义了有效的双字特征的概念。
定义1一个有效的双字特征f=应满足以下条件:
(1)f=在评论句s中共现,w1和w2保持w1在前w2在后的相对顺序, 且两者出现位置的距离小于给定阈值windowsize;
(2)更新双字特征的支持度为满足条件(1)的评论句的数目,双字特征 的支持度必须大于给定阈值minsupp。
若双字特征f=的支持度小于给定阈值,则该双字特征是无意义的。
对于单字特征过滤,定义了单字特征的纯支持度(pure support)的概念。
定义2已知所有双字特征f1,f2,...,一个单字特征w的纯支持度,是指w 出现且f1,f2,...,不出现的评论句的总数。
有效的单字特征是指纯支持度不小于给定阈值minpsupp的单字特征,纯支 持度小于minpsupp的单字特征是冗余的。
例如,battery life和life为算法1识别出的特征,battery life的支 持度为20,life的支持度为30,则life的纯支持度为30-20=10。若给定 minpsupp=20,则life是冗余的单字特征。
评论句分类与特征过滤算法的具体描述如下:
输入:经过预处理的用户评论,以及算法1识别出的候选特征
输出:经过过滤的特征,以及各个特征对应的评论句类
过程:Classifier(windowsize,minsupp,minpsupp)

2while读入一个评论句si
3for si中的每一个词语wj
4if wj是算法1识别出的一个单字特征then
5offj=wj在si中出现的位置
6nouns=nouns∪(wj,offj)
7将评论句si分到单字特征wj对应的评论句类cj
8for nouns中的每一对名词(wj,offj),(wk,offk)
9if是双字特征&&offk-offj<windowsize then
10将si分到双字特征对应的评论句类cjk
11else if是双字特征&&offj-offk<windowsize then
12将si分到双字特征对应的评论句类ckj
13for每一个双字特征
14根据定义1更新的支持度suppjk
15if suppjk<minsupp then
16删除双字特征
17for在双字特征中出现的每一个名词wj
18根据定义1计算wj的纯支持度psuppj
19if psuppj<minpsupp then
20删除早字特征wj
算法2第1-12行成评论句分类,如图2所示,给定一个评论句,算法先判 断其中出现的每一个名词是否是单字特征,然后判断每两个单字特征组成的名 词对是否是双字特征,然后将该评论句分到相应的单字特征或双字特征对应的 评论句类。具体评论句分类过程如下:
(1)读入一个评论句s,记录其中出现的名词w1,w2,...,wt,判断wi(i=1,…t)是 单字特征?如果不是,继续处理s中下一个名词wi+1直到处理完s中出现的所有 名词;(2)如果wi是单字特征,则将s分到wi对应的类ci,将wi加入nouns;对 nouns中的每一对名词,判断是双字特征?如果是,那么将s分 到对应的类cjk;否则,继续回到(1)继续处理s中下一个名词。
算法2第13-16行根据定义1进行双字特征过滤,第17-20行根据定义2 完成单字特征过滤。三个参数windowsize,minsupp和minpsupp分别表示组成 双字特征的两个名词在评论句中出现位置间的最大距离,双字特征的最小支持 度,和单字特征的最小纯支持度。经过系列实验学习,windowsize取值为2, minsupp和minpsupp的取值分别与minsupport2和minsupport1相同,为0.005 和0.012。
步骤5摘要生成:计算所述候选评论句的得分,抽取若干文摘句生成摘要。
在评论句分类的基础上,本发明使用句子抽取的方法生成摘要。图3为摘 要生成的流程图。如图3所示,对于每一个评论句类,先计算组成评论句词语 的权重,抽取若干权重最高的关键词组成表示该评论句类主题的质心向量;然 后基于评论句与质心的相似度、评论句长度以及句子在整篇评论中的位置计算 评论句的得分,按照压缩率抽取得分最高的若干评论句作为该分类的文摘句; 最后按照一定顺序排列各个评论句类的文摘句生成摘要。
d=为某种产品某个特征的评论句分类,N是d中评论句的数目。 i=1,2,...,N是评论句si的向量模型表示,n是整个评论句分类中 出现的词语的总数,wij中i是评论句的标识符,而j是词语的全局标识符。 i=1,2,...,N,j=1,2,...,n是词语wj的权值。特别地,当wj没有在si中 出现时
评论句分类d的质心是一个能反映该分类的主题的伪句子,同样采用向量 模型表示,其中为关键词wk的权重,计算方法为: v w k = v w k * Σ j = 1 n v w j * 2 , j=1,2,...,n  ,而 v w k * = tf w k * idf w k , tf w k = Σ i = 1 N tf w k , s i ,
对于每个评论句,计算以下三种得分:
(1)基于质心的得分如下:
scor e c ( s i ) = Σ k = 1 n ( v w ik * w k ) , 0 score c ( s i ) 1
即表示评论句的向量与质心向量的余弦相似度。因为质心是表示文档集合 主题的伪句子,与质心越相似的评论句越能反映文档集合的主题,故而得分越 高。
(2)基于评论句长度的得分如下:

长度越短的句子得分越高,可以使相同长度的摘要包含更多的句子,从而 包含更加丰富的信息。
(3)基于段落首句的得分如下:

根据Baxendale的研究,句子在文档中的位置对句子重要性的影响重大, 段落首句是该段落中心句的概率为85%。因此,段落首句得分为1。
对于一个评论句si,其初始得分为基于质心和基于长度的得分的线性和,即
score0(si)=α*scorec(si)+β*scorel(si)+γ*scoref(si)
其中α为基于质心得分的权值,β是基于评论句长度的得分的权值,γ是基 于段落首句的得分的权值,0<α,β,γ<1且α+β+γ=1。通过一系列实验考量生成 摘要的质量和实际的应用需求,选取α=0.5,β=0.3,γ=0.2。
得到评论句的初始得分后,依次从各分类中抽取得分最高的句子加入摘要; 若摘要长度未达到压缩率的限制,则在每次迭代后重新计算各分类中剩余评论 句的得分,然后抽取得分最高的句子加入摘要,直到摘要长度达到限制时迭代 结束。第(k+1)次迭代时,评论句si的得分计算方法为:
score k + 1 ( s i ) = score k ( s i ) - 1 N score k ( s k * )
其中sk*是第k次迭代后选取的得分最高的评论句。每次迭代后重新计算句子 得分的目的是为了为与已选取的句子内容不相似的句子赋予更高的得分,以降 低所生成的摘要的冗余度
最终生成摘要时需要考虑从各个评论句类中选取的文摘句之间的相对顺 序。这里先将特征按支持度的降序排列,依次各个特征对应的评论句类中选取 一个文摘句加入摘要。
性能评测
基于特征的用户评论自动摘要方法首先需要分析用户评论识别出被评价的 特征,然后将所有评论句按照所评价的特征进行分类,使用句子抽取的方法从 各个评论句类中抽取文摘生成摘要。因此,特征识别的质量对于生成摘要的质 量至关重要。
评测特征识别的质量的指标主要有以下三个:
查全率(Recall)
查准率(Precision)
F1值(F1-measure)
在用户评论摘要的应用中,有些特征往往只被很少的用户评价,而在摘要 篇幅受限的情况下应该优先考虑被用户普遍关注的特征,所以特征识别的查准 率比查全率更重要。
实验选定的对比算法是Hu&Liu在情感分析系统FBS研究中采用的Apriori 算法(Hu Minqing,Liu Bing.Mining and Summarizing Customer Reviews. SIGKDD,2004,168-177)。实验数据是从电子商务网站amazon、cnet、和epinions 上收集的5种商品的英文用户评论,包括2款移动电话、1款笔记本电脑、1款 MP3播放器和1款数码相机,每种商品有数百条用户评论。
首先选取一个标注者阅读所有用户评论,人工标注出其中的特征,表1第2 列为各种商品人工标注的特征数。然后比较算法识别的特征与人工标注特征, 第3列和第7列分别为算法识别出的特征数;统计算法识别正确的特征数,计 算查准率、查全率和F1值。实验结果表明,本发明采用的特征识别与过滤算法 的查全率为51.9%,查准率为81.0%,而F1值为62.7%,相较于对比算法查准率 提高了24%,F1值提高了6%。
表1特征识别的质量评测

在准确的特征识别的前提下,给定压缩率(实验中取1%),基于特征的用户 评论自动摘要方法能够生成覆盖所有被识别出的特征(查全率为51.9%)的摘要, 而且能够大大缩短阅读时间(1%),从而显著提高用户从海量用户评论中获取有 用信息的效率,这在信息爆炸式增长的网络时代具有重大的实践意义和应用前 景。
以上仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此, 本发明方法同样适用于电子产品、电子书籍、手机和提高用户关联度的扩大销 售领域。此外,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
相关专利内容
标题 发布/更新时间 阅读量
摘要提取方法以及摘要提取模块 2020-05-11 722
视频摘要提取 2020-05-11 343
处理消息摘要指令 2020-05-12 661
摘要评估装置和方法 2020-05-13 211
一种自动文本摘要方法 2020-05-13 461
摘要生成装置和摘要生成方法 2020-05-11 369
摘要生成方法及装置 2020-05-11 299
摘要数据自动填充 2020-05-12 833
影像摘要装置 2020-05-11 727
多功能摘要书籍 2020-05-11 632
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈