首页 / 专利库 / 人工智能 / 词性标注 / 一种问答对的质量评价方法和系统

一种问答对的质量评价方法和系统

阅读:597发布:2021-08-28

专利汇可以提供一种问答对的质量评价方法和系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种问答对的 质量 评价方法,包括:对输入的问答对按照问题内容进行聚类,得到由语义相同或相近的问题及其答复所组成的簇;对簇进行问答对间的质量评价和问答对内的质量评价,并分别得到问答对间的质量评价结果和问答对内的质量评价结果;对问答对间的质量评价结果和问答对内的质量评价结果进行融合,输出高质量的问答对。本发明还提供了一种问答对的质量评价系统,以实现更有效的问答对质量评价,提高质量评价的通用性。,下面是一种问答对的质量评价方法和系统专利的具体信息内容。

1、一种问答对的质量评价方法,其特征在于,该方法包括:
对输入的问答对按照问题内容进行聚类,得到由语义相同或相近的问题及 其答复所组成的簇;
对所述簇进行问答对间的质量评价和问答对内的质量评价,并分别得到问 答对间的质量评价结果和问答对内的质量评价结果;
对所述问答对间的质量评价结果和问答对内的质量评价结果进行融合,输 出高质量的问答对。
2、根据权利要求1所述问答对的质量评价方法,其特征在于,所述聚类包 括:k-means聚类和单遍聚类。
3、根据权利要求2所述问答对的质量评价方法,其特征在于,所述单遍聚 类具体为:
将后输入的问题与当前存在的类一一进行相似度计算,如果所述问题与其 中一个类的相似度超出预设的相似度阈值,则将所述问题与对应的类进行合并; 如果所述问题与当前存在的所有类的相似度都低于预设的相似度阈值,则为所 述问题创建一个新的类。
4、根据权利要求1所述问答对的质量评价方法,其特征在于,所述问答对 间的质量评价,具体为:
对所述簇内的每个答复进行分词、词性标注和去除停用词处理;
统计每个词出现的文档频率,并将文档频率大于频率阈值的词作为簇内所 有答复的主题中心;
通过通用余弦距离函数计算每个答复与主题中心的距离,并按照距离的权 值大小对各个答复进行排序;
根据基于句子级的相似度计算,消除排序后的答复中的相似关系和包含关 系,得到所述问答对间的质量评价结果。
5、根据权利要求1所述问答对的质量评价方法,其特征在于,所述问答对 内的质量评价包括:问题和答复质量的评价、问题和答复的匹配度计算、以及 单个问答对质量的评价。
6、根据权利要求5所述问答对的质量评价方法,其特征在于,所述问题和 答复质量的评价内容包括以下内容中的至少一种:问题格式化信息、答复的长 度、答复中视觉特征信息、问题正反例词典特征、答复正反例词典特征和问答 对形成过程中的非文本特征。
7、根据权利要求5所述问答对的质量评价方法,其特征在于,该方法进一 步包括:通过基于主题聚类的方式获得所述问题和答复的匹配度。
8、根据权利要求5所述问答对内的质量评价方法,其特征在于,所述单个 问答对质量的评价,具体为:
通过最大熵统计模型对以下特征进行融合,得到各个问答对的质量评价分 值:
问题格式化信息、答复的长度、答复中视觉特征信息、问题正反例词典特 征、答复正反例词典特征、问答对形成过程中的非文本特征、问题和答复的匹 配度。
9、一种问答对的质量评价系统,其特征在于,该系统包括:
聚类模,用于对输入的问答对按照问题内容进行聚类,得到由语义相同 或相近的问题及其答复所组成的簇;
第一质量评价模块,用于对所述簇进行问答对间的质量评价,得到问答对 间的质量评价结果;
第二质量评价模块,用于对所述簇进行问答对内的质量评价,得到问答对 内的质量评价结果;
融合模块,用于对所述问答对间的质量评价结果和问答对内的质量评价结 果进行融合,输出高质量的问答对。

说明书全文

技术领域

发明涉及互联网信息处理技术,尤其涉及一种问答对的质量评价方法和 系统。

背景技术

随着互联网的发展,信息越来越丰富,如何从海量的信息中获取有用的知 识是目前急需解决的问题。为了能够提供更好的知识服务,多个知识问答互动 平台陆续发展起来。在这些知识问答互动平台上,用户既是内容的消费者,也 是内容的创造者;用户可以通过知识问答互动平台寻求娱乐的帮助、进行社会 交往,也可以提问和回答问题、并对问题的答案进行评价。典型的问答产生流 程是:用户在知识问答互动平台上提出问题,其他用户参与回答,提问的用户 对不同用户的答复确认一个满意答案。
随着问题数的增多,语义重复的问题数也越来越多,大多用户在提问的时 候,并没有关心系统里面是否存在相同的问题和答案。因此,在目前的问答互 动平台上,存在着很多重复的问答对。虽然对于已经解决的问题来说,都经过 了提问者确认这一步骤,但是不同提问者的确认标准不一样,有些提问者仅仅 是感谢回答者提供答案而给出很高的评价,并不在乎答复的质量。因此,在这 些存在重复问题和答案的知识问答互动平台上,区分高质量的问答对和低质量 的问答对显得非常必要。
现有技术中存在一种采用决策树框架来融合多种特征对问答对进行分类的 方法。用到的特征包括:基于文本内容特征和基于用法特征。文本内容特征如 词的N元组(N-grams)、词的长度、基于字符的三元文法(Trigram)语言模型 熵值、答复中不同的词数、频率大于阈值的词数目等等。用法特征主要包括: 用户对于问答对的赞成和反对数目、回答者的级别、提问者的级别等等。该方 法针对不同特征所起的作用进行研究,并将其融入决策树框架下实现对高质量 问答对和中低质量问答对的区分。
然而,该方法并没有考虑问题和答复之间的语义匹配度,而问题和答复之 间的语义匹配度则是高质量问答对的基础;该方法没有考虑许多重复问答对之 间的关系对于问答对质量的影响;另外,通常问答对的数据缺少产生过程中的 用法特征,而该方法更多的依赖用法特征,会影响其通用性。由此可以看出, 现有技术在对问答对进行质量评价时,其效果并不理想,且存在通用性差的问 题。

发明内容

有鉴于此,本发明的主要目的在于提供一种问答对的质量评价方法和系统, 以实现对问答对更有效的质量评价,提高通用性。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种问答对的质量评价方法,该方法包括:
对输入的问答对按照问题内容进行聚类,得到由语义相同或相近的问题及 其答复所组成的簇;
对所述簇进行问答对间的质量评价和问答对内的质量评价,并分别得到问 答对间的质量评价结果和问答对内的质量评价结果;
对所述问答对间的质量评价结果和问答对内的质量评价结果进行融合,输 出高质量的问答对。
所述聚类包括:k-means聚类和单遍聚类。
所述单遍聚类具体为:
将后输入的问题与当前存在的类一一进行相似度计算,如果所述问题与其 中一个类的相似度超出预设的相似度阈值,则将所述问题与对应的类进行合并; 如果所述问题与当前存在的所有类的相似度都低于预设的相似度阈值,则为所 述问题创建一个新的类。
述问答对间的质量评价,具体为:
对所述簇内的每个答复进行分词、词性标注和去除停用词处理;
统计每个词出现的文档频率,并将文档频率大于频率阈值的词作为簇内所 有答复的主题中心;
通过通用余弦距离函数计算每个答复与主题中心的距离,并按照距离的权 值大小对各个答复进行排序;
根据基于句子级的相似度计算,消除排序后的答复中的相似关系和包含关 系,得到所述问答对间的质量评价结果。
所述问答对内的质量评价包括:问题和答复质量的评价、问题和答复的匹 配度计算、以及单个问答对质量的评价。
所述问题和答复质量的评价内容包括以下内容中的至少一种:问题格式化 信息、答复的长度、答复中视觉特征信息、问题正反例词典特征、答复正反例 词典特征和问答对形成过程中的非文本特征。
该方法进一步包括:通过基于主题聚类的方式获得所述问题和答复的匹配 度。
所述单个问答对质量的评价,具体为:
通过最大熵统计模型对以下特征进行融合,得到各个问答对的质量评价分 值:
问题格式化信息、答复的长度、答复中视觉特征信息、问题正反例词典特 征、答复正反例词典特征、问答对形成过程中的非文本特征、问题和答复的匹 配度。
本发明还提供了一种问答对的质量评价系统,该系统包括:
聚类模,用于对输入的问答对按照问题内容进行聚类,得到由语义相同 或相近的问题及其答复所组成的簇;
第一质量评价模块,用于对所述簇进行问答对间的质量评价,得到问答对 间的质量评价结果;
第二质量评价模块,用于对所述簇进行问答对内的质量评价,得到问答对 内的质量评价结果;
融合模块,用于对所述问答对间的质量评价结果和问答对内的质量评价结 果进行融合,输出高质量的问答对。
本发明所提供的一种问答对的质量评价方法和系统,通过对输入的问答对 按照问题内容进行聚类,得到由语义相同或相近的问题及其答复所组成的簇; 然后对簇进行问答对间的质量评价和问答对内的质量评价,并分别得到问答对 间的质量评价结果和问答对内的质量评价结果;再对问答对间的质量评价结果 和问答对内的质量评价结果进行融合,进而输出高质量的问答对。本发明实现 了对问答对更有效的质量评价,且通用性较高。
通过本发明可以将高质量的问答对从中低质量的问答对中分离出来,形成 高质量的知识库;作为搜索引擎的数据源,可以将高质量的数据作为搜索引擎 索引的一部分,直接将其置于搜索结果的靠前位置;作为自动问答的知识库, 可以将挑选出来的高质量数据直接作为自动问答的知识源,为用户提供答案。 另外,本发明不仅可以处理知识问答数据,也可以对博客、论坛、电子公告板 (BBS,Bulletin Board System)、常见问题解答(FAQ,Frequently Asked Questions)问答数据等用户产生的数据进行处理;经过评价后的高质量数据可 以直接用来建立百科知识。
附图说明
图1为本发明一种问答对的质量评价方法的流程图
图2为本发明实施例中对质量评价结果进行融合的示意图;
图3为本发明一种问答对的质量评价系统的组成结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
本发明所提供的一种问答对的质量评价方法,如图1所示,主要包括以下 步骤:
步骤101,对输入的问答对按照问题内容进行聚类,得到由语义相同或相 近的问题及其答复所组成的簇。
在实际应用中,由于同一个问题存在不同的表达方式,因此通过问题聚类 的操作,可以将语义相同或相近的问题聚为一类,而这些语义相同或相近的问 题及对应的答复则组成了多个问题对应多个答案的簇。本发明可以采用诸如 k-means聚类和单遍聚类等聚类算法实现问题聚类,但是本发明的聚类算法并 非仅限于上述所举,还可以根据实际需要进行扩展。下面以单遍聚类为例进行 说明,单遍聚类的原则是:后输入的问题与当前存在的类一一进行相似度计算, 如果与某个类的相似度超出预设的相似度阈值,则将该问题与对应的类进行合 并;如果与当前存在的所有类的相似度都低于预设的相似度阈值,则为该问题 创建一个新的类。为了提高聚类操作处理大规模数据的能,本发明可以采用 问题中的主题词作为各个类的索引。
具体的单遍聚类操作为:
步骤A,对后输入的问题进行分析,包括对问题的句子进行分词、词性标 注和去除停用词等操作。
步骤B,对分析后得到的词进行归一化处理。
建立同义词词典,并根据同义词词典将所有的同义词采用同一个词来表示。 例如:将所有的全称替换为简称,将易错的词用正确的词来表示。同义词词典 是通过人工编辑整理获得,其中包括等价词汇,如:电脑=计算机,阿爸=父亲 =慈父=爸爸,多大=几岁;也包括简全称,如:奥林匹克运动会(全称)=奥运 会(简称);还包括错误矫正的词汇,如:财付通=财富通,电亮=点亮等等。
步骤C,从经过归一化处理的问题中提取出按照权值排序的主题词。
主题词的提取过程具体为:从统计语料中查找该问题的每个词所出现的词 频tf和文档频率df,并采用公式λlog(tf)log(1/df)为每个词赋上权值;按照权值从 大到小的顺序对问题中的所有词进行排序,并根据权值排序提取靠前的若干个 词作为主题词(例如前3个词)。其中,λ是针对不同词性设置的不同参数值, 通常名词、形容词、动词、副词的λ值依次降低;所谓词频,是指统计语料中 所统计的每个词出现的频率;所谓文档频率,是指统计语料中所统计的包含各 个词的文档的出现频率。
步骤D,根据从问题中提取的主题词,计算该问题与当前存在的各个类的 相似度,如果该问题与某个类的相似度超出预设的相似度阈值,则将该问题与 对应的类进行合并;如果与当前存在的所有类的相似度都低于预设的相似度阈 值,则为该问题产生一个新的类,并将该问题的主题词作为新类的索引。
由于已经对问题中的词语进行了归一化处理,因此计算问题与各个类的相 似度就是比较两者存在相同词的数目。相似度的值定义为 其中,k表示相同词的数目,tfk表示第k个相同词的词频,dfk表示第k个相同词 的文档频率,λk表示第k个相同词对应的参数值。
经过问题聚类后,即将语义相同或相近的问题聚成一类,而这些语义相同 或相近的问题及对应的答复则组成了多个问题对应多个答案的簇。
步骤102,对簇进行问答对间的质量评价和问答对内的质量评价,并分别 得到问答对间的质量评价结果和问答对内的质量评价结果。
对簇内的不同答复进行分析,根据各答复之间的相互关系判断问答对质量 是问答间质量评价所要解决的问题。本发明对各个簇内答复对之间的质量评价, 采用一种基于主题中心的质量评价方法,具体包括:
步骤a,将簇内的每个答复当作一个文档,进行分词、词性标注和去除停 用词等处理。
步骤b,统计每个词出现的文档频率,并将文档频率大于频率阈值的词作 为簇内所有答复的主题中心。
频率阈值可以根据实际需要进行设定,例如:设定频率阈值为1,则将文 档频率大于1的所有名词、动词、形容词、副词等作为整个答复的主题中心。 簇内的每个答复当作一个文档,所谓文档频率大于1即是指该词在簇内的至少 两个答复中出现过。
步骤c,通过通用余弦距离函数计算每个答复与主题中心的距离,并按照 距离的权值大小对所有答案进行排序。
设答复的主题中心的特征词集合为:O={w1,w2,...,wn},当前答复A 的词汇集合为:A={c1,c2,...,cm},则答复A和主题中心的余弦向量为: cos ( A , Q ) = Σ i A O W o , i W a , i Σ x O ( W o , x ) 2 Σ y A ( W a , y ) 2 . 其中,Wo,x表示词x在主题中心O中的权重,且 Wo,x=tfL,xlog(tfx)log(1/dfx),tfL,x表示在该簇内的答复中统计的词x出现的局部频率, Wa,y表示词y在答复A中的权重Wa,y=log(tfy)log(1/dfy)。另外,每个词的词频tfk和 文档频率dfx是从整个语料中统计获得。
计算得到每个答复与主题中心的余弦距离后,按照距离的权值从大到小的 顺序对所有答复进行排序,权值越大,表明该答复与主题中心越相近。
步骤d,消除排序后的答复集合中的相似关系和包含关系。
对排序后的答复集合进行分析,判断答复集合中是否存在相同或相似的答 复,即相似关系;或者存在某个答复是另一个答复的子集的情况,即包含关系。 如果两个答复相同或者相似,则这两个答复在排序中的权值也基本相同;如果 其中一个答复是另一个答复的子集,则超集在排序中的权值大于子集在排序中 的权值。
当答复集合中存在相似关系时,即存在相同或相似的答复,则只需要保留 排序中权值最大答复的即可,而其余的都是冗余信息,可以去除;当答复集合 中存在包含关系时,即其中一个答复是另一个答复的子集,则只需保留超集的 答复。
为了识别答复集合中的相似关系和包含关系,本发明采用基于句子级的相 似度计算方法来实现,具体为:
步骤01、对各个答复进行分句。分句的规则是:根据“。!?”等标点符 号来进行识别,且句子的长度在50个字左右。
步骤02、利用哈希算法将每个句子的文本转化为一个4字节的指纹信息。 这样一个答复集合中则包含一系列4字节的指纹信息组合A={s1,s2,...,sn}, 将si看作是一个词,从而可以建立一个文档倒排表,共享同一个指纹信息si的 所有文本就形成一个类别。然后对类别中的文本两两计算指纹重复程度,如果 指纹重复程度大于预设的阈值(例如40%),则判断存在相似关系或包含关系, 从而对参与指纹重复程度计算的文本所对应的答复中排序权值较低的用去除标 记进行标识,并记录两个答复之间的关系;相反,如果指纹重复程度小于预设 的阈值,则判断不存在相似关系或包含关系,也就不需要进行相似关系和包含 关系相关处理。
步骤03、重复上述过程,直到所有类的相似关系和包含关系都被清除。
在上述操作都执行完成后,答复集合内存在相似关系和包含关系的答复中 排序权值较小的答复都被采用去除标记进行了标识,以此产生一个正确的评价 分值,作为问答对间的质量评价结果。
问答对内的质量评价包括:问题和答复质量的评价、问题和答复的匹配度 计算、以及单个问答对质量的评价。
其中,问题和答复质量的评价内容可以包括以下内容中的至少一种:1、问 题格式化信息,包括:问题的长度、标点符号和是否具有疑问词等,能够满足 规定格式的问题质量较高,而不符合规定格式的,且表达不清楚的问题,通常 不会有高质量;2、答复的长度,根据统计长度适中的答复通常具有较高的质量; 3、答复中视觉特征信息,包括:对于每个段落词个数,段落词首是否具有黑体 加重符号等等,通常质量较高的答复除了长度适中以外,答复也有很好的视觉 特征信息。4、问题正反例词典特征,即问题中的词分别在正例词典和在反例词 典中的比例;5、答复正反例词典特征,即答复中的词在正例词典和反例词典中 的比例;6、问答对形成过程中的非文本元素,例如:用户评价、回答者的级别、 回答者的答复数目和接收率等等。
需要指出的是,为了反映问题和答复的质量,本发明分别定义了正例词典 和反例词典。如果问题或答复中的词在正例词典中的比例较大,则该问题或答 复作为高质量的可能性较高;反之,如果问题或答复中的词在正例词典中的比 例较大,则该问题或答复作为高质量的可能性较低。
正例词典和反例词典的构建过程如下:首先,提取大量问答对(如5000 个)的语料,并将其标注两类,一类为高质量数据集D1,另一类为中低质量数 据集D2;对提取的问题和答复中出现的所有词汇进行统计,如果某个词汇在高 质量数据集D1中的频率除以在整个数据集(包括D1和D2)中的频率大于预 定的阈值α1,则该词汇进入正例词典;如果某个词汇在高质量数据集D1中的 频率除以在整个数据集(包括D1和D2)中的频率小于预定的阈值α2,则该词 汇进入反例词典。问题中出现的词汇进入问题的正反例词典,答复中出现的词 汇进入答复的正反例词典。
本发明提出一种基于主题聚类的方法进行问题和答复的匹配度计算,具体 为:
步骤001,收集一定量的全局语料库(如80GB)作为点互信息的统计语料, 对该统计语料进行分词处理,并根据公式 PMI ( w 1 , w 2 ) = log 2 P ( w 1 , w 2 ) P ( w 1 ) P ( w 2 ) 计算词与词 之间的点互信息量。其中,PMI(w1,w2)表示词w1与词w2之间的点互信息量,P(w1) 表示词w1在统计数据中的出现频率,P(w2)表示词w2在统计数据中的出现频率, P(w1w2)表示词w1和w2的共现频率,即如果词w1和w2出现在连续几个句子中,且 这连续的几个句子的字数小于长度阈值(如150个汉字),则认为词w1和w2共现。 另外,在一个文档中w1和w2出现多次的,均只计算一次。
步骤002,对簇内的问题进行分词和词性标注等处理,保留具有名词词性 的词汇q1,q2…qm,名词的个数记为m。
步骤003,对答复进行处理,判断答复的长度,如果大于长度阈值(如150 个汉字),则对其进行主题词提取处理,主题词提取的主要操作为:从全局统计 语料中查找答复的每个词所出现的词频tf和文档频率df,并采用公式 TFlog(tf)log(1/df)为每个词赋上权值;按照权值从大到小的顺序对答复中的所有词 进行排序,并提取靠前的若干个(例如n=50)名词作为主题词。其中TF表示对 应的词在其所在的答复中所统计的局部频率。如果答复的长度小于长度阈值, 则直接对其进行分词、词性标注等处理,并提取具有名词词性的词汇a1,a2…an, 个数记为n。
步骤004,以qi为主题初始点,判断aj与qi的点互信息是否大于点互信息 阈值,如果大于,则将aj加入中心链;如果均小于点互信息阈值,则将aj删除。 最终得到中心链中包含的词汇个数记为k,定义问题与答复之间的匹配度为: k/m+n。该定义表示,如果答复中的关键词和问题中关键词相关的越多,该概 率就越大,表示提问和答复的相关度越高。
此外,为了融合上述多种特征,本发明采用最大熵统计模型作为各个特征 的融合框架,以实现对单个问答对质量的评价。当然,本发明中的融合框架也 可以采用其他类型的分类器来实现,例如:支持向量机、贝叶斯等,且本发明 的融合框架并非仅限于上述所举。
下面以最大熵评价分类器为例对各个特征的融合过程进行详细阐述,如图 2所示,最大熵评价分类器采用的输入特征包括:问题格式化信息、答复的长 度、答复中视觉特征信息、问题正反例词典特征、答复正反例词典特征、问答 对形成过程中的非文本特征、问题和答复的匹配度。
其中,问题正反例词典特征和答复正反例词典特征的产生过程为:分别统 计问题和答复中的每个词在正反例词典中属于高质量数据和属于低质量数据的 概率;然后利用贝叶斯公式计算得到P(good|Q),P(good|A)的概率,该概率分 别作为最大熵的问题正反例词典特征,和答复正反例词典特征的输入。
答复的长度定义为该长度L下属于高质量数据的概率P(good|L),且 P ( good | L ) = P ( good ) p ( good | L ) P ( good ) p ( good | L ) + P ( bad ) p ( bad | L ) . 概率p(good|L),p(bad|L)是在训 练过程中进行统计得到的。
问答对形成过程中的非文本特征,是通过将用户评价得分与最高分的比值、 回答者的级别与最高级别的比值、回答者的答复数目大于一定数值时的回答者 接收率进行平均,得到的一个数值,以此数值作为非文本特征的输入。
问题格式化信息定义为P(good|Q)=λ1P(good|LQ)+λ2+λ3,其中λ1+λ2+λ3=1, λ1、λ2、λ3分别表示问题在该长度LQ下是高质量的概率P(good|LQ)的加权值、 问题在具有标点符号特征时为高质量的加权值、问题在有疑问词特征时为高质 量的加权值。
答复中视觉特征信息是根据判断最终形成是否满足格式化信息所得到的结 果,如果满足,则该特征信息为1,否则为0。
上述的训练过程为,首先在10000个训练样本中训练出最大熵的模型参数, 然后利用最大熵的模型参数进行识别,最终给每个问答对有一个正确的评价分 值,以此作为问答对内的质量评价结果。对于分值低于一定阈值的问答对则认 为是中低质量的问答对,直接删除。
步骤103,对问答对间的质量评价结果和问答对内的质量评价结果进行融 合,输出高质量的问答对。
将单个问答对的质量评价结果和簇内的问答对间的质量评价结果有机融 合,可以通过加权的方式进行,也可以通过分类器,把单个问答对的评价分值 与问答对间的评价分值作为两个特征进行融合。根据实验统计,本发明采用如 下的方案:
首先统计簇内所有问答对的个数N,将簇内所有问答对经过单个问答对的 评价分类器后,仅保留为高质量的问答对;
对于这些高质量的问答对,去除被包含的问答对和相似问答对排序权值较 低的;
根据每个簇内包含的问答对个数进行分级打分:如果N>50,则将该簇内的 排序最大归一化为1,取前三个作为高质量的问答对;如果N>20,则将该簇内 的排序最大归一化为0.9,取前两个作为高质量的问答对;如果N>10,则将该 簇内的排序最大归一化为0.8,取前一个作为高质量的问答对;如果N>5,则将 该簇内的排序最大归一化为0.7,取前一个作为高质量的问答对;如果N>1,则 将该簇内的排序最大归一化为0.6,并与问答内的评价分值进行平均,如果最大 分值超过0.7,保留其为高质量的问答对,否则删除;如果N=1,则将该问答对 分值设为0.5,并与问答对内的评价分值进行平均,如果最大分值超过0.7,保 留其为高质量的问答对,否则删除。
为实现上述本发明的问答对的质量评价方法,本发明还提供了一种问答对 的质量评价系统,如图3所示,该系统包括:聚类模块10、第一质量评价模块 20、第二质量评价模块30和融合模块40。其中,聚类模块10,用于对输入的 问答对按照问题内容进行聚类,得到由语义相同或相近的问题及其答复所组成 的簇。第一质量评价模块20,连接聚类模块10,用于对簇进行问答对间的质量 评价,得到问答对间的质量评价结果。第二质量评价模块30,连接聚类模块10, 用于对簇进行问答对内的质量评价,得到问答对内的质量评价结果。融合模块 40,连接第一质量评价模块20和第二质量评价模块30,用于对问答对间的质 量评价结果和问答对内的质量评价结果进行融合,输出高质量的问答对。
综上所述,通过本发明可以将高质量的问答对从中低质量的问答对中分离 出来,形成高质量的知识库;作为搜索引擎的数据源,可以将高质量的数据作 为搜索引擎索引的一部分,直接将其置于搜索结果的靠前位置;作为自动问答 的知识库,可以将挑选出来的高质量数据直接作为自动问答的知识源,为用户 提供答案。另外,本发明不仅可以处理知识问答数据,也可以对博客、论坛、 BBS、FAQ问答数据等用户产生的数据进行处理;经过评价后的高质量数据可 以直接用来建立百科知识。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范 围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈