首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 半监督学习 / 一种基于半监督学习的多标签语料库文本分类方法

一种基于半监督学习的多标签语料库文本分类方法

阅读:481发布:2020-05-13

专利汇可以提供一种基于半监督学习的多标签语料库文本分类方法专利检索,专利查询,专利分析的服务。并且一种基于半 监督学习 的多标签语料库 文本分类 方法,包括以下步骤:基于多标签语料库文本进行 半监督学习 ,得到分类策略 知识库 ;对待分类的语料库文本进行预处理;对语料库分类文本进行类别划分,确定第一文本内容标识集合;在所述预设置的 训练数据 集合中确定第一文本内容集合,在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。本 发明 具有降低计算复杂度和计算量,提高文本文类的效率的优点。,下面是一种基于半监督学习的多标签语料库文本分类方法专利的具体信息内容。

1.一种基于半监督学习的多标签语料库文本分类方法,其特征在于,包括以下步骤:
S1、基于多标签语料库文本进行半监督学习,得到分类策略知识库
S2、对待分类的语料库文本进行预处理,得到该语料库文本中的特征词;
S3、根据特征词,对语料库分类文本进行类别划分,以获取语料库分类文本的个数候选类别;
S4、根据分类策略知识库在预存储的倒排索引表中,确定第一文本内容标识集合,第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识;
S5、根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别;
S6、在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;
S7、根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。
2.根据权利要求1所述的一种基于半监督学习的多标签语料库文本分类方法,其特征在于,在S1中,半监督学习包括以下步骤:
S11、构造多标签语料库文本集和未知多标签语料库文本集;
S12、根据多标签语料库文本中的样本训练分类器,获取分类器;
S13、构造未知多标签语料库文本集的子集U,利用分类器进行未知多标签语料库文本集的子集U中未知多标签语料库文本X′的类别判断;
S14、若类别判断未知多标签语料库文本X′为多标签语料库文本,则将未知多标签语料库文本X′标注加入多标签语料库文本集中,如果类别判断未知多标签语料库文本X′为未知多标签语料库文本,则从未知多标签语料库文本中删除文档X′;
S15、迭代S11到S14直到未知文档集为空集,输出分类策略知识库。
3.根据权利要求1所述的一种基于半监督学习的多标签语料库文本分类方法,其特征在于,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识。
4.根据权利要求2所述的一种基于半监督学习的多标签语料库文本分类方法,其特征在于,在S12中,训练分类器的包括以下步骤:
S121、对敏感文档集的文档进行中文分词和去停词处理;
S122、利用SVM算法对处理后的敏感文档集进行特征表示;
S123、利用信息增益方法对特征进行提取,保留有效的文本特征;
S124、采用libsvm工具训练分类器;
S125、进行分类器模型评估,改进训练分类器;
S126、结束训练,输出分类器。
5.根据权利要求1所述的一种基于半监督学习的多标签语料库文本分类方法,其特征在于,所述根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别,具体包括:
分别计算所述文本特征词与第二文本集合中每条文本内容的相似度;
根据所述相似度,确定至少一个最相似的文本内容;
对所述至少一个最相似的文本内容中,每个文本内容所属类别进行打分;
选定得分最高的一个类别,作为所述文本的目标类别。

说明书全文

一种基于半监督学习的多标签语料库文本分类方法

技术领域

[0001] 本发明涉及语料库文本分类领域,尤其涉及一种基于半监督学习的多标签语料库文本分类方法。

背景技术

[0002] 文本分类是文本挖掘的一个重要内容,是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。通过自动文本分类系统把文档进行归类,可以帮助人们更好地寻找需要的信息和知识。在人们看来,分类是对信息的一种最基本的认知形式。
[0003] 随着文本信息的快速增长,特别是互联网(Internet)上在线文本信息的激增,文本自动分类已经成为处理和组织大量文档数据的关键技术。现在,文本分类正在各个领域得到广泛的应用。例如,在互联网平台中,服务器可以根据用户通过客户端接收到的一句询问语言,对询问语言对应的文本信息进行分类,确定该文本信息对应的分类之后,依据相应的分类自动对用户的询问语言进行解答,推送相关的信息。
[0004] 现有技术中对文本进行分类的方法中,随着信息量日趋丰富,人们对于内容搜索的准确率,查全率等方面的要求会越来越高,训练集中包含的样本数目也非常巨大,通过遍历的方式与训练集中的每个样本进行相似度计算,需要消耗服务器大量的性能,并且计算速度较慢。从而导致服务器有效资源被大量占用,计算时间过长导致向用户解答或者推送相关信息需要耗费大量时间。

发明内容

[0005] (一)发明目的
[0006] 为解决背景技术中存在的技术问题,本发明提出一种基于半监督学习的多标签语料库文本分类方法,具有降低计算复杂度和计算量,提高文本文类的效率的优点。
[0007] (二)技术方案
[0008] 为解决上述问题,本发明提供了一种基于半监督学习的多标签语料库文本分类方法,包括以下步骤:
[0009] S1、基于多标签语料库文本进行半监督学习,得到分类策略知识库
[0010] S2、对待分类的语料库文本进行预处理,得到该语料库文本中的特征词;
[0011] S3、根据特征词,对语料库分类文本进行类别划分,以获取语料库分类文本的个数候选类别;
[0012] S4、根据分类策略知识库在预存储的倒排索引表中,确定第一文本内容标识集合,第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识;
[0013] S5、根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别;
[0014] S6、在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;
[0015] S7、根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。
[0016] 优选的,在S1中,半监督学习包括以下步骤:
[0017] S11、构造多标签语料库文本集和未知多标签语料库文本集;
[0018] S12、根据多标签语料库文本中的样本训练分类器,获取分类器;
[0019] S13、构造未知多标签语料库文本集的子集U’,利用分类器进行未知多标签语料库文本集的子集U中未知多标签语料库文本X′的类别判断;
[0020] S14、若类别判断未知多标签语料库文本X′为多标签语料库文本,则将未知多标签语料库文本X′标注加入多标签语料库文本集中,如果类别判断未知多标签语料库文本X′为未知多标签语料库文本,则从未知多标签语料库文本中删除文档X′;
[0021] S15、迭代S11到S14直到未知文档集为空集,输出分类策略知识库。
[0022] 优选的,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识。
[0023] 优选的,在S12中,训练分类器的包括以下步骤:
[0024] S121、对敏感文档集的文档进行中文分词和去停词处理;
[0025] S122、利用SVM算法对处理后的敏感文档集进行特征表示;
[0026] S123、利用信息增益方法对特征进行提取,保留有效的文本特征;
[0027] S124、采用libsvm工具训练分类器;
[0028] S125、进行分类器模型评估,改进训练分类器;
[0029] S126、结束训练,输出分类器。
[0030] 优选的,所述根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别,具体包括:
[0031] 分别计算所述文本特征词与第二文本集合中每条文本内容的相似度;
[0032] 根据所述相似度,确定至少一个最相似的文本内容;
[0033] 对所述至少一个最相似的文本内容中,每个文本内容所属类别进行打分;
[0034] 选定得分最高的一个类别,作为所述文本的目标类别。
[0035] 本发明的上述技术方案具有如下有益的技术效果:通过半监督学习,提高了多标签语料库文本的可扩展能和实用性;采用该方法形成的分类策略知识库进行对语料库文本进行分类判断,有效的判断出语料库文本是否为多标签语料库文本,通过对待分类的语料库文本进行预处理,从而提取出其中的文本特征词,再根据文本特征词,采用通常的快速分类组件对所述待分类文本进行初步分类,以获取候选类别;之后,根据所述文本特征词,进行筛选,筛选出包括与所述文本特征词相似的文本内容对应的文本内容的集合,并在集合中,除去所述候选类别之外的类别对应的文本内容,最后根据所述文本特征词与最终的集合中的每条样本文本内容的相似度,确定所述待分类文本的目标类别;通过上述的方案,能够大量采用减少对文本进行分类时所需要遍历的文本条目,降低计算复杂度和计算量,提高文本文类的效率。附图说明
[0036] 图1为本发明提出的一种基于半监督学习的多标签语料库文本分类方法的结构示意图。
[0037] 图2为本发明提出的一种基于半监督学习的多标签语料库文本分类方法中半监督学习的流程示意图。
[0038] 图3为本发明提出的一种基于半监督学习的多标签语料库文本分类方法中训练分类器的流程示意图。

具体实施方式

[0039] 为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
[0040] 如图1-3所示,本发明提出的一种基于半监督学习的多标签语料库文本分类方法,包括以下步骤:
[0041] S1、基于多标签语料库文本进行半监督学习,得到分类策略知识库;
[0042] S2、对待分类的语料库文本进行预处理,得到该语料库文本中的特征词;
[0043] S3、根据特征词,对语料库分类文本进行类别划分,以获取语料库分类文本的个数候选类别;
[0044] S4、根据分类策略知识库在预存储的倒排索引表中,确定第一文本内容标识集合,第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识;
[0045] S5、根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别;
[0046] S6、在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;
[0047] S7、根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。
[0048] 在一个可选的实施例中,在S1中,半监督学习包括以下步骤:
[0049] S11、构造多标签语料库文本集和未知多标签语料库文本集;
[0050] S12、根据多标签语料库文本中的样本训练分类器,获取分类器;
[0051] S13、构造未知多标签语料库文本集的子集U’,利用分类器进行未知多标签语料库文本集的子集U中未知多标签语料库文本X′的类别判断;
[0052] S14、若类别判断未知多标签语料库文本X′为多标签语料库文本,则将未知多标签语料库文本X′标注加入多标签语料库文本集中,如果类别判断未知多标签语料库文本X′为未知多标签语料库文本,则从未知多标签语料库文本中删除文档X′;
[0053] S15、迭代S11到S14直到未知文档集为空集,输出分类策略知识库。
[0054] 在一个可选的实施例中,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识。
[0055] 在一个可选的实施例中,在S12中,训练分类器的包括以下步骤:
[0056] S121、对敏感文档集的文档进行中文分词和去停词处理;
[0057] S122、利用SVM算法对处理后的敏感文档集进行特征表示;
[0058] S123、利用信息增益方法对特征进行提取,保留有效的文本特征;
[0059] S124、采用libsvm工具训练分类器;
[0060] S125、进行分类器模型评估,改进训练分类器;
[0061] S126、结束训练,输出分类器。
[0062] 在一个可选的实施例中,所述根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别,具体包括:
[0063] 分别计算所述文本特征词与第二文本集合中每条文本内容的相似度;
[0064] 根据所述相似度,确定至少一个最相似的文本内容;
[0065] 对所述至少一个最相似的文本内容中,每个文本内容所属类别进行打分;
[0066] 选定得分最高的一个类别,作为所述文本的目标类别。
[0067] 本发明中,通过半监督学习,提高了多标签语料库文本的可扩展能力和实用性;采用该方法形成的分类策略知识库进行对语料库文本进行分类判断,有效的判断出语料库文本是否为多标签语料库文本,通过对待分类的语料库文本进行预处理,从而提取出其中的文本特征词,再根据文本特征词,采用通常的快速分类组件对所述待分类文本进行初步分类,以获取候选类别;之后,根据所述文本特征词,进行筛选,筛选出包括与所述文本特征词相似的文本内容对应的文本内容的集合,并在集合中,除去所述候选类别之外的类别对应的文本内容,最后根据所述文本特征词与最终的集合中的每条样本文本内容的相似度,确定所述待分类文本的目标类别;通过上述的方案,能够大量采用减少对文本进行分类时所需要遍历的文本条目,降低计算复杂度和计算量,提高文本文类的效率。
[0068] 应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈