专利汇可以提供一种基于半监督学习的多标签语料库文本分类方法专利检索,专利查询,专利分析的服务。并且一种基于半 监督学习 的多标签语料库 文本分类 方法,包括以下步骤:基于多标签语料库文本进行 半监督学习 ,得到分类策略 知识库 ;对待分类的语料库文本进行预处理;对语料库分类文本进行类别划分,确定第一文本内容标识集合;在所述预设置的 训练数据 集合中确定第一文本内容集合,在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。本 发明 具有降低计算复杂度和计算量,提高文本文类的效率的优点。,下面是一种基于半监督学习的多标签语料库文本分类方法专利的具体信息内容。
1.一种基于半监督学习的多标签语料库文本分类方法,其特征在于,包括以下步骤:
S1、基于多标签语料库文本进行半监督学习,得到分类策略知识库;
S2、对待分类的语料库文本进行预处理,得到该语料库文本中的特征词;
S3、根据特征词,对语料库分类文本进行类别划分,以获取语料库分类文本的个数候选类别;
S4、根据分类策略知识库在预存储的倒排索引表中,确定第一文本内容标识集合,第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识;
S5、根据所述第一文本内容标识集合,在所述预设置的训练数据集合中确定第一文本内容集合,所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别;
S6、在所述第一文本内容集合中,根据所述一定个数候选类别,选择N个候选类别对应的文本内容,来确定第二文本内容集合;
S7、根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别。
2.根据权利要求1所述的一种基于半监督学习的多标签语料库文本分类方法,其特征在于,在S1中,半监督学习包括以下步骤:
S11、构造多标签语料库文本集和未知多标签语料库文本集;
S12、根据多标签语料库文本中的样本训练分类器,获取分类器;
S13、构造未知多标签语料库文本集的子集U,利用分类器进行未知多标签语料库文本集的子集U中未知多标签语料库文本X′的类别判断;
S14、若类别判断未知多标签语料库文本X′为多标签语料库文本,则将未知多标签语料库文本X′标注加入多标签语料库文本集中,如果类别判断未知多标签语料库文本X′为未知多标签语料库文本,则从未知多标签语料库文本中删除文档X′;
S15、迭代S11到S14直到未知文档集为空集,输出分类策略知识库。
3.根据权利要求1所述的一种基于半监督学习的多标签语料库文本分类方法,其特征在于,所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的,其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识。
4.根据权利要求2所述的一种基于半监督学习的多标签语料库文本分类方法,其特征在于,在S12中,训练分类器的包括以下步骤:
S121、对敏感文档集的文档进行中文分词和去停词处理;
S122、利用SVM算法对处理后的敏感文档集进行特征表示;
S123、利用信息增益方法对特征进行提取,保留有效的文本特征;
S124、采用libsvm工具训练分类器;
S125、进行分类器模型评估,改进训练分类器;
S126、结束训练,输出分类器。
5.根据权利要求1所述的一种基于半监督学习的多标签语料库文本分类方法,其特征在于,所述根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度,确定所述待分类文本的目标类别,具体包括:
分别计算所述文本特征词与第二文本集合中每条文本内容的相似度;
根据所述相似度,确定至少一个最相似的文本内容;
对所述至少一个最相似的文本内容中,每个文本内容所属类别进行打分;
选定得分最高的一个类别,作为所述文本的目标类别。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于半监督学习算法的移动设备实体识别方法及装置 | 2020-05-12 | 843 |
一种基于层次注意力机制的半监督网络表示学习模型 | 2020-05-13 | 599 |
基于半监督学习的DPI数据中host的自动化挖掘方法及系统 | 2020-05-18 | 540 |
一种特征权重自学习的睡眠质量检测关键脑区判定方法 | 2020-05-08 | 88 |
基于对抗训练的跨领域虚假评论识别方法 | 2020-05-13 | 239 |
基于半监督学习的检测模型训练方法、装置、设备及介质 | 2020-05-12 | 875 |
一种获取临床数据预测模型的方法、装置、可读介质及电子设备 | 2020-05-15 | 546 |
一种面向半结构化数据流的实时主题分类方法 | 2020-05-16 | 842 |
一种基于半监督学习的多标签语料库文本分类方法 | 2020-05-13 | 481 |
一种融合半监督学习和主动学习的搜索引擎用户满意度评估方法 | 2020-05-13 | 482 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。