专利汇可以提供分类模型的训练方法和装置专利检索,专利查询,专利分析的服务。并且本 说明书 实施例 提供一种分类模型的训练方法和装置。方法包括:获取第一领域的第一样本集合,包括多个第一训练样本,每个第一训练样本包括样本输入和对应的第一分类任务的类别标签;获取第二领域的第二样本集合,包括多个第二训练样本,每个第二训练样本包括样本输入和对应的第二分类任务的类别标签;两个分类任务的类别标签具有映射关系;将第二样本集合中的多个第二训练样本加入第一样本集合,并根据映射关系,将第二训练样本包括的第二分类任务的类别标签转换为第一分类任务的类别标签,得到第三样本集合;将第三样本集合中的样本输入输入待训练的分类模型,以针对第一分类任务训练所述分类模型。能够获得令人满意的训练效果。,下面是分类模型的训练方法和装置专利的具体信息内容。
1.一种分类模型的训练方法,所述方法包括:
获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签;
获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系;
将所述第二样本集合中的多个所述第二训练样本加入所述第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合;
将所述第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型。
2.如权利要求1所述的方法,其中,所述获取第一领域的第一样本集合,包括:
将所述第一领域的各第一备选训练样本按照第一预设比例划分为所述第一样本集合、第一验证集和第一测试集;所述第一验证集用于针对所述第一分类任务训练后的所述分类模型进行优化,所述第一测试集用于针对所述第一分类任务优化后的所述分类模型进行测试。
3.如权利要求1所述的方法,其中,所述第一领域和所述第二领域的数据分布不同。
4.如权利要求1所述的方法,其中,所述第一分类任务和所述第二分类任务均为二分类任务。
5.如权利要求1所述的方法,其中,所述针对所述第一分类任务训练所述分类模型之后,所述方法还包括:
获取所述第一领域的待分类样本;
将所述第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别。
6.如权利要求1所述的方法,其中,所述针对所述第一分类任务训练所述分类模型之后,所述方法还包括:
将所述第一样本集合中的多个所述第一训练样本加入所述第二样本集合,并根据所述映射关系,将所述第一训练样本包括的所述第一分类任务的类别标签转换为所述第二分类任务的类别标签,得到第四样本集合;
将所述第四样本集合中的样本输入输入所述分类模型,通过所述分类模型输出该样本输入对应的第二预测值,将所述第二预测值与该样本输入对应的所述第二分类任务的类别标签对比,以针对所述第二分类任务训练所述分类模型。
7.如权利要求6所述的方法,其中,所述获取第二领域的第二样本集合,包括:
将所述第二领域的各第二备选训练样本按照第二预设比例划分为所述第二样本集合、第二验证集和第二测试集;所述第二验证集用于针对所述第二分类任务训练后的所述分类模型进行优化,所述第二测试集用于针对所述第二分类任务优化后的所述分类模型进行测试。
8.如权利要求6所述的方法,其中,所述针对所述第二分类任务训练所述分类模型之后,所述方法还包括:
获取所述第一领域的待分类样本;
将所述第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别;或者,
获取所述第二领域的待分类样本;
将所述第二领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第二分类任务,输出所述第二分类任务的预测类别。
9.如权利要求1所述的方法,其中,所述样本输入为文本数据;所述获取第一领域的第一样本集合,包括:
获取所述第一领域的原始文本数据;
将所述原始文本数据去除字母、数字、标点符号和表情符号中的至少一项后,得到所述第一样本集合中的样本输入。
10.如权利要求1所述的方法,其中,所述第一领域为用户反馈;所述第一分类任务为确定用户反馈数据是否与隐私相关;所述第二领域为外部媒介;所述第二分类任务为确定外部媒介数据是否与隐私相关。
11.一种分类模型的训练装置,所述装置包括:
第一获取单元,用于获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签;
第二获取单元,用于获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系;
第一扩充单元,用于将所述第二获取单元获取的第二样本集合中的多个所述第二训练样本加入所述第一获取单元获取的第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合;
第一训练单元,用于将所述第一扩充单元得到的第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型。
12.如权利要求11所述的装置,其中,所述第一获取单元,具体用于将所述第一领域的各第一备选训练样本按照第一预设比例划分为所述第一样本集合、第一验证集和第一测试集;所述第一验证集用于针对所述第一分类任务训练后的所述分类模型进行优化,所述第一测试集用于针对所述第一分类任务优化后的所述分类模型进行测试。
13.如权利要求11所述的装置,其中,所述第一领域和所述第二领域的数据分布不同。
14.如权利要求11所述的装置,其中,所述第一分类任务和所述第二分类任务均为二分类任务。
15.如权利要求11所述的装置,其中,所述装置还包括:
第三获取单元,用于在所述第一训练单元针对所述第一分类任务训练所述分类模型之后,获取所述第一领域的待分类样本;
第一分类单元,用于将所述第三获取单元获取的第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别。
16.如权利要求11所述的装置,其中,所述装置还包括:
第二扩充单元,用于在所述第一训练单元针对所述第一分类任务训练所述分类模型之后,将所述第一样本集合中的多个所述第一训练样本加入所述第二样本集合,并根据所述映射关系,将所述第一训练样本包括的所述第一分类任务的类别标签转换为所述第二分类任务的类别标签,得到第四样本集合;
第二训练单元,用于将所述第二扩充单元得到的第四样本集合中的样本输入输入所述分类模型,通过所述分类模型输出该样本输入对应的第二预测值,将所述第二预测值与该样本输入对应的所述第二分类任务的类别标签对比,以针对所述第二分类任务训练所述分类模型。
17.如权利要求16所述的装置,其中,所述第二获取单元,具体用于将所述第二领域的各第二备选训练样本按照第二预设比例划分为所述第二样本集合、第二验证集和第二测试集;所述第二验证集用于针对所述第二分类任务训练后的所述分类模型进行优化,所述第二测试集用于针对所述第二分类任务优化后的所述分类模型进行测试。
18.如权利要求16所述的装置,其中,所述装置还包括:
第四获取单元,用于在所述第二训练单元针对所述第二分类任务训练所述分类模型之后,获取所述第一领域的待分类样本;
第二分类单元,用于将所述第四获取单元获取的第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别;或者,
第五获取单元,用于获取所述第二领域的待分类样本;
第三分类单元,用于将所述第五获取单元获取的第二领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第二分类任务,输出所述第二分类任务的预测类别。
19.如权利要求11所述的装置,其中,所述样本输入为文本数据;所述第一获取单元,具体用于:
获取所述第一领域的原始文本数据;
将所述原始文本数据去除字母、数字、标点符号和表情符号中的至少一项后,得到所述第一样本集合中的样本输入。
20.如权利要求11所述的装置,其中,所述第一领域为用户反馈;所述第一分类任务为确定用户反馈数据是否与隐私相关;所述第二领域为外部媒介;所述第二分类任务为确定外部媒介数据是否与隐私相关。
21.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-10中任一项的所述的方法。
22.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项的所述的方法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
特征扩展卷积神经网络的案件微博观点句识别构建方法 | 2020-05-11 | 333 |
一种基于深度学习的校园心理辅导的方法及装置 | 2020-05-11 | 590 |
一种听写结果的检测方法及学习设备 | 2020-05-08 | 387 |
即时通信应用中表情自适应调整的方法、装置及移动终端 | 2020-05-14 | 29 |
文本识别方法、装置、电子设备及存储介质 | 2020-05-16 | 589 |
互联网金融非显性广告识别方法及装置 | 2020-05-16 | 926 |
一种基于深度学习和特征融合的文本情感分类方法 | 2020-05-15 | 635 |
层级意图体系的建立方法及装置 | 2020-05-17 | 185 |
表情符号建议器和适配的用户界面 | 2020-05-15 | 125 |
補聴器の作動方法および補聴器 | 2020-05-13 | 148 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。