技术领域
[0001] 本
说明书一个或多个
实施例涉及计算机领域,尤其涉及分类模型的训练方法和装置。
背景技术
[0002] 对于
机器学习,经常遇到缺乏训练样本的问题。例如,对于分类模型,通常需要大量的有类别标签的训练样本来进行训练。在实际应用中,通常采用人工标注类别标签的方式,来获取有类别标签的训练样本。由于标记高
质量的训练样本需要大量有知识的标记者,因此获得足够数量的训练样本是极其困难、耗时和昂贵的。当训练样本的数量较少时,对分类模型的训练无法获得令人满意的训练效果。并且,从训练效果上来看,少量的训练样本和后期增加更多训练样本,对于分类模型的训练效果提升不大。
[0003] 因此,希望能有改进的方案,能够提升分类模型的训练效果。
发明内容
[0004] 本说明书一个或多个实施例描述了一种分类模型的训练方法和装置,能够提升分类模型的训练效果。
[0005] 第一方面,提供了一种分类模型的训练方法,方法包括:
[0006] 获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签;
[0007] 获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系;
[0008] 将所述第二样本集合中的多个所述第二训练样本加入所述第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合;
[0009] 将所述第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型。
[0010] 在一种可能的实施方式中,所述获取第一领域的第一样本集合,包括:
[0011] 将所述第一领域的各第一备选训练样本按照第一预设比例划分为所述第一样本集合、第一验证集和第一测试集;所述第一验证集用于针对所述第一分类任务训练后的所述分类模型进行优化,所述第一测试集用于针对所述第一分类任务优化后的所述分类模型进行测试。
[0012] 在一种可能的实施方式中,所述第一领域和所述第二领域的数据分布不同。
[0013] 在一种可能的实施方式中,所述第一分类任务和所述第二分类任务均为二分类任务。
[0014] 在一种可能的实施方式中,所述针对所述第一分类任务训练所述分类模型之后,所述方法还包括:
[0015] 获取所述第一领域的待分类样本;
[0016] 将所述第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别。
[0017] 在一种可能的实施方式中,所述针对所述第一分类任务训练所述分类模型之后,所述方法还包括:
[0018] 将所述第一样本集合中的多个所述第一训练样本加入所述第二样本集合,并根据所述映射关系,将所述第一训练样本包括的所述第一分类任务的类别标签转换为所述第二分类任务的类别标签,得到第四样本集合;
[0019] 将所述第四样本集合中的样本输入输入所述分类模型,通过所述分类模型输出该样本输入对应的第二预测值,将所述第二预测值与该样本输入对应的所述第二分类任务的类别标签对比,以针对所述第二分类任务训练所述分类模型。
[0020] 进一步地,所述获取第二领域的第二样本集合,包括:
[0021] 将所述第二领域的各第二备选训练样本按照第二预设比例划分为所述第二样本集合、第二验证集和第二测试集;所述第二验证集用于针对所述第二分类任务训练后的所述分类模型进行优化,所述第二测试集用于针对所述第二分类任务优化后的所述分类模型进行测试。
[0022] 进一步地,所述针对所述第二分类任务训练所述分类模型之后,所述方法还包括:
[0023] 获取所述第一领域的待分类样本;
[0024] 将所述第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别;或者,
[0025] 获取所述第二领域的待分类样本;
[0026] 将所述第二领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第二分类任务,输出所述第二分类任务的预测类别。
[0027] 在一种可能的实施方式中,所述样本输入为文本数据;所述获取第一领域的第一样本集合,包括:
[0028] 获取所述第一领域的原始文本数据;
[0029] 将所述原始文本数据去除字母、数字、标点符号和
表情符号中的至少一项后,得到所述第一样本集合中的样本输入。
[0030] 在一种可能的实施方式中,所述第一领域为用户反馈;所述第一分类任务为确定用户反馈数据是否与隐私相关;所述第二领域为外部媒介;所述第二分类任务为确定外部媒介数据是否与隐私相关。
[0031] 第二方面,提供了一种分类模型的训练装置,装置包括:
[0032] 第一获取单元,用于获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签;
[0033] 第二获取单元,用于获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系;
[0034] 第一扩充单元,用于将所述第二获取单元获取的第二样本集合中的多个所述第二训练样本加入所述第一获取单元获取的第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合;
[0035] 第一训练单元,用于将所述第一扩充单元得到的第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型。
[0036] 第三方面,提供了一种计算机可读存储介质,其上存储有
计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
[0037] 第四方面,提供了一种计算设备,包括
存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
[0038] 通过本说明书实施例提供的方法和装置,在针对第一分类任务训练分类模型时,不仅利用了第一分类任务对应的第一训练样本,还增加了第二分类任务对应的第二训练样本,由于第一训练样本和第二训练样本来自于不同的领域,因此相当于增强了第一分类任务对应样本空间的特征分布,从而使得训练后的分类模型获得更高的精确度和召回率,能够提升分类模型的训练效果。
附图说明
[0039] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0040] 图1为本说明书披露的一个实施例的实施场景示意图;
[0041] 图2示出根据一个实施例的分类模型的训练方法
流程图;
[0042] 图3示出根据一个实施例的分类模型的训练装置的示意性
框图。
具体实施方式
[0043] 下面结合附图,对本说明书提供的方案进行描述。
[0044] 图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及分类模型的训练,具体地,可以针对第一分类任务训练分类模型,和/或,针对第二分类任务训练分类模型。参照图1,以针对第一分类任务训练分类模型为例,根据第二分类任务增加第一分类任务的训练样本。其中,第一分类任务针对第一领域的数据进行分类,第二分类任务针对第二领域的数据进行分类,第一领域和第二领域的数据分布不同,第一分类任务和第二分类任务为互相关任务,第一分类任务的类别标签与第二分类任务的类别标签具有映射关系,本说明书实施例,根据该映射关系,将第二训练样本包括的第二分类任务的类别标签转换为第一分类任务的类别标签,以便将第二分类任务的任务数据用于针对第一分类任务训练分类模型。此外,还可以根据该映射关系,将第一训练样本包括的第一分类任务的类别标签转换为第二分类任务的类别标签,以便将第一分类任务的任务数据用于针对第二分类任务训练分类模型,使得训练后的分类模型既可以用于实现第一分类任务,也可以用于实现第二分类任务。
[0045] 本说明书实施例,基于互相关的任务数据进行插入互补的方法,从而生成新的域数据,互相增强现有的
训练数据特征上的分布结构进行机器学习,能够提升分类模型的训练效果。
[0046] 图2示出根据一个实施例的分类模型的训练方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中分类模型的训练方法包括以下步骤:步骤21,获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签;步骤22,获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系;步骤23,将所述第二样本集合中的多个所述第二训练样本加入所述第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合;步骤24,将所述第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型。下面描述以上各个步骤的具体执行方式。
[0047] 首先在步骤21,获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签。可以理解的是,通常可以采用第一样本集合中的训练样本,针对第一分类任务训练分类模型。
[0048] 在一个示例中,将所述第一领域的各第一备选训练样本按照第一预设比例划分为所述第一样本集合、第一验证集和第一测试集;所述第一验证集用于针对所述第一分类任务训练后的所述分类模型进行优化,所述第一测试集用于针对所述第一分类任务优化后的所述分类模型进行测试。其中,第一样本集合可以称为第一训练集,上述第一预设比例为预先设定的第一训练集、第一验证集和第一测试集各自包含训练样本数的比值,例如,第一预设比例为6:2:2,或7:1:1。
[0049] 在一个示例中,所述样本输入为文本数据;先获取所述第一领域的原始文本数据;然后将所述原始文本数据去除字母、数字、标点符号和表情符号中的至少一项后,得到所述第一样本集合中的样本输入。可以理解的是,字母、数字、标点符号和表情符号为不具有实际意义的内容,对于分类没有帮助,具体可以根据第一分类任务来设定需要去除的内容。
[0050] 接着在步骤22,获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系。可以理解的是,通常可以采用第二样本集合中的训练样本,针对第二分类任务训练分类模型。
[0051] 在一个示例中,所述第一领域和所述第二领域的数据分布不同。甚至于数据分布差异极大。
[0052] 在一个示例中,所述第一分类任务和所述第二分类任务均为二分类任务。
[0053] 在一个示例中,所述第一领域为用户反馈;所述第一分类任务为确定用户反馈数据是否与隐私相关;例如,目标应用提供了用户反馈意见的平台,可以从该平台获取用户反馈数据,通过分析该用户反馈数据可以确定用户是否反馈的是自己的隐私被侵犯相关信息。所述第二领域为外部媒介;例如,目标应用之外的其他应用,上述其他应用可以为微博等网络平台,所述第二分类任务为确定外部媒介数据是否与隐私相关,上述外部媒介数据可以为用户分享的数据,通过分析该外部媒介数据可以确定用户是否分享的是自己的隐私被侵犯相关信息。该示例中,虽然第一领域和第二领域的数据分布差异极大,但是第一分类任务和第二分类任务的目标是一致的,可以通过第一分类任务的类别标签确定第二分类任务的类别标签,或者通过第二分类任务的类别标签确定第一分类任务的类别标签。
[0054] 需要说明的是,上述映射关系不一定是一一对应的,可以包括一对一的映射关系,一对多的映射关系,或者多对一的映射关系。相应的,所述第一分类任务和所述第二分类任务的分类的类别数可以相同也可以不同。
[0055] 然后在步骤23,将所述第二样本集合中的多个所述第二训练样本加入所述第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合。可以理解的是,该步骤将第二领域的训练样本用于扩充第一领域的训练样本,从而增强了训练数据的特征分布。
[0056] 最后在步骤24,将所述第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型。可以理解的是,训练分类模型的过程就是调整分类模型的模型参数的过程,可以基于交叉熵损失函数等损失函数训练分类模型。
[0057] 在一个示例中,所述针对所述第一分类任务训练所述分类模型之后,获取所述第一领域的待分类样本;将所述第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别。
[0058] 在另一个示例中,所述针对所述第一分类任务训练所述分类模型之后,将所述第一样本集合中的多个所述第一训练样本加入所述第二样本集合,并根据所述映射关系,将所述第一训练样本包括的所述第一分类任务的类别标签转换为所述第二分类任务的类别标签,得到第四样本集合;将所述第四样本集合中的样本输入输入所述分类模型,通过所述分类模型输出该样本输入对应的第二预测值,将所述第二预测值与该样本输入对应的所述第二分类任务的类别标签对比,以针对所述第二分类任务训练所述分类模型。
[0059] 进一步地,将所述第二领域的各第二备选训练样本按照第二预设比例划分为所述第二样本集合、第二验证集和第二测试集;所述第二验证集用于针对所述第二分类任务训练后的所述分类模型进行优化,所述第二测试集用于针对所述第二分类任务优化后的所述分类模型进行测试。
[0060] 进一步地,所述针对所述第二分类任务训练所述分类模型之后,获取所述第一领域的待分类样本;将所述第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别;或者,获取所述第二领域的待分类样本;将所述第二领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第二分类任务,输出所述第二分类任务的预测类别。可以理解的是,同一分类模型既可以用于实现第一分类任务,也可以用于实现第二分类任务。
[0061] 通过本说明书实施例提供的方法,在针对第一分类任务训练分类模型时,不仅利用了第一分类任务对应的第一训练样本,还增加了第二分类任务对应的第二训练样本,由于第一训练样本和第二训练样本来自于不同的领域,因此相当于增强了第一分类任务对应样本空间的特征分布,从而使得训练后的分类模型获得更高的精确度和召回率,能够提升分类模型的训练效果。
[0062] 根据另一方面的实施例,还提供一种分类模型的训练装置,该装置用于执行本说明书实施例提供的分类模型的训练方法。图3示出根据一个实施例的分类模型的训练装置的示意性框图。如图3所示,该装置300包括:
[0063] 第一获取单元31,用于获取第一领域的第一样本集合,所述第一样本集合包括多个第一训练样本,每个所述第一训练样本包括样本输入和该样本输入对应的第一分类任务的类别标签;
[0064] 第二获取单元32,用于获取第二领域的第二样本集合,所述第二样本集合包括多个第二训练样本,每个所述第二训练样本包括样本输入和该样本输入对应的第二分类任务的类别标签;所述第一分类任务的类别标签与所述第二分类任务的类别标签具有映射关系;
[0065] 第一扩充单元33,用于将所述第二获取单元32获取的第二样本集合中的多个所述第二训练样本加入所述第一获取单元31获取的第一样本集合,并根据所述映射关系,将所述第二训练样本包括的所述第二分类任务的类别标签转换为所述第一分类任务的类别标签,得到第三样本集合;
[0066] 第一训练单元34,用于将所述第一扩充单元33得到的第三样本集合中的样本输入输入待训练的分类模型,通过所述分类模型输出该样本输入对应的第一预测值,将所述第一预测值与该样本输入对应的所述第一分类任务的类别标签对比,以针对所述第一分类任务训练所述分类模型。
[0067] 可选地,作为一个实施例,所述第一获取单元31,具体用于将所述第一领域的各第一备选训练样本按照第一预设比例划分为所述第一样本集合、第一验证集和第一测试集;所述第一验证集用于针对所述第一分类任务训练后的所述分类模型进行优化,所述第一测试集用于针对所述第一分类任务优化后的所述分类模型进行测试。
[0068] 可选地,作为一个实施例,所述第一领域和所述第二领域的数据分布不同。
[0069] 可选地,作为一个实施例,所述第一分类任务和所述第二分类任务均为二分类任务。
[0070] 可选地,作为一个实施例,所述装置还包括:
[0071] 第三获取单元,用于在所述第一训练单元针对所述第一分类任务训练所述分类模型之后,获取所述第一领域的待分类样本;
[0072] 第一分类单元,用于将所述第三获取单元获取的第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别。
[0073] 可选地,作为一个实施例,所述装置还包括:
[0074] 第二扩充单元,用于在所述第一训练单元34针对所述第一分类任务训练所述分类模型之后,将所述第一样本集合中的多个所述第一训练样本加入所述第二样本集合,并根据所述映射关系,将所述第一训练样本包括的所述第一分类任务的类别标签转换为所述第二分类任务的类别标签,得到第四样本集合;
[0075] 第二训练单元,用于将所述第二扩充单元得到的第四样本集合中的样本输入输入所述分类模型,通过所述分类模型输出该样本输入对应的第二预测值,将所述第二预测值与该样本输入对应的所述第二分类任务的类别标签对比,以针对所述第二分类任务训练所述分类模型。
[0076] 进一步地,所述第二获取单元32,具体用于将所述第二领域的各第二备选训练样本按照第二预设比例划分为所述第二样本集合、第二验证集和第二测试集;所述第二验证集用于针对所述第二分类任务训练后的所述分类模型进行优化,所述第二测试集用于针对所述第二分类任务优化后的所述分类模型进行测试。
[0077] 进一步地,所述装置还包括:
[0078] 第四获取单元,用于在所述第二训练单元针对所述第二分类任务训练所述分类模型之后,获取所述第一领域的待分类样本;
[0079] 第二分类单元,用于将所述第四获取单元获取的第一领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第一分类任务,输出所述第一分类任务的预测类别;或者,
[0080] 第五获取单元,用于获取所述第二领域的待分类样本;
[0081] 第三分类单元,用于将所述第五获取单元获取的第二领域的待分类样本输入所述分类模型,以使所述分类模型执行所述第二分类任务,输出所述第二分类任务的预测类别。
[0082] 可选地,作为一个实施例,所述样本输入为文本数据;所述第一获取单元31,具体用于:
[0083] 获取所述第一领域的原始文本数据;
[0084] 将所述原始文本数据去除字母、数字、标点符号和表情符号中的至少一项后,得到所述第一样本集合中的样本输入。
[0085] 可选地,作为一个实施例,所述第一领域为用户反馈;所述第一分类任务为确定用户反馈数据是否与隐私相关;所述第二领域为外部媒介;所述第二分类任务为确定外部媒介数据是否与隐私相关。
[0086] 通过本说明书实施例提供的装置,在针对第一分类任务训练分类模型时,不仅利用了第一分类任务对应的第一训练样本,还增加了第二分类任务对应的第二训练样本,由于第一训练样本和第二训练样本来自于不同的领域,因此相当于增强了第一分类任务对应样本空间的特征分布,从而使得训练后的分类模型获得更高的精确度和召回率,能够提升分类模型的训练效果。
[0087] 根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
[0088] 根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
[0089] 本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用
硬件、
软件、
固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
[0090] 以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的
基础之上,所做的任何
修改、等同替换、改进等,均应包括在本发明的保护范围之内。