首页 / 专利库 / 人工智能 / 情感识别 / 基于弱监督技术主动学习的智能标注方法、装置及平台

基于弱监督技术主动学习的智能标注方法、装置及平台

阅读:106发布:2020-05-12

专利汇可以提供基于弱监督技术主动学习的智能标注方法、装置及平台专利检索,专利查询,专利分析的服务。并且本 发明 实施例 公开了一种基于弱监督技术主动学习的智能标注方法、装置及平台,方法包括:获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据;选择 机器学习 模型和对应的模型参数配置,根据所述模型参数配置和所述标注数据对所述机器学习模型进行训练;若判断训练结果满足验证条件,则完成所述机器学习模型的训练;通过特定的标注方式对待标注数据进行数据标注,并根据选择的模型参数配置和标注数据对选择的机器学习模型进行训练,用户无需手工逐条标注数据,可通过弱监督方式生成大量标注数据,同时主动学习使用户尽可能用最小量标注的代价,达到优秀的模型效果。,下面是基于弱监督技术主动学习的智能标注方法、装置及平台专利的具体信息内容。

1.一种基于弱监督技术主动学习的智能标注方法,其特征在于,包括:
获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据;
选择机器学习模型和对应的模型参数配置,根据所述模型参数配置和所述标注数据对所述机器学习模型进行训练;
若判断训练结果满足验证条件,则完成所述机器学习模型的训练;
其中,所述标注方法包括以下至少一种:标签分类方式、粗细粒度的情感识别方式、序列识别方式、结构化信息方式和序列生成方式;
所述序列识别方式包括以下至少一种:实体识别方式、分词识别方式和词性识别方式;
所述结构化信息方式包括以下至少一种:关系识别方式、句法分析方式、语义分析方式、事件抽取方式和多轮对话方式,所述多轮对话方式是具有上下文的结构化信息方式;
所述序列生成方式包括以下至少一种:机器翻译方式、文本摘要方式和文本生成方式。
2.根据权利要求1所述的基于弱监督技术主动学习的智能标注方法,其特征在于,所述获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据,具体包括:
若根据所述标注方式无法对所述待标注数据进行数据标注,则生成待标注提示信息,接收输入设备输入的标注信息,并根据所述标注信息得到标注数据。
3.根据权利要求1所述的基于弱监督技术主动学习的智能标注方法,其特征在于,所述根据所述结构化信息方式对所述待标注数据进行数据标注,具体包括:
根据所述标注方式进入语料集逐条对所述待标注数据进行数据标注;或,根据所述标注方式选择远程监督和人工规则的弱监督学习方法对所述待标注数据进行非精确标注;或,
根据所述标注方式通过语料搜索对所述待标注数据进行数据标注。
4.根据权利要求1所述的基于弱监督技术主动学习的智能标注方法,其特征在于,所述获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据之前,还包括:
根据主动学习方法或者弱监督学习方法生成所述待标注数据。
5.根据权利要求1所述的基于弱监督技术主动学习的智能标注方法,其特征在于,所述若判断训练结果满足验证条件,则完成所述机器学习模型的训练之后,还包括:
根据所述训练结果和验证结果评估训练完成的机器学习模型的性能指标:
其中,所述性能指标包括:准确率和/或召回率。
6.一种基于弱监督技术主动学习的智能标注装置,其特征在于,包括:
数据标注模,用于获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据;
模型训练模块,用于选择机器学习模型和对应的模型参数配置,根据所述模型参数配置和所述标注数据对所述机器学习模型进行训练;
结果验证模块,用于若判断训练结果满足验证条件,则完成所述机器学习模型的训练;
其中,所述标注方法包括以下至少一种:标签分类方式、粗细粒度的情感识别方式、序列识别方式、结构化信息方式和序列生成方式;
所述序列识别方式包括以下至少一种:实体识别方式、分词识别方式和词性识别方式;
所述结构化信息方式包括以下至少一种:关系识别方式、句法分析方式、语义分析方式、事件抽取方式和多轮对话方式,所述多轮对话方式是具有上下文的结构化信息方式;
所述序列生成方式包括以下至少一种:机器翻译方式、文本摘要方式和文本生成方式。
7.根据权利要求6所述的基于弱监督技术主动学习的智能标注装置,其特征在于,所述数据标注模块具体用于:
若根据所述标注方式无法对所述待标注数据进行数据标注,则生成待标注提示信息,接收输入设备输入的标注信息,并根据所述标注信息得到标注数据。
8.一种基于弱监督技术主动学习的智能标注平台,其特征在于,包括如权利要求6或7所述的基于弱监督技术主动学习的智能标注装置。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一所述的基于弱监督技术主动学习的智能标注方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一所述的基于弱监督技术主动学习的智能标注方法。

说明书全文

基于弱监督技术主动学习的智能标注方法、装置及平台

技术领域

[0001] 本发明涉及计算机技术领域,具体涉及一种基于弱监督技术主动学习的智能标注方法、装置及平台。

背景技术

[0002] 随着数据量的急剧增多,AI技术发展迅速,而机器学习是AI发展到一定阶段的必然产物。机器学习是通过计算的手段,从大量数据中挖掘有价值的潜在信息。在机器学习领域,往往通过将经验数据提供给机器学习算法来训练机器学习模型以确定构成机器学习模型的理想参数,而训练好的机器学习模型可被应用于在面对新的预测数据时提供相应的预测结果。
[0003] 近年来,由于数据爆炸式增长以及计算的提升,深度学习技术已经成为当前人工智能领域的一个研究热点,其已在图像识别语音识别自然语言处理等领域展现出了巨大的优势,并且仍在继续发展变化。
[0004] 虽然深度学习使得诸多领域取得突破性进展,但是仍然存在一些局限。目前,依赖大规模标注数据的有监督的深度学习仍然占据主导地位。一方面,大规模标注数据的获取受到人工成本与时间成本的限制:真实世界存在着海量未标注数据,将这些数据逐一添加人工标签,显然是不现实的。另一方面,很多机器学习任务需要相关专业人士参与才能完成,单纯业务人员无法独立完成机器学习任务。
[0005] 虽然机器学习模型的应用越来越广泛,但是由于机器学习模型的实现比较复杂,需要开发人员根据概率统计、机器算法等进行编码,然后,对编写的代码进行反复训练,才能得到机器学习模型。

发明内容

[0006] 由于现有方法存在上述问题,本发明实施例提出一种基于弱监督技术主动学习的智能标注方法、装置及平台。
[0007] 第一方面,本发明实施例提出一种基于弱监督技术主动学习的智能标注方法,包括:
[0008] 获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据;
[0009] 选择机器学习模型和对应的模型参数配置,根据所述模型参数配置和所述标注数据对所述机器学习模型进行训练;
[0010] 若判断训练结果满足验证条件,则完成所述机器学习模型的训练;
[0011] 其中,所述标注方法包括以下至少一种:标签分类方式、粗细粒度的情感识别方式、序列识别方式、结构化信息方式和序列生成方式;
[0012] 所述序列识别方式包括以下至少一种:实体识别方式、分词识别方式和词性识别方式;
[0013] 所述结构化信息方式包括以下至少一种:关系识别方式、句法分析方式、语义分析方式、事件抽取方式和多轮对话方式,所述多轮对话方式是具有上下文的结构化信息方式;
[0014] 所述序列生成方式包括以下至少一种:机器翻译方式、文本摘要方式和文本生成方式。
[0015] 可选地,所述获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据,具体包括:
[0016] 若根据所述标注方式无法对所述待标注数据进行数据标注,则生成待标注提示信息,接收输入设备输入的标注信息,并根据所述标注信息得到标注数据。
[0017] 可选地,所述根据所述标注方式对所述待标注数据进行数据标注,具体包括:
[0018] 根据所述标注方式进入语料集逐条对所述待标注数据进行数据标注;或,[0019] 根据所述标注方式选择远程监督和人工规则的弱监督学习方法对所述待标注数据进行非精确标注;或,
[0020] 根据所述标注方式通过语料搜索对所述待标注数据进行数据标注。
[0021] 可选地,所述获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据之前,还包括:
[0022] 根据主动学习方法或者弱监督学习方法生成所述待标注数据。
[0023] 可选地,所述若判断训练结果满足验证条件,则完成所述机器学习模型的训练之后,还包括:
[0024] 根据所述训练结果和验证结果评估训练完成的机器学习模型的性能指标:
[0025] 其中,所述性能指标包括:准确率和/或召回率。
[0026] 第二方面,本发明实施例还提出一种基于弱监督技术主动学习的智能标注装置,包括:
[0027] 数据标注模,用于获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据;
[0028] 模型训练模块,用于选择机器学习模型和对应的模型参数配置,根据所述模型参数配置和所述标注数据对所述机器学习模型进行训练;
[0029] 结果验证模块,用于若判断训练结果满足验证条件,则完成所述机器学习模型的训练;
[0030] 其中,所述标注方法包括以下至少一种:标签分类方式、粗细粒度的情感识别方式、序列识别方式、结构化信息方式和序列生成方式;
[0031] 所述序列识别方式包括以下至少一种:实体识别方式、分词识别方式和词性识别方式;
[0032] 所述结构化信息方式包括以下至少一种:关系识别方式、句法分析方式、语义分析方式、事件抽取方式和多轮对话方式,所述多轮对话方式是具有上下文的结构化信息方式;
[0033] 所述序列生成方式包括以下至少一种:机器翻译方式、文本摘要方式和文本生成方式。
[0034] 可选地,所述数据标注模块具体用于:
[0035] 若根据所述标注方式无法对所述待标注数据进行数据标注,则生成待标注提示信息,接收输入设备输入的标注信息,并根据所述标注信息得到标注数据。
[0036] 可选地,所述数据标注模块具体用于:
[0037] 根据所述标注方式进入语料集逐条对所述待标注数据进行数据标注;或,[0038] 根据所述标注方式选择远程监督和人工规则的弱监督学习方法对所述待标注数据进行非精确标注;或,
[0039] 根据所述标注方式通过语料搜索对所述待标注数据进行数据标注。
[0040] 可选地,所述基于弱监督技术主动学习的智能标注装置还包括:
[0041] 数据生成模块,用于根据主动学习方法或者弱监督学习方法生成所述待标注数据。
[0042] 可选地,所述基于弱监督技术主动学习的智能标注装置还包括:
[0043] 指标评估模块,用于根据所述训练结果和验证结果评估训练完成的机器学习模型的性能指标:
[0044] 其中,所述性能指标包括:准确率和/或召回率。
[0045] 第三方面,本发明实施例还提出一种基于弱监督技术主动学习的智能标注平台,包括上述基于弱监督技术主动学习的智能标注装置。
[0046] 第四方面,本发明实施例还提出一种电子设备,包括:
[0047] 至少一个处理器;以及
[0048] 与所述处理器通信连接的至少一个存储器,其中:
[0049] 所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述方法。
[0050] 第五方面,本发明实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述方法。
[0051] 由上述技术方案可知,本发明实施例通过特定的标注方式对待标注数据进行数据标注,并根据选择的模型参数配置和标注数据对选择的机器学习模型进行训练,用户无需手工逐条标注数据,可通过弱监督方式生成大量标注数据,同时主动学习使用户尽可能用最小量标注的代价,达到优秀的模型效果。附图说明
[0052] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
[0053] 图1为本发明一实施例提供的一种基于弱监督技术主动学习的智能标注方法的流程示意图;
[0054] 图2为本发明另一实施例提供的一种基于弱监督技术主动学习的智能标注方法的流程示意图;
[0055] 图3为本发明一实施例提供的一种基于弱监督技术主动学习的智能标注装置的结构示意图;
[0056] 图4为本发明一实施例提供的电子设备的逻辑框图

具体实施方式

[0057] 下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0058] 图1示出了本实施例提供的一种基于弱监督技术主动学习的智能标注方法的流程示意图,包括:
[0059] S101、获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据。
[0060] 其中,所述标注方法包括以下至少一种:标签分类方式、粗细粒度的情感识别方式、序列识别方式、结构化信息方式和序列生成方式;
[0061] 所述序列识别方式包括以下至少一种:实体识别方式、分词识别方式和词性识别方式;
[0062] 所述结构化信息方式包括以下至少一种:关系识别方式、句法分析方式、语义分析方式、事件抽取方式和多轮对话方式,所述多轮对话方式是具有上下文的结构化信息方式;
[0063] 所述序列生成方式包括以下至少一种:机器翻译方式、文本摘要方式和文本生成方式。
[0064] 所述标注数据为进行机器学习模型训练用的数据,可以为文本数据,也可以为语音、图像或视频,本实施例不对标注数据的具体类型做限定。
[0065] S102、选择机器学习模型和对应的模型参数配置,根据所述模型参数配置和所述标注数据对所述机器学习模型进行训练。
[0066] 具体地,根据实际需求选择对应的初始的机器学习模型,以及改机器学习模型的模型参数配置,使用模型参数配置和标注数据通过自动化方式进行自动化训练。
[0067] S103、若判断训练结果满足验证条件,则完成所述机器学习模型的训练。
[0068] 具体地,没完成一次模型的训练,需要对训练结果进行验证,当训练结果满足验证条件时,此时即完成了机器学习模型的训练。
[0069] 由于我们可以轻易地获取海量未标注数据,如果算法能够从未标注数据中学习,自动生成结构化数据,结合低成本少量标注数据,那么就节省了巨大的人工成本与时间成本。弱监督和自学习就是这种的算法。尽管一个单一的未标注样本蕴含的信息比一个已标注样本要少,但是如果获取海量未标注数据(比如从互联网上下载随机的、无标注的图像、音频剪辑或者是文本),并且算法能够有效的利用它们,那么相比大规模的手工构建特征和标注数据,算法将会取得更好的性能。
[0070] 因此,开发面向数据的智能标注系统,从海量未标注数据中自动挖掘有价值的目标信息,利用低成本标注数据取得良好的模型效果,并大幅度地提升模型的精简性、通用性和适应性,实现(极)弱监督与自学习方法成为当下研究的热点。
[0071] 智能标注系统研究意义:
[0072] 1)集数据收集、数据处理和自动标注为一体,帮助用户从海量未标注数据中自动挖掘有价值的目标信息,方便快速获取结构化标注数据,极大程度上节省了人力成本。
[0073] 2)基于弱监督方法,利用少量标注数据取得良好的模型效果,结合预学习、迁移学习、增量学习、渐进学习、迭代学习等自学习方法,模型具有精简性、通用性和适应性。
[0074] 3)业务人员无需人工智能人员的帮助可以独立完成相关的任务。
[0075] 本实施例通过特定的标注方式对待标注数据进行数据标注,并根据选择的模型参数配置和标注数据对选择的机器学习模型进行训练,完成机器学习模型的训练,无需开发人员编写代码反复训练,实现过程快速、简便;且通过对训练结果进行验证,提高了模型的训练效果,用户无需手工逐条标注数据,可通过弱监督方式生成大量标注数据,同时主动学习使用户尽可能用最小量标注的代价,达到优秀的模型效果。
[0076] 进一步地,在上述方法实施例的基础上,S101具体包括:
[0077] 若根据所述标注方式无法对所述待标注数据进行数据标注,则生成待标注提示信息,接收输入设备输入的标注信息,并根据所述标注信息得到标注数据。
[0078] 具体地,为了让机器学习模型的泛化能力更强更好,需要对部分无法自动化标注的语料进行外部标注,以进一步验证机器学习模型的泛化能力。
[0079] 进一步地,在上述方法实施例的基础上,S101中所述根据所述标注方式对所述待标注数据进行数据标注,具体包括:
[0080] 根据所述标注方式进入语料集逐条对所述待标注数据进行数据标注;或,[0081] 根据所述标注方式选择远程监督和人工规则的弱监督学习方法对所述待标注数据进行非精确标注;或,
[0082] 根据所述标注方式通过语料搜索对所述待标注数据进行数据标注。
[0083] 通过不同的方式对待标注数据进行标注,能够针对不同的情形选择不同的方法,进一步提高标注的准确度和速度。
[0084] 进一步地,在上述方法实施例的基础上,S101之前,还包括:
[0085] 根据主动学习方法或者弱监督学习方法生成所述待标注数据。
[0086] 具体地,通过主动学习方法或弱监督学习方法,能够生成更为精确的待标注数据。
[0087] 进一步地,在上述方法实施例的基础上,S103之后,还包括:
[0088] 根据所述训练结果和验证结果评估训练完成的机器学习模型的性能指标:
[0089] 其中,所述性能指标包括:准确率和/或召回率。
[0090] 具体地,训练完成后会得到模型在该语料集上的性能指标以及对应的错误分析,如果训练模型达到设定好的性能指标(例如准确率、召回率、F1等),则标注和模型训练停止。
[0091] 具体地,本实施例提供的机器学习模型处理方法能够通过机器学习模型处理平台来执行,如图2所示,包括创建任务、语料获取、主动学习、人工标注、模型训练和模型管理等。其涉及的具体功能模块包括用户管理模块、任务管理模块、标签类别管理模块、语料集管理模块、训练模块、模型测试模块、模型预测模块、模型管理模块、服务器状态管理模块等部分组成。
[0092] 其中,用户管理模块:创建用户并设置权限。
[0093] 任务管理模块:用户创建项目任务并对项目进行阐述。
[0094] 标签类别管理模块:用于展示出所述待标注数据的标注方式。目前平台支持标签分类、粗细粒度的情感识别、序列识别、结构化信息和序列生成。
[0095] 语料集管理模块:根据标签类别管理模块所述标注方式对待标注数据进行数据标注,得到标注数据。目前此模块下包含三大功能:离线数据上传、在线数据上传、语料搜索,其中离线数据上传包含txt、json、zip等文件格式。
[0096] 训练模块:可以选择机器学习模型和深度学习模型以及对应模型参数配置,用于模型调优,通过训练结果和验证结果评估模型在该数据集上的性能指标(例如准确率、召回率、F1等)。
[0097] 模型测试模块:为了让模型的泛化能力更强更好,人工需要标注一些机器未见过的语料,验证模型的泛化能力;同时支持和线上模型进行对比。
[0098] 模型预测模块:使用主动学习或者弱监督学习方法生成预标注数据。
[0099] 模型管理模块:用于记录模型信息以及发布和导出。
[0100] 服务器状态管理模块:用于管理内存、GPU等资源状态。
[0101] 以下对上述模块进行详细描述:
[0102] (1)任务管理模块
[0103] 具体地,任务管理模块的功能主要包括创建任务和确定任务所属标注类别。在创建任务时,业务名称跟业务需求相关,如广告违法、图片分类、语音识别。另外,任务所属标注类型包括:标签分类、粗细粒度的情感识别、序列识别、结构化信息方式和序列生成。
[0104] 在实际使用过程中,首先账户登录,用后台通用的模式,导航有“我的任务”、“帮助中心”;然后新建任务:点击新建任务按钮弹框显示对应要素任务名称、任务描述,填写完后点击创建任务则展示在任务列表第一行;并可通过我的任务列表进行任务查看。
[0105] (2)标签类别管理模块
[0106] 具体地,标签类别管理模块用于对每个标签分类(即子任务),支持任务和子任务的整体和分开标注,同时能够以子任务或子任务组合为单位进行后续语料标注和模型训练。
[0107] 在实际使用过程中,通过对应左导航“标签管理”进行操作。标签类别管理包括以下两项内容:
[0108] 列表字段:名称、标签类别、操作(删除);标签类别包括单标签标注、多标签标注、序列标注(如实体识别)和关系四种类别,标签类别可以进行单选,点击删除则删掉整条信息;
[0109] 新增标签分类:弹框提示,输入分类名称,选择标注类型。点击确认后列表最上面增加一行。
[0110] 另外,标签类别管理模块包括标签管理子模块,每个标签分类(即子任务)下设置具体要标注的值,对应左导航“标签管理”。在某标签类别下,支持标签新增、选中删除、直接编辑修改、搜索(关键词模糊)。例如,标签新增:支持同时多只标签输入,英文逗号字符隔开。
[0111] (3)语料集管理模块
[0112] 具体地,语料集管理模块包括四部分功能:离线数据上传、语料搜索、在线数据上传和语料标注:
[0113] 离线数据上传支持线下整理预备标注的语料(可含标注信息),导入到线上。例如,在某个任务下操作时:语料集维护--->对应左导航的语料样本集。新建语料集时,点击新建语料样本集,弹框显示对应要素,然后输入语料集名称,输入样本集来源,并上传文件,支持导入排重(默认选中);最后填写完后点击确认则展示在语料集列表第一行。
[0114] 语料搜索支持通过搜索的方式来对语料集的语料进行查询、汇总和标注。例如,在语料集管理页面点击“语料搜索按钮”进入语料搜索页,通过对话样本集/语料进行搜索。
[0115] 在线数据上传支持关键词全网(新闻、新闻标题、报告摘要、报告全文)搜索语料并导入到语料集。具体地,通过对话样本集/检索生成语料。在导入到语料集时,首先选择要导入的语料集(对应已建好的语料集列表),点击确认则导入到对应的语料集中,对应语料集的标注进度数据发生变化;然后输入语料条数,默认展示10000,导入前若干条。
[0116] 语料标注可以进行多任务标注,支持任务下各子任务同时标注,可先分别标好各子任务,然后所有子任务同时在一个界面审核并修改。其功能包括以下四类:
[0117] A分类:支持修改、同意(同步机器预测值);
[0118] B分类:支持修改、同意(同步机器预测值);
[0119] ner:修改、删除;
[0120] 综合:对勾按钮把信息一起提交,进入下一条;删除按钮整体删除该条,在各子任务删除时要提示“删除该条语料后,则在其他子任务下也将同步删除”。
[0121] 需要注意的是,点击对勾分两种情况,有人工标注值则不同步机器预测信息,无人工标注值则同步机器预测信息。
[0122] 可对语料标注进行统计,支持标注进度和标注统计。其中,标注进度:在该页面点击对勾来计算,另外各子任务里都标注过算;标注统计:分子任务展示,全部和子任务之间切换则对应切换标签。
[0123] 可对语料标注筛选,支持任务筛选和标签值筛选。其中,任务筛选:全部+各子任务下来列表筛选,选中某个子任务所有的信息都是该子任务的;标签值筛选:人工标注、机器预测筛选里区分任务。
[0124] 可进行分类标注和主动学习策略,支持单标签分类(标签值单选)和多标签分类(标签值多选)任务的标注。一般语料都会进行机器预测然后审核标注,提高效率,对语料来说如果没有机器预测就直接标注,如果有机器预测则修改或直接确认已标注信息,如下主要针对有机器预测信息的说明。
[0125] 可对机器标注方式进行排序,机器预测结果支持置信度,表示性、随机、综合策略四种机器标注方式,默认是按综合策略值倒序排序。
[0126] 可对语料进行筛选,语料标注、语料审核,标注标签筛选(对人工标注信息进行筛选,支持模糊搜索)、预测标签筛选(对机器预测信息进行筛选,支持模糊搜索)。
[0127] 可展示语料标注进度(人工标注为准),共几条,已标注几条,未标注几条,在对话样本集也同步标注进度。
[0128] 可标注分布统计:预测语料集内已标注语料在各标签的分布。
[0129] 可语料展示区:语料可滚动展示,语料可能长可能短,组件可拉长或缩短。
[0130] 可通过电脑快捷键(左箭头、右箭头)进行上一条和下一条的切换;页面上的左右标识进行上一条下一条切换。
[0131] 如果是对预测语料有预测模型,预测模型覆盖只展示最近一个模型,并展示模型名称。
[0132] 在进行标注操作时:机器预测值右边有修改按钮,点击修改弹框展示标签值,并可设置弹框一直悬浮;选中标签或者模糊搜索选标签再选中;修改标注后自动进入到下一条语料;点击确认:在机器预测有值的情况下点对号同步到人工标注值处。
[0133] 可点击删除,并提示删除掉该条语料。
[0134] 另外,序列标注支持语料中对词的标注。一般语料都会进行机器预测然后审核标注,提高效率,对语料来说如果没有机器预测就直接标注,如果有机器预测则修改或直接确认已标注信息,如下主要针对有机器预测信息的说明。
[0135] 机器标注方式排序时,机器预测结果支持置信度,表示性、随机、综合策略四种主动学习的机器标注方式,默认是综合策略,对于一段语料多个实体,默认按语料里实体里对应最小值的来倒序排序。
[0136] 预测结果默认复制机器预测的结果,支持人工直接修改。
[0137] 以标注信息为例,可以包括以下三种情况:
[0138] 机器预测;
[0139] 人工标注,删掉机器预测值重标,或者直接选中标;
[0140] 人工标注和机器预测重合,针对已有人工标注值又重新模型预测,且重合的场景。
[0141] 在使用按钮操作时,对勾按钮把信息一起提交,进入下一条(但在语料上不体现);删除按钮整体删除该条。
[0142] 分实体标注时,机器预测按实体筛选(显示已标注/总数进度),在各实体分类下标注,语料里只展示对应的实体标注信息,点对勾即同步机器预测值直接进入下一条(但在语料上不体现),点删除时要提示“删除该条语料后,则在其他相关实体列表下也将同步删除”。
[0143] 关系标注支持语料中词的关系的标注,建议一个关系建一个子任务来标注,避免混乱。一般语料都会进行机器预测然后审核标注,提高效率,对语料来说如果没有机器预测就直接标注,如果有机器预测则修改或直接确认已标注信息,如下主要针对有机器预测信息的说明:关系标注(ner+分类)时,首先对机器标注方式排序,然后进行标注操作,最后操作按钮:
[0144] 对机器标注方式排序:机器预测结果支持置信度,表示性、随机、综合策略四种机器标注方式,默认是综合策略,对于一段语料多个关系示例,默认按实际例子的最小值来倒序排序;
[0145] 标注操作:先完成ner标注,从一个ner实体连到另外一个ner实体,并且选中关系标签则完成标注;删除实体词则其附属关系同步删除;
[0146] 按钮:对勾同步机器预测值进入下一条,点击修改选择关系类别,点击删除删掉语料;删除实体词则其附属关系同步删除。
[0147] (4)模型训练模块
[0148] 具体地,模型训练模块在选择语料集、选择要训练的子任务组合,进行模型参数配置然后运行,对应左导航“训练设置”,可以实现1、标签切换机器学习、深度学习并进行对应配置,以及进行机器学习和深度学习。
[0149] 在进行机器学习和深度学习的过程中,可以执行以下步骤:
[0150] 语料集选择:支持筛选,选中在在下面展示;
[0151] 数据集划分比例:训练集/验证集,有个默认值和支持自定义输入;
[0152] 业务模型选择:对应标签分类里的各个子任务,按类型分别展示,支持多选;
[0153] 模型选择:机器学习SVM等,深度学习textcnn、LSTM和transformer等;
[0154] 高级设置默认隐藏,可点击展开:预处理、分词工具、特征工程;
[0155] 训练并生效新模型,点击进入训练结果页。
[0156] 对于分类训练结果,模型训练完成后展示衡量模型及其标签值的指标和错误分析,对应左导航“训练结果”。一个模型支持多个子任务输出:子任务点击查看,不同子任务可以切换。其训练结果包括以下内容:
[0157] 训练进度:训练中、训练完成、训练故障等状态展示,某一时间展示某一状态,训练故障后产品页面提示用户训练失败以及可能的原因和解决方法,如果是训练中或训练故障状态,不会展示具体的训练结果;
[0158] 模型整体准确率,召回率;
[0159] 分类报告、混淆矩阵;
[0160] 标签混淆排行:人工标注和机器预测的错误分析。
[0161] 以序列标注(NER)为例,其训练结果对应左导航“训练结果”。一个模型支持多个子任务输出:子任务点击查看,不同子任务可以切换。其训练结果包括以下内容:
[0162] 训练进度:训练中、训练完成、训练故障等状态展示,某一时间展示某一状态,训练故障后产品页面提示用户训练失败以及可能的原因和解决方法,如果是训练中或训练故障状态,不会展示具体的训练结果;
[0163] 模型整体准确率,召回率;
[0164] 分类报告;
[0165] 错误分析。
[0166] (5)模型测试模块
[0167] 具体地,模型测试模块用测试集语料来验证模型和跟已发布模型进行对比。将说明和样式同训练结果模型对比,用测试集语料来验证模型和跟已发布模型进行对比,来判断模型是否可以替换已发布模型。
[0168] (6)模型预测模块
[0169] 具体地,模型预测模块是通过已训练模型或规则模型对未标注语料进行机器预测,方便业务人员进行审核标注,提高标注效率。标注和模型不断迭代,规则模型先初始预测-->审核标注部分语料-->训练模型-->用已训练模型进行未标注语料预测-->再次审核标注-->训练模型,不断循环。
[0170] 弱监督学习(规则模型和远程监督)的规则模型说明如下:
[0171] 任务类型选择:展示标注任务和单选分类的任务。关键词规则中的字段:标签(支持搜索筛选)、全部包含、不包含、部分包含、正则表达式;关键词规则(a、b、c之间是且的关系):a、全部包含:里面的值是且的关系;b、不包含:对应的值是或的关系;c、部分包含:里面的值是或的关系;正则表达式:支持录入正则表达式;关键词规则和正则表达式之前是或的关系,符合关键词规则或者符合正则表达式规则的语料都会被选出来。
[0172] 远程监督模型(如序列标注)不同于传统意义上的人工标注语料,是一种用KB去对齐朴素文本的标注方法。对非精确的规则模型和远程监督等弱监督学习进行预测融合,对弱监督学习的预测值进行信心度估计。高信心度的数据更有可能被下游模型作为标注样本来训练模型。
[0173] (7)模型管理模块
[0174] 具体地,在模型管理模块中,所有已训练、已验证、已测试或规则模型运行过的模型都在此处展示和管理,并且在模型测试和预测环节可以选择,同时支持在线发布和离线发布。
[0175] (8)服务器状态管理模块
[0176] 具体地,服务器状态管理模块用于管理内存、GPU等资源状态。
[0177] 在机器学习模型处理平台的使用过程中,首先平台超级管理员开通用户并设置权限,用户登录之后要创建项目任务并对该项目进行阐述,进入该任务后,要在标签类别管理模块下创建标签标注体系,多个标注体系建立多个标签分类并创建标签,用户根据实际情况选择合适上传方式在语料集管理模块下上传语料集,然后对语料集进行标注,标注方式例如:进入该语料集逐条进行标注;进入模型预测模块中选择远程监督和人工规则等弱监督学习技术来对数据进行非精确标注;或者通过语料搜索进行标注。标注一批语料后,进入训练模块选择合适的学习模型进行训练,训练结束后会得到模型在该语料集上的性能指标以及对应的错误分析,如果训练模型达到设定好的性能指标(例如准确率、召回率、F1等),则标注停止。否则的话,需要使用该模型进行主动学习,综合置信度和表示性对未标注数据进行采样,标注人员仅对少量采样数据进行标注,然后使用这些采样好的数据,重新训练模型,直到模型性能指标满足要求。最后满足要求的模型,需要进入到模型管理模块中进行在线发布或者离线发布。
[0178] 传统的数据标注行业更像一个劳动密集型产业,主要是靠人工方式对文本、图片、语音、视频等数据进行标注,而这个过程往往是繁琐和低效率的。随着深度学习的日益发展,高精度模型依赖于大量的标注样本,这使得标注工作成为了很多人工智能应用的瓶颈。本实施例构建智能标注平台可以使得标注过程背后含有智能算法,将人工重复劳动降到最低;同时标注界面显而易见地友好,让标注操作尽可能简便和符合直觉。
[0179] 相比传统标注软件BRAT、世界最大的标注平台Amazon的Mechanic turk等,智能标注云平台有以下优点:
[0180] 从语料集来源看,传统标注软件仅支持离线数据上传,因为需要预先处理好对应该平台的格式数据才能上传并且进行标注。而智能标注云平台获取语料的途径有很多,一种是和传统标注平台一样支持离线数据上传,同时支持离线文件格式增加到txt、json、zip等格式文件;一种是实时数据上传,通过日志采集、通过API接口进行网络数据收集、通过爬虫进行网络数据收集等方法导入到平台;最后一种是通过第三方平台对接智能标注云平台数据库进行数据导入;
[0181] 从语料标注的人力投入来看,传统标注平台需要人工逐一标注所有数据,而深度学习模型往往需要大量的数据才能训练好一个高准确率的模型。而基于弱监督和主动学习的智能标注云平台仅需人工标注少量的数据,就可以自动生成大量高信心度的自动标注数据,大大节约了人工成本。
[0182] 智能标注云平台综合使用主动学习(active learning)和弱监督学习技术,集数据标注、模型训练、模型验证、模型测试、模型预测于一体。不需要工程师参与,业务标注人员可以高效标注数据,通过标注较少量的数据,实现高准确率的模型。平台支持标签分类方式、粗细粒度的情感识别方式、序列识别方式、结构化信息和序列生成方式的学习任务。
[0183] 智能标注云平台通过远程监督和人工规则等弱监督学习技术来对数据进行非精确标注。
[0184] 智能标注云平台通过标签融合和标签去噪的方式来综合各类弱标注信号,生成一批具有一定信心度的正负数据。
[0185] 智能标注云平台在已有标注数据(含人工标注和有信心度的通过弱监督学习标注好的数据)训练模型,使用该模型进行主动学习,综合置信度(confidence)和表示性(representative)对未标注数据进行采样,标注人员仅对少量采样数据进行标注,然后使用这些采样好的数据,重新训练模型。
[0186] 图3示出了本实施例提供的一种基于弱监督技术主动学习的智能标注装置的结构示意图,所述装置包括:数据标注模块301、模型训练模块302和结果验证模块303,其中:
[0187] 所述数据标注模块301用于获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据;
[0188] 所述模型训练模块302用于选择机器学习模型和对应的模型参数配置,根据所述模型参数配置和所述标注数据对所述机器学习模型进行训练;
[0189] 所述结果验证模块303用于若判断训练结果满足验证条件,则完成所述机器学习模型的训练;
[0190] 其中,所述标注方法包括以下至少一种:标签分类方式、粗细粒度的情感识别方式、序列识别方式、结构化信息方式和序列生成方式;
[0191] 所述序列识别方式包括以下至少一种:实体识别方式、分词识别方式和词性识别方式;
[0192] 所述结构化信息方式包括以下至少一种:关系识别方式、句法分析方式、语义分析方式、事件抽取方式和多轮对话方式,所述多轮对话方式是具有上下文的结构化信息方式;
[0193] 所述序列生成方式包括以下至少一种:机器翻译方式、文本摘要方式和文本生成方式。
[0194] 具体地,所述数据标注模块301获取待标注数据的标注方式,并根据所述标注方式对所述待标注数据进行数据标注,得到标注数据;所述模型训练模块302选择机器学习模型和对应的模型参数配置,根据所述模型参数配置和所述标注数据对所述机器学习模型进行训练;所述结果验证模块303若判断训练结果满足验证条件,则完成所述机器学习模型的训练。
[0195] 本实施例通过特定的标注方式对待标注数据进行数据标注,并根据选择的模型参数配置和标注数据对选择的机器学习模型进行训练,完成机器学习模型的训练,无需开发人员编写代码反复训练,实现过程快速、简便;且通过对训练结果进行验证,提高了模型的训练效果,用户无需手工逐条标注数据,可通过弱监督方式生成大量标注数据,同时主动学习使用户尽可能用最小量标注的代价,达到优秀的模型效果。
[0196] 进一步地,在上述装置实施例的基础上,所述数据标注模块301具体用于:
[0197] 若根据所述标注方式无法对所述待标注数据进行数据标注,则生成待标注提示信息,接收输入设备输入的标注信息,并根据所述标注信息得到标注数据。
[0198] 进一步地,在上述装置实施例的基础上,所述数据标注模块301具体用于:
[0199] 根据所述标注方式进入语料集逐条对所述待标注数据进行数据标注;或,[0200] 根据所述标注方式选择远程监督和人工规则的弱监督学习方法对所述待标注数据进行非精确标注;或,
[0201] 根据所述标注方式通过语料搜索对所述待标注数据进行数据标注。
[0202] 进一步地,在上述装置实施例的基础上,所述基于弱监督技术主动学习的智能标注装置还包括:
[0203] 数据生成模块,用于根据主动学习方法或者弱监督学习方法生成所述待标注数据。
[0204] 进一步地,在上述装置实施例的基础上,所述基于弱监督技术主动学习的智能标注装置还包括:
[0205] 指标评估模块,用于根据所述训练结果和验证结果评估训练完成的机器学习模型的性能指标:
[0206] 其中,所述性能指标包括:准确率和/或召回率。
[0207] 本实施例所述的基于弱监督技术主动学习的智能标注装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
[0208] 另外,本实施例还提供一种基于弱监督技术主动学习的智能标注平台,包括上述基于弱监督技术主动学习的智能标注装置。
[0209] 参照图4,所述电子设备,包括:处理器(processor)401、存储器(memory)402和总线403;
[0210] 其中,
[0211] 所述处理器401和存储器402通过所述总线403完成相互间的通信;
[0212] 所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法。
[0213] 本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
[0214] 本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。
[0215] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0216] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0217] 应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈