首页 / 专利库 / 人工智能 / 人工智能 / 通用人工智能 / 语义表示模型的处理方法、装置、电子设备及存储介质

语义表示模型的处理方法、装置、电子设备及存储介质

阅读:58发布:2020-05-21

专利汇可以提供语义表示模型的处理方法、装置、电子设备及存储介质专利检索,专利查询,专利分析的服务。并且本 申请 公开了语义表示模型的处理方法、装置、 电子 设备及存储介质,涉及 人工智能 技术领域。具体实现方案为:采集包括数条训练语料的训练语料集;采用所述训练语料集,基于词语 片段 、句子以及文章中的至少一种对语义表示模型进行训练。本申请中,通过构建词语片段、句子以及文章三个不同层级的无监督或弱监督预训练任务,使得语义表示模型可以从海量数据中学习到词语片段、句子以及文章不同层次的知识,增强了通用语义表示的能 力 ,提升NLP任务的处理效果。,下面是语义表示模型的处理方法、装置、电子设备及存储介质专利的具体信息内容。

1.一种语义表示模型的处理方法,其特征在于,包括如下步骤:
采集包括数条训练语料的训练语料集;
采用所述训练语料集,基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练;所述词语片段包括至少两个词语、短语或者实体,或者词语、短语以及实体中的至少两种类型的组合;
其中,采用所述训练语料集,基于词语片段对语义表示模型进行训练,包括如下至少一种:
采用所述训练语料集,基于所述词语片段的整体掩码,对所述语义表示模型进行训练;

采用所述训练语料集,训练所述语义表示模型,使其学习识别所述词语片段中的文字的正确顺序的能
2.根据权利要求1所述的方法,其特征在于,采用所述训练语料集,基于句子对语义表示模型进行训练,包括如下至少一种:
采用所述训练语料集,训练所述语义表示模型,使其学习预测包括多个被打乱顺序的片段的句子中的多个片段的正确顺序关系的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习根据上一句子的内容,预测下一句子的内容的能力。
3.根据权利要求1所述的方法,其特征在于,采用所述训练语料集,基于文章对语义表示模型进行训练,包括如下至少一种:
采用所述训练语料集,训练所述语义表示模型,使其学习识别文章中各段落的正确顺序的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习在文章中以段落为粒度的检索能力。
4.根据权利要求1-3任一所述的方法,其特在于,采用所述训练语料集,基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练之后,所述方法还包括:
采用所述训练语料集,基于词法、语法以及语义中的至少一种对语义表示模型进行训练。
5.根据权利要求4所述的方法,其特征在于,采用所述训练语料集,基于词法对语义表示模型进行训练,包括如下至少一种:
采用所述训练语料集,基于词语、短语和/或实体的掩码策略,对所述语义表示模型进行训练;
采用所述训练语料集,训练所述语义表示模型,使其学习分析不同语境下词汇的首字母是否需要大写的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习预测所述训练语料中的词汇是否在原文档的其他片段中出现的能力。
6.根据权利要求4所述的方法,其特征在于,采用所述训练语料集,基于语法对语义表示模型进行训练,包括如下至少一种:
采用所述训练语料集,训练所述语义表示模型,使其学习识别所述训练语料中不同片段的顺序关系的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习识别任意两个语句对的位置关系的能力。
7.根据权利要求4所述的方法,其特征在于,采用所述训练语料集,基于语义对语义表示模型进行训练,包括如下至少一种:
采用所述训练语料集,训练所述语义表示模型,使其学习识别连续两个语句间的逻辑关系的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习识别所述训练语料中的检索语句和网页主题之间相关性的能力。
8.根据权利要求5-7任一所述的方法,其特征在于,采用所述训练语料集,基于词法、语法以及语义中的至少一种对语义表示模型进行训练之后,所述方法包括:
基于预先采集的自然语言处理的任务语料集,对所述语义表示模型进行训练,得到相应的自然语言处理的任务模型;
基于所述自然语言处理的任务模型,执行所述自然语言处理的任务。
9.一种语义表示模型的处理装置,其特征在于,包括:
采集模,用于采集包括数条训练语料的训练语料集;
语义表示模型训练模块,用于采用所述训练语料集,基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练;所述词语片段包括至少两个词语、短语或者实体,或者词语、短语以及实体中的至少两种类型的组合;
所述语义表示模型训练模块,包括:词语片段训练单元、句子训练单元以及文章训练单元中的至少一个;
其中,所述词语片段训练单元,用于执行如下至少一种:
采用所述训练语料集,基于所述词语片段的整体掩码,对所述语义表示模型进行训练;

采用所述训练语料集,训练所述语义表示模型,使其学习识别所述词语片段中的文字的正确顺序的能力。
10.根据权利要求9所述的装置,其特征在于,所述句子训练单元,用于执行如下至少一种:
采用所述训练语料集,训练所述语义表示模型,使其学习预测包括多个被打乱顺序的片段的句子中的多个片段的正确顺序关系的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习根据上一句子的内容,预测下一句子的内容的能力。
11.根据权利要求9所述的装置,其特征在于,所述文章训练单元,用于执行如下至少一种:
采用所述训练语料集,训练所述语义表示模型,使其学习识别文章中各段落的正确顺序的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习在文章中以段落为粒度的检索能力。
12.根据权利要求9-11任一所述的装置,其特征在于,所述语义表示模型训练模块,还用于采用所述训练语料集,基于词法、语法以及语义中的至少一种对语义表示模型进行训练。
13.根据权利要求12所述的装置,其特征在于,所述语义表示模型训练模块,还包括:词法训练单元、语法训练单元以及语义训练单元中的至少一个。
14.根据权利要求13所述的装置,其特征在于:所述词法训练单元,用于执行如下至少一种:
采用所述训练语料集,基于词语、短语和/或实体的掩码策略,对所述语义表示模型进行训练;
采用所述训练语料集,训练所述语义表示模型,使其学习分析不同语境下词汇的首字母是否需要大写的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习预测所述训练语料中的词汇是否在原文档的其他片段中出现的能力。
15.根据权利要求13所述的装置,其特征在于,所述语法训练单元,用于执行如下至少一种:
采用所述训练语料集,训练所述语义表示模型,使其学习识别所述训练语料中不同片段的顺序关系的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习识别任意两个语句对的位置关系的能力。
16.根据权利要求13所述的装置,其特征在于,所述语义训练单元,用于执行如下至少一种:
采用所述训练语料集,训练所述语义表示模型,使其学习识别连续两个语句间的逻辑关系的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习识别所述训练语料中的检索语句和网页主题之间相关性的能力。
17.根据权利要求13-16任一所述的装置,其特征在于,所述装置包括:
任务模型训练模块,用于基于预先采集的自然语言处理的任务语料集,对所述语义表示模型进行训练,得到相应的自然语言处理的任务模型;
执行模块,用于基于所述自然语言处理的任务模型,执行所述自然语言处理的任务。
18.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
19.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。

说明书全文

语义表示模型的处理方法、装置、电子设备及存储介质

技术领域

[0001] 本申请涉及计算机技术领域,尤其涉及人工智能技术,具体涉及一种语义表示模型的处理方法、装置、电子设备及存储介质。

背景技术

[0002] 人工智能(Artificial Intelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一新的技术科学。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别自然语言处理(Natural Language Processing;NLP)和专家系统等。尤其是NLP领域,为近年来AI研究的一个比较火的方向。
[0003] 在NLP领域中,可以采用神经网络模型对语句进行语义表示,进而基于获取到的语义表示进行NLP的任务处理。现有技术中,典型的语义表示技术包括采用Word2Vec、Glove模型等实现的上下文无关的语义表示,以及采用Elmo、转化器的双向编码表示(Bidirectional Encoder Representations from Transformers;BERT)模型、XLNET等实现的上下文相关的语义表示。其中上下文相关的语义表示,相对于上下文无关的语义表示,在效果上具有明显的提升。
[0004] 但是,BERT、XLNet等当前技术,训练时任务目标单一,使得现有技术所训练的语义表示模型难以充分地学习到训练语料中各种层次的信息,使得现有的语义表示模型能受限,语义表示的准确性较差。发明内容
[0005] 本申请提供了一种语义表示模型的处理方法、装置、电子设备及存储介质,用于丰富语义表示模型的语义表示能力,提高语义表示的准确性。
[0006] 一方面,本申请提供一种语义表示模型的处理方法,包括如下步骤:采集包括数条训练语料的训练语料集;
采用所述训练语料集,基于词语片段、句子以及文章中的至少一种对语义表示模型进
行训练;;所述词语片段包括至少两个词语、短语或者实体,或者词语、短语以及实体中的至少两种类型的组合;
其中,采用所述训练语料集,基于词语片段对语义表示模型进行训练,包括如下至少一
种:
采用所述训练语料集,基于所述词语片段的整体掩码,对所述语义表示模型进行训练;

采用所述训练语料集,训练所述语义表示模型,使其学习识别所述词语片段中的文字
的正确顺序的能力。
[0007] 进一步可选地,如上所述的方法中,采用所述训练语料集,基于句子对语义表示模型进行训练,包括如下至少一种:采用所述训练语料集,训练所述语义表示模型,使其学习预测包括多个被打乱顺序的
片段的句子中的多个片段的正确顺序关系的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习根据上一句子的内容,预测下
一句子的内容的能力。
[0008] 进一步可选地,如上所述的方法中,采用所述训练语料集,基于文章对语义表示模型进行训练,包括如下至少一种:采用所述训练语料集,训练所述语义表示模型,使其学习识别文章中各段落的正确顺
序的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习在文章中以段落为粒度的检
索能力。
[0009] 进一步可选地,如上所述的方法中,采用所述训练语料集,基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练之后,所述方法还包括:采用所述训练语料集,基于词法、语法以及语义中的至少一种对语义表示模型进行训
练。
[0010] 进一步可选地,如上所述的方法中,采用所述训练语料集,基于词法对语义表示模型进行训练,包括如下至少一种:采用所述训练语料集,基于词语、短语和/或实体的掩码策略,对所述语义表示模型进
行训练;
采用所述训练语料集,训练所述语义表示模型,使其学习分析不同语境下词汇的首字
母是否需要大写的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习预测所述训练语料中的词汇
是否在原文档的其他片段中出现的能力。
[0011] 进一步可选地,如上所述的方法中,采用所述训练语料集,基于语法对语义表示模型进行训练,包括如下至少一种:采用所述训练语料集,训练所述语义表示模型,使其学习识别所述训练语料中不同片
段的顺序关系的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习识别任意两个语句对的位置
关系的能力。
[0012] 进一步可选地,如上所述的方法中,采用所述训练语料集,基于语义对语义表示模型进行训练,包括如下至少一种:采用所述训练语料集,训练所述语义表示模型,使其学习识别连续两个语句间的逻辑
关系的能力;和
采用所述训练语料集,训练所述语义表示模型,使其学习识别所述训练语料中的检索
语句和网页主题之间相关性的能力。
[0013] 进一步可选地,如上所述的方法中,采用所述训练语料集,基于词法、语法以及语义中的至少一种对语义表示模型进行训练之后,所述方法包括:基于预先采集的自然语言处理的任务语料集,对所述语义表示模型进行训练,得到相
应的自然语言处理的任务模型;
基于所述自然语言处理的任务模型,执行所述自然语言处理的任务。
[0014] 另一方面,本申请还提供一种语义表示模型的处理装置,包括:采集模,用于采集包括数条训练语料的训练语料集;
语义表示模型训练模块,用于采用所述训练语料集,基于词语片段、句子以及文章中的
至少一种对语义表示模型进行训练;所述词语片段包括至少两个词语、短语或者实体,或者词语、短语以及实体中的至少两种类型的组合;
所述语义表示模型训练模块,包括:词语片段训练单元、句子训练单元以及文章训练单
元中的至少一个;
其中,所述词语片段训练单元,用于执行如下至少一种:
采用所述训练语料集,基于所述词语片段的整体掩码,对所述语义表示模型进行训练;

采用所述训练语料集,训练所述语义表示模型,使其学习识别所述词语片段中的文字
的正确顺序的能力。
[0015] 再一方面、本申请还提供一种电子设备,包括:至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处
理器执行,以使所述至少一个处理器能够执行如上任一项所述的方法。
[0016] 又一方面,本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上任一项所述的方法。
[0017] 上述申请中的一个实施例具有如下优点或有益效果:通过采集包括数条训练语的训练语料集;并采用训练语料集,基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练,可以使得训练后的语义表示模型,能够充分学些到词语片段、句子以及文章等各种层次的信息,丰富语义表示模型的语义表示能力,提高语义表示的准确性。
[0018] 进一步地,本申请中,基于词语片段的整体掩码,对语义表示模型的训练,可以使得该语义表示模型可以学习到无监督语料中的大片段语义知识,从而可以更好的捕捉数据中全局的语义信息。
[0019] 进一步地,本申请中,训练语义表示模型学习识别词语片段中的文字的正确顺序的能力、预测包括多个被打乱顺序的片段的句子中的多个片段的正确顺序关系的能力、学习识别文章中各段落的正确顺序的能力,能够使得语义表示模型对输入的乱序的文字、片段、段落进行纠错,有效地提高文字输入场景中的文字、片段、段落纠错能力,提高文字输入效率。
[0020] 进一步地,本申请中训练语义表示模型学习根据上一句子的内容,预测下一句子的内容的能力,可以提高语义表示模型在上下文场景中的预测能力。
[0021] 进一步地,本申请中还可以训练语义表示模型在段落粒度的任务上的检索能力,提升语义表示模型在大粒度下的检索能力。
[0022] 进一步地,本申请中,还可以通过采集包括数条训练语的训练语料集;并采用训练语料集,基于词法、语法以及语义中的至少一种对语义表示模型进行训练,可以使得训练后的语义表示模型,能够充分学些到词法、语法以及语义等各种层次的信息,丰富语义表示模型的语义表示能力,提高语义表示的准确性。
[0023] 进一步地,本申请中,还通过对语义表示模型进行基于词法的任务训练,使得语义表示模型可以学些到词语、短语以及实体的共现知识,了解到知识的融合性,从而能够增强语义表示模型的语义表示能力,准确对每一个语句进行语义表示。同时还能够学习到不同语境下词汇的首字母是否需要大写的能力,从而能够准确学习到不同语境下的词汇的正确表达方式;另外,还能够以及预测词汇在原文档的其他片段的共现的能力,从而便于预测文档中哪些词汇能够表征文档的中心思想。通过上述基于词法的任务训练,可以使得语义表示模型学习到丰富的词法知识,充分理解词法所表示的意义,以便于更加准确地进行语义表示。
[0024] 进一步地,本申请中,还通过对语义表示模型进行基于语法的任务训练,使得语义表示模型能够学习到句子的排序以及识别不同句子的位置关系,从而能够在语义表示过程中,对每一个句子进行准确定位,以提高语义表示的准确性。
[0025] 进一步地,本申请中,还通过对语义表示模型进行基于语义的任务训练,使得语义表示模型能够学习到句子的逻辑关系任务和检索相关性任务,从而能够在语义表示时,准确理解语义,增强语义表示的准确性。
[0026] 总之,本申请中,通过构建词法、语法、语义三个不同层级的无监督或弱监督预训练任务,使得语义表示模型可以从海量数据中学习到词汇、语法、语义不同层次的知识,增强了通用语义表示的能力,提升NLP任务的处理效果。
[0027] 上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明
[0028] 附图用于更好地理解本方案,不构成对本申请的限定。
[0029] 图1是根据本申请第一实施例的示意图。
[0030] 图2是根据本申请第二实施例的示意图。
[0031] 图3为本申请的第三实施例的示意图。
[0032] 图4本申请提供一种训练应用示例图。
[0033] 图5为本申请提供一种语义表示模型的多任务学习的架构图。
[0034] 图6A和图6B为本申请提供的两种语义表示模型的应用架构示意图。
[0035] 图7为根据本申请第四实施例的示意图。
[0036] 图8为根据本申请第五实施例的示意图。
[0037] 图9是用来实现本申请实施例的语义表示模型的处理方法的电子设备的框图

具体实施方式

[0038] 以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0039] 图1为本申请的第一实施例的示意图。如图1所示,详细介绍了本申请的语义表示模型的处理方法实施例的流程图。如图1所示,本实施例的语义表示模型的处理方法,包括如下步骤:S101、采集包括数条训练语料的训练语料集;
S102、采用训练语料集,基于词语片段、句子以及文章中的至少一种对语义表示模型进
行训练。
[0040] 本实施例的语义表示模型的处理方法的执行主体为一语义表示模型的处理装置,该语义表示模型的处理装置可以为一独立的电子实体,或者也可以为采用软件集成的应用系统,能够实现语义表示模型的各种处理,例如,可以实现语义表示模型的训练等等。
[0041] 为了提高训练的语义表示模型语义表示的准确性,本实施例中,可以采用训练语料集,基于一种、两种或者多种训练任务对语义表示模型进行训练,例如具体可以基于词语片段、句子以及文章中的至少一种训练任务对语义表示模型进行训练。具体地,针对每一种训练任务,所采用的训练语料集中包括的是训练该任务所需的对应的训练语料。不同的训练任务对应的训练预料也不尽相同。
[0042] 需要说明的是,若基于词语片段、句子以及文章中的至少两种训练任务对语义表示模型进行训练时,可以基于词语片段、句子以及文章中的至少两种训练任务同时对语义表示模型进行训练,也可以分别基于每一种训练任务依次对语义表示模型进行训练,具体地先基于哪一种训练任务进行训练,后基于哪一种训练任务进行训练,没有顺序限制。
[0043] 为了保证语义表示模型的训练效果,本实施例中训练语料集中可以包括百万级以上、甚至更多的训练语料。且本实施例中训练语料集中的每条训练语料的数据内容可以非常丰富,以满足不同训练任务的需求。或者本实施例训练语料集中,还可以对应标识每条训练语料所应用的训练任务的标识,如可以分别采用数字1、2、3来表示三种训练任务分别所需的训练语料。具体地,对于每一种训练任务中,若还需要进一步细分小任务时,若所需的训练语料不同,还可以进一步在训练语料集中标记各训练语料所适用的小任务的标识。
[0044] 进一步可选地,上述步骤S102中的采用训练语料集,基于词语片段对语义表示模型进行训练,包括如下至少一种:(11)采用训练语料集,基于词语片段的整体掩码,对语义表示模型进行训练;和
(12)采用训练语料集,训练语义表示模型,使其学习识别词语片段中的文字的正确顺
序的能力。
[0045] 该步骤(11)和(12)是对语义表示模型基于词语片段级别的任务的训练。
[0046] 对于步骤(11),具体可以采用从训练语料集中筛选该训练任务对应的训练语料,对语义表示模型进行基于词语片段的整体掩码的训练。
[0047] 例如,在该训练任务的训练语料中,标注有词语片段,训练时,将该训练语料中的词语片段整体遮掩,由语义表示模型预测遮掩的词语片段中的每一个文字;然后将预测词语片段中的每一个文字与遮掩的词语片段的每一个文字进行比对,若不一致,调整语义表示模型的参数,使得预测的词语片段中的每一个文字与遮掩的词语片段中对应位置的文字一致;采用该训练的多条训练语料不断地对语义表示模型进行训练,使得语义表示模型预测的和遮掩的在连续预设轮数的训练中始终一致,确定语义表示模型的该任务的训练结束,此时可以认为该语义表示模型学习到对遮掩的词语片段进行准确预测的能力。本实施例的连续预设轮数可以为50轮、100轮或者其他整数轮,在此不做限定。
[0048] 本实施例的词语片段为语料中包括至少两个词语、短语或者实体,或者该词语片段还可以为词语、短语以及实体中的至少两种类型的组合。
[0049] 本实施例的该步骤(11)的训练,可以使得该语义表示模型可以学习到无监督语料中的大片段语义知识,从而可以更好的捕捉数据中全局的语义信息。
[0050] 同理,对于步骤(12),具体可以采用从训练语料集中筛选该训练任务对应的训练语料,对语义表示模型进行训练,让语义表示模型学习识别词语片段中的文字的正确顺序的能力。
[0051] 例如,对于随机抽取的词语片段中的N个字,这N个字的全排列有N!种。本场景中的词语片段可以为一个句子,或者句子中的一部分连续的内容。本实施例中,训练语料中可以包括一个句子中被抽取的词语片段中的文字和词语片段之外的内容,且可以标识词语片段中的文字的正确顺序;训练时,可以对词语片段中的文字随机打乱顺序,连同句子中的词语片段之外内容一起输入至语义表示模型中,该语义表示模型预测输入的各文字在句子中的预测顺序;并结合标注的文字的正确顺序,判断预测顺序与已知的顺序是否一致,若不一致,调整语义表示模型的参数,使得预测的顺序与已知的顺序一致。采用该训练任务的训练语料不断地对语义表示模型的该能力进行训练,直到在连续预设轮数的训练中,语义表示模型预测的词语片段中的文字的顺序与已知的顺序始终一致,确定语义表示模型学习到该能力。
[0052] 例如,在某次训练中,向语义表示模型输入的词语片段中各文字依次分别为A、B、C、D,对应地在句子中的正确顺序为2、3、1、4,即在句子中各个文字的顺序应该是CABD。若语义表示模型基于输入的“A、B、C、D”,预测的顺序为“1、2、3、4”,则表示该语义表示模型预测的文字的正确顺序就是“ABCD”,此时需要调整语义表示模型的参数,使得语义表示模型学习到文字顺序的识别能力。同理,本实施例中,对于包括N个字的词语片段,其全排列后共有N!种顺序,按照本实施例的方案,对于随机打乱顺序的N个字,该语义表示模型均可以预测到输入的N个字属于N!中的哪一种顺序。也就是说,该语义表示模型对于正确的顺序,能够有效地识别,对于不正确的顺序,也能够识别到对应的正确顺序应该是什么样的。对于语义表示模型的该能力,能够对输入的乱序的文字进行纠错,有效地提高文字输入场景中的纠错能力,提高文字输入效率。
[0053] 进一步可选地,上述步骤S102中的采用训练语料集,基于句子对语义表示模型进行训练,包括如下至少一种:(21)采用训练语料集,训练语义表示模型,使其学习预测包括多个被打乱顺序的片段
的句子中的多个片段的正确顺序关系的能力;和
(22)采用训练语料集,训练语义表示模型,使其学习根据上一句子的内容,预测下一句子的内容的能力。
[0054] 该步骤(21)和(22)是对语义表示模型基于句子级别的任务的训练。
[0055] 例如,在该步骤(21)的训练中,训练语料中的一个句子被切分成M个片段,每个片段内的文字顺序是正确的,且在训练语料中标注有M个片段的正确顺序。训练时,随机对训练语料的句子中的M个片段打乱顺序,然后输入至语义表示模型,该语义表示模型可以预测打乱顺序后的M个片段的预测顺序,然后基于训练语料中标注有M个片段的正确顺序,判断预测的顺序是否正确,若不正确,调整语义表示模型的参数,使得预测顺序是正确的。按照训练语料不断地对语义表示模型进行训练,直至在连续预设轮数的训练中,预测的顺序始终正确。
[0056] 对于该步骤(21),与上述步骤(11)类似,区别仅在于上述步骤(11)是训练语义表示模型对词语片段中各文字的顺序进行识别的能力。而步骤(21)是扩大粒度,训练语义表示模型对句子中多个打乱顺序的片段的顺序进行识别,其实现原理相同,详细亦可以参考上述步骤(11)的实施。
[0057] 同理,本实施例中,对于包括M个片段的句子,其全排列后共有M!种顺序,按照本实施例的方案,对于随机打乱顺序的M个片段,该语义表示模型均可以预测到输入的M个片段属于M!中的哪一种顺序。也就是说,该语义表示模型对于正确的顺序,能够有效地识别,对于不正确的顺序,也能够识别到对应的正确顺序应该是什么样的。对于语义表示模型的该能力,能够对输入的乱序的片段进行纠错,有效地提高文字输入场景中的片段纠错能力,提高文字输入效率。
[0058] 对于步骤(22),是训练语义表示模型,基于上文场景,生成下文的能力。例如,该任务的训练语料中包括连续两个句子,训练时,向语义表示模型中输入上一句子的内容,由语义表示模型预测下一句子的内容;然后将训练语料中下一句子的正确内容和预测的下一句子的内容进行比对,判断两者是否一致,若不一致,调整语义表示模型的参数,使得语义表示模型预测的下一句子的内容和已知的下一句子的内容一致。采用训练语料集,按照上述方式不断地对语义表示模型进行训练,直至在连续的预设轮数的训练中,预测的和已知的始终一致,确定语义表示模型学习到该能力。通过该能力,可以使得语义表示模型学习到准确地预测下一句子的能力。
[0059] 进一步可选地,上述步骤S102中的采用训练语料集,基于文章对语义表示模型进行训练,包括如下至少一种:(31)采用训练语料集,训练语义表示模型,使其学习识别文章中各段落的正确顺序的
能力;和
(32)采用训练语料集,训练语义表示模型,使其学习在文章中以段落为粒度的检索能
力。
[0060] 相对于上述词语片段和句子级别的任务的学习,步骤(31)和(32)可以让语义表示模型学些到更大粒度的文章级别的任务的学习。
[0061] 具体地,在步骤(31)中,训练语料中一篇文章被切分成N个段落,每个段落内的文字顺序是正确的。且训练语料中标注有N个段落的正确顺序。训练时,随机对训练语料的句子中的N个段落打乱顺序,然后输入至语义表示模型,该语义表示模型可以预测打乱顺序后的N个段落的预测顺序,然后基于训练语料中标注有N个段落的正确顺序,判断预测的顺序是否正确,若不正确,调整语义表示模型的参数,使得预测顺序是正确的。按照训练语料不断地对语义表示模型进行训练,直至在连续预设轮数的训练中,预测的顺序始终正确。
[0062] 对于该步骤(31),与上述步骤(11)和(21)类似,区别仅在于上述步骤(11)是训练语义表示模型对词语片段中各文字的顺序进行识别的能力,步骤(21)是扩大粒度,训练语义表示模型对句子中多个打乱顺序的片段的顺序进行识别,而步骤(31)是再次扩大粒度,训练训练语义表示模型对文章中多个打乱顺序的段落的顺序进行识别,其实现原理相同,详细亦可以参考上述步骤(11)或者(21)的实施。
[0063] 同理,本实施例中,对于包括N个段落的文章,其全排列后共有N!种顺序,按照本实施例的方案,对于随机打乱顺序的N个段落,该语义表示模型均可以预测到输入的N个片段属于N!中的哪一种顺序。也就是说,该语义表示模型对于正确的顺序,能够有效地识别,对于不正确的顺序,也能够识别到对应的正确顺序应该是什么样的。对于语义表示模型的该能力,能够对输入的乱序的段落进行纠错,有效地提高文字输入场景中的段落纠错能力,提高文字输入效率。
[0064] 对于步骤(32)是用于训练语义表示模型的段落级别粒度的检索能力。训练时,若训练语料中的文章中包括N个段落,随机从中抽取一个段落,将抽取的段落和文章一起输入至语义表示模型中,语义表示模型预测该段落属于文章中的哪个段落,例如,预测的可以为N个段落中哪个段落的标识。因此,该任务也可以转换为一个N分类的问题。如果预测的和已知的相对比后,不正确,调整语义表示模型的参数,使得预测的和已知的一致。采用训练语料集,按照上述方式不断地对语义表示模型进行训练,直至在连续预设轮数的训练中,预测的和已知的始终一致,确定语义表示模型学些到该段落粒度的检索能力。
[0065] 本实施例的语义表示模型的处理方法,通过采集包括数条训练语的训练语料集;并采用训练语料集,基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练,可以使得训练后的语义表示模型,能够充分学些到词语片段、句子以及文章等各种层次的信息,丰富语义表示模型的语义表示能力,提高语义表示的准确性。
[0066] 进一步地,本实施例中,基于词语片段的整体掩码,对语义表示模型的训练,可以使得该语义表示模型可以学习到无监督语料中的大片段语义知识,从而可以更好的捕捉数据中全局的语义信息。
[0067] 进一步地,本实施例中,训练语义表示模型学习识别词语片段中的文字的正确顺序的能力、预测包括多个被打乱顺序的片段的句子中的多个片段的正确顺序关系的能力、学习识别文章中各段落的正确顺序的能力,能够使得语义表示模型对输入的乱序的文字、片段、段落进行纠错,有效地提高文字输入场景中的文字、片段、段落纠错能力,提高文字输入效率。
[0068] 进一步地,本实施例中训练语义表示模型学习根据上一句子的内容,预测下一句子的内容的能力,可以提高语义表示模型在上下文场景中的预测能力。
[0069] 进一步地,本实施例中还可以训练语义表示模型在段落粒度的任务上的检索能力,提升语义表示模型在大粒度下的检索能力。
[0070] 图2为本申请的第二实施例的示意图。如图2所示,本实施例的语义表示模型的处理方法,在上述图1所示实施例的基础上,在上述实施例的步骤S102之后,还可以包括如下步骤:S201、采用训练语料集,基于词法、语法以及语义中的至少一种对语义表示模型进行训练。
[0071] 同理,需要说明的是,若基于词法、语法以及语义中的至少两种训练任务对语义表示模型进行训练时,可以基于词法、语法以及语义中的至少两种训练任务同时对语义表示模型进行训练,也可以分别基于每一种训练任务依次对语义表示模型进行训练,具体地先基于哪一种训练任务进行训练,后基于哪一种训练任务进行训练,没有顺序限制。
[0072] 可选地,本实施例中的步骤S201中采用训练语料集,基于词法对语义表示模型进行训练,包括如下至少一种:(a)采用训练语料集,基于词语、短语和/或实体的掩码策略,对语义表示模型进行训
练;
(b)采用训练语料集,训练语义表示模型,使其学习分析不同语境下词汇的首字母是否需要大写的能力;和
(c)采用训练语料集,训练语义表示模型,使其学习预测训练语料中的词汇是否在原文档的其他片段中出现的能力。
[0073] 上述(a)、(b)和(c)为三种方式属于词法级别的任务训练,实际应用中,在训练语义表示模型时,可以同时采用上述三种方式进行训练,或者也可以以择一的方式,或者选择任意两种组合的方式训练语义表示模型。当然,选择的训练方式越多,训练出的语义表示模型学习到的能力越强,越能够准确地进行语义表示。
[0074] 图3为本申请的第三实施例的示意图。如图3所示,详细介绍了上述实施例中方式(a)采用训练语料集,基于词语、短语和/或实体的掩码策略,对语义表示模型进行训练的一个具体实现过程。如图3所示,本实施例的采用训练语料集,基于词语、短语和/或实体的掩码策略,对语义表示模型进行训练,具体可以包括如下步骤:S301、对于从训练语料集中获取的各训练语句中的词语、短语以及实体进行标注;
例如,本实施例中,可以采用预先训练的序列标注模型对语料集中的各训练语句中的
词语、短语以及实体进行标注。其中词语为词的最小单位,短语可以为词语的组合,例如可以包括同位短语“首都北京”等,方位短语“在地上”等,数量短语“一朵花”等等。
[0075] 本实施例的词语粒度和实体粒度大于字粒度,例如,词语具体为连续两个或者多个字构成,如“漂亮”、“美丽”、“真实”、“高兴”、“五颜六色”、“省会”、“城市”等等。实体具体可以为人名、地名或者公司名称等。而短语的粒度大于词语粒度和实体粒度。
[0076] 其中训练语料集是预先采集的,包括数条训练语料。本实施例中,由于不同的训练任务,可能所需的训练语料不尽相同,例如,有的训练任务所需的训练语料为一些较短的训练语句,而另一些训练任务需要包括多个语句的较长的段落。本实施例中,可以在训练语料集中标识每一个训练语料所适用的训练任务的标识。例如,在采用方式(a),采用训练语料集,基于词语、短语和/或实体的掩码策略,对语义表示模型进行训练时,从训练语料集中获取适用于本训练任务的各训练语句,然后基于获取的各训练语句基于词语、短语和/或实体的掩码策略对语义表示模型进行训练。
[0077] 具体地,使用时,可以将每一条训练语句输入至该序列标注模型中,该序列标注可以输出该训练数据中包括的词语、短语以及实体。对应地,序列标注模型训练时,可以采集数组训练语句以及为每句训练语句标注的词语、短语以及实体。具体地,将每一条训练数据输入至序列标注模型中,该序列标注模型预测出其中包括的词语、短语以及实体,然后判断预测的词语、短语以及实体和标注的词语以及实体是否一致,若不一致,基于预测的词语、短语以及实体和标注的词语、短语以及实体,调整序列标注模型的参数,采用多个训练语句和对应的标注的词语、短语以及实体对序列标注模型进行训练,直到训练次数达到预设最大次数阈值,或者连续预设次数的训练中,都不需要调整参数,可以认为序列标注模型已经训练完毕,此时确定序列标注模型参数,进而确定序列标注模型。
[0078] 或者本实施例中,还可以采用预先采集的词语库、短语库以及实体库来标注,分别对语料集中的各训练语句中的词语、短语以及实体进行标注。其中词语库或短语库中可以基于预先采集的庞大的预料库来收集所有的词语或者短语形成。同理,实体库中也可以收集一些地名、人名、公司名的实体,同时还可以自定义一个公司名的模板,以便于对实体库之外的其他公司实体进行标注。
[0079] 实际应用中,还可以采用上述两种方式之外的其他方式来实现词语以及实体的标注,在此不再一一举例赘述S302、采用获取的各训练语句以及标注的词语,基于词语粒度对语义表示模型进行训
练;
S303、采用获取的各训练语句以及标注的短语,基于短语粒度对语义表示模型进行训
练;
S304、采用获取的各训练语句以及标注的实体,基于实体粒度对语义表示模型进行训
练。
[0080] 例如,对于字粒度的训练,语义表示模型可以学习到哈*滨中间的字为尔字。相应地,基于词语粒度的训练,可以学习到哈尔滨属于黑龙江的省会的语义关系。基于短语粒度的训练,可以学些到文化名城之类的短语关系。基于实体粒度的训练,语义表示模型还可以学习到哈尔滨和黑龙江具有语义关系。本实施例中、有些实体本身就是一个词语;有些实体比词语长,具体可以包括两个或者多个词语。
[0081] 具体地,通过步骤S302-S304,分别对语义表示模型基于词语粒度、短语粒度以及实体粒度进行训练,以使得语义表示模型能够学些到句子中的基于词语、短语以及实体的知识融合性。且,本实施例的步骤S302-S304的顺序关系,可以不受限制,也可以先对语义表示模型基于词语粒度的训练,再依次分别进行基于短语粒度和实体粒度的训练,或者依次分别进行基于实体粒度和短语粒度的训练。或者也可以先对语义表示模型基于实体粒度的训练,再依次分别进行基于短语粒度和词语粒度的训练,或者依次分别进行基于词语粒度和短语粒度的训练;甚至还可以同时基于三个粒度进行训练,例如,在训练中,先基于短语粒度对语义表示模型训练一次或者固定次数,然后基于词语粒度对语义表示模型训练一次或者固定次数,再接着基于实体粒度对语义表示模型训练一次或者固定次数;按照上述流程重复对语义表示模型进行训练。总之,无论是先进行哪个训练,后进行哪个训练,甚至同时训练,只要能够完成基于词语粒度、短语粒度和实体粒度的训练即可。
[0082] 采用从训练语料集中获取的适用于本训练任务的各训练语句以及标注的词语,基于词语粒度对语义表示模型进行训练的过程中,可以针对于每条训练语句以及该训练语句中标注的词语,随机遮挡一定比例的词语,让模型根据该训练语句中的其他词语等上下文信息,来预测该词语,这样,可以学习到上下文词语的知识融合性。如图4所示的训练语句,在基于词语粒度的训练时,可以随机遮掩“哈尔滨”、“黑龙江”、“省会”、“国际”、或者“”等词语,这样可以让语义表示模型学习到词语黑龙江和哈尔滨之间是省会的关系、哈尔滨属于冰雪文化名城等等。具体训练时,对每一个训练语句,随机遮掩一定比例的词语,然后,由语义表示模型预测遮掩的词语。进一步判断预测的是否正确,若不正确,调整语义表示模型的参数,使得预测的词语与遮掩的词语一致。采用多条训练语句以及标注的词语,不断地对语义表示模型进行训练,直到在连续预设次数的训练中,语义表示模型准确度一直大于预设准确度阈值,此时表示该语义表示模型学习到该能力,基于词语粒度的训练结束。本实施例的预设准确度可以根据实际需求来设置,如99%、98%或者其他百分比。图4中的Transform表示Transform模型。本实施例的语义表示模型基于Transform模型来实现。
[0083] 采用从训练语料集中获取的适用于本训练任务的各训练语句以及标注的实体,基于实体粒度对语义表示模型进行训练。可以针对于每条训练语句以及该训练语句中标注的实体,随机遮挡一定比例的实体,让模型根据该训练语句中的其他实体等上下文信息,来预测该实体,这样,可以学习到上下文中实体的知识融合性。如图4所示的训练语句,在基于实体粒度的训练时,可以随机遮掩“哈尔滨”、“黑龙江”中任意一个实体,这样可以让语义表示模型学习到实体黑龙江和实体哈尔滨之间具有省会的关系。具体训练时,对每一个训练语句,随机遮掩一定比例的实体,然后,由语义表示模型预测遮掩的实体。进一步判断预测的是否正确,若不正确,调整语义表示模型的参数,使得预测的实体与遮掩的实体一致。采用多条训练语句以及标注的实体,不断地对语义表示模型进行训练,直到在连续预设次数的训练中,语义表示模型准确度一直大于预设准确度阈值,此时表示该语义表示模型学习到该能力,基于实体粒度的训练结束。同理,本实施例的预设准确度也可以根据实际需求来设置,如99%、98%或者其他百分比。
[0084] 本实施例的基于短语的训练的实现原理同基于词语粒度的训练原理相同,详细可以参考上述实施例的相关记载,在此不再赘述。
[0085] 本实施例的语义表示模型,由于经过基于词语粒度的训练、短语粒度的训练以及实体粒度的训练,能够增强语义表示模型的语义表示能力,因此,本实施例的语义表示模型,也可以称之为知识增强的语义表示模型(Enhanced Representation  through kNowledge IntEgration;ERNIE)。本实施例的ERNIE模型也是基于Transformer模型来实现的。
[0086] 采用本实施例的技术方案,语义表示模型经过基于词语粒度的训练、短语粒度的训练以及实体粒度的训练之后,能够学习到上下文中字之间的知识融合性、词语间的知识融合性以及实体间的知识融合性,从而能够增强语义表示模型的语义表示能力,准确对每一个语句进行语义表示。而且本实施例训练得到的语义表示模型,具备更强的通用性和可扩展性,可以应用于处理任何NLP的任务。
[0087] 进一步地,上述图2所示实施例中的方式(b)采用训练语料集,训练语义表示模型,使其学习分析不同语境下词汇的首字母是否需要大写的能力。
[0088] 例如,该能力可以适用于英语等语言环境中。在不同的语境场景下,有的首字母需要大写,而有的首字母则不需要大写。例如,在英语中,对于完整的一句话,句子开头的首字母可以大写,而对于前面是逗号,表示一句话未完,其后的词汇的首字母则不需要大写。再例如,有些语境中,某些词汇如Apple,Harry Potter作为品牌名或者人名出现时,首字母需要大写。实际应用中词汇的首字母需要大写或者不需要大写还有很多的语境。本实施例中,便是训练语义表示模型,能够自动识别哪种语境下词汇的首字母需要大写,而哪种语境下首字母不需要大写。
[0089] 同理,首先需要从训练语料集中获取适用于本训练任务的各训练语料,该任务的训练语料中包括词汇的首字母大写的训练语料和词汇的首字母不需要大写的训练语料,但是,该训练语料中不能仅仅包括词汇,还需要包括词汇的语境如可以包括该词汇的前一句话等等。训练时,将训练语料输入至该语义表示模型,由语义表示模型预测哪些词汇的首字母需要大写或者不需要大写,然后和已知的正确写法进行比对,若不一致,调整语义表示模型的参数,使得预测的和已知的一致。采用获取的各训练语料,按照上述方式,不断地训练语义表示模型的该能力,直到语义表示模型的预测准确度达到预设准确度阈值,如99%、98%或者其他百分数,此时表示该语义表示模型学习到该能力,本任务的训练结束。
[0090] 进一步地,对于上述实施例中的方式(c)采用训练语料集,训练语义表示模型,使其学习预测训练语料中的词汇是否在原文档的其他片段中出现的能力。该能力可以使得语义表示模型能够预测哪些词汇能够代表文章的中心思想。
[0091] 同理,首先需要从训练语料集中获取适用于本训练任务的各训练语料,该任务的训练语料可以为语句,同时还可以标注有该训练语料中每一个词汇是否在原文档的其他片段中出现过的标识。训练时,将训练语料输入至语义表示模型中,该语义表示模型预测并输出该训练语料中每个词汇是否在原文档的其他片段中出现。然后基于已标注的该训练语料中各词汇是否在原文档的其他片段出现的标识,判断语义表示模型的预测是否正确,若不正确,调整语义表示模型的参数,使得预测的与已标注的趋于一致。采用本训练任务的各训练语料,按照上述方式不断地对语义表示模型进行训练,直至语义表示模型的预测准确度达到预设准确度阈值,如99%、98%或者其他百分数,此时表示该语义表示模型学习到该能力,本任务的训练结束。
[0092] 上述方式(a)、(b)和(c)的训练为无监督的任务训练。
[0093] 上述方式(a)、(b)和(c)为上述步骤S201中的采用训练语料集,基于词法对语义表示模型进行训练的几种实现方式,实际应用中,还可以采用其他类似的方式基于词法对语义表示模型进行训练,在此不再一一举例赘述。
[0094] 进一步可选地,上述图2所示实施例中的步骤S201中采用训练语料集,基于语法对语义表示模型进行训练,包括如下至少一种:(A)采用训练语料集,训练语义表示模型,使其学习识别训练语料中不同片段的顺序关系的能力;和
(B)采用训练语料集,训练语义表示模型,使其学习识别任意两个语句对的位置关系的能力。
[0095] 本实施例的方式(A)和方式(B)属于语法级别的任务训练。本实施例的语法考虑的句子间的关系,因此,本次训练任务的训练语料中包括至少两个句子,训练时以其中任意两个句子为对象来进行训练。
[0096] 同理,首先需要从训练语料集中获取本次训练任务所需的所有训练语料。本次训练任务的训练语料可以为段落或者包括多个语句的片段,首先需要将训练语料切分成多个片段,并随机打乱顺序,然后从中获取任意两个片段,并根据训练语料,标记该两个片段的顺序关系,用于后续训练。例如,训练语义表示模型学习识别训练语料中不同片段的顺序关系的能力时,可以将基于训练语料获取到的两个片段输入至语义表示模型,由该语义表示预测并输出该两个片段的顺序关系,即哪个片段在前,哪个片段在后。然后基于已知的两个片段的顺序关系,判断预测的和已知的是否一致,若不一致,调整语义表示模型的参数,使其预测的和已知的趋于一致。采用本训练任务的各训练语料,按照上述方式不断地对语义表示模型进行训练,直至语义表示模型的预测准确度达到预设准确度阈值,如99%、98%或者其他百分数,此时表示该语义表示模型学习到该能力,本任务的训练结束。经过本任务的训练,可以使得语义表示模型学习片段间的顺序及因果关系,从而可以准确识别不同片段的顺序关系的能力。该训练任务也可以称之为句子的排序任务。
[0097] 本实施例中,训练语义表示模型学习识别任意两个语句对的位置关系的能力时,可以设置3个分类任务,判断语句对之间的位置关系 是否为邻近句子、文档内非邻近句子、非同文档内句子3种类别,当然实际应用中,也可以根据需求,设置更多地分类,以使得语义表示模型更好的利用文章信息学习语义相关性。
[0098] 同理,首先需要从训练语料集中获取本次训练任务所需的所有训练语料。本次训练任务的训练语料为语句对,为了丰富训练语料,本实施例的训练语料可以取同一文档内的两个邻近句子,还可以取同一文档内的非邻近的两个句子,还可以取非同文档内两个句子,各种不同的训练语料可以按照预设比例预先采集的,并标记由两个句子的位置关系式是同文档的邻近句子、还是同文档的非邻近句子或者是非同文档的两个句子。训练时,将该任务的训练语料中的两个句子输入至语义表示模型,由语义表示模型预测并输出这两个句子的位置关系,然后比较预测的位置关系与已知的位置关系是否一致,若不一致,调整语义表示模型的参数,使得预测的和已知的趋于一致。采用本训练任务的各训练语料,按照上述方式不断地对语义表示模型进行训练,直至语义表示模型的预测准确度达到预设准确度阈值,如99%、98%或者其他百分数,此时表示该语义表示模型学习到该能力,本任务的训练结束。
[0099] 上述方式(A)和(B)为一种无监督地训练。
[0100] 上述方式(A)和(B)为步骤S201中的采用训练语料集,基于语法对语义表示模型进行训练的几种实现方式,实际应用中,还可以采用其他类似的方式基于语法对语义表示模型进行训练,在此不再一一举例赘述。
[0101] 进一步可选地,上述图1所示实施例中的步骤S201中采用训练语料集,基于语义对语义表示模型进行训练,包括如下至少一种:(1)采用训练语料集,训练语义表示模型,使其学习识别连续两个语句间的逻辑关系的能力;和
(2)采用训练语料集,训练语义表示模型,使其学习识别训练语料中的检索语句
(Query)和网页主题(Title)之间相关性的能力。
[0102] 本实施例的方式(1)和方式(2)属于语义级别的任务训练,基于句子的语义分析,分别学习句子的逻辑关系任务和检索相关性任务。
[0103] 例如,学习到识别连续两个语句间的逻辑关系的能力时,可以学习到两个句子间是否为虽然、如果、但是、而且等连接词连接,从而明确两个句子间的逻辑关系。
[0104] 同理,首先需要从训练语料集中获取本次训练任务所需的所有训练语料。该训练任务的训练语料可以从各个原文档中采集由虽然、如果、但是、而且等连接词连接的两个语句,当然也可以采集一些没有连接词的两个语句,作为训练样本的负例。训练时,将训练语料中的两个语句输入至语义表示模型中,由该语义表示模型预测并输出这两个语句的逻辑关系,例如可以采用不同的标识来分别标识虽然、如果、但是、而且等逻辑关系。然后判断预测的逻辑关系与已知的逻辑关系是否一致,若不一致,调整语义表示模型的参数,使得预测的和已知的趋于一致。采用本训练任务的各训练语料,按照上述方式不断地对语义表示模型进行训练,直至语义表示模型的预测准确度达到预设准确度阈值,如99%、98%或者其他百分数,此时表示该语义表示模型学习到该能力,本任务的训练结束。
[0105] 例如,学习到识别训练语料中的检索语句(Query)和网页主题(Title)之间相关性的能力,可以学习到Query 与Title的关系类别,例如类别0为强相关,此时可以认为用户搜索Query后点击了该Title。类别1为弱相关,此时可以认为用户搜索Query后展现但未点击的Title。类别2为不相关,此时可以认为用户搜索Query后,没有展现该Title。
[0106] 同理,首先需要从训练语料集中获取本次训练任务所需的所有训练语料。该训练任务的训练语料可以从搜索日志中获取,具体可以获取到每一次搜索的Query和每一个搜索得到的每一个Title。然后将各此搜索的Query和Title随机组合,构成本训练任务的训练语料,同时,在训练任务中标记该Query和Title的关系,是强相关、还是弱相关或者不相关。训练时,将训练语料中的Query和Title输入至语义表示模型中,由该语义表示模型预测并输出Query和Title的关系,然后判断预测的关系与已知的关系是否一致,若不一致,调整语义表示模型的参数,使得预测的和已知的趋于一致。采用本训练任务的各训练语料,按照上述方式不断地对语义表示模型进行训练,直至语义表示模型的预测准确度达到预设准确度阈值,如99%、98%或者其他百分数,此时表示该语义表示模型学习到该能力,本任务的训练结束。
[0107] 上述方式(1)为无监督地训练,上述方式(2)为一种弱监督训练。
[0108] 上述方式(1)和(2)为步骤S201中的采用训练语料集,基于语义对语义表示模型进行训练的几种实现方式,实际应用中,还可以采用其他类似的方式基于语法对语义表示模型进行训练,在此不再一一举例赘述。
[0109] 本实施例中,为了保证语义表示模型能够学习到足够丰富的能力,对于每一种能力的学习,训练语料集中对应任务的训练语料的数量也务必足够强大,例如可以达到百万级以上,以保证语义表示模型的学习效果。
[0110] 需要说明的是,本实施例的语义表示模型使用Transformer作为底层的Encoder结构。在底层可以输入词表示(Token Embedding)、位置表示(Positional Embedding)和段表示(Sentence Embedding),与其他语义表示模型不同的是,同时引入了Task Embedding(任务嵌入)用来精细化地建模不同的任务,不同的训练任务使用从0到N的ID进行表示。这样,每一训练语料输入进去之后,可以根据其对应的任务标识,确定其是用于哪种任务的训练,训练时,可以随机输入一批训练语料,实现多任务的同时训练,加快语义表示模型的训练速度,提高语义表示模型的训练效果。如图5为本申请提供一种语义表示模型的多任务学习的架构图。图6A和图6B分别为本申请提供的两种语义表示模型的应用架构示意图。其中图6A以同时包括上述步骤S102所示的三种情况为例,图6B以同时上述步骤S201所示的三种情况为例。
[0111] 如图5、图6A和图6B所示,本实施例的语义表示模型训练时,使用特殊的[CLS]作为输入的特殊的起始标识,建模整体语义。对于训练时有多个训练语料的片段的输入时,使用[SEP]进行分割,Sentence Embedding使用不同的id的表示。经过Transformer的多层Attention机制,计算得到顶层的上下文相关表示。对于Sequence整体级别的Loss, 在
[CLS]的顶层表示加入若干分类器。对于Token级别的任务,对于序列中的每一个Token上加若干Token级分类任务。图5所示实施例中以两种级别的损失函数(Loss)均采用三种不同方式计算为例,实际应用中,可以预先定义一种、两种或者多种损失函数的计算方式。然后再基于每种计算方式对应的损失函数,采用预设的数学公式计算得到每种级别的最终的损失函数。为了便于理解,可以理解为Token为一个句子的一个片段,具体地,该Token为可以为一个字、词语、短语或者实体等,可以基于训练任务的不同而不同。当Token具有对应的训练任务时,此时对应地存在相应的损失函数,而若没有任务,则没有相应的损失函数。图5中以包括4个Token为例,实际应用中,Token的数量依句子的长度变化而变化,在此不做限定。
[0112] 如图6A和图6B所示,第一层为语义表示模型的应用任务的场景,下面为语义表示模型的多任务训练架构,在采用多任务同时训练语义表示模型时,可以同时输入多个训练语料。如图6A和图6B所示,训练时,还需要输入训练语料所适用的任务的类别的嵌入信息(Task Embedding),每个token的位置嵌入信息(Position Embedding),以及对应的语句嵌入信息(Sentence embedding),如图6A和图6B中,以同时输入三个语句A、B和C,均作为Task类别为3的任务的训练为例。在Token Embedding输入时,以CLS作为起始输入,不同的训练语料的片段之间采用SEP间隔。每一个训练语料可以分成多个token片段输入,图6A和图6B实施例中以分成3个片段为例,实际应用中,根据训练语料的长短以及训练任务所需做的切分不同而不同,在此不做限定。所有信息输入之后,按照上述实施例的各任务的训练方式进行训练,最终得到训练好的语义表示模型。
[0113] 采用本申请上述实施例训练的语义表示模型为一个通用的语义表示模型,由于该语义表示模型经过上述各种能力的学习,使得该语义表示模型不仅能够学习到上下文知识融合性,还能够学习到各种词法、语法以及语义知识,从而能够更加准确地表示语义。
[0114] 进一步可选地,在上述实施例的步骤S201采用训练语料集,基于词法、语法以及语义中的至少一种对语义表示模型进行训练之后,还可以包括语义表示模型的应用,具体地,可以基于预先采集的自然语言处理(Natural Language Processing;NLP)的任务语料集,对语义表示模型进行训练,得到相应的NLP的任务模型;基于NLP的任务模型,执行NLP 的任务。
[0115] 本实施例的语义表示模型,经过上述各种任务的训练与学习,所得到的语义表示模型为一个通用的语义表示模型,在训练时所需要的数据量非常大,如每个任务的学习所需要的数据量可以达到百万级以上。而经过上述训练得到的语义表示模型还不能直接用于处理NLP任务。而在使用之前,可以先采用NLP的任务语料集对该语义表示模型进行训练,才能得到相应的基于NLP的任务模型,以进行相应的NLP任务的处理。即本实施例的NLP的任务语料集用于对通用的语义表示模型进行训练,将其训练为一个相应的NLP的任务模型。该任务语料集相对于训练通用的语义表示模型的训练语料集而言,仅仅为一个小规模的任务集。其中训练语料集仅仅用于训练语义表示模型的语义表示能力,而与任务无任何关系。而任务语料集为任务相关的能力训练,而不用训练语义表示能力。由于本实施例得到的通用的语义表示模型已经能够非常准确地进行语义表示,使用时,仅仅采用小规模的任务集便可以将该语义表示模型训练为相应的任务模型。
[0116] 如图6A和图6B所示,经过上述训练后的语义表示模型,采用相应任务集进行训练,可以分别实现文本相似度、智能问答、情感分析、自然语言推断等等任务的处理,在此不再一一举例赘述。
[0117] 本实施例的语义表示模型的处理方法,在上述实施例的基础上,进一步通过采集包括数条训练语的训练语料集;并采用训练语料集,基于词法、语法以及语义中的至少一种对语义表示模型进行训练,可以使得训练后的语义表示模型,能够充分学些到词法、语法以及语义等各种层次的信息,丰富语义表示模型的语义表示能力,提高语义表示的准确性。
[0118] 进一步地,本实施例中,还通过对语义表示模型进行基于词法的任务训练,使得语义表示模型可以学些到词语、短语以及实体的共现知识,了解到知识的融合性,从而能够增强语义表示模型的语义表示能力,准确对每一个语句进行语义表示。同时还能够学习到不同语境下词汇的首字母是否需要大写的能力,从而能够准确学习到不同语境下的词汇的正确表达方式;另外,还能够以及预测词汇在原文档的其他片段的共现的能力,从而便于预测文档中哪些词汇能够表征文档的中心思想。通过上述基于词法的任务训练,可以使得语义表示模型学习到丰富的词法知识,充分理解词法所表示的意义,以便于更加准确地进行语义表示。
[0119] 进一步地,本实施例中,还通过对语义表示模型进行基于语法的任务训练,使得语义表示模型能够学习到句子的排序以及识别不同句子的位置关系,从而能够在语义表示过程中,对每一个句子进行准确定位,以提高语义表示的准确性。
[0120] 进一步地,本实施例中,还通过对语义表示模型进行基于语义的任务训练,使得语义表示模型能够学习到句子的逻辑关系任务和检索相关性任务,从而能够在语义表示时,准确理解语义,增强语义表示的准确性。
[0121] 总之,本实施例中,通过构建词法、语法、语义三个不同层级的无监督或弱监督预训练任务,使得语义表示模型可以从海量数据中学习到词汇、语法、语义不同层次的知识,增强了通用语义表示的能力,提升NLP任务的处理效果。
[0122] 图7为根据本申请第四实施例的示意图。如图7所示,介绍本实施例的语义表示模型的处理装置700的结构,如图7所示,本实施例的语义表示模型的处理装置700,包括:采集模块701用于采集包括数条训练语料的训练语料集;
语义表示模型训练模块702用于采用采集模块701采集的训练语料集,基于词语片段、
句子以及文章中的至少一种对语义表示模型进行训练。
[0123] 进一步可选地,该语义表示模型训练模块702还用于采用采集模块701采集的训练语料集,基于词法、语法以及语义中的至少一种对语义表示模型进行训练。
[0124] 图8为根据本申请第五实施例的示意图。图8所示的语义表示模型的处理装置700在上述图7所示实施例的基础上,以语义表示模型训练模块702包括:词语片段训练单元
801、句子训练单元802以及文章训练单元803为例。
[0125] 例如,词语片段训练单元801具体用于执行如下至少一种:采用训练语料集,基于词语片段的整体掩码,对语义表示模型进行训练;和
采用训练语料集,训练语义表示模型,使其学习识别词语片段中的文字的正确顺序的
能力。
[0126] 例如,句子训练单元802具体用于执行如下至少一种:采用训练语料集,训练语义表示模型,使其学习预测包括多个被打乱顺序的片段的句
子中的多个片段的正确顺序关系的能力;和
采用训练语料集,训练语义表示模型,使其学习根据上一句子的内容,预测下一句子的
内容的能力。
[0127] 例如,文章训练单元803具体用于执行如下至少一种:采用训练语料集,训练语义表示模型,使其学习识别文章中各段落的正确顺序的能力;

采用训练语料集,训练语义表示模型,使其学习在文章中以段落为粒度的检索能力。
[0128] 进一步可选地,如图8所示,该语义表示模型训练模块702中还可以包括词法训练单元804、语法训练单元805以及语义训练单元806为例。
[0129] 例如,词法训练单元804用于执行如下至少一种:采用采集模块701采集的训练语料集,基于词语、短语和/或实体的掩码策略,对语义表
示模型进行训练;
采用采集模块701采集的训练语料集,训练语义表示模型,使其学习分析不同语境下词
汇的首字母是否需要大写的能力;和
采用采集模块701采集的训练语料集,训练语义表示模型,使其学习预测训练语料中的
词汇是否在原文档的其他片段中出现的能力。
[0130] 例如,语法训练单元805用于执行如下至少一种:采用采集模块701采集的训练语料集,训练语义表示模型,使其学习识别训练语料中不
同片段的顺序关系的能力;和
采用采集模块701采集的训练语料集,训练语义表示模型,使其学习识别任意两个语句
对的位置关系的能力。
[0131] 例如,语义训练单元806用于执行如下至少一种:采用采集模块701采集的训练语料集,训练语义表示模型,使其学习识别连续两个语句
间的逻辑关系的能力;和
采用采集模块701采集的训练语料集,训练语义表示模型,使其学习识别所述训练语料
中的检索语句和网页主题之间相关性的能力。
[0132] 进一步可选地,如图8所示,本实施例的语义表示模型的处理装置700,还包括:任务模型训练模块703用于基于预先采集的自然语言处理的任务语料集,对语义表示
模型训练模块702训练得到的语义表示模型进行训练,得到相应的自然语言处理的任务模型;
执行模块704用于基于任务模型训练模块703训练得到的自然语言处理的任务模型,执
行自然语言处理的任务。
[0133] 本实施例的上述语义表示模型的处理装置,采用上述模块实现语义表示模型的处理,其实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
[0134] 根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
[0135] 如图9所示,是根据本申请实施例的语义表示模型的处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台个人数字助理服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
[0136] 如图9所示,该电子设备包括:一个或多个处理器901、存储器902,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。
[0137] 存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语义表示模型的处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语义表示模型的处理方法。
[0138] 存储器902作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语义表示模型的处理方法对应的程序指令/模块(例如,附图7所示的采集模块701、语义表示模型训练模块702)。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语义表示模型的处理方法。
[0139] 存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语义表示模型的处理方法的电子设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。
在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至语义表示模型的处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0140] 语义表示模型的处理方法的电子设备还可以包括:输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接,图9中以通过总线连接为例。
[0141] 输入装置903可接收输入的数字或字符信息,以及产生与语义表示模型的处理方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
[0142] 此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0143] 这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
[0144] 为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0145] 可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
[0146] 计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
[0147] 根据本申请实施例的技术方案,通过采集包括数条训练语的训练语料集;并采用训练语料集,基于词语片段、句子以及文章中的至少一种对语义表示模型进行训练,可以使得训练后的语义表示模型,能够充分学些到词语片段、句子以及文章等各种层次的信息,丰富语义表示模型的语义表示能力,提高语义表示的准确性。
[0148] 进一步地,本申请实施例中,基于词语片段的整体掩码,对语义表示模型的训练,可以使得该语义表示模型可以学习到无监督语料中的大片段语义知识,从而可以更好的捕捉数据中全局的语义信息。
[0149] 进一步地,本申请实施例中,训练语义表示模型学习识别词语片段中的文字的正确顺序的能力、预测包括多个被打乱顺序的片段的句子中的多个片段的正确顺序关系的能力、学习识别文章中各段落的正确顺序的能力,能够使得语义表示模型对输入的乱序的文字、片段、段落进行纠错,有效地提高文字输入场景中的文字、片段、段落纠错能力,提高文字输入效率。
[0150] 进一步地,本申请实施例中训练语义表示模型学习根据上一句子的内容,预测下一句子的内容的能力,可以提高语义表示模型在上下文场景中的预测能力。
[0151] 进一步地,本申请实施例中还可以训练语义表示模型在段落粒度的任务上的检索能力,提升语义表示模型在大粒度下的检索能力。
[0152] 进一步地,根据本申请实施例的技术方案,还可以进一步通过采集包括数条训练语的训练语料集;并采用训练语料集,基于词法、语法以及语义中的至少一种对语义表示模型进行训练,可以使得训练后的语义表示模型,能够充分学些到词法、语法以及语义等各种层次的信息,丰富语义表示模型的语义表示能力,提高语义表示的准确性。
[0153] 进一步地,本申请实施例中,还通过对语义表示模型进行基于词法的任务训练,使得语义表示模型可以学些到词语、短语以及实体的共现知识,了解到知识的融合性,从而能够增强语义表示模型的语义表示能力,准确对每一个语句进行语义表示。同时还能够学习到不同语境下词汇的首字母是否需要大写的能力,从而能够准确学习到不同语境下的词汇的正确表达方式;另外,还能够以及预测词汇在原文档的其他片段的共现的能力,从而便于预测文档中哪些词汇能够表征文档的中心思想。通过上述基于词法的任务训练,可以使得语义表示模型学习到丰富的词法知识,充分理解词法所表示的意义,以便于更加准确地进行语义表示。
[0154] 进一步地,本申请实施例中,还通过对语义表示模型进行基于语法的任务训练,使得语义表示模型能够学习到句子的排序以及识别不同句子的位置关系,从而能够在语义表示过程中,对每一个句子进行准确定位,以提高语义表示的准确性。
[0155] 进一步地,本申请实施例中,还通过对语义表示模型进行基于语义的任务训练,使得语义表示模型能够学习到句子的逻辑关系任务和检索相关性任务,从而能够在语义表示时,准确理解语义,增强语义表示的准确性。
[0156] 总之,本申请实施例中,通过构建词法、语法、语义三个不同层级的无监督或弱监督预训练任务,使得语义表示模型可以从海量数据中学习到词汇、语法、语义不同层次的知识,增强了通用语义表示的能力,提升NLP任务的处理效果。
[0157] 应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
[0158] 上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈