首页 / 专利库 / 人工智能 / 机器翻译 / 神经机器翻译模型的构建方法及装置、翻译方法及装置

神经机器翻译模型的构建方法及装置、翻译方法及装置

阅读:803发布:2020-05-08

专利汇可以提供神经机器翻译模型的构建方法及装置、翻译方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 实施例 提供一种神经 机器翻译 模型的构建方法及装置、翻译方法及装置。其中, 神经机器翻译 模型的构建方法包括:基于 编码器 - 解码器 框架 构建神经机器翻译模型,解码器在生成目标词汇时,依次生成与目标词汇对应的第一属性向量和第二属性向量,再由第一属性向量和第二属性向量组成属性向量对映射到相应的目标词汇。本发明实施例提供的神经机器翻译模型的构建方法及装置、翻译方法及装置,通过利用一对属性向量表示目标词汇,可尽可能多的 覆盖 目标词汇,不需要对训练与测试数据进行前后处理,避免了错误传播,可有效解决神经机器翻译中的集外词问题;另外,由于大幅减少了用于表示目标词汇的参数数量,模型的空间消耗也相应减少。,下面是神经机器翻译模型的构建方法及装置、翻译方法及装置专利的具体信息内容。

1.一种神经机器翻译模型的构建方法,其特征在于,包括:
基于编码器-解码器框架构建神经机器翻译模型,所述神经机器翻译模型包括编码器和解码器;
其中,所述解码器在生成目标词汇时,依次生成与目标词汇对应的第一属性向量和第二属性向量,然后再由所述第一属性向量和所述第二属性向量组成一个属性向量对映射到相应的目标词汇。
2.根据权利要求1所述的方法,其特征在于,所述解码器在生成目标词汇时,依次生成与目标词汇对应的第一属性向量和第二属性向量,具体包括:
通过源语句的隐藏状态序列、与当前目标词汇对应的上下文向量、当前目标词汇的前一目标词汇的第二属性隐藏状态和第二属性向量得到当前目标词汇的第一属性隐藏状态;
通过与当前目标词汇对应的上下文向量、当前目标词汇的第一属性隐藏状态和第一属性向量得到当前目标词汇的第二属性隐藏状态;
基于当前目标词汇的第一属性隐藏状态计算当前目标词汇对应各个第一属性向量的概率;
基于当前目标词汇的第二属性隐藏状态计算当前目标词汇对应各个第二属性向量的概率;
按照目标词汇的顺序,根据计算得到的所有目标词汇对应各个第一属性向量的概率和对应各个第二属性向量的概率确定各个目标词汇的第一属性向量和第二属性向量。
3.根据权利要求2所述的方法,其特征在于,所述基于当前目标词汇的第一属性隐藏状态计算当前目标词汇对应各个第一属性向量的概率,通过如下公式实现:
其中, 表示对应于第j个目标词汇,第一实数矩阵中第m行的第一属性向量的概率; 表示所述第一实数矩阵中第m行的第一属性向量; 为计算过程中间变量; 表示所述第一实数矩阵中第i行的第一属性向量;w(1)为训练第一属性向量的模型训练参数,M为所述第一实数矩阵的行数; 为第j个目标词汇的第一属性隐藏状态; 为第j-1个目标词汇的第二属性向量;cj为第j个目标词汇的上下文向量;
所述基于当前目标词汇的第二属性隐藏状态计算当前目标词汇对应各个第二属性向量的概率,通过如下公式实现:
其中, 表示对应于第j个目标词汇,第二实数矩阵中第n行的第二属性向量的概率; 表示所述第二实数矩阵中第n行的第二属性向量; 为计算过程中间变量; 表示所述第二实数矩阵中第l行的第二属性向量;w(2)为训练第二属性向量的模型训练参数,N为所述第二实数矩阵的行数; 为第j个目标词汇的第二属性隐藏状态; 为第j个目标词汇的第一属性向量;cj为第j个目标词汇的上下文向量。
4.根据权利要求1所述的方法,其特征在于,所述按照目标词汇的顺序,根据计算得到的所有目标词汇对应各个第一属性向量的概率和对应各个第二属性向量的概率确定各个目标词汇的第一属性向量和第二属性向量,具体包括:
按照概率的高低,存储与各个目标词汇对应的预设数量的第一属性向量和第二属性向量;
在满足相邻目标词汇对应的属性向量的制约关系下,计算所有目标词汇对应各个第一属性向量的概率和对应各个第二属性向量的概率的乘积,取乘积最大时各个目标词汇所对应的第一属性向量和第二属性向量为最后所确定的各个目标词汇所对应的第一属性向量和第二属性向量。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括对神经机器翻译模型进行训练,所述对神经机器翻译模型进行训练具体包括:
在对所述神经机器翻译模型进行训练的过程中收集预设特征,并在模型收敛时暂停训练;
根据收集的所述预设特征对训练集中的目标词汇和属性向量对进行重映射;
使用重映射后的属性向量对继续训练所述神经机器翻译模型;
重复上述步骤直至达到预设的训练时间或训练次数时终止训练。
6.根据权利要求5所述的方法,其特征在于,在对神经机器翻译模型进行训练之前,所述方法还包括:
分别建立第一实数矩阵和第二实数矩阵,所述第一实数矩阵包括第一属性向量,所述第二实数矩阵包括第二属性向量;
将训练集中的目标词汇分别映射到一对初始的第一属性向量和第二属性向量。
7.根据权利要求5所述的方法,其特征在于,所述预设特征为训练集中的目标词汇对应每对属性向量对的得分,具体计算公式如下:
其中, 为第j1个目标词汇对应由所述第一实数矩阵中第m行
的第一属性向量和所述第二实数矩阵中第n行的第二属性向量组成的属性向量对的得分;
分别表示对应于第j1、
j2、......、jr个目标词汇,所述第一实数矩阵中第m行的第一属性向量的概率的对数;
分别表示对应于第j1、
j2、......、jr个目标词汇,所述第二实数矩阵中第n行的第二属性向量的概率的对数;其中,第j1、j2、......、jr个目标词汇为训练集中所有相同的目标词汇。
8.根据权利要求7所述的方法,其特征在于,所述根据收集的所述预设特征对目标词汇和属性向量对进行重映射,具体包括:
将训练集中所有目标词汇根据词频的高低进行降序排列;
按照词频的高低顺序,根据当前目标词汇对应所有待选择的属性向量对的得分,选择得分最大的一对属性向量对赋予当前目标词汇;
其中,所述待选择的属性向量对是指剔除了词频高于当前目标词汇的目标词汇已选择的属性向量对之后的属性向量对。
9.一种神经机器翻译方法,其特征在于,包括:
基于权利要求1至8任一方法所构建的神经机器翻译模型,将源语句翻译成目标语句。
10.一种神经机器翻译模型的构建装置,其特征在于,包括:
神经机器翻译模型构建模,用于基于编码器-解码器框架构建神经机器翻译模型,所述神经机器翻译模型包括编码器和解码器;
其中,所述解码器在生成目标词汇时,依次生成与目标词汇对应的第一属性向量和第二属性向量,然后再由所述第一属性向量和所述第二属性向量组成一个属性向量对映射到相应的目标词汇。
11.一种神经机器翻译装置,其特征在于,包括:
翻译模块,用于基于权利要求1至8任一方法所构建的神经机器翻译模型,将源语句翻译成目标语句。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至9任一项所述方法的步骤。
13.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至9任一项所述方法的步骤。

说明书全文

神经机器翻译模型的构建方法及装置、翻译方法及装置

技术领域

[0001] 本发明实施例涉及自然语言的处理及转换技术领域,具体涉及一种神经机器翻译模型的构建方法及装置、翻译方法及装置。

背景技术

[0002] 机器翻译是指利用机器将一种自然语言(以下简称源语言)自动转换成相同含义的另一种语言(以下简称目标语言)的过程。随着全球化进程加速,不同语言人群的政治、经济、文化等方面的交流与日俱增,人们对翻译的需求日益迫切,自动机器翻译由于其简便高效,对促进不同语言人群的交流起到了巨大作用。
[0003] 随着深度学习技术的发展,基于编码器-解码器框架的神经机器翻译已经成为新一代机器翻译技术。在多个语言对的机器翻译公开评测中,神经机器翻译相比其他机器翻译方法在翻译质量上有了极大的提升。谷歌、百度等多家公司先后将其线上多个语言对上的机器翻译系统升级为神经机器翻译。
[0004] 然而,受到计算机资源特别是内存大小的限制,现有神经机器翻译系统需要限制其词汇量,进而导致集外词问题的出现。在解码生成每个词过程中,由于神经机器翻译模型需要对全部目标词汇的概率进行归一化操作并选择其中概率最大的词,时间复杂度非常高。基于上述原因,目前最为广泛采用的方式是根据各个词在训练集中出现频率进行划分,选取频率较高的词(高频词)加入词表,其他词则视为未登录词。因此,神经机器翻译不能很好地对未登录词进行翻译,导致了集外词问题的出现。
[0005] 目前解决集外词的方法主要是采用基于细粒度的翻译模型,它是把一些复杂的词按一定的规则切分成多个简单的子词,比如将英文单词enjoying切分成enjoy和ing两个子词。在进行训练前,将训练语料中的所有复杂词切成多个简单子词,即进行前处理;在模型训练完成后,将已翻译的句子中的多个简单子词重新拼回正常的词,即进行后处理。其中,将词切分为子词的切分规则是通过一种叫做字节对编码(byte pair encoding,BPE)的统计方法在训练集中学习出来的,经常会有复杂词切错的情况出现,比如将fling这个单词错误的切成fl和ing两个子词,如果在这种情况下训练神经机器翻译模型,因为输入的训练数据就是有错误的,就形成错误传播。
[0006] 因此,采用基于细粒度的翻译模型主要是基于统计和规则的前处理与后处理操作,并未对翻译模型本身进行改进,存在错误传播的可能性,进而降低翻译质量,无法有效解决集外词问题。
[0007] 综上所述,神经机器翻译中限制词汇量的问题仍待解决,如何在不增加模型空间复杂度和计算复杂度的前提下,尽可能多的覆盖目标语词汇,从而提升翻译的质量成为神经机器翻译中一个重要的研究课题。

发明内容

[0008] 为解决现有神经机器翻译中的集外词问题,本发明实施例提供一种神经机器翻译模型的构建方法及装置、翻译方法及装置。
[0009] 第一方面,本发明实施例提供一种神经机器翻译模型的构建方法,所述方法包括:基于编码器-解码器框架构建神经机器翻译模型,所述神经机器翻译模型包括编码器和解码器;其中,所述解码器在生成目标词汇时,依次生成与目标词汇对应的第一属性向量和第二属性向量,然后再由所述第一属性向量和所述第二属性向量组成一个属性向量对映射到相应的目标词汇。
[0010] 第二方面,本发明实施例提供一种神经机器翻译方法,所述方法包括:基于上述方法所构建的神经机器翻译模型,将源语句翻译成目标语句。
[0011] 第三方面,本发明实施例提供一种神经机器翻译模型的构建装置,包括:神经机器翻译模型构建模,用于基于编码器-解码器框架构建神经机器翻译模型,所述神经机器翻译模型包括编码器和解码器;其中,所述解码器在生成目标词汇时,依次生成与目标词汇对应的第一属性向量和第二属性向量,然后再由所述第一属性向量和所述第二属性向量组成一个属性向量对映射到相应的目标词汇。
[0012] 第四方面,本发明实施例提供一种神经机器翻译装置,包括:翻译模块,用于基于上述实施例所构建的神经机器翻译模型,将源语句翻译成目标语句。
[0013] 第五方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面或第二方面所提供的方法的步骤。
[0014] 第六方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面或第二方面所提供的方法的步骤。
[0015] 本发明实施例提供的神经机器翻译模型的构建方法及装置、翻译方法及装置,通过利用一对属性向量表示目标词汇,可尽可能多的覆盖目标词汇,不需要对训练与测试数据进行前后处理,避免了错误传播,可有效解决神经机器翻译中的集外词问题,从而大幅提高翻译质量和翻译效率;另外,由于大幅减少了用于表示目标词汇的参数数量,模型的空间消耗也相应减少。附图说明
[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017] 图1是本发明实施例提供的神经机器翻译模型的构建方法流程图
[0018] 图2是本发明实施例提供的神经机器翻译模型的构建方法中所构建的神经机器翻译模型的结构示意图;
[0019] 图3是本发明实施例提供的神经机器翻译模型的构建方法中的目标词汇和属性向量对的映射关系示意图;
[0020] 图4是本发明实施例提供的神经机器翻译方法流程图;
[0021] 图5是本发明实施例提供的神经机器翻译模型的构建装置结构示意图;
[0022] 图6是本发明实施例提供的神经机器翻译装置的结构示意图;
[0023] 图7是本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

[0024] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025] 图1是本发明实施例提供的神经机器翻译模型的构建方法流程图。如图1所示,所述方法包括:
[0026] 步骤101、基于编码器-解码器框架构建神经机器翻译模型,所述神经机器翻译模型包括编码器和解码器;其中,所述解码器在生成目标词汇时,依次与目标词汇对应的生成第一属性向量和第二属性向量,然后再由所述第一属性向量和所述第二属性向量组成一个属性向量对映射到相应的目标词汇。
[0027] 基于编码器-解码器框架构建神经机器翻译模型,所述神经机器翻译模型包括编码器和解码器;其中,本发明实施例未对编码器进行改进,本发明实施例中可以采用现有技术中任何编码器。本发明实施例的改进点在于对解码器的改进。
[0028] 本发明实施例所构建的神经机器翻译模型中的解码器,采用基于层次结构的解码方法进行解码生成目标词汇,所述基于层次结构的解码方法就是指解码器在生成目标词汇的时候,依次生成与目标词汇对应的两个属性向量(两层),即第一属性向量和第二属性向量,然后再由这两个属性向量组成一个属性对映射到相应的目标词汇。
[0029] 本发明实施例中神经机器翻译模型用于将源语言翻译成目标语言,将源语言进行翻译得到的结果即是由目标语言中的目标词汇组成。
[0030] 在翻译之前,目标语言中的目标词汇均与第一属性向量和第二属性向量建立好了映射关系,因此,得到与目标词汇对应的第一属性向量和第二属性向量之后,通过映射关系即可得到目标词汇。
[0031] 解码器在生成目标词汇时,是根据解码的顺序,顺次生成与目标词汇对应的第一属性向量和第二属性向量。如将源语言中的文本“中国北京欢迎您!”翻译成“Welcome to Beijing,China!”时,先生成与“Welcome”对应的第一属性向量和第二属性向量,再生成与“to”对应的第一属性向量和第二属性向量,……,以此类推。在生成全部目标词汇的第一属性向量和第二属性向量后,分别通过映射关系得到相应的目标词汇。
[0032] 传统的神经机器翻译方法由于计算资源的限制,只能选取一个词表中频率较高的部分词进行训练,从而造成集外词问题。比如训练集中有100万个目标词汇,由于计算资源受限,传统方法只能选其中词频最高的3万到8万个目标词汇进行训练,剩下的都是集外词。但对于本发明实施例所构建的神经机器翻译模型,100万个目标词汇只需要1000个第一属性向量和1000个第二属性向量来表示,所以本发明实施例提供的方法可以高效地使用100万个目标词汇来训练,也就解决了神经机器翻译中的集外词的问题。
[0033] 本发明实施例通过利用一对属性向量表示目标词汇,可尽可能多的覆盖目标词汇,不需要对训练与测试数据进行前后处理,避免了错误传播,可有效解决神经机器翻译中的集外词问题,从而大幅提高翻译质量和翻译效率;另外,由于大幅减少了用于表示目标词汇的参数数量,模型的空间消耗也相应减少。
[0034] 图2是本发明实施例提供的神经机器翻译模型的构建方法中所构建的神经机器翻译模型的结构示意图。下面结合图2对本发明实施例所提供的神经机器翻译模型的构建方法及所构建的神经机器翻译模型的特点做进一步说明。
[0035] 图2中的编码器采用的是一个双向的循环神经网络,需要说明的是,图2中所示的编码器的结构只是本发明实施例所构建的神经机器翻译模型中编码器结构的一种示例,本发明实施例所构建的神经机器翻译模型还可以采用其他类型的编码器。
[0036] 如图2所示,编码器的输入是源语句中每个词的词向量,它的输出表示为一个隐藏状态序列:
[0037] h=(h1,...,hI)
[0038] 比如输入为“中国北京欢迎您!”,那么中国的下标是1,的下标是6,而大写的I代表这个句子的长度,也就是最后一个词的下标。是表示句子终结的符号。
[0039] α是注意函数,输入是隐藏状态序列h,输出是上下文向量c。
[0040] 解码器采用的是一个单向的循环神经网络。所述解码器在生成目标词汇时,依次生成与目标词汇对应的第一属性向量和第二属性向量,具体包括:
[0041] 通过源语句的隐藏状态序列、与当前目标词汇对应的上下文向量、当前目标词汇的前一目标词汇的第二属性隐藏状态和第二属性向量得到当前目标词汇的第一属性隐藏状态;
[0042] 计算过程可采用如下公式:
[0043]
[0044]
[0045]
[0046] 其中GRU(·)为控循环单元GRU函数,ATT(·)为注意力机制函数, 和分别是已生成的前词(第j-1个词)的第二属性隐藏状态和第二属性向量, 为模型计算过程中的中间变量,h代表了源语句的隐藏状态序列,cj表示与当前目标词汇(第j个词)对应的上下文向量,反映当前目标词汇和源语句中每个词的对应关系, 代表了当前目标词汇(第j个词)的第一属性隐藏状态;
[0047] 其中,当下标j-1取值为0时,相对应的参数取值为空。
[0048] 通过与当前目标词汇对应的上下文向量、当前目标词汇的第一属性隐藏状态和第一属性向量得到当前目标词汇的第二属性隐藏状态;
[0049] 计算过程可采用如下公式:
[0050]
[0051]
[0052] 其中 和 分别为当前目标词汇(第j个词)的第一属性隐藏状态和第一属性向量,cj表示与当前目标词汇(第j个词)对应的上下文向量; 为模型计算过程中的中间变量, 为当前目标词汇(第j个词)的第二属性隐藏状态。
[0053] 基于当前目标词汇的第一属性隐藏状态计算当前词汇对应各个第一属性向量的概率;
[0054] 所述基于当前目标词汇的第一属性隐藏状态计算当前目标词汇对应各个第一属性向量的概率,可通过如下公式实现:
[0055]
[0056]
[0057] 其中, 表示对应于第j个目标词汇,第一实数矩阵中第m行的第一属性向量的概率; 表示所述第一实数矩阵中第m行的第一属性向量; 为计算过程中间变量;表示所述第一实数矩阵中第i行的第一属性向量;W(1)为训练第一属性向量的模型训练参数,M为所述第一实数矩阵的行数; 为第j个目标词汇的第一属性隐藏状态; 为第j-
1个目标词汇的第二属性向量;cj为第j个目标词汇的上下文向量;tanh(·)为双曲正切函数。
[0058] 基于当前目标词汇的第二属性隐藏状态计算当前目标词汇对应各个第二属性向量的概率;
[0059] 所述基于当前目标词汇的第二属性隐藏状态计算当前词汇对应各个第二属性向量的概率,可通过如下公式实现:
[0060]
[0061]
[0062] 其中, 表示对应于第j个目标词汇,第二实数矩阵中第n行的第二属性向量的概率; 表示所述第二实数矩阵中第n行的第二属性向量; 为计算过程中间变量; 表示所述第二实数矩阵中第l行的第二属性向量;W(2)为训练第二属性向量的模型训练参数,N为所述第二实数矩阵的行数; 为第j个目标词汇的第二属性隐藏状态; 为第j个目标词汇的第一属性向量;cj为第j个目标词汇的上下文向量;tanh(·)为双曲正切函数。
[0063] W(1)和W(2)作用是将一个向量线性转换为另一个向量,但它们里面的实数值不一样,由不同的参数组成。其中,W(1)与 有关,W(2)与 有关。
[0064] 按照目标词汇的顺序,根据计算得到的所有目标词汇对应各个第一属性向量的概率和对应各个第二属性向量的概率确定各个目标词汇的第一属性向量和第二属性向量。
[0065] 对于每个目标词汇,对应第一属性向量的概率由目标词汇的第一属性隐藏状态计算而得,而第一隐藏状态与前一目标词汇的第二属性向量有关,由此说明,目标词汇对应第一属性向量的概率与前一目标词汇的第二属性向量有关,也即,相邻目标词汇的对应第一属性向量的概率及对应第二属性向量的概率不是独立的,而是具有制约关系。如果某个目标词汇对应某个第一属性向量或第二属性向量的概率值越大,则表明机器学习倾向于选择此属性向量实现翻译,也表明选择此属性向量实现翻译时可能会具备更大的准确性。按照目标词汇的顺序,可计算得到所有目标词汇对应各个第一属性向量的概率和对应各个第二属性向量的概率,在满足相邻目标词汇对应的属性向量的制约关系下,可以通过计算所有目标词汇对应的第一属性向量的概率和第二属性向量的概率的乘积,取乘积最大时各个目标词汇所对应的第一属性向量和第二属性向量为最后所确定的各个目标词汇所对应的第一属性向量和第二属性向量。
[0066] 进一步地,在确定各个目标词汇的第一属性向量和第二属性向量时,可以按照概率的高低,存储与各个目标词汇对应的预设数量的第一属性向量和第二属性向量,即指存储预设数量的概率较高的各个目标词汇对应的第一属性向量和第二属性向量;在满足相邻目标词汇对应的属性向量的制约关系下,计算所有目标词汇对应各个第一属性向量的概率和对应各个第二属性向量的概率的乘积,取乘积最大时各个目标词汇所对应的第一属性向量和第二属性向量为最后所确定的各个目标词汇所对应的第一属性向量和第二属性向量。由此,可进一步减少计算复杂度,提高系统运行效率。
[0067] 在依次生成与目标词汇对应的第一属性向量和第二属性向量后,再由所述第一属性向量和所述第二属性向量组成一个属性向量对映射到相应的目标词汇。
[0068] 第一属性向量可以是存在于第一实数矩阵中的行向量,第二属性向量可以是存在于第二实数矩阵中的行向量,目标语言中的所有目标词汇均建立好与第一属性向量及第二属性向量的映射关系,由目标词汇得到第一属性向量及第二属性向量的映射函数可以用g来表示,反之,用g-1表示由第一属性向量及第二属性向量得到相应目标词汇的映射关系。如图2所示,在得到每个目标词汇的第一属性向量和第二属性向量之后,通过g-1的映射关系得到相应的目标词汇。
[0069] 第j个目标词汇yj可表示为:
[0070]
[0071] 表示由第一实数矩阵中第m行的第一属性向量和第二实数矩阵中第n行的第二属性向量构成的属性向量对。
[0072] 本发明实施例通过利用一对属性向量表示目标词汇,可尽可能多的覆盖目标词汇,不需要对训练与测试数据进行前后处理,避免了错误传播,可有效解决神经机器翻译中的集外词问题,从而大幅提高翻译质量和翻译效率;另外,由于大幅减少了用于表示目标词汇的参数数量,模型的空间消耗也相应减少。
[0073] 进一步地,基于上述实施例,所述方法还包括对神经机器翻译模型进行训练,具体包括:在对所述神经机器翻译模型进行训练的过程中收集预设特征,并在模型收敛时暂停训练;根据收集的所述预设特征对训练集中的目标词汇和属性向量对进行重映射;使用重映射后的属性向量对继续训练所述神经机器翻译模型;重复上述步骤直至达到预设的训练时间或训练次数时终止训练。
[0074] 在对所述神经机器翻译模型进行训练的过程中收集预设特征,所述预设特征可以为表征与目标词汇对应的属性向量对的概率大小的特征;并在模型收敛时暂停训练,神经机器翻译模型收敛的判断条件为多次模型迭代后在验证集上的交叉熵不再降低,暂停训练是指在完整的一轮训练结束后,保持所有模型参数不变。
[0075] 暂停训练后,根据收集的所述预设特征对训练集中的目标词汇和属性向量对进行重映射。开始训练时所建立的目标词汇与属性向量对的映射关系是随机的,并不能很好地实现准确翻译。随着不断地训练学习,逐步重新建立目标词汇与属性向量对的映射关系,以更好地实现翻译。
[0076] 使用重映射后的属性向量对继续训练所述神经机器翻译模型。训练参数与属性向量对有关,重新训练时,使用训练暂停后的模型参数,并使用重映射后的属性向量对继续对模型进行训练。
[0077] 重复上述步骤,即重复执行“在对所述神经机器翻译模型进行训练的过程中收集预设特征,并在模型收敛时暂停训练;根据收集的所述预设特征对训练集中的目标词汇和属性向量对进行重映射;使用重映射后的属性向量对继续训练所述神经机器翻译模型”,直至达到预设的训练时间或训练次数时终止训练。
[0078] 在上述实施例的基础上,本发明实施例通过在训练暂停时,根据收集的预设特征进行目标词汇和属性向量对的重映射,并根据重映射后的属性向量对继续训练神经机器翻译模型,通过学习逐步优化目标词汇和属性向量对的映射关系,有利于得到更加优化的神经机器翻译模型。
[0079] 进一步地,基于上述实施例,在对神经机器翻译模型进行训练之前,所述方法还包括:分别建立第一实数矩阵和第二实数矩阵,所述第一实数矩阵包括第一属性向量,所述第二实数矩阵包括第二属性向量;将训练集中的目标词汇分别映射到一对初始的第一属性向量和第二属性向量。
[0080] 所述训练集是一个经过预处理的平行语料库,由多组含义相同但属于不同语言文本的句子组成;可以对训练集进行预处理,包括对训练集中的句子进行切分成词,统一转化大小写;可以根据训练集分别建立源语言和目标语言的单语词汇表,上述单语词汇表从训练集中抽取,词汇表包括了在训练集中出现的相应语言的全部词汇。
[0081] 分别建立第一实数矩阵和第二实数矩阵,所述第一实数矩阵的行向量为第一属性向量,所述第二实数矩阵的行向量为第二属性向量。本发明实施例所建立的神经网络机器模型,目标语言训练集中的所有的目标词汇均映射到由第一属性向量和第二属性向量组成的属性向量对。
[0082] 图3是本发明实施例提供的神经机器翻译模型的构建方法中的目标词汇和属性向量对的映射关系示意图。如图3所示,第一属性向量由第一实数矩阵 表示,类似地,第二属性向量由第二实数矩阵 表示;其中|Vy|和d分别表示目标词汇的数量和每一个属性向量的维度(列数)。
[0083] 如图3所示,其中第j个单词yj被映射到一对属性向量
[0084]
[0085]
[0086]
[0087] 其中g(·)是一个映射函数,表示属性向量对和目标词汇的映射关系;<·>代表属性向量对,f1(·)和f2(·)是索引映射函数, 和 分别表示A(1)中第m行的第一属性向(2)量和A 中第n行的第二属性向量;
[0088] f1(·)和f2(·)这两个索引映射函数的定义域是一样的,都是目标词汇;但值域不一样,f1(·)映射到第一属性向量,f2(·)映射到第二属性向量。
[0089] 在模型训练之前,将训练集中的目标词汇分别映射到一对初始的第一属性向量和第二属性向量,此时目标词汇和属性向量对的映射关系是随机的,如上述实施例所述,随着模型训练的不断进行,会逐步优化目标词汇和属性向量对的映射关系。
[0090] 在上述实施例的基础上,本发明实施例通过在训练之前建立包含第一属性向量的第一实数矩阵及包含第二属性向量的第二实数矩阵,并将目标词汇进行对应属性向量对的初始映射,为神经机器翻译模型的训练奠定了基础。
[0091] 进一步地,基于上述实施例,所述预设特征为训练集中的目标词汇对应每对属性向量对的得分,具体计算公式如下:
[0092]
[0093]
[0094] 其中, 为第j1个目标词汇对应由所述第一实数矩阵中第m行的第一属性向量和所述第二实数矩阵中第n行的第二属性向量组成的属性向量对的得分; 分别表示对应于第
j1、j2、……、jr个目标词汇,所述第一实数矩阵中第m行的第一属性向量的概率的对数;
分别表示对应于第j1、
j2、……、jr个目标词汇,所述第二实数矩阵中第n行的第二属性向量的概率的对数;其中,第j1、j2、……、jr个目标词汇为训练集中所有相同的目标词汇。
[0095] 所述预设特征为训练集中的目标词汇对应每对属性向量对的得分,所述训练集中的目标词汇对应相应属性向量对的得分不仅包括由目标词汇本身对应相应属性向量对的得分,还包括训练集中相同目标词汇对应此属性向量对的得分,各个得分做求和运算,得到训练集中的目标词汇对应每对属性向量对的得分。
[0096] 利用此方法收集预设特征是因为在进行目标词汇与属性向量对的重映射时,可以将相同目标词汇映射到相同的属性向量对。因此,上述得分计算也采用相同目标词汇与相应属性向量对的加和方式,可以更好地实现对相同目标词汇的属性向量对的重映射。
[0097] 在上述实施例的基础上,本发明实施例通过将训练集中的目标词汇对应每对属性向量对的得分作为预设特征进行收集,有利于实现更为合理的重映射,进一步利于优化神经机器翻译模型。
[0098] 进一步地,基于上述实施例,所述根据收集的所述预设特征对目标词汇和属性向量对进行重映射,具体包括:将训练集中所有目标词汇根据词频的高低进行降序排列;按照词频的高低顺序,根据当前目标词汇对应所有待选择的属性向量对的得分,选择得分最大的一对属性向量对赋予当前目标词汇;其中,所述待选择的属性向量对是指剔除了词频高于当前目标词汇的目标词汇已选择的属性向量对之后的属性向量对。
[0099] 根据在训练集中的词频(一个词在训练集中出现的次数),将训练集中所有目标词汇根据词频的高低进行降序排列,即按照词频由高到低的顺序进行降序排列。降序排列后,按照词频的高低顺序,依次确定每个目标词汇与属性向量对的重映射关系,先确定词频高的目标词汇与属性向量对的重映射关系,后确定词频低的目标词汇与属性向量对的重映射关系。
[0100] 在确定当前目标词汇与属性向量对的重映射关系时,根据当前目标词汇对应所有待选择的属性向量对的得分,选择得分最大的一对属性向量对赋予当前目标词汇。其中,所述待选择的属性向量对是指剔除了词频高于当前目标词汇的目标词汇已选择的属性向量对之后的属性向量对。
[0101] 比如,词频最高的目标词汇具有最大的优先权,先进行和属性向量对的重映射。此时,根据词频最高的目标词汇对应属性向量对的得分情况,选择得分最大的一对属性向量对赋予词频最高的目标词汇。后续的目标词汇在进行和属性向量对的重映射时,便不能选择词频高于此目标词汇的目标词汇已选择的属性向量对,只能在剩下的属性向量对中,选择对应当前目标词汇得分最大的属性向量对赋予当前目标词汇。
[0102] 由此,完成训练集中所有目标词汇和属性向量对的重映射。
[0103] 因为相似的目标词汇具有相似的上下文信息,在训练过程中,相似的目标词汇在进行预测时针对第一属性向量和第二属性向量会具有相似的概率分布,所以相似的目标词汇针对相同第一属性向量和相同第二属性向量的得分会比较接近。虽然不同的目标词汇不能用同样的属性向量对表示,但是本发明实施例的重映射过程可以实现相似目标词汇用相同第一属性向量或相同第二属性向量进行表示,从而增强神经机器翻译模型的表达能力,更好地实现翻译。
[0104] 也即,虽然两个目标词汇无法由同一个属性向量对表示,但是它们可以由一个相同的属性向量表示。比如如图3中,beijing和china共享了一个属性向量,beijing和paris也共享了一个属性向量。
[0105] 映射关系不是刚开始对应好的,最开始是随机分配给目标词汇不同的属性变量,也就是beijing和china不会共享一个相同的属性变量,在训练过程中通过收集每个词汇对于每个属性向量对的得分,并对目标词汇和属性向量对进行重映射。在多次迭代之后,beijing和china就可以自动学会去共享同一个属性变量。
[0106] 传统的方法如果要采用层次结构的方法需要提供一些先验知识,比如beijing和china是相似词。本发明实施例提供的神经机器模型的构建不需要这些先验知识,模型在训练中能自动地将相似词聚类。从而使得相似的词语,特别是相似的低频词和高频词能由同一个属性向量表示,增强了低频词的表示能力,使得低频词的预测概率增大,所以可以在保证低频词翻译质量的同时,大幅度提升低频词的翻译质量。
[0107] 传统的机器翻译无法翻译低频词,比如100万个目标词汇只能选择其中的词频最高的3到8万个目标词汇进行训练并翻译,而本发明实施例所提供的方法可以将所有100万个目标词汇都进行训练并进行翻译。
[0108] 在上述实施例的基础上,本发明实施例通过按照词频的高低依次进行目标词汇和属性向量对的重映射,有利于保证词频高的目标词汇的映射关系的正确性,从而有利于提高神经机器翻译模型的可靠性;并且,本发明实施例中不需要传统方法所需的额外的先验知识,目标词汇里相似的低频词与高频词能在训练中自动地分配相同的属性向量,从而在保证高频词翻译质量的同时,大幅度地提高了低频词的翻译质量。
[0109] 图4是本发明实施例提供的神经机器翻译方法流程图。如图4所示,所述方法包括:
[0110] 步骤201、基于上述各实施例所构建的神经机器翻译模型,将源语句翻译成目标语句。
[0111] 本发明实施例提供的神经机器翻译方法,可以采用基于属性的集束搜索方法进行翻译。
[0112] 具体地,在本发明实施例中,采用基于属性的集束搜索方法进行翻译是指按照目标词汇的顺序,依次保留与相应目标词汇对应的概率最大的预设数量的第一属性向量和第二属性向量,在满足相邻目标词汇对应的属性向量的制约关系下,计算所有目标词汇对应各个第一属性向量的概率和对应各个第二属性向量的概率的乘积,取乘积最大时各个目标词汇所对应的第一属性向量和第二属性向量为最后所确定的各个目标词汇所对应的第一属性向量和第二属性向量。确定各个目标词汇所对应的第一属性向量和第二属性向量后,再根据上面的映射函数g-1将每对属性向量映射为相应的目标词汇。
[0113] 本发明实施例在解码阶段使用了基于属性的集束搜索方法,减少了目标词汇的搜索空间,降低了模型的计算复杂度,加快了解码的速度,提高了翻译效率,使得机器翻译系统能快速响应多用户的翻译请求;使用一对属性向量对表示目标词汇,大幅减少了用于表示目标词汇的参数数量,有效解决神经机器翻译中的集外词问题,大幅提高翻译质量和翻译效率;同时降低了模型整体的空间开销,便于模型的部署与应用,特别适用于移动终端的离线翻译系统的构建与使用。
[0114] 图5是本发明实施例提供的神经机器翻译模型的构建装置结构示意图。如图5所示,所述神经机器翻译模型的构建装置包括神经机器翻译模型构建模块10,用于基于编码器-解码器框架构建神经机器翻译模型,所述神经机器翻译模型包括编码器和解码器;其中,所述解码器在生成目标词汇时,依次生成与目标词汇对应的第一属性向量和第二属性向量,然后再由所述第一属性向量和所述第二属性向量组成一个属性向量对映射到相应的目标词汇。
[0115] 神经机器翻译模型构建模块10基于编码器-解码器框架构建神经机器翻译模型,所述神经机器翻译模型包括编码器和解码器;所构建的神经机器翻译模型中的解码器,采用基于层次结构的解码方法进行解码生成目标词汇,所述基于层次结构的解码方法就是指解码器在生成目标词汇的时候,依次生成与目标词汇对应的两个属性向量(两层),即第一属性向量和第二属性向量,然后再由这两个属性向量组成一个属性对映射到相应的目标词汇。
[0116] 进一步地,基于上述实施例,所述神经机器翻译模型构建模块10所构建的神经机器翻译模型的所述解码器在生成目标词汇时,依次生成与目标词汇对应的第一属性向量和第二属性向量,具体包括:通过源语句的隐藏状态序列、与当前目标词汇对应的上下文向量、当前目标词汇的前一目标词汇的第二属性隐藏状态和第二属性向量得到当前目标词汇的第一属性隐藏状态;通过与当前目标词汇对应的上下文向量、当前目标词汇的第一属性隐藏状态和第一属性向量得到当前目标词汇的第二属性隐藏状态;基于当前目标词汇的第一属性隐藏状态计算当前目标词汇对应各个第一属性向量的概率;基于当前目标词汇的第二属性隐藏状态计算当前目标词汇对应各个第二属性向量的概率;按照目标词汇的顺序,根据计算得到的所有目标词汇对应各个第一属性向量的概率和对应各个第二属性向量的概率确定各个目标词汇的第一属性向量和第二属性向量。
[0117] 按照目标词汇的顺序,可计算得到所有目标词汇对应各个第一属性向量的概率和对应各个第二属性向量的概率,在满足相邻目标词汇对应的属性向量的制约关系下,可以通过计算所有目标词汇对应的第一属性向量的概率和第二属性向量的概率的乘积,取乘积最大时各个目标词汇所对应的第一属性向量和第二属性向量为最后所确定的各个目标词汇所对应的第一属性向量和第二属性向量。
[0118] 进一步地,基于上述实施例,所述神经机器翻译模型构建模块10所构建的神经机器翻译模型的所述解码器在用于基于当前目标词汇的第一属性隐藏状态计算当前目标词汇对应各个第一属性向量的概率时,通过如下公式实现:
[0119]
[0120]
[0121] 其中, 表示对应于第j个目标词汇,第一实数矩阵中第m行的第一属性向量的概率; 表示所述第一实数矩阵中第m行的第一属性向量; 为计算过程中间变量;表示所述第一实数矩阵中第i行的第一属性向量;W(1)为训练第一属性向量的模型训练参数,M为所述第一实数矩阵的行数; 为第j个目标词汇的第一属性隐藏状态; 为第j-1个目标词汇的第二属性向量;cj为第j个目标词汇的上下文向量;
[0122] 在基于当前目标词汇的第二属性隐藏状态计算当前目标词汇对应各个第二属性向量的概率,通过如下公式实现:
[0123]
[0124]
[0125] 其中, 表示对应于第j个目标词汇,第二实数矩阵中第n行的第二属性向量的概率; 表示所述第二实数矩阵中第n行的第二属性向量; 为计算过程中间变量;表示所述第二实数矩阵中第l行的第二属性向量;W(2)为训练第二属性向量的模型训练参数,N为所述第二实数矩阵的行数; 为第j个目标词汇的第二属性隐藏状态; 为第j个目标词汇的第一属性向量;cj为第j个目标词汇的上下文向量。
[0126] 进一步地,基于上述实施例,所述神经机器翻译模型构建模块10所构建的神经机器翻译模型的所述解码器在用于按照目标词汇的顺序,根据计算得到的所有目标词汇对应各个第一属性向量的概率和对应各个第二属性向量的概率确定各个目标词汇的第一属性向量和第二属性向量时,具体用于:按照概率的高低,存储与各个目标词汇对应的预设数量的第一属性向量和第二属性向量;在满足相邻目标词汇对应的属性向量的制约关系下,计算所有目标词汇对应各个第一属性向量的概率和对应各个第二属性向量的概率的乘积,取乘积最大时各个目标词汇所对应的第一属性向量和第二属性向量为最后所确定的各个目标词汇所对应的第一属性向量和第二属性向量。
[0127] 在上述实施例的基础上,本发明实施例通过只存储与各个目标词汇对应的预设数量的第一属性向量和第二属性向量,可进一步减少计算复杂度,提高系统运行效率。
[0128] 进一步地,基于上述实施例,所述神经机器翻译模型的构建装置还包括训练模块,用于对神经机器翻译模型进行训练,具体用于:在对所述神经机器翻译模型进行训练的过程中收集预设特征,并在模型收敛时暂停训练;根据收集的所述预设特征对训练集中的目标词汇和属性向量对进行重映射;使用重映射后的属性向量对继续训练所述神经机器翻译模型;重复上述步骤直至达到预设的训练时间或训练次数时终止训练。
[0129] 神经机器翻译模型收敛的判断条件为多次模型迭代后在验证集上的交叉熵不再降低,暂停训练是指在完整的一轮训练结束后,保持所有模型参数不变。重新训练时,使用训练暂停后的模型参数,并使用重映射后的属性向量对继续对模型进行训练。
[0130] 重复上述步骤,即重复执行“在对所述神经机器翻译模型进行训练的过程中收集预设特征,并在模型收敛时暂停训练;根据收集的所述预设特征对训练集中的目标词汇和属性向量对进行重映射;使用重映射后的属性向量对继续训练所述神经机器翻译模型”,直至达到预设的训练时间或训练次数时终止训练。
[0131] 在上述实施例的基础上,本发明实施例通过在训练暂停时,根据收集的预设特征进行目标词汇和属性向量对的重映射,并根据重映射后的属性向量对继续训练神经机器翻译模型,通过学习逐步优化目标词汇和属性向量对的映射关系,有利于得到更加优化的神经机器翻译模型。
[0132] 进一步地,基于上述实施例,所述神经机器翻译模型的构建装置还包括第一实数矩阵建立模块、第二实数矩阵建立模块及初始映射模块,其中:第一实数矩阵建立模块用于建立第一实数矩阵,所述第一实数矩阵包括第一属性向量;第二实数矩阵建立模块用于建立第二实数矩阵,所述第二实数矩阵包括第二属性向量;所述初始映射模块用于将训练集中的目标词汇分别映射到一对初始的第一属性向量和第二属性向量。
[0133] 本发明实施例所建立的神经网络机器模型,目标语言训练集中的所有的目标词汇均映射到由第一属性向量和第二属性向量组成的属性向量对。
[0134] 在模型训练之前,将训练集中的目标词汇分别映射到一对初始的第一属性向量和第二属性向量,此时目标词汇和属性向量对的映射关系是随机的,如上述实施例所述,随着模型训练的不断进行,会逐步优化目标词汇和属性向量对的映射关系。
[0135] 在上述实施例的基础上,本发明实施例通过在训练之前建立包含第一属性向量的第一实数矩阵及包含第二属性向量的第二实数矩阵,并将目标词汇进行对应属性向量对的初始映射,为神经机器翻译模型的训练奠定了基础。
[0136] 进一步地,基于上述实施例,所述预设特征为训练集中的目标词汇对应每对属性向量对的得分,具体计算公式如下:
[0137]
[0138] 其中, 为第j1个目标词汇对应由所述第一实数矩阵中第m行的第一属性向量和所述第二实数矩阵中第n行的第二属性向量组成的属性向量对的得分; 分别表示对应于第
j1、j2、……、jr个目标词汇,所述第一实数矩阵中第m行的第一属性向量的概率的对数;
分别表示对应于第j1、
j2、……、jr个目标词汇,所述第二实数矩阵中第n行的第二属性向量的概率的对数;其中,第j1、j2……jr个目标词汇为训练集中所有相同的目标词汇。
[0139] 在上述实施例的基础上,本发明实施例通过将训练集中的目标词汇对应每对属性向量对的得分作为预设特征进行收集,有利于实现更为合理的重映射,进一步利于优化神经机器翻译模型。
[0140] 进一步地,基于上述实施例,所述训练模块在用于所述根据收集的所述预设特征对目标词汇和属性向量对进行重映射时,具体用于:将训练集中所有目标词汇根据词频的高低进行降序排列;按照词频的高低顺序,根据当前目标词汇对应所有待选择的属性向量对的得分,选择得分最大的一对属性向量对赋予当前目标词汇;其中,所述待选择的属性向量对是指剔除了词频高于当前目标词汇的目标词汇已选择的属性向量对之后的属性向量对。
[0141] 按照词频由高到低的顺序进行降序排列。降序排列后,按照词频的高低顺序,依次确定每个目标词汇与属性向量对的重映射关系,先确定词频高的目标词汇与属性向量对的重映射关系,后确定词频低的目标词汇与属性向量对的重映射关系。
[0142] 本发明实施例的重映射过程可以实现相似目标词汇用相同第一属性向量或相同第二属性向量进行表示,从而增强神经机器翻译模型的表达能力,更好地实现翻译。
[0143] 在上述实施例的基础上,本发明实施例通过按照词频的高低依次进行目标词汇和属性向量对的重映射,有利于保证词频高的目标词汇的映射关系的正确性,从而有利于提高神经机器翻译模型的可靠性;并且,本发明实施例中不需要传统方法所需的额外的先验知识,目标词汇里相似的低频词与高频词能在训练中自动地分配相同的属性向量,从而在保证高频词翻译质量的同时,大幅度地提高了低频词的翻译质量。
[0144] 图6是本发明实施例提供的神经机器翻译装置的结构示意图。如图6所示,所述神经机器翻译装置包括翻译模块20,具体用于基于上述各实施例所构建的神经机器翻译模型,将源语句翻译成目标语句。
[0145] 本发明实施例在解码阶段使用了基于属性的集束搜索方法,减少了目标词汇的搜索空间,降低了模型的计算复杂度,加快了解码的速度,提高了翻译效率,使得机器翻译系统能快速响应多用户的翻译请求;使用一对属性向量对表示目标词汇,大幅减少了用于表示目标词汇的参数数量,有效解决神经机器翻译中的集外词问题,大幅提高翻译质量和翻译效率;同时降低了模型整体的空间开销,便于模型的部署与应用,特别适用于移动终端的离线翻译系统的构建与使用。
[0146] 本发明实施例提供的设备是用于上述方法的,具体功能可参照上述方法流程,此处不再赘述。
[0147] 图7是本发明实施例提供的电子设备的实体结构示意图。如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行如下方法:基于编码器-解码器框架构建神经机器翻译模型,所述神经机器翻译模型包括编码器和解码器;其中,所述解码器在生成目标词汇时,依次生成与目标词汇对应的第一属性向量和第二属性向量,然后再由所述第一属性向量和所述第二属性向量组成一个属性向量对映射到相应的目标词汇。
[0148] 此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0149] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。
[0150] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0151] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈