首页 / 专利库 / 人工智能 / 候选译文 / 一种生成候选译文的方法、装置及电子设备

一种生成候选译文的方法、装置及电子设备

阅读:157发布:2020-05-16

专利汇可以提供一种生成候选译文的方法、装置及电子设备专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种生成 候选译文 的方法、装置及 电子 设备,一种文本量化方法、装置及电子设备,以及一种词量化方法、装置和电子设备。其中生成候选译文的方法包括:根据预先生成的翻译规则,生成待翻译文本的待定候选译文;根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率 预测模型 ,生成待翻译文本到各个待定候选译文的翻译概率;选取预设数量的翻译概率排在高位的待定候选译文,作为待翻译文本的候选译文;其中对翻译概率产生影响的特征至少包括待翻译文本和候选译文的语义相似度。采用本 申请 提供的方法,能够深入到自然语言的语义层面评估各个待定候选译文的翻译 质量 ,从而达到提高候选译文翻译质量的效果。,下面是一种生成候选译文的方法、装置及电子设备专利的具体信息内容。

1.一种生成候选译文的方法,用于基于统计的机器翻译系统,其特征在于,包括:
根据预先生成的翻译规则,生成待翻译文本的待定候选译文;
根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率;
选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文;
其中,所述对翻译概率产生影响的特征至少包括所述待翻译文本和所述候选译文的语义相似度,所述待翻译文本和待定候选译文的语义相似度,采用如下步骤计算:根据预先生成的源语言的词与词向量的对应关系,获取待翻译文本包括的各个词所对应的词向量;根据待翻译文本包括的各个词所对应的词向量,以及预先生成的源语言的文本向量预测模型,生成待翻译文本的文本向量;获取待翻译文本的文本向量;根据待翻译文本的文本向量,计算待翻译文本和待定候选译文的语义相似度。
2.根据权利要求1所述的生成候选译文的方法,其特征在于,所述根据预先生成的翻译规则,生成待翻译文本的待定候选译文包括:
针对各个翻译规则,判断所述翻译规则是否可应用于所述待翻译文本;
若上述判断结果为是,则根据所述翻译规则,生成所述待翻译文本的待定候选译文。
3.根据权利要求1所述的生成候选译文的方法,其特征在于,所述对翻译概率产生影响的特征还包括:所述待翻译文本到所述候选译文的短语翻译概率、所述候选译文到所述待翻译文本的短语翻译概率、所述待翻译文本到所述候选译文的词翻译概率、所述候选译文到所述待翻译文本的词翻译概率、所述候选译文的语言模型和所述待翻译文本与所述候选译文调序与不调序的分类概率的至少一者。
4.根据权利要求1所述的生成候选译文的方法,其特征在于,通过线性回归算法,从预先存储的平行语料中学习出所述翻译概率预测模型。
5.根据权利要求1所述的生成候选译文的方法,其特征在于,所述根据待翻译文本的文本向量,计算待翻译文本和待定候选译文的语义相似度,包括:获取所述待定候选译文的文本向量;
计算所述待翻译文本的文本向量和所述待定候选译文的文本向量之间的距离,作为所述待翻译文本和待定候选译文的语义相似度;
其中,所述获取所述待定候选译文的文本向量,包括:
根据预先生成的目标语言的词与词向量的对应关系,获取待定候选译文包括的各个词所对应的词向量;
根据待定候选译文包括的各个词所对应的词向量,以及预先生成的目标语言的文本向量预测模型,生成待定候选译文的文本向量;
所述文本向量是指能够表示双语语义信息的文本向量。
6.根据权利要求5所述的生成候选译文的方法,其特征在于,所述词向量是指能够表示双语语义信息的词向量。
7.根据权利要求6所述的生成候选译文的方法,其特征在于,在所述根据预先生成的源语言的词与词向量的对应关系,获取所述待翻译文本包括的各个词所对应的词向量;以及根据预先生成的目标语言的词与词向量的对应关系,获取所述待定候选译文包括的各个词所对应的词向量之前,还包括:
解析所述待翻译文本,获取所述待翻译文本包括的词;和/或解析所述待定候选译文,获取所述候选译文包括的词。
8.根据权利要求6所述的生成候选译文的方法,其特征在于,所述预先生成的源语言的文本向量预测模型和目标语言的文本向量预测模型,采用如下步骤生成:
读取预先存储的平行语料库;
以最大化各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型;
将训练后的双语文本向量编码解码模型的编码部分,作为所述预先生成的源语言的文本向量预测模型;以及将训练后的双语文本向量编码解码模型的解码部分的反向模型,作为所述预先生成的目标语言的文本向量预测模型;
其中,所述预设的双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
9.根据权利要求8所述的生成候选译文的方法,其特征在于,在所述以最大化各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型之前,还包括:
解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
10.根据权利要求9所述的生成候选译文的方法,其特征在于,所述以最大化述所各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型,包括:
遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述预设的双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;若否,则将调整后的所述待调整的源语言的词和词向量的对应关系作为所述预先生成的源语言的词和词向量的对应关系,以及将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的目标语言的词和词向量的对应关系。
11.根据权利要求10所述的生成候选译文的方法,其特征在于,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,包括:
根据预设的学习速率和所述平均翻译概率的计算公式,计算所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重的梯度;
根据所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重的梯度,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重。
12.根据权利要求8所述的生成候选译文的方法,其特征在于,所述预设的双语文本向量编码解码模型是基于递归神经网络的双语文本向量编码解码模型。
13.根据权利要求12所述的生成候选译文的方法,其特征在于,所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率,采用下述公式计算:
其中,x是所述源语言句子的词向量序列, y是所述目标语言句
子的词向量序列, c是所述源语言句子的文本向量,由所述编码部分
中各个时序的隐藏状态组成, ht是所述编码部分中时序t的隐藏
状态,与所述源语言句子的当前词和前一个隐藏状态相关,ht=f(xt,ht-1);p(yt|{y1,y2,...,yt-1},c)是在所述源语言句子的文本向量和{y1,y2,...,yt-1}背景下的yt的似然概率,与所述目标语言句子的前一个词、当前隐藏状态和所述源语言句子的文本向量相关,p(yt|{y1,y2,...,yt-1},c)=g(yt-1,st,c);st为所述解码部分中时序t的隐藏状态,与所述目标语言句子的前一个词、前一个隐藏状态和所述源语言句子的文本向量相关,st=f(yt-1,st-1,c);f和g是非线性激活函数。
14.根据权利要求5所述的生成候选译文的方法,其特征在于,所述文本向量之间的距离包括余弦夹距离或欧式距离。
15.一种生成候选译文的装置,用于基于统计的机器翻译系统,其特征在于,包括:
第一生成单元,用于根据预先生成的翻译规则,生成待翻译文本的待定候选译文;
第一计算单元,用于根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率;
选取单元,用于选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文;
其中,所述对翻译概率产生影响的特征至少包括所述待翻译文本和所述候选译文的语义相似度;
第二生成单元,用于生成待翻译文本的文本向量;第二生成单元包括:
获取子单元,根据预先生成的源语言的词与词向量的对应关系,获取待翻译文本包括的各个词所对应的词向量;
生成子单元,根据待翻译文本包括的各个词所对应的词向量,以及预先生成的源语言的文本向量预测模型,生成待翻译文本的文本向量;
第二计算单元,用于计算待翻译文本和待定候选译文的语义相似度;第二计算单元包括:
获取子单元,用于获取待翻译文本的文本向量;
计算子单元,用于根据待翻译文本的文本向量,计算待翻译文本和待定候选译文的语义相似度。
16.根据权利要求15所述的生成候选译文的装置,其特征在于,所述第一生成单元包括:
判断子单元,用于针对各个翻译规则,判断所述翻译规则是否可应用于所述待翻译文本;
生成子单元,用于若上述判断结果为是,则根据所述翻译规则,生成所述待翻译文本的待定候选译文。
17.根据权利要求15所述的生成候选译文的装置,其特征在于,所述获取子单元,还用于获取所述待定候选译文的文本向量;
所述计算子单元,具体用于计算所述待翻译文本的文本向量和所述待定候选译文的文本向量之间的距离,作为所述待翻译文本和待定候选译文的语义相似度;
所述第二生成单元,还用于生成待定候选译文的文本向量;
所述获取子单元,还用于根据预先生成的目标语言的词与词向量的对应关系,获取待定候选译文包括的各个词所对应的词向量;
所述生成子单元,还用于根据待定候选译文包括的各个词所对应的词向量,以及预先生成的目标语言的文本向量预测模型,生成待定候选译文的文本向量
其中,所述文本向量是指能够表示双语语义信息的文本向量。
18.根据权利要求17所述的生成候选译文的装置,其特征在于,所述词向量是指能够表示双语语义信息的词向量。
19.根据权利要求18所述的生成候选译文的装置,其特征在于,所述第二生成单元还包括:
解析子单元,用于解析所述待翻译文本,获取所述待翻译文本包括的词;和/或解析所述待定候选译文,获取所述候选译文包括的词。
20.根据权利要求18所述的生成候选译文的装置,其特征在于,还包括:
第三生成单元,用于生成所述预先生成的源语言的文本向量预测模型和目标语言的文本向量预测模型。
21.根据权利要求20所述的生成候选译文的装置,其特征在于,所述第三生成单元包括:
读取子单元,用于读取预先存储的平行语料库;
训练子单元,用于以最大化各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型;
设置子单元,用于将训练后的双语文本向量编码解码模型的编码部分,作为所述预先生成的源语言的文本向量预测模型;以及将训练后的双语文本向量编码解码模型的解码部分的反向模型,作为所述预先生成的目标语言的文本向量预测模型;
其中,所述预设的双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
22.根据权利要求21所述的生成候选译文的装置,其特征在于,所述第三生成单元,还包括:
解析子单元,用于解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
初始化子单元,用于为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
23.根据权利要求22所述的生成候选译文的装置,其特征在于,所述训练子单元包括:
第一计算子单元,用于遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述预设的双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
第二计算子单元,用于计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
判断子单元,用于判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;若否,则将调整后的所述待调整的源语言的词和词向量的对应关系作为所述预先生成的源语言的词和词向量的对应关系,以及将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的目标语言的词和词向量的对应关系。
24.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器用于存储生成候选译文的装置,所述生成候选译文的装置被所述处理器执行时,包括如下步骤:根据预先生成的翻译规则,生成待翻译文本的待定候选译文;根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率;选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文;其中,所述对翻译概率产生影响的特征至少包括所述待翻译文本和所述候选译文的语义相似度,待翻译文本和待定候选译文的语义相似度,采用如下步骤计算:根据预先生成的源语言的词与词向量的对应关系,获取待翻译文本包括的各个词所对应的词向量;根据待翻译文本包括的各个词所对应的词向量,以及预先生成的源语言的文本向量预测模型,生成待翻译文本的文本向量;获取待翻译文本的文本向量;根据待翻译文本的文本向量,计算待翻译文本和待定候选译文的语义相似度。
25.一种文本量化方法,其特征在于,包括:
获取待量化文本;
根据预先生成的词与词向量的对应关系,获取所述待量化文本包括的各个词所对应的词向量;
根据所述待量化文本包括的各个词所对应的词向量,以及预先生成的与所述待量化文本所属语言相对应的第一语言文本向量预测模型,生成所述待量化文本的文本向量;
其中,所述词向量是指能够表示双语语义信息的词向量;所述文本向量是指能够表示双语语义信息的文本向量;
所述第一语言文本向量预测模型,采用如下步骤生成:读取预先存储的平行语料库;以最大化各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型;若所述待量化文本所属语言是所述源语言,则将训练后的双语文本向量编码解码模型的编码部分,作为所述第一语言文本向量预测模型;若所述待量化文本所属语言是所述目标语言,将训练后的双语文本向量编码解码模型的解码部分的反向模型,作为所述第一语言文本向量预测模型。
26.根据权利要求25所述的文本量化方法,其特征在于,在所述根据预先生成的词与词向量的对应关系,获取所述待量化文本包括的各个词所对应的词向量之前,还包括:
解析所述待量化文本,获取所述待量化文本包括的各个词。
27.根据权利要求25所述的文本量化方法,其特征在于,所述预设的双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
28.根据权利要求27所述的文本量化方法,其特征在于,在所述以最大化各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型之前,还包括:
解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
29.根据权利要求28所述的文本量化方法,其特征在于,所述以最大化各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型,包括:
遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述预设的双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;
若上述判断结果为否,则如果所述待量化文本所属语言是所述源语言,则将调整后的所述待调整的源语言的词和词向量的对应关系作为所述预先生成的词和词向量的对应关系;如果所述待量化文本所属语言是所述目标语言,则将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的词和词向量的对应关系。
30.根据权利要求29所述的文本量化方法,其特征在于,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,包括:
根据预设的学习速率和所述平均翻译概率的计算公式,计算所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重的梯度;
根据所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重的梯度,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重。
31.根据权利要求27所述的文本量化方法,其特征在于,所述预设的双语文本向量编码解码模型是基于递归神经网络的双语文本向量编码解码模型。
32.根据权利要求31所述的文本量化方法,其特征在于,所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率,采用下述公式计算:
其中,x是所述源语言句子的词向量序列, y是所述目标语言句
子的词向量序列, c是所述源语言句子的文本向量,由所述编码部分
中各个时序的隐藏状态组成, ht是所述编码部分中时序t的隐藏
状态,与所述源语言句子的当前词和前一个隐藏状态相关,ht=f(xt,ht-1);p(yt|{y1,y2,...,yt-1},c)是在所述源语言句子的文本向量和{y1,y2,...,yt-1}背景下的yt的似然概率,与所述目标语言句子的前一个词、当前隐藏状态和所述源语言句子的文本向量相关,p(yt|{y1,y2,...,yt-1},c)=g(yt-1,st,c);st为所述解码部分中时序t的隐藏状态,与所述目标语言句子的前一个词、前一个隐藏状态和所述源语言句子的文本向量相关,st=f(yt-1,st-1,c);f和g是非线性激活函数。
33.一种文本量化装置,其特征在于,包括:
获取单元,用于获取待量化文本;
映射单元,用于根据预先生成的词与词向量的对应关系,获取所述待量化文本包括的各个词所对应的词向量;
预测单元,用于根据所述待量化文本包括的各个词所对应的词向量,以及预先生成的与所述待量化文本所属语言相对应的第一语言文本向量预测模型,生成所述待量化文本的文本向量;
其中,所述词向量是指能够表示双语语义信息的词向量;所述文本向量是指能够表示双语语义信息的文本向量;
所述生成单元包括:读取子单元,用于读取预先存储的平行语料库;
训练子单元,用于以最大化各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型;
设置子单元,用于若所述待量化文本所属语言是所述源语言,则将训练后的双语文本向量编码解码模型的编码部分,作为所述第一语言文本向量预测模型;若所述待量化文本所属语言是所述目标语言,将训练后的双语文本向量编码解码模型的解码部分的反向模型,作为所述第一语言文本向量预测模型。
34.根据权利要求33所述的文本量化装置,其特征在于,还包括:
解析单元,用于解析所述待量化文本,获取所述待量化文本包括的各个词。
35.根据权利要求33所述的文本量化装置,其特征在于,还包括:
生成单元,用于生成所述第一语言文本向量预测模型。
36.根据权利要求35所述的文本量化装置,其特征在于,所述预设的双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
37.根据权利要求36所述的文本量化装置,其特征在于,所述生成单元还包括:
解析子单元,用于解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
初始化子单元,用于为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
38.根据权利要求36所述的文本量化装置,其特征在于,所述训练子单元包括:
第一计算子单元,用于遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述预设的双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
第二计算子单元,用于计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
判断子单元,用于判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;
设置子单元,用于若上述判断结果为否,则如果所述待量化文本所属语言是所述源语言,则将调整后的所述待调整的源语言的词和词向量的对应关系作为所述预先生成的词和词向量的对应关系;如果所述待量化文本所属语言是所述目标语言,则将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的词和词向量的对应关系。
39.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器用于存储文本量化装置,所述文本量化装置被所述处理器执行时,包括如下步骤:获取待量化文本;根据预先生成的词与词向量的对应关系,获取所述待量化文本包括的各个词所对应的词向量;根据所述待量化文本包括的各个词所对应的词向量,以及预先生成的与所述待量化文本所属语言相对应的第一语言文本向量预测模型,生成所述待量化文本的文本向量;其中,所述词向量是指能够表示双语语义信息的词向量;所述文本向量是指能够表示双语语义信息的文本向量;所述第一语言文本向量预测模型,采用如下步骤生成:读取预先存储的平行语料库;以最大化各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型;若所述待量化文本所属语言是所述源语言,则将训练后的双语文本向量编码解码模型的编码部分,作为所述第一语言文本向量预测模型;若所述待量化文本所属语言是所述目标语言,将训练后的双语文本向量编码解码模型的解码部分的反向模型,作为所述第一语言文本向量预测模型。
40.一种词量化方法,其特征在于,包括:
读取预先存储的平行语料库;
解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系;
根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量。
41.根据权利要求40所述的词量化方法,其特征在于,所述双语文本向量预测模型采用双语文本向量编码解码模型;
所述根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量,采用如下方式:
以最大化所述平行语料库中各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练所述双语文本向量编码解码模型,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,获取所述能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量;
其中,所述双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
42.根据权利要求41所述的词量化方法,其特征在于,所述以最大化各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练所述双语文本向量编码解码模型,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,获取所述能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量,包括:
遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,以及所述双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;若否,则将调整后的所述待调整的源语言的词和词向量的对应关系中的词向量,作为所述能够表示双语语义信息的源语言词的词向量,以及将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的目标语言的词和词向量的对应关系,作为所述能够表示双语语义信息的目标语言词的词向量。
43.根据权利要求42所述的词量化方法,其特征在于,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,以及所述双语文本向量编码解码模型的各个连接权重,包括:
根据预设的学习速率和所述平均翻译概率的计算公式,计算所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量的梯度,以及所述双语文本向量编码解码模型的各个连接权重的梯度;
根据所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量的梯度,以及所述双语文本向量编码解码模型的各个连接权重的梯度,更新所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量和所述双语文本向量编码解码模型的各个连接权重。
44.根据权利要求41所述的词量化方法,其特征在于,所述双语文本向量编码解码模型是基于递归神经网络的双语文本向量编码解码模型。
45.根据权利要求44所述的词量化方法,其特征在于,所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率,采用下述公式计算:
其中,x是所述源语言句子的词向量序列, y是所述目标语言句
子的词向量序列, c是所述源语言句子的文本向量,由所述编码部分
中各个时序的隐藏状态组成, ht是所述编码部分中时序t的隐藏
状态,与所述源语言句子的当前词和前一个隐藏状态相关,ht=f(xt,ht-1);p(yt|{y1,y2,...,yt-1},c)是在所述源语言句子的文本向量和(y1,y2,...,yt-1}背景下的yt的似然概率,与所述目标语言句子的前一个词、当前隐藏状态和所述源语言句子的文本向量相关,p(yt|{y1,y2,...,yt-1},c)=g(yt-1,st,c);st为所述解码部分中时序t的隐藏状态,与所述目标语言句子的前一个词、前一个隐藏状态和所述源语言句子的文本向量相关,st=f(yt-1,st-1,c);f和g是非线性激活函数。
46.一种词量化装置,其特征在于,包括:
读取单元,用于读取预先存储的平行语料库;
解析单元,用于解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
初始化单元,用于为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系;
训练单元,用于根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量。
47.根据权利要求46所述的词量化装置,其特征在于,所述双语文本向量预测模型采用双语文本向量编码解码模型;
所述根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量,采用如下方式:
以最大化所述平行语料库中各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练所述双语文本向量编码解码模型,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,获取所述能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量;
其中,所述双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
48.根据权利要求46所述的词量化装置,其特征在于,所述训练单元包括:
第一计算子单元,用于遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
第二计算子单元,用于计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
判断子单元,用于判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,以及所述双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;若否,则将调整后的所述待调整的源语言的词和词向量的对应关系中的词向量,作为所述能够表示双语语义信息的源语言词的词向量,以及将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的目标语言的词和词向量的对应关系,作为所述能够表示双语语义信息的目标语言词的词向量。
49.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器用于存储词量化装置,所述词量化装置被所述处理器执行时,包括如下步骤:读取预先存储的平行语料库;解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系;根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量。
50.一种生成候选译文的方法,用于基于统计的机器翻译系统,其特征在于,包括:
根据预先生成的翻译规则,生成待翻译文本的待定候选译文;
根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率;
选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文;
其中,所述对翻译概率产生影响的特征至少包括所述待翻译文本和所述候选译文的语义相似度,所述待翻译文本和待定候选译文的语义相似度,采用如下步骤计算:根据预先生成的目标语言的词与词向量的对应关系,获取待定候选译文包括的各个词所对应的词向量;根据待定候选译文包括的各个词所对应的词向量,以及预先生成的目标语言的文本向量预测模型,生成待定候选译文的文本向量;获取待定候选译文的文本向量;根据待定候选译文的文本向量,计算待翻译文本和待定候选译文的语义相似度。
51.根据权利要求50所述的生成候选译文的方法,其特征在于,所述根据预先生成的翻译规则,生成待翻译文本的待定候选译文包括:
针对各个翻译规则,判断所述翻译规则是否可应用于所述待翻译文本;
若上述判断结果为是,则根据所述翻译规则,生成所述待翻译文本的待定候选译文。
52.根据权利要求50所述的生成候选译文的方法,其特征在于,所述对翻译概率产生影响的特征还包括:所述待翻译文本到所述候选译文的短语翻译概率、所述候选译文到所述待翻译文本的短语翻译概率、所述待翻译文本到所述候选译文的词翻译概率、所述候选译文到所述待翻译文本的词翻译概率、所述候选译文的语言模型和所述待翻译文本与所述候选译文调序与不调序的分类概率的至少一者。
53.根据权利要求50所述的生成候选译文的方法,其特征在于,通过线性回归算法,从预先存储的平行语料中学习出所述翻译概率预测模型。
54.根据权利要求50所述的生成候选译文的方法,其特征在于,所述根据待定候选译文的文本向量,计算待翻译文本和待定候选译文的语义相似度,包括:
获取待翻译文本的文本向量;
计算待翻译文本的文本向量和待定候选译文的文本向量之间的距离,作为待翻译文本和待定候选译文的语义相似度;
其中,所述获取待翻译文本的文本向量,包括:
根据待翻译文本包括的各个词所对应的词向量,以及预先生成的源语言的文本向量预测模型,生成待翻译文本的文本向量;
所述文本向量是指能够表示双语语义信息的文本向量。
55.根据权利要求54所述的生成候选译文的方法,其特征在于,所述词向量是指能够表示双语语义信息的词向量。
56.一种生成候选译文的装置,用于基于统计的机器翻译系统,其特征在于,包括:
第一生成单元,用于根据预先生成的翻译规则,生成待翻译文本的待定候选译文;
第一计算单元,用于根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率;
选取单元,用于选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文;
其中,所述对翻译概率产生影响的特征至少包括所述待翻译文本和所述候选译文的语义相似度;
第二生成单元,用于生成待定候选译文的文本向量;第二生成单元包括:
获取子单元,根据预先生成的目标语言的词与词向量的对应关系,获取待定候选译文包括的各个词所对应的词向量;
生成子单元,根据待定候选译文包括的各个词所对应的词向量,以及预先生成的目标语言的文本向量预测模型,生成待定候选译文的文本向量;
第二计算单元,用于计算待翻译文本和待定候选译文的语义相似度;第二计算单元包括:
获取子单元,用于获取待定候选译文的文本向量;
计算子单元,用于待定候选译文的文本向量,计算待翻译文本和待定候选译文的语义相似度。
57.根据权利要求56所述的生成候选译文的装置,其特征在于,所述第一生成单元包括:
判断子单元,用于针对各个翻译规则,判断所述翻译规则是否可应用于所述待翻译文本;
生成子单元,用于若上述判断结果为是,则根据所述翻译规则,生成所述待翻译文本的待定候选译文。
58.根据权利要求56所述的生成候选译文的装置,其特征在于,所述获取子单元,还用于获取待翻译文本的文本向量;
所述计算子单元,具体用于计算待翻译文本的文本向量和待定候选译文的文本向量之间的距离,作为待翻译文本和待定候选译文的语义相似度;
所述第二生成单元,还用于生成待翻译文本的文本向量;
所述获取子单元,还用于根据预先生成的源语言的词与词向量的对应关系,获取待翻译文本包括的各个词所对应的词向量;
所述生成子单元,还用于根据待翻译文本包括的各个词所对应的词向量,以及预先生成的源语言的文本向量预测模型,生成待翻译文本的文本向量;
其中,所述文本向量是指能够表示双语语义信息的文本向量。
59.根据权利要求58所述的生成候选译文的装置,其特征在于,所述词向量是指能够表示双语语义信息的词向量。
60.一种电子设备,其特征在于,包括:
显示器;
处理器;以及
存储器,所述存储器用于存储生成候选译文的装置,所述生成候选译文的装置被所述处理器执行时,包括如下步骤:根据预先生成的翻译规则,生成待翻译文本的待定候选译文;根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率;选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文;其中,所述对翻译概率产生影响的特征至少包括所述待翻译文本和所述候选译文的语义相似度,所述待翻译文本和待定候选译文的语义相似度,采用如下步骤计算:根据预先生成的目标语言的词与词向量的对应关系,获取待定候选译文包括的各个词所对应的词向量;根据待定候选译文包括的各个词所对应的词向量,以及预先生成的目标语言的文本向量预测模型,生成待定候选译文的文本向量;获取待定候选译文的文本向量;根据待定候选译文的文本向量,计算待翻译文本和待定候选译文的语义相似度。

说明书全文

一种生成候选译文的方法、装置及电子设备

技术领域

[0001] 本申请涉及机器翻译技术领域,具体涉及一种生成候选译文的方法、装置及电子设备。本申请同时涉及一种文本量化方法、装置及电子设备,以及一种词量化方法、装置和电子设备。

背景技术

[0002] 机器翻译是指,利用电子计算机实现自动从一种自然语言文本(源语言)到另一种自然语言文本(目标语言)的翻译,用以完成这一过程的软件称为机器翻译系统。随着电子计算机和互联网的发展和普及,各民族之间的文化交流越来越频繁,语言障碍的问题在新的时代再次凸显出来,人们比以往任何时候更加迫切需要机器翻译。
[0003] 机器翻译方法可划分为基于规则(Rule-Based)和基于语料库(Corpus-Based)两大类。其中,基于语料库的方法又可以分为基于统计(Statistics-based)的方法和基于实例(Example-based)的方法。在基于规则的机器翻译方法中,大量的使用人工定义的翻译规则,将这些规则形式化成计算机程序,实现翻译功能。基于规则的机器翻译系统具有译文质量高、实现成本高、规则覆盖度小、容易产生歧义等特点。随着计算机处理能的不断提高,自上世纪90年代以来,基于统计的机器翻译方法取得了飞速发展,并逐渐成为了机器翻译研究领域的核心内容。基于统计的机器翻译方法,在大规模双语语料上训练翻译子模型(包括翻译规则表、语言模型、调序模型和其他判别式或生成式模型等),再利用子模型的打分从众多翻译候选中筛选出最合理的目标语译文。目前,基于统计的机器翻译方法可以分为基于词、基于短语、基于层次短语和基于句法几大类。基于统计的机器翻译方法是目前最为常用的机器翻译方法。
[0004] 然而,现有的基于统计的机器翻译方法,在产生每个原文片段的候选译文时,并没有深入到自然语言的语义层面,因而导致产生的候选译文的语义与原文片段的语义有偏差,达不到语义一致的翻译效果,从而严重地降低了机器翻译质量。例如,原文片段“the apple product”里的“apple”一词表达的语义是“苹果公司”,若将其翻译成食品的“苹果”,则造成语义的偏差,从而影响原文的整体翻译效果。
[0005] 综上所述,采用现有的基于统计的机器翻译方法对原文片段进行翻译时,存在原文片段与其候选译文语义不一致的问题。发明内容
[0006] 本申请提供一种生成候选译文的方法、装置及电子设备,以解决现有技术存在原文片段与其候选译文语义不一致的问题。本申请另外提供一种文本量化方法、装置及电子设备,以及一种词量化方法、装置和电子设备。
[0007] 本申请提供一种生成候选译文的方法,用于基于统计的机器翻译系统,包括:
[0008] 根据预先生成的翻译规则,生成待翻译文本的待定候选译文;
[0009] 根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率;
[0010] 选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文;
[0011] 其中,所述对翻译概率产生影响的特征至少包括所述待翻译文本和所述候选译文的语义相似度。
[0012] 可选的,所述根据预先生成的翻译规则,生成待翻译文本的待定候选译文包括:
[0013] 针对各个翻译规则,判断所述翻译规则是否可应用于所述待翻译文本;
[0014] 若上述判断结果为是,则根据所述翻译规则,生成所述待翻译文本的待定候选译文。
[0015] 可选的,所述对翻译概率产生影响的特征还包括:所述待翻译文本到所述候选译文的短语翻译概率、所述候选译文到所述待翻译文本的短语翻译概率、所述待翻译文本到所述候选译文的词翻译概率、所述候选译文到所述待翻译文本的词翻译概率、所述候选译文的语言模型和所述待翻译文本与所述候选译文调序与不调序的分类概率的至少一者。
[0016] 可选的,通过线性回归算法,从预先存储的平行语料中学习出所述翻译概率预测模型。
[0017] 可选的,所述待翻译文本和待定候选译文的语义相似度,采用如下步骤计算:
[0018] 获取所述待翻译文本的文本向量,以及所述待定候选译文的文本向量;
[0019] 计算所述待翻译文本的文本向量和所述待定候选译文的文本向量之间的距离,作为所述待翻译文本和待定候选译文的语义相似度;
[0020] 其中,所述文本向量是指能够表示双语语义信息的文本向量。
[0021] 可选的,所述待翻译文本的文本向量和所述待定候选译文的文本向量,采用如下步骤生成:
[0022] 根据预先生成的源语言的词与词向量的对应关系,获取所述待翻译文本包括的各个词所对应的词向量;以及根据预先生成的目标语言的词与词向量的对应关系,获取所述待定候选译文包括的各个词所对应的词向量;
[0023] 根据所述待翻译文本包括的各个词所对应的词向量,以及预先生成的源语言的文本向量预测模型,生成所述待翻译文本的文本向量;以及根据所述待定候选译文包括的各个词所对应的词向量,以及预先生成的目标语言的文本向量预测模型,生成所述待定候选译文的文本向量;
[0024] 其中,所述词向量是指能够表示双语语义信息的词向量。
[0025] 可选的,在所述根据预先生成的源语言的词与词向量的对应关系,获取所述待翻译文本包括的各个词所对应的词向量;以及根据预先生成的目标语言的词与词向量的对应关系,获取所述待定候选译文包括的各个词所对应的词向量之前,还包括:
[0026] 解析所述待翻译文本,获取所述待翻译文本包括的词;和/或解析所述待定候选译文,获取所述候选译文包括的词。
[0027] 可选的,所述预先生成的源语言的文本向量预测模型和目标语言的文本向量预测模型,采用如下步骤生成:
[0028] 读取预先存储的平行语料库;
[0029] 以最大化所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型;
[0030] 将训练后的双语文本向量编码解码模型的编码部分,作为所述预先生成的源语言的文本向量预测模型;以及将训练后的双语文本向量编码解码模型的解码部分的反向模型,作为所述预先生成的目标语言的文本向量预测模型;
[0031] 其中,所述预设的双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
[0032] 可选的,在所述以最大化所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型之前,还包括:
[0033] 解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
[0034] 为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
[0035] 可选的,所述以最大化所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型,包括:
[0036] 遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述预设的双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
[0037] 计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
[0038] 判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;若否,则将调整后的所述待调整的源语言的词和词向量的对应关系作为所述预先生成的源语言的词和词向量的对应关系,以及将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的目标语言的词和词向量的对应关系。
[0039] 可选的,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,包括:
[0040] 根据预设的学习速率和所述平均翻译概率的计算公式,计算所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重的梯度;
[0041] 根据所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重的梯度,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重。
[0042] 可选的,所述预设的双语文本向量编码解码模型是基于递归神经网络的双语文本向量编码解码模型。
[0043] 可选的,所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率,采用下述公式计算:
[0044]
[0045] 其中,x是所述源语言句子的词向量序列, y是所述目标语言句子的词向量序列, c是所述源语言句子的文本向量,由所述编码
部分中各个时序的隐藏状态组成, ht是所述编码部分中时序t的
隐藏状态,与所述源语言句子的当前词和前一个隐藏状态相关,ht=f(xt,ht-1);p(yt|{y1,y2,…,yt-1},c)是在所述源语言句子的文本向量和{y1,y2,…,yt-1}背景下的yt的似然概率,与所述目标语言句子的前一个词、当前隐藏状态和所述源语言句子的文本向量相关,p(yt|{y1,y2,…,yt-1},c)=g(yt-1,st,c);st为所述解码部分中时序t的隐藏状态,与所述目标语言句子的前一个词、前一个隐藏状态和所述源语言句子的文本向量相关,st=f(yt-1,st-1,c);f和g是非线性激活函数。
[0046] 可选的,所述文本向量之间的距离包括余弦夹距离或欧式距离。
[0047] 相应的,本申请还提供一种生成候选译文的装置,用于基于统计的机器翻译系统,包括:
[0048] 第一生成单元,用于根据预先生成的翻译规则,生成待翻译文本的待定候选译文;
[0049] 第一计算单元,用于根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率;
[0050] 选取单元,用于选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文;
[0051] 其中,所述对翻译概率产生影响的特征至少包括所述待翻译文本和所述候选译文的语义相似度。
[0052] 可选的,所述第一生成单元包括:
[0053] 判断子单元,用于针对各个翻译规则,判断所述翻译规则是否可应用于所述待翻译文本;
[0054] 生成子单元,用于若上述判断结果为是,则根据所述翻译规则,生成所述待翻译文本的待定候选译文。
[0055] 可选的,还包括:
[0056] 第二计算单元,用于计算所述待翻译文本和待定候选译文的语义相似度。
[0057] 可选的,所述第二计算单元包括:
[0058] 获取子单元,用于获取所述待翻译文本的文本向量,以及所述待定候选译文的文本向量;
[0059] 计算子单元,用于计算所述待翻译文本的文本向量和所述待定候选译文的文本向量之间的距离,作为所述待翻译文本和待定候选译文的语义相似度;
[0060] 其中,所述文本向量是指能够表示双语语义信息的文本向量。
[0061] 可选的,还包括:
[0062] 第二生成单元,用于生成所述待翻译文本的文本向量和所述待定候选译文的文本向量。
[0063] 可选的,所述第二生成单元包括:
[0064] 获取子单元,用于根据预先生成的源语言的词与词向量的对应关系,获取所述待翻译文本包括的各个词所对应的词向量;以及根据预先生成的目标语言的词与词向量的对应关系,获取所述待定候选译文包括的各个词所对应的词向量;
[0065] 生成子单元,用于根据所述待翻译文本包括的各个词所对应的词向量,以及预先生成的源语言的文本向量预测模型,生成所述待翻译文本的文本向量;以及根据所述待定候选译文包括的各个词所对应的词向量,以及预先生成的目标语言的文本向量预测模型,生成所述待定候选译文的文本向量;
[0066] 其中,所述词向量是指能够表示双语语义信息的词向量。
[0067] 可选的,所述第二生成单元还包括:
[0068] 解析子单元,用于解析所述待翻译文本,获取所述待翻译文本包括的词;和/或解析所述待定候选译文,获取所述候选译文包括的词。
[0069] 可选的,还包括:
[0070] 第三生成单元,用于生成所述预先生成的源语言的文本向量预测模型和目标语言的文本向量预测模型。
[0071] 可选的,所述第三生成单元包括:
[0072] 读取子单元,用于读取预先存储的平行语料库;
[0073] 训练子单元,用于以最大化所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型;
[0074] 设置子单元,用于将训练后的双语文本向量编码解码模型的编码部分,作为所述预先生成的源语言的文本向量预测模型;以及将训练后的双语文本向量编码解码模型的解码部分的反向模型,作为所述预先生成的目标语言的文本向量预测模型;
[0075] 其中,所述预设的双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
[0076] 可选的,所述第三生成单元,还包括:
[0077] 解析子单元,用于解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
[0078] 初始化子单元,用于为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
[0079] 可选的,所述训练子单元包括:
[0080] 第一计算子单元,用于遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述预设的双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
[0081] 第二计算子单元,用于计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
[0082] 判断子单元,用于判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;若否,则将调整后的所述待调整的源语言的词和词向量的对应关系作为所述预先生成的源语言的词和词向量的对应关系,以及将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的目标语言的词和词向量的对应关系。
[0083] 相应的,本申请还提供一种电子设备,包括:
[0084] 显示器;
[0085] 处理器;以及
[0086] 存储器,所述存储器用于存储生成候选译文的装置,所述生成候选译文的装置被所述处理器执行时,包括如下步骤:根据预先生成的翻译规则,生成待翻译文本的待定候选译文;根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率;选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文;其中,所述对翻译概率产生影响的特征至少包括所述待翻译文本和所述候选译文的语义相似度。
[0087] 此外,本申请还提供一种文本量化方法,包括:
[0088] 获取待量化文本;
[0089] 根据预先生成的词与词向量的对应关系,获取所述待量化文本包括的各个词所对应的词向量;
[0090] 根据所述待量化文本包括的各个词所对应的词向量,以及预先生成的与所述待量化文本所属语言相对应的第一语言文本向量预测模型,生成所述待量化文本的文本向量;
[0091] 其中,所述词向量是指能够表示双语语义信息的词向量;所述文本向量是指能够表示双语语义信息的文本向量。
[0092] 可选的,在所述根据预先生成的词与词向量的对应关系,获取所述待量化文本包括的各个词所对应的词向量之前,还包括:
[0093] 解析所述待量化文本,获取所述待量化文本包括的各个词。
[0094] 可选的,所述第一语言文本向量预测模型,采用如下步骤生成:
[0095] 读取预先存储的平行语料库;
[0096] 以最大化所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型;
[0097] 若所述待量化文本所属语言是所述源语言,则将训练后的双语文本向量编码解码模型的编码部分,作为所述第一语言文本向量预测模型;若所述待量化文本所属语言是所述目标语言,将训练后的双语文本向量编码解码模型的解码部分的反向模型,作为所述第一语言文本向量预测模型;
[0098] 其中,所述预设的双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
[0099] 可选的,在所述以最大化所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型之前,还包括:
[0100] 解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
[0101] 为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
[0102] 可选的,所述以最大化所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型,包括:
[0103] 遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述预设的双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
[0104] 计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
[0105] 判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;
[0106] 若上述判断结果为否,则如果所述待量化文本所属语言是所述源语言,则将调整后的所述待调整的源语言的词和词向量的对应关系作为所述预先生成的词和词向量的对应关系;如果所述待量化文本所属语言是所述目标语言,则将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的词和词向量的对应关系。
[0107] 可选的,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,包括:
[0108] 根据预设的学习速率和所述平均翻译概率的计算公式,计算所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重的梯度;
[0109] 根据所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重的梯度,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重。
[0110] 可选的,所述预设的双语文本向量编码解码模型是基于递归神经网络的双语文本向量编码解码模型。
[0111] 可选的,所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率,采用下述公式计算:
[0112]
[0113] 其中,x是所述源语言句子的词向量序列, y是所述目标语言句子的词向量序列, c是所述源语言句子的文本向量,由所述编码
部分中各个时序的隐藏状态组成, ht是所述编码部分中时序t的
隐藏状态,与所述源语言句子的当前词和前一个隐藏状态相关,ht=f(xt,ht-1);p(yt|{y1,y2,…,yt-1},c)是在所述源语言句子的文本向量和{y1,y2,…,yt-1}背景下的yt的似然概率,与所述目标语言句子的前一个词、当前隐藏状态和所述源语言句子的文本向量相关,p(yt|{y1,y2,…,yt-1},c)=g(yt-1,st,c);st为所述解码部分中时序t的隐藏状态,与所述目标语言句子的前一个词、前一个隐藏状态和所述源语言句子的文本向量相关,st=f(yt-1,st-1,c);f和g是非线性激活函数。
[0114] 相应的,本申请还提供一种文本量化装置,包括:
[0115] 获取单元,用于获取待量化文本;
[0116] 映射单元,用于根据预先生成的词与词向量的对应关系,获取所述待量化文本包括的各个词所对应的词向量;
[0117] 预测单元,用于根据所述待量化文本包括的各个词所对应的词向量,以及预先生成的与所述待量化文本所属语言相对应的第一语言文本向量预测模型,生成所述待量化文本的文本向量;
[0118] 其中,所述词向量是指能够表示双语语义信息的词向量;所述文本向量是指能够表示双语语义信息的文本向量。
[0119] 可选的,还包括:
[0120] 解析单元,用于解析所述待量化文本,获取所述待量化文本包括的各个词。
[0121] 可选的,还包括:
[0122] 生成单元,用于生成所述第一语言文本向量预测模型。
[0123] 可选的,所述生成单元包括:
[0124] 读取子单元,用于读取预先存储的平行语料库;
[0125] 训练子单元,用于以最大化所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型;
[0126] 设置子单元,用于若所述待量化文本所属语言是所述源语言,则将训练后的双语文本向量编码解码模型的编码部分,作为所述第一语言文本向量预测模型;若所述待量化文本所属语言是所述目标语言,将训练后的双语文本向量编码解码模型的解码部分的反向模型,作为所述第一语言文本向量预测模型;
[0127] 其中,所述预设的双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
[0128] 可选的,所述生成单元还包括:
[0129] 解析子单元,用于解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
[0130] 初始化子单元,用于为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
[0131] 可选的,所述训练子单元包括:
[0132] 第一计算子单元,用于遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述预设的双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
[0133] 第二计算子单元,用于计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
[0134] 判断子单元,用于判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;
[0135] 设置子单元,用于若上述判断结果为否,则如果所述待量化文本所属语言是所述源语言,则将调整后的所述待调整的源语言的词和词向量的对应关系作为所述预先生成的词和词向量的对应关系;如果所述待量化文本所属语言是所述目标语言,则将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的词和词向量的对应关系。
[0136] 相应的,本申请还提供一种电子设备,包括:
[0137] 显示器;
[0138] 处理器;以及
[0139] 存储器,所述存储器用于存储文本量化装置,所述文本量化装置被所述处理器执行时,包括如下步骤:获取待量化文本;根据预先生成的词与词向量的对应关系,获取所述待量化文本包括的各个词所对应的词向量;根据所述待量化文本包括的各个词所对应的词向量,以及预先生成的与所述待量化文本所属语言相对应的第一语言文本向量预测模型,生成所述待量化文本的文本向量;其中,所述词向量是指能够表示双语语义信息的词向量;所述文本向量是指能够表示双语语义信息的文本向量。
[0140] 此外,本申请还提供一种词量化方法,包括:
[0141] 读取预先存储的平行语料库;
[0142] 解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
[0143] 为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系;
[0144] 根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量。
[0145] 可选的,所述双语文本向量预测模型采用双语文本向量编码解码模型;
[0146] 所述根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量,采用如下方式:
[0147] 以最大化所述平行语料库中各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练所述双语文本向量编码解码模型,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,获取所述能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量;
[0148] 其中,所述双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
[0149] 可选的,所述以最大化所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练所述双语文本向量编码解码模型,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,获取所述能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量,包括:
[0150] 遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
[0151] 计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
[0152] 判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,以及所述双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;若否,则将调整后的所述待调整的源语言的词和词向量的对应关系中的词向量,作为所述能够表示双语语义信息的源语言词的词向量,以及将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的目标语言的词和词向量的对应关系,作为所述能够表示双语语义信息的目标语言词的词向量。
[0153] 可选的,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,以及所述双语文本向量编码解码模型的各个连接权重,包括:
[0154] 根据预设的学习速率和所述平均翻译概率的计算公式,计算所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量的梯度,以及所述双语文本向量编码解码模型的各个连接权重的梯度;
[0155] 根据所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量的梯度,以及所述双语文本向量编码解码模型的各个连接权重的梯度,更新所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量和所述双语文本向量编码解码模型的各个连接权重。
[0156] 可选的,所述双语文本向量编码解码模型是基于递归神经网络的双语文本向量编码解码模型。
[0157] 可选的,所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率,采用下述公式计算:
[0158]
[0159] 其中,x是所述源语言句子的词向量序列, y是所述目标语言句子的词向量序列, c是所述源语言句子的文本向量,由所述编码
部分中各个时序的隐藏状态组成, ht是所述编码部分中时序t的
隐藏状态,与所述源语言句子的当前词和前一个隐藏状态相关,ht=f(xt,ht-1);p(yt|{y1,y2,…,yt-1},c)是在所述源语言句子的文本向量和{y1,y2,…,yt-1}背景下的yt的似然概率,与所述目标语言句子的前一个词、当前隐藏状态和所述源语言句子的文本向量相关,p(yt|{y1,y2,…,yt-1},c)=g(yt-1,st,c);st为所述解码部分中时序t的隐藏状态,与所述目标语言句子的前一个词、前一个隐藏状态和所述源语言句子的文本向量相关,st=f(yt-1,st-1,c);f和g是非线性激活函数。
[0160] 相应的,本申请还提供一种词量化装置,包括:
[0161] 读取单元,用于读取预先存储的平行语料库;
[0162] 解析单元,用于解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
[0163] 初始化单元,用于为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系;
[0164] 训练单元,用于根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量。
[0165] 可选的,所述双语文本向量预测模型采用双语文本向量编码解码模型;
[0166] 所述根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量,采用如下方式:
[0167] 以最大化所述平行语料库中各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练所述双语文本向量编码解码模型,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,获取所述能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量;
[0168] 其中,所述双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
[0169] 可选的,所述训练单元包括:
[0170] 第一计算子单元,用于遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
[0171] 第二计算子单元,用于计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
[0172] 判断子单元,用于判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,以及所述双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;若否,则将调整后的所述待调整的源语言的词和词向量的对应关系中的词向量,作为所述能够表示双语语义信息的源语言词的词向量,以及将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的目标语言的词和词向量的对应关系,作为所述能够表示双语语义信息的目标语言词的词向量。
[0173] 相应的,本申请还提供一种电子设备,包括:
[0174] 显示器;
[0175] 处理器;以及
[0176] 存储器,所述存储器用于存储词量化装置,所述词量化装置被所述处理器执行时,包括如下步骤:读取预先存储的平行语料库;解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系;根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量。与现有技术相比,本申请具有以下优点:
[0177] 本申请提供的生成候选译文的方法、装置及电子设备,用于基于统计的机器翻译系统,通过根据待翻译文本的各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率,并选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文,其中所述对翻译概率产生影响的特征至少包括所述待翻译文本和所述候选译文的语义相似度,使得依据翻译规则对原文片段进行翻译时,能够深入到自然语言的语义层面评估所产生的各个待定候选译文的翻译质量,从而达到提高候选译文翻译质量的效果。附图说明
[0178] 图1是本申请的生成候选译文的方法实施例流程图
[0179] 图2是本申请的生成候选译文的方法实施例计算语义相似度的具体流程图;
[0180] 图3是本申请的生成候选译文的方法实施例生成待翻译文本的文本向量和待定候选译文的文本向量的流程图;
[0181] 图4是本申请的生成候选译文的方法实施例生成源语言的文本向量预测模型和目标语言的文本向量预测模型的具体流程图;
[0182] 图5是本申请的生成候选译文的方法实施例双语文本向量预测模型的示意图;
[0183] 图6是本申请的生成候选译文的方法实施例步骤S403的具体流程图;
[0184] 图7是本申请的生成候选译文的装置实施例的示意图;
[0185] 图8是本申请的生成候选译文的装置实施例单元的具体示意图;
[0186] 图9是本申请的生成候选译文的装置实施例单元的具体示意图;
[0187] 图10是本申请的生成候选译文的装置实施例单元的具体示意图;
[0188] 图11是本申请的一种电子设备实施例的示意图;
[0189] 图12是本申请的文本量化方法实施例的流程图;
[0190] 图13是本申请的文本量化方法实施例生成第一语言文本向量预测模型的具体流程图;
[0191] 图14是本申请的文本量化方法实施例步骤S1303的具体流程图;
[0192] 图15是本申请的文本量化装置实施例的示意图;
[0193] 图16是本申请的文本量化装置实施例的具体示意图;
[0194] 图17是本申请的又一电子设备实施例的示意图;
[0195] 图18是本申请的词量化方法实施例的流程图;
[0196] 图19是本申请的词量化方法实施例步骤S1804的具体流程图;
[0197] 图20是本申请的词量化装置实施例的示意图;
[0198] 图21是本申请的词量化装置实施例训练单元2007的示意图;
[0199] 图22是本申请的再一种电子设备实施例的示意图。

具体实施方式

[0200] 在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0201] 在本申请中,提供了一种生成候选译文的方法、装置及电子设备,一种文本量化方法、装置及电子设备,以及一种词量化方法、装置和电子设备。在下面的实施例中逐一进行详细说明。
[0202] 本申请提供的生成候选译文的方法,其核心的基本思想为:在对候选译文的翻译质量进行评估时,深入到自然语言的语义层面,即:考虑待翻译文本和候选译文之间的语义相似度。由于将语义相似度作为一个强特征来评估候选译文的翻译质量,因而提高了候选译文的翻译质量。
[0203] 请参考图1,其为本申请的生成候选译文的方法实施例的流程图。所述方法包括如下步骤:
[0204] 步骤S101:根据预先生成的翻译规则,生成待翻译文本的待定候选译文。
[0205] 本申请实施例所述的待翻译文本,包括对指定原文进行机器翻译过程中需要翻译的原文片段,即:指定原文包括的不同跨度的子字符串。例如,指定原文为“我在公园里散步。”,则其子字符串包括:“我在”和“公园”等包括两个字的子字符串;“在公园”和“公园里”等包括三个字的子字符串;“我在公园”等包括四个字的子字符串,以及“我在公园里散步”的子字符串等,这些子字符串均可以作为本申请实施例所述的待翻译文本。此外,指定原文本身也可以作为待翻译文本。
[0206] 要评估待翻译文本的各个待定候选译文的质量,首先需要根据预先生成的翻译规则,生成待翻译文本的待定候选译文。本申请实施例所述的翻译规则,是指预先从给定的平行语料库中学习获得的翻译规则。翻译规则是机器翻译过程的基本转化单元,即可以为基于短语的翻译规则,还可以为包括句法信息的翻译规则。上述这些翻译规则的不同方式,都只是具体实施方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。
[0207] 需要说明的是,根据基于短语的翻译规则所生成的待定候选译文,通常是不符合句法规则的,因而难于理解候选译文;而根据包括句法信息的翻译规则所生成的待定候选译文,通常是符合句法规则的。可见,根据包括句法信息的翻译规则,生成待翻译文本的待定候选译文,能够达到提高翻译质量的效果。
[0208] 在本实施例中,采用根据包括句法信息的翻译规则,生成待翻译文本的待定候选译文的方法。从平行语料中抽取出的翻译规则含有句法信息,翻译规则采用复合上下文无关文法,如表1所示:
[0209]
[0210] 表1、翻译规则表
[0211] 在表1中,与编号1、3、4、5对应的规则为基本翻译规则,与编号2、6、7对应的规则为组合翻译规则。
[0212] 在翻译规则抽取完毕后,还需要进行翻译规则特征的提取。翻译规则特征包括:正向短语翻译概率、反向短语翻译概率、正向词翻译概率和反向词翻译概率等。其中,所述的正向短语翻译概率,是指从源语言包括的短语翻译到目标语言包括的短语的翻译概率;所述的反向短语翻译概率,是指从目标语言包括的短语翻译到源语言包括的短语的翻译概率;所述的正向词翻译概率,是指从源语言包括的词翻译到目标语言包括的词的翻译概率;所述的反向词翻译概率,是指从目标语言包括的词翻译到源语言包括的词的翻译概率。
[0213] 具体的,根据预先生成的翻译规则,生成所述待翻译文本的待定候选译文包括如下步骤:1)针对各个翻译规则,判断所述翻译规则是否可应用于所述待翻译文本;2)若上述判断结果为是,则根据所述翻译规则,生成所述待翻译文本的待定候选译文。
[0214] 对于待翻译文本,需要遍历各个翻译规则,判断该文本是否适用于该翻译规则。当判定待翻译文本能够适用于一个翻译规则时,则根据该翻译规则生成一个待定候选译文。由于待翻译文本可能适用于多个翻译规则,因此,待翻译文本可能对应多个待定候选译文。
[0215] 步骤S103:根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率。
[0216] 本申请实施例所述的对翻译概率产生影响的特征,是指对待翻译文本到各个待定候选译文的翻译概率产生影响的、统计类型的信息,例如,翻译模型、语言模型和调序模型都可以作为对翻译概率产生影响的特征。具体的,对翻译概率产生影响的特征包括:待翻译文本到待定候选译文的短语翻译概率、待定候选译文到待翻译文本的短语翻译概率、待翻译文本到待定候选译文的词翻译概率、待定候选译文到待翻译文本的词翻译概率、待定候选译文的语言模型,以及待翻译文本与待定候选译文调序与不调序的分类概率的至少一者。下面逐一对上述翻译模型、语言模型和调序模型等特征进行说明。
[0217] 1)翻译模型
[0218] 翻译模型是一种语言到另一种语言的词汇间的对应关系,而语言模型则体现了某种语言本身的性质。翻译模型保证翻译的意义,而语言模型保证翻译的流畅。从中国对翻译的传统要求“信达雅”三点上看,翻译模型体现了信与达,而雅则在语言模型中得到反映。
[0219] 翻译模型中涉及到的特征包括:待翻译文本到待定候选译文的短语翻译概率、待定候选译文到待翻译文本的短语翻译概率、待翻译文本到待定候选译文的词翻译概率和待定候选译文到待翻译文本的词翻译概率。本申请实施例所述的翻译模型中涉及到的特征,是在翻译规则抽取阶段计算得到的,即:从平行语料中学习获得每一条翻译规则所对应的正向短语翻译概率、反向短语翻译概率、正向词翻译概率和反向词翻译概率等。
[0220] 2)语言模型
[0221] 语言模型(Language Model,简写为LM)是自然语言处理领域的基础问题,其在词性标注、句法分析、机器翻译、信息检索等任务中起到了重要作用。简而言之,统计语言模型表示为:在词序列中,给定一个词和上下文中所有词,这个序列出现的概率。通俗的讲,语言模型就是衡量文本的流畅度。例如,待翻译文本“今晚有大”对应的待定候选译文可以为“high winds tonight”或“large winds tonight”,而“high winds tonight”的概率大于“high winds tonight”的概率,即:P(high winds tonight)>P(large winds tonight)。
[0222] 3)调序模型
[0223] 许多语言对的语序是有很大差别的,例如,汉语语言和英语语言的语序差别很大。在上述词对齐处理过程中,包含有词调序模型,在区分性训练中也需要较好的调序模型。调序模型可以是基于位置,也就是描述两种语言每个句子不同位置的短语的调序概率,也可以是基于短语本身,例如Moses中的调序模型即是基于短语本身,描述在给定当前短语对条件下,其前后短语对是否互换位置。
[0224] 以上对目前常用的对翻译概率产生影响的特征进行了说明。本申请实施例提供的生成候选译文的方法,除了可以应用上述常用的特征,还应用了语义模型中的特征,即:待翻译文本和待定候选译文的语义相似度,将该特征作为一个强特征来影响待翻译文本到待定候选译文的翻译概率,使得同等条件下语义一致度高的待定候选译文所对应的翻译概率更高。
[0225] 请参考图2,其为本申请的生成候选译文的方法实施例计算语义相似度的具体流程图。本申请实施例所述的待翻译文本和待定候选译文的语义相似度,采用如下步骤计算获取:
[0226] 步骤S201:获取所述待翻译文本的文本向量,以及所述待定候选译文的文本向量。
[0227] 本申请实施例所述的文本向量是指能够表示双语语义信息的文本向量,即:,即:相关或者相似的互译文本,其文本向量之间的距离更接近。例如,“One tablet will purify a litre of water.”和“一颗药丸即可净化一升。”分别对应的文本向量之间的距离,会远远小于“One tablet will purify a litre of water.”和“一部平板电脑即可净化一升水。”分别对应的文本向量之间的距离。在理想情况下,“One tablet will purify a litre of water.”和“一颗药丸即可净化一升水。”的文本向量表示应该是完全一样的,但是由于书写错误等原因,导致二者的文本向量不会完全一致,但文本向量之间的距离是更接近的。在实际应用中,文本向量之间的距离可以用最传统的欧氏距离来衡量,也可以用余弦夹角来衡量。文本向量是一种固定维度的实数向量,例如,将一个文本向量表示为[0.312,-0.187,-0.529,0.109,-0.542,...]。
[0228] 请参考图3,其为本申请的生成候选译文的方法实施例生成待翻译文本的文本向量和待定候选译文的文本向量的流程图。在本实施例中,所述待翻译文本的文本向量和所述待定候选译文的文本向量,采用如下步骤生成:
[0229] 步骤S301:根据预先生成的源语言的词与词向量的对应关系,获取所述待翻译文本包括的各个词所对应的词向量;以及根据预先生成的目标语言的词与词向量的对应关系,获取所述待定候选译文包括的各个词所对应的词向量。
[0230] 本申请实施例所述的源语言是指待翻译文本所属的语言,目标语言是指候选译文所属的语言。所述的预先生成的源语言的词与词向量的对应关系,以及目标语言的词与词向量的对应关系中的词向量(Distributed Representation)是指能够表示双语语义信息的词向量,即:词向量不仅能够反映自然语言中基本单元词的基本语义信息,并且词向量包括的语义信息是跨语言的,即:两个语义一致的不同语言的词,其词向量之间的几何距离非常接近,例如“苹果”和“Apple”。词向量是一种固定维度的实数向量,为神经网络的一类参数,例如,将一个词向量表示为[0.792,-0.177,-0.107,0.109,-0.542,...]。
[0231] 需要说明的是,词向量的表示并不是唯一的,不同的训练方法将导致同一个词的词向量是不相同的。在实际应用中,可以通过各种基于神经网络的双语词向量预测模型生成词向量,例如,双语神经网络语言模型或双语文本向量预测模型等。此外,词向量的维度作为神经网络的超参数,一般维度越高越好,但过高维度的词向量会带来计算复杂的问题。在实际应用中,词向量维度以200维比较常见。
[0232] 步骤S303:根据所述待翻译文本包括的各个词所对应的词向量,以及预先生成的源语言的文本向量预测模型,生成所述待翻译文本的文本向量;以及根据所述待定候选译文包括的各个词所对应的词向量,以及预先生成的目标语言的文本向量预测模型,生成所述待定候选译文的文本向量。
[0233] 通过步骤S301,将待翻译文本和待定候选译文包括的每个词均映射到词向量空间后,在步骤S303中,将待翻译文本包括的各个词的词向量作为源语言的文本向量预测模型的输入层变量,该模型的输出层是待翻译文本的文本向量。并且,将待定候选译文包括的各个词的词向量作为目标语言的文本向量预测模型的输入层变量,该模型的输出层是待定候选译文的文本向量。
[0234] 在实际应用中,如果不能直接获取待翻译文本包括的各个词,或者候选译文包括的各个词,则在步骤S303之前,还包括:
[0235] 步骤S302:解析所述待翻译文本,获取所述待翻译文本包括的词;和/或解析所述待定候选译文,获取所述待定候选译文包括的词。
[0236] 例如,对于中文文本,需要对其进行分词处理,才能获取文本中包括的各个词;而对于英文文本,则可以直接获取文本中包括的各个词。
[0237] 本申请实施例所述的预先生成的源语言的文本向量预测模型,以及预先生成的目标语言的文本向量预测模型,是双语文本向量预测模型的两个组成部分,是通过机器学习算法从平行语料库中学习获得的。
[0238] 请参考图4,其为本申请的生成候选译文的方法实施例生成源语言的文本向量预测模型和目标语言的文本向量预测模型的具体流程图。在本实施例中,所述预先生成的源语言的文本向量预测模型和目标语言的文本向量预测模型,采用如下步骤生成:
[0239] 步骤S401:读取预先存储的平行语料库。
[0240] 本申请实施例所述的平行语料库,包括大量的平行语料,其中,每一句对平行语料均包括源语言句子和目标语言句子,两个句子互为翻译。目前,网络上有大量可供下载的平行语料库。搜寻适合目标领域(如医疗、新闻等)的平行语料库是提高特定领域统计机器翻译系统性能的重要方法。
[0241] 步骤S403:以最大化所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型。
[0242] 在本实施例中,双语文本向量预测模型采用双语文本向量编码解码模型。本申请实施例所述的预设的双语文本向量编码解码模型,既可以是基于前向神经网络(Feed-forward Neural Net,简写为FFNN)的模型,还可以是基于递归神经网络(Recurrent Neural Net,简写为RNN)的模型。前向神经网络仅能考虑窗口内的上下文,相比于前向神经网络,递归神经网络能将更多地上下文考虑到模型中,递归神经网络的隐藏层能够囊括当前词的所有前序词。在序列数据中,递归神经网络能够发现更多的词与词之间的模式(pattern)。
[0243] 基于前向神经网络的双语文本向量预测模型,其计算复杂度低于基于递归神经网络的双语文本向量预测模型;而基于递归神经网络的双语文本向量预测模型,其精确度高于基于前向神经网络的双语文本向量预测模型。在实际应用中,可以根据具体需求选择上述文本向量预测模型之一。上述双语文本向量预测模型的各种不同方式,都只是具体实施方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。为了提高精确度,本实施例采用基于递归神经网络的双语文本向量预测模型。
[0244] 请参考图5,其为本申请的生成候选译文的方法实施例双语文本向量预测模型的示意图。在本实施例中,所述预设的双语文本向量编码解码模型是基于递归神经网络的双语文本向量编码解码模型。双语文本向量编码解码模型的输入层包括平行语料中源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;编码部分的输出层为源语言句子的文本向量,源语言句子的文本向量为所述解码部分的输入层。
[0245] 在本实施例中,词向量是训练双语文本向量预测模型时产生的副产品,即:从平行语料库中学习出双语文本向量预测模型的同时,学习到具有双语语义特征的词向量。因此,在步骤S403之前,还包括:1)解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;2)为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
[0246] 1)解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词。
[0247] 要生成源语言的词和词向量的对应关系,以及目标语言的词和词向量的对应关系,首先需要获取平行语料库中包括的所有源语言的词和目标语言的词。为此,需要解析平行语料库包括的各个句子,以获取平行语料库包括的源语言的词和目标语言的词。例如,解析平行语料库包括的各个句子的方法包括对中文句子做分词处理的方法,对英文句子进行词素分割的方法等。
[0248] 2)为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
[0249] 由于本实施例的词向量是训练双语文本向量预测模型时产生的副产品,在抽取出的平行语料库包括的每个词后,还需要为抽取出的各个词设置一个初始的词向量。
[0250] 实际上,上述两个步骤是本申请实施例步骤S403之前的准备步骤,通过准备步骤获取到平行语料库包括的源语言的词和目标语言的词,并且初始化各个词的词向量,然后就可以通过步骤S403训练双语文本向量预测模型,并且在通过机器学习的算法,从平行语料库中学习出双语文本向量预测模型的同时,又学习到具有双语语义特征的词向量。
[0251] 通过步骤S403,在训练双语文本向量编码解码模型过程中,逐步调整模型中的各类参数,例如,词向量及各个连接权重,当达到训练目标时,获取到最终的词与词向量的对应关系、源语言的文本向量预测模型和目标语言的文本向量预测模型。
[0252] 请参考图6,其为本申请的生成候选译文的方法实施例步骤S403的具体流程图。在本实施例中,步骤S403具体包括:
[0253] 步骤S4031:遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述预设的双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率。
[0254] 本申请实施例提供的生成候选译文的方法,首先给出预设的双语文本向量编码解码模型,然后通过迭代式的学习,从平行语料库中最终学习产生文本中每一个词的词向量表示,以及双语文本向量编码解码模型的全部参数。在训练过程中,训练目标为最大化各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率。因此,在每次迭代过程中,均需要计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率。
[0255] 在本实施例中,所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率,采用下述公式计算:
[0256]
[0257] 其中,x是所述源语言句子的词向量序列,x=(x1,x2,...,xTx;y是所述目标语言句子的词向量序列, c是所述源语言句子的文本向量,由所述编码部分中各个时序的隐藏状态组成, ht是所述编码部分中时序t的隐
藏状态,与所述源语言句子的当前词和前一个隐藏状态相关,ht=f(xt,ht-1);p(yt|{y1,y2,…,yt-1},c)是在所述源语言句子的文本向量和{y1,y2,…,yt-1}背景下的yt的似然概率,与所述目标语言句子的前一个词、当前隐藏状态和所述源语言句子的文本向量相关,p(yt|{y1,y2,…,yt-1},c)=g(yt-1,st,c);st为所述解码部分中时序t的隐藏状态,与所述目标语言句子的前一个词、前一个隐藏状态和所述源语言句子的文本向量相关,st=f(yt-1,st-1,c);f和g是非线性激活函数。
[0258] 在实际应用中,神经网络中节点的激励函数可以为符号函数、S型(sigmoid)函数、双曲正切函数或线性函数。本申请实施例所述的预设的双语文本向量预测模型,是指预先设计好拓扑结构及节点激励函数的神经网络模型。其中的各个连接权重作为双语文本向量预测模型的一类参数,在训练过程中得到不断的调整,直至达到训练目标时获取最终的连接权重,以供实际预测用。需要注意的是,在训练初始阶段,需要为各个连接权重预先设置初始值。在本实施例中,采用随机为各个连接权重预先设置初始值的方式。
[0259] 由图5可见,在双语文本向量编码解码模型的编码部分,在读入一个词序列(即:源语言文本)后,首先将其表示为词向量的序列,即: 设计编码部分中时序t的隐藏状态的计算公式为:ht=f(xt,ht-1),且源语言文本的文本向量是由编码部分中各个时序的隐藏状态组成的,即: 因此,源语言文本的文本向量
是由编码部分的各个隐藏状态h生成的一个向量,其中f和q是非线性的激活函数。
[0260] 在双语文本向量编码解码模型的解码部分,将源语言文本的文本向量作为解码部分的输入层变量(向量c),以及已经预测得到词{y1,y2,…,yt-1},可以根据解码部分的神经网络拓扑结构继续预测yt,即解码部分会计算目标语言句子y的翻译概率。
[0261] 需要注意的是,编码部分的各个时序对应的隐藏状态是由源语言文本的当前时序词的词向量和上一个时序对应的隐藏状态共同决定的;解码部分的各个时序的隐藏状态是由前一步骤中计算得到的目标语言文本的词向量yt-1和上一个时序对应的隐藏状态st-1共同决定的,且词向量yt-1的产生由前一个目标语端的词向量yt-2和当前的隐藏状态st-1共同决定。
[0262] 通过上述计算公式可见,在双语文本向量编码解码模型中每一类状态之间的转化,均为矩阵乘法操作,具体运算规则由激活函数决定,矩阵每一维的值即为模型的参数(连接权重)。
[0263] 步骤S4033:计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率。
[0264] 在每次迭代过程中,计算获取到各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率之后,计算所有句对平行语料的翻译概率的平均值,作为本次迭代生成的平均翻译概率。
[0265] 在本实施例中,平均翻译概率的形式化表示为:
[0266]
[0267] 其中,J为平均翻译概率,N为所述平行语料库包括的句对数量,xn是源语言句子的词向量序列,yn是目标语言句子的词向量序列,pθ(yn|xn)为目标语言句子yn在与其对应的源语言句子xn背景下的翻译概率,θ为双语文本向量编码解码模型的全部参数。在本实施例中,θ包括:双语文本向量预测模型的各个连接权重、源语言词的词向量和目标语言词的词向量。
[0268] 步骤S4035:判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;若否,则将调整后的所述待调整的源语言的词和词向量的对应关系作为所述预先生成的源语言的词和词向量的对应关系,以及将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的目标语言的词和词向量的对应关系。
[0269] 步骤S4031和步骤S4033为一个训练周期,要完成双语文本向量编码解码模型的训练可能需要很多个训练周期,经常是几百个。停止训练的条件是达到训练目标,即:平均翻译概率达到最大值。通过将本次训练得到的平均翻译概率与上一次训练得到的平均翻译概率进行比较,如果本次训练得到的平均翻译概率大于上一次训练得到的平均翻译概率,说明模型参数还可以进一步优化,需要继续训练,以达到训练目标,此时首先采用最优化算法,更新词向量和双语文本向量编码解码模型的各个连接权重,然后返回执行步骤S4031开始下一次迭代过程。反之,如果本次训练得到的平均翻译概率小于上一次训练得到的平均翻译概率,说明模型参数已达到训练目标,可以停止训练。训练完成之后得到的双语文本向量编码解码模型就是在通过平行语料库发现的模型,描述了平行语料库中响应变量(即:输出层变量)受预测变量(即:输入层变量)影响的变化规律。
[0270] 调整双语文本向量编码解码模型中各种参数的最基本算法是错误回馈法,现在较新的有梯度算法、类顿算法、Levenberg-Marquardt算法、和遗传算法等。上述各种最优化算法的不同方式,都只是具体实施方式的变更,都不偏离本申请的核心,因此都在本申请的保护范围之内。
[0271] 在本实施例中,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,包括:1)根据预设的学习速率和所述平均翻译概率的计算公式,计算所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重的梯度;2)根据所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重的梯度,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重。
[0272] 采用随机梯度算法,梯度更新的法则为:
[0273]
[0274] 其中,θ为各种参数值,∈为学习速率。
[0275] 本申请实施例所述的学习速率,决定每一次循环训练中所产生的参数变化量。大的学习速率可能导致系统的不稳定;但小的学习速率导致较长的训练时间,可能收敛很慢,但是能保证平均翻译概率能够最终趋于最大值。所以一般情况下,倾向于选取较小的学习速率以保证系统的稳定性。学习速率的选取范围在0.01-0.8之间。
[0276] 在实际应用中,对于双语文本向量编码解码模型这种较复杂的网络,在目标函数曲面的不同部位可能需要不同的学习速率。为了减少寻找学习速率的训练次数以及训练时间,比较合适的方法是采用变化的自适应学习速率,使网络的训练在不同的阶段设置不同大小的学习速率。
[0277] 通过上述步骤S403,训练生成双语文本向量编码解码模型和具有双语语义特征的词向量。
[0278] 步骤S405:将训练后的双语文本向量编码解码模型的编码部分,作为所述预先生成的源语言的文本向量预测模型;以及将训练后的双语文本向量编码解码模型的解码部分的反向模型,作为所述预先生成的目标语言的文本向量预测模型。
[0279] 本申请实施例所述的源语言的文本向量预测模型的输入层变量为源语言文本的词向量序列,输出层为源语言文本的文本向量。源语言的文本向量预测模型作为双语文本向量编码解码模型的一个组成部分,与编码部分相对应,当训练生成双语文本向量编码解码模型后,直接将编码部分的模型作为源语言的文本向量预测模型。目标语言的文本向量预测模型的输入层变量为目标语言文本的词向量序列,输出层为目标语言文本的文本向量。目标语言的文本向量预测模型作为双语文本向量编码解码模型的一个组成部分,与解码部分相对应,当训练生成双语文本向量编码解码模型后,将解码部分的反向模型作为目标语言的文本向量预测模型。
[0280] 上述步骤S401至步骤S405,用于生成源语言的文本向量预测模型和目标语言的文本向量预测模型。
[0281] 步骤S203:计算所述待翻译文本的文本向量和所述待定候选译文的文本向量之间的距离,作为所述待翻译文本和待定候选译文的语义相似度。
[0282] 通过步骤S201获取到待翻译文本的文本向量和待定候选译文的文本向量之后,就可以计算两个文本向量之间的距离,将该距离作为待翻译文本和待定候选译文的语义相似度。在实际应用中,可以采用欧式距离或余弦夹角距离作为文本向量之间的距离。
[0283] 在获取到各个待定候选译文的对翻译概率产生影响的特征后,就可以根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成待翻译文本到各个待定候选译文的翻译概率。
[0284] 本申请实施例所述的预先生成的翻译概率预测模型,是指通过机器学习算法,从预先存储的平行语料中学习出的翻译概率预测模型。具体的,能够采用的机器学习算法包括线性回归、回归决策树或迭代决策树等算法。不同算法生成的翻译概率的准确度不同,不同算法的计算复杂度也不相同,在实际应用中,根据具体应用需求,可以选择任意一种机器学习算法生成翻译概率预测模型。
[0285] 在本实施例中,采用线性回归算法,从预先存储的平行语料中学习出的翻译概率预测模型。在基于线性回归的翻译概率预测模型中,每个对翻译概率产生影响的特征均有各自的权重,这些权重用于控制不同特征对待翻译文本到候选译文的翻译概率的影响力。
[0286] 在基于统计的机器翻译过程中,可以将获取的平行语料分为三部分,第一部分用于词对齐及短语抽取,第二部分用于翻译概率预测模型的训练,第三部分则用于系统评价。其中,在第二部分和第三部分的数据中,每个源语言句子最好能有多条参考翻译。
[0287] 在本实施例中,采用最小化错误率训练算法,通过在所准备的上述第二部分数据——优化集(Tuning Set)上优化各个特征的权重,使得给定的优化准则最优化。一般常见的优化准则包括信息熵,BLEU,TER等。这一阶段需要使用解码器对优化集进行多次解码,每次解码产生M个得分最高的结果,并调整各个特征的权重。当权重被调整时,N个结果的排序也会发生变化,而得分最高者,即解码结果,将被用于计算BLEU得分或TER。当得到一组新的权重,使得整个优化集的得分得到改进后,将重新进行下一轮解码。如此往复直至不能观察到新的改进。
[0288] 在实际应用中,根据选取的M值的不同、优化集的大小、模型大小及解码器速度,训练时间可能需要数小时或数日。通过特征权重,使得翻译系统在客观评价准则上的得分越来越高,同时,还需要不断改进客观评价准则,使得客观评价准则与主观评价准则越来越接近。
[0289] 在进行实际翻译过程中,可以根据具体需求,选择上述对翻译概率产生影响的各种特征的任意组合,并在确定特征的权重后,计算待翻译文本到每一个待定候选翻译的翻译概率。
[0290] 步骤S105:选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文。
[0291] 通过步骤S103获取到待翻译文本到每一个待定候选翻译的翻译概率之后,从所有待定候选翻译中选取预设数量的翻译概率排在高位的待定候选译文,作为待翻译句子的候选译文。在实际应用中,根据具体需求设定选取的候选译文数量。预设数量越大,表示对待翻译文本的候选译文的剪枝力度越大;预设数量越小,表示对待翻译文本的候选译文的剪枝力度也越小。
[0292] 在上述的实施例中,提供了一种生成候选译文的方法,与之相对应的,本申请还提供一种生成候选译文的装置。该装置是与上述方法的实施例相对应。
[0293] 请参看图7,其为本申请的生成候选译文的装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0294] 本实施例的一种生成候选译文的装置,用于基于统计的机器翻译系统,包括:
[0295] 第一生成单元101,用于根据预先生成的翻译规则,生成待翻译文本的待定候选译文;
[0296] 第一计算单元103,用于根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率;
[0297] 选取单元105,用于选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文;
[0298] 其中,所述对翻译概率产生影响的特征至少包括所述待翻译文本和所述候选译文的语义相似度。
[0299] 可选的,所述第一生成单元101包括:
[0300] 判断子单元,用于针对各个翻译规则,判断所述翻译规则是否可应用于所述待翻译文本;
[0301] 生成子单元,用于若上述判断结果为是,则根据所述翻译规则,生成所述待翻译文本的待定候选译文。
[0302] 请参看图8,其为本申请的生成候选译文的装置实施例的具体示意图。可选的,还包括:
[0303] 第二计算单元201,用于计算所述待翻译文本和待定候选译文的语义相似度。
[0304] 可选的,所述第二计算单元201包括:
[0305] 获取子单元2011,用于获取所述待翻译文本的文本向量,以及所述待定候选译文的文本向量;
[0306] 计算子单元2013,用于计算所述待翻译文本的文本向量和所述待定候选译文的文本向量之间的距离,作为所述待翻译文本和待定候选译文的语义相似度;
[0307] 其中,所述文本向量是指能够表示双语语义信息的文本向量。
[0308] 可选的,还包括:
[0309] 第二生成单元203,用于生成所述待翻译文本的文本向量和所述待定候选译文的文本向量。
[0310] 可选的,所述第二生成单元203包括:
[0311] 获取子单元2031,用于根据预先生成的源语言的词与词向量的对应关系,获取所述待翻译文本包括的各个词所对应的词向量;以及根据预先生成的目标语言的词与词向量的对应关系,获取所述待定候选译文包括的各个词所对应的词向量;
[0312] 生成子单元2033,用于根据所述待翻译文本包括的各个词所对应的词向量,以及预先生成的源语言的文本向量预测模型,生成所述待翻译文本的文本向量;以及根据所述待定候选译文包括的各个词所对应的词向量,以及预先生成的目标语言的文本向量预测模型,生成所述待定候选译文的文本向量;
[0313] 其中,所述词向量是指能够表示双语语义信息的词向量。
[0314] 可选的,所述第二生成单元203还包括:
[0315] 解析子单元2030,用于解析所述待翻译文本,获取所述待翻译文本包括的词;和/或解析所述待定候选译文,获取所述候选译文包括的词。
[0316] 可选的,还包括:
[0317] 第三生成单元205,用于生成所述预先生成的源语言的文本向量预测模型和目标语言的文本向量预测模型。
[0318] 请参看图9,其为本申请的生成候选译文的装置实施例第三生成单元205的具体示意图。可选的,所述第三生成单元205包括:
[0319] 读取子单元2051,用于读取预先存储的平行语料库;
[0320] 训练子单元2054,用于以最大化所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型;
[0321] 设置子单元2055,用于将训练后的双语文本向量编码解码模型的编码部分,作为所述预先生成的源语言的文本向量预测模型;以及将训练后的双语文本向量编码解码模型的解码部分的反向模型,作为所述预先生成的目标语言的文本向量预测模型;
[0322] 其中,所述预设的双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
[0323] 请参看图9,其为本申请的生成候选译文的装置实施例训练子单元205的具体示意图。可选的,所述第三生成单元205,还包括:
[0324] 解析子单元2052,用于解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
[0325] 初始化子单元2053,用于为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
[0326] 请参看图10,其为本申请的生成候选译文的装置实施例训练子单元2054的具体示意图。可选的,所述训练子单元2054包括:
[0327] 第一计算子单元20541,用于遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述预设的双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
[0328] 第二计算子单元20543,用于计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
[0329] 判断子单元20545,用于判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;若否,则将调整后的所述待调整的源语言的词和词向量的对应关系作为所述预先生成的源语言的词和词向量的对应关系,以及将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的目标语言的词和词向量的对应关系。
[0330] 请参考图11,其为本申请的一种电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
[0331] 本实施例的一种电子设备,该电子设备包括:显示器1101;处理器1102;以及存储器1103,所述存储器1103用于存储生成候选译文的装置,所述生成候选译文的装置被所述处理器1102执行时,包括如下步骤:根据预先生成的翻译规则,生成待翻译文本的待定候选译文;根据各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率;选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文;其中,所述对翻译概率产生影响的特征至少包括所述待翻译文本和所述候选译文的语义相似度。
[0332] 本申请提供的生成候选译文的方法、装置及电子设备,用于基于统计的机器翻译系统,通过根据待翻译文本的各个待定候选译文的对翻译概率产生影响的特征,以及预先生成的翻译概率预测模型,生成所述待翻译文本到各个待定候选译文的翻译概率,并选取预设数量的所述翻译概率排在高位的待定候选译文,作为所述待翻译文本的候选译文,其中所述对翻译概率产生影响的特征至少包括所述待翻译文本和所述候选译文的语义相似度,使得依据翻译规则对原文片段进行翻译时,能够深入到自然语言的语义层面评估所产生的各个待定候选译文的翻译质量,从而达到提高候选译文翻译质量的效果。
[0333] 本申请还提供一种文本量化方法,其核心的基本思想为:根据待量化文本包括的各个词所对应的词向量,以及预先生成的与待量化文本所属语言相对应的文本向量预测模型,生成待量化文本的文本向量。其中,词向量具有双语语义特征,能够表示互译词的双语语义信息;与待量化文本所属语言相对应的文本向量预测模型是双语文本向量预测模型的一个组成部分,双语文本向量预测模型的另一组成部分为与待量化文本所属语言相对的另一种语言所对应的文本向量预测模型。由于在基于平行语料库训练生成双语文本向量预测模型时,是将平行语料中一种语言文本经该语言的文本向量预测模型所获取的文本向量,作为另一种语言文本的文本向量,即:各句对平行语料在同一文本向量下训练生成双语文本向量预测模型,使得通过双语文本向量预测模型生成的文本向量具有跨语言的语义信息。
[0334] 请参考图12,其为本申请的文本量化方法实施例的流程图。所述方法包括如下步骤:
[0335] 步骤S1201:获取待量化文本。
[0336] 本申请实施例所述的待量化文本,是指由自然语言中基本单元词组成的文本,包括自然语言的短语、句子或段落等。
[0337] 步骤S1203:根据预先生成的词与词向量的对应关系,获取所述待量化文本包括的各个词所对应的词向量。
[0338] 通过步骤S1203,将待量化文本包括的每个词w1,…,wt映射到词向量空间。步骤S1203与实施例一中步骤S301相对应,相同之处此处不再赘述,相关说明详见步骤S301部分。
[0339] 步骤S1205:根据所述待量化文本包括的各个词所对应的词向量,以及预先生成的与所述待量化文本所属语言相对应的第一语言文本向量预测模型,生成所述待量化文本的文本向量。
[0340] 通过步骤S105,将步骤S1203获取到的待量化文本中各个词的词向量组合成一个更大的向量(即:词向量序列),作为第一语言文本向量预测模型的输入层变量。第一语言文本向量预测模型的输出是待量化文本的文本向量。
[0341] 在实际应用中,如果不能直接获取待量化文本包括的各个词,则在步骤S1203之前,还包括:
[0342] 步骤S1202:解析所述待量化文本,获取所述待量化文本包括的各个词。
[0343] 步骤S1202与实施例一中步骤S302相对应,相同之处此处不再赘述,相关说明详见步骤S302部分。
[0344] 本申请实施例所述的第一语言文本向量预测模型作为双语文本向量预测模型的一个组成部分,该双语文本向量预测模型还包括另一个组成部份,即:第二语言文本向量预测模型,双语文本向量预测模型是通过机器学习算法,从平行语料库中学习获得的。本申请实施例所述的平行语料库中的每句对平行语料,包括互译的第一语言文本和第二语言文本。因此,通过双语文本向量预测模型预测得到的文本向量具有跨语言的双语语义特征。
[0345] 请参考图13,其为本申请的文本量化方法实施例生成第一语言文本向量预测模型的具体流程图。在本实施例中,所述预先生成的第一语言文本向量预测模型采用如下步骤生成:
[0346] 步骤S1301:读取预先存储的平行语料库。
[0347] 步骤S1301与实施例一中步骤S401相对应,相同之处此处不再赘述,相关说明详见步骤S401部分。
[0348] 步骤S1303:以最大化所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型。
[0349] 步骤S1303与实施例一中步骤S403相对应,相同之处此处不再赘述,相关说明详见步骤S403部分。
[0350] 在本实施例中,词向量是训练双语文本向量预测模型时产生的副产品,即:从平行语料库中学习出双语文本向量预测模型的同时,学习到具有双语语义特征的词向量。因此,在步骤S1303之前,还包括:1)解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;2)为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
[0351] 请参考图14,其为本申请的生成候选译文的方法实施例步骤S1303的具体流程图。在本实施例中,步骤S1303具体包括:
[0352] 步骤S13031:遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述预设的双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率。
[0353] 步骤S13031与实施例一中步骤S4031相对应,相同之处此处不再赘述,相关说明详见步骤S4031部分。
[0354] 步骤S13033:计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率。
[0355] 步骤S13033与实施例一中步骤S4033相对应,相同之处此处不再赘述,相关说明详见步骤S4033部分。
[0356] 步骤S13035:判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤。
[0357] 步骤S13037:若上述判断结果为否,则如果所述待量化文本所属语言是所述源语言,则将调整后的所述待调整的源语言的词和词向量的对应关系作为所述预先生成的词和词向量的对应关系;如果所述待量化文本所属语言是所述目标语言,则将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的词和词向量的对应关系。
[0358] 步骤S13035和步骤S13037与实施例一中步骤S4035相对应,相同之处此处不再赘述,相关说明详见步骤S4035部分。
[0359] 在本实施例中,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,包括:1)根据预设的学习速率和所述平均翻译概率的计算公式,计算所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重的梯度;2)根据所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重的梯度,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重。
[0360] 步骤S1305:若所述待量化文本所属语言是所述源语言,则将训练后的双语文本向量编码解码模型的编码部分,作为所述第一语言文本向量预测模型;若所述待量化文本所属语言是所述目标语言,将训练后的双语文本向量编码解码模型的解码部分的反向模型,作为所述第一语言文本向量预测模型。
[0361] 步骤S1305与实施例一中步骤S405相对应,相同之处此处不再赘述,相关说明详见步骤S405部分。
[0362] 上述步骤S1301至步骤S1305,用于生成第一语言文本向量预测模型,以及词与词向量的对应关系。
[0363] 在上述的实施例中,提供了一种文本量化方法,与之相对应的,本申请还提供一种文本量化装置。该装置是与上述方法的实施例相对应。
[0364] 请参看图15,其为本申请的文本量化装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0365] 本实施例的一种文本量化装置,包括:
[0366] 获取单元1501,用于获取待量化文本;
[0367] 映射单元1503,用于根据预先生成的词与词向量的对应关系,获取所述待量化文本包括的各个词所对应的词向量;
[0368] 预测单元1505,用于根据所述待量化文本包括的各个词所对应的词向量,以及预先生成的与所述待量化文本所属语言相对应的第一语言文本向量预测模型,生成所述待量化文本的文本向量;
[0369] 其中,所述词向量是指能够表示双语语义信息的词向量;所述文本向量是指能够表示双语语义信息的文本向量。
[0370] 可选的,还包括:
[0371] 解析单元1502,用于解析所述待量化文本,获取所述待量化文本包括的各个词。
[0372] 请参看图16,其为本申请的文本量化装置实施例的具体示意图。可选的,还包括:
[0373] 生成单元1601,用于生成所述第一语言文本向量预测模型。
[0374] 可选的,所述生成单元1601包括:
[0375] 读取子单元16011,用于读取预先存储的平行语料库;
[0376] 训练子单元16014,用于以最大化所述各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练预设的双语文本向量编码解码模型;
[0377] 设置子单元16015,用于若所述待量化文本所属语言是所述源语言,则将训练后的双语文本向量编码解码模型的编码部分,作为所述第一语言文本向量预测模型;若所述待量化文本所属语言是所述目标语言,将训练后的双语文本向量编码解码模型的解码部分的反向模型,作为所述第一语言文本向量预测模型;
[0378] 其中,所述预设的双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
[0379] 可选的,所述生成单元1601还包括:
[0380] 解析子单元16012,用于解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
[0381] 初始化子单元16013,用于为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
[0382] 可选的,所述训练子单元16014包括:
[0383] 第一计算子单元,用于遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述预设的双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
[0384] 第二计算子单元,用于计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
[0385] 判断子单元,用于判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述词向量和所述预设的双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;
[0386] 设置子单元,用于若上述判断结果为否,则如果所述待量化文本所属语言是所述源语言,则将调整后的所述待调整的源语言的词和词向量的对应关系作为所述预先生成的词和词向量的对应关系;如果所述待量化文本所属语言是所述目标语言,则将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的词和词向量的对应关系。
[0387] 请参考图17,其为本申请的又一种电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
[0388] 本实施例的又一种电子设备,该电子设备包括:显示器1701;处理器1702;以及存储器1703,所述存储器1703用于存储文本量化装置,所述文本量化装置被所述处理器1702执行时,包括如下步骤:获取待量化文本;根据预先生成的词与词向量的对应关系,获取所述待量化文本包括的各个词所对应的词向量;根据所述待量化文本包括的各个词所对应的词向量,以及预先生成的与所述待量化文本所属语言相对应的第一语言文本向量预测模型,生成所述待量化文本的文本向量;其中,所述词向量是指能够表示双语语义信息的词向量;所述文本向量是指能够表示双语语义信息的文本向量。
[0389] 本申请提供的文本量化方法、装置及电子设备,通过根据预先生成的词与词向量的对应关系,获取待量化文本包括的各个词所对应的能够表示双语语义信息的词向量;并根据待量化文本包括的各个词所对应的词向量,以及预先生成的与待量化文本所属语言相对应的第一语言文本向量预测模型,生成待量化文本的文本向量,使得生成的文本向量能够表示双语语义信息,从而达到文本向量能够适用于跨语言的互译文本的效果。
[0390] 本申请还提供一种词量化方法,其核心的基本思想为:在根据平行语料库对预设的双语文本向量预测模型进行训练同时,调整平行语料库包括的各个词的词向量,使得学习到的词向量富含双语的语义知识。
[0391] 请参考图18,其为本申请提供的一种词量化方法的实施例的流程图,本实施例与第一实施例内容相同的部分不再赘述,请参见实施例一中的相应部分。本申请提供的一种词量化方法包括:
[0392] 步骤S1801:读取预先存储的平行语料库。
[0393] 步骤S1801与实施例一中步骤S401相对应,相同之处此处不再赘述,相关说明详见步骤S401部分。
[0394] 步骤S1802:解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词。
[0395] 步骤S1803:为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系。
[0396] 步骤S1802和步骤S1803与实施例一中步骤S403之前的准备步骤相对应,相同之处此处不再赘述,相关说明详见步骤S403之前的准备步骤部分。
[0397] 步骤S1804:根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量。
[0398] 步骤S1804与实施例一中步骤S504相对应,相同之处此处不再赘述,相关说明详见步骤S504部分。
[0399] 在本实施例中,所述双语文本向量预测模型采用双语文本向量编码解码模型;步骤S1804采用如下方式:
[0400] 以最大化所述平行语料库中各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练所述双语文本向量编码解码模型,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,获取所述能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量。
[0401] 该方式与实施例一中步骤S403相对应,相同之处此处不再赘述,相关说明详见步骤S403部分。
[0402] 本申请实施例所述的双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
[0403] 请参考图19,其为本申请提供的一种词量化方法的实施例步骤S1804的具体流程图。在本实施例中,步骤S1804包括:
[0404] 步骤S1901:遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率。
[0405] 步骤S1901与实施例一中步骤S4031相对应,相同之处此处不再赘述,相关说明详见步骤S4031部分。
[0406] 步骤S1903:计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率。
[0407] 步骤S1903与实施例一中步骤S4033相对应,相同之处此处不再赘述,相关说明详见步骤S4033部分。
[0408] 步骤S1905:判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,以及所述双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;若否,则将调整后的所述待调整的源语言的词和词向量的对应关系中的词向量,作为所述能够表示双语语义信息的源语言词的词向量,以及将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的目标语言的词和词向量的对应关系,作为所述能够表示双语语义信息的目标语言词的词向量。
[0409] 步骤S1905与实施例一中步骤S4035相对应,相同之处此处不再赘述,相关说明详见步骤S4035部分。
[0410] 在本实施例中,所述最优化算法采用随机梯度算法;所述采用最优化算法,更新所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,以及所述双语文本向量编码解码模型的各个连接权重,包括:1)根据预设的学习速率和所述平均翻译概率的计算公式,计算所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量的梯度,以及所述双语文本向量编码解码模型的各个连接权重的梯度;2)根据所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量的梯度,以及所述双语文本向量编码解码模型的各个连接权重的梯度,更新所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量和所述双语文本向量编码解码模型的各个连接权重。
[0411] 在上述的实施例中,提供了一种词量化方法,与之相对应的,本申请还提供一种词量化装置。该装置是与上述方法的实施例相对应。
[0412] 请参看图20,其为本申请的词量化装置实施例的示意图。由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
[0413] 本实施例的一种词量化装置,包括:
[0414] 读取单元2001,用于读取预先存储的平行语料库;
[0415] 解析单元2003,用于解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;
[0416] 初始化单元2005,用于为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系;
[0417] 训练单元2007,用于根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量。
[0418] 可选的,所述双语文本向量预测模型采用双语文本向量编码解码模型;
[0419] 所述根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量,采用如下方式:
[0420] 以最大化所述平行语料库中各句对平行语料的目标语言句子在与其对应的源语言句子背景下的平均翻译概率作为训练目标,训练所述双语文本向量编码解码模型,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,获取所述能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量;
[0421] 其中,所述双语文本向量编码解码模型的输入层包括所述源语言句子包括的词分别对应的词向量,输出层包括所述目标语言句子包括的词分别对应的词向量;所述编码部分的输出层为所述源语言句子的文本向量,所述源语言句子的文本向量为所述解码部分的输入层。
[0422] 请参看图21,其为本申请的词量化装置实施例训练单元2007的示意图。可选的,所述训练单元2007包括:
[0423] 第一计算子单元20071,用于遍历所述平行语料库中各句对平行语料,根据所述待调整的源语言的词和词向量的对应关系、所述待调整的目标语言的词和词向量的对应关系和所述双语文本向量编码解码模型,计算各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率;
[0424] 第二计算子单元20073,用于计算获取各句对平行语料的目标语言句子在与其对应的源语言句子背景下的翻译概率的平均值,作为当前平均翻译概率;
[0425] 判断子单元20075,用于判断所述当前平均翻译概率是否大于上一次平均翻译概率;若是,则采用最优化算法,更新所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,以及所述双语文本向量编码解码模型的各个连接权重,并返回执行所述遍历所述平行语料库中各句对平行语料的步骤;若否,则将调整后的所述待调整的源语言的词和词向量的对应关系中的词向量,作为所述能够表示双语语义信息的源语言词的词向量,以及将调整后的所述待调整的目标语言的词和词向量的对应关系作为所述预先生成的目标语言的词和词向量的对应关系,作为所述能够表示双语语义信息的目标语言词的词向量。
[0426] 请参考图22,其为本申请的再一电子设备实施例的示意图。由于设备实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。
[0427] 本实施例的再一种电子设备,该电子设备包括:显示器2201;处理器2202;以及存储器2203,所述存储器2203用于存储词量化装置,所述词量化装置被所述处理器2202执行时,包括如下步骤:读取预先存储的平行语料库;解析所述平行语料库包括的各个句子,获取所述平行语料库包括的源语言的词和目标语言的词;为所述平行语料库包括的源语言的词设置第一预设维度的词向量,形成待调整的源语言的词和词向量的对应关系;以及为所述平行语料库包括的目标语言的词设置所述第一预设维度的词向量,形成待调整的目标语言的词和词向量的对应关系;根据所述平行语料库,对预设的双语文本向量预测模型进行训练,调整所述待调整的源语言的词和词向量的对应关系和所述待调整的目标语言的词和词向量的对应关系中的词向量,学习出能够表示双语语义信息的源语言词的词向量,以及能够表示双语语义信息的目标语言词的词向量。
[0428] 本申请提供的词量化方法、装置及电子设备,通过初始化平行语料库包括的各个词的词向量,形成待调整的源语言的词和词向量的对应关系以及待调整的目标语言的词和词向量的对应关系;并根据平行语料库,对预设的双语文本向量预测模型进行训练,调整待调整的源语言的词和词向量的对应关系和待调整的目标语言的词和词向量的对应关系中的词向量,使得生成的词向量所具有的语义信息适用于跨语言的互译词。
[0429] 本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
[0430] 在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0431] 内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
[0432] 1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
[0433] 2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈