首页 / 专利库 / 银行与财务事项 / 货币 / 跨语言非标准词识别方法及装置

跨语言非标准词识别方法及装置

阅读:649发布:2020-05-11

专利汇可以提供跨语言非标准词识别方法及装置专利检索,专利查询,专利分析的服务。并且本公开是关于一种跨语言非标准词识别方法及装置、 电子 设备和计算机可读存储介质。其中跨语言非标准词识别方法包括:获取 目标语言 语料;对所述目标语言语料进行分词处理;对所述分词后的目标语言语料中的非标准词进行预处理;确定所述目标语言语料中目标词在 源语言 中的替代词向量及替代权重;通过所述替代词向量及替代权重,使用源语言的非标准词识别模型,确定所述目标语言的非标准词类别。通过借助词向量、双语词典对应的语义信息,将源语言的非标准词类型识别模型,迁移到目标语言,用来进行目标语言的非标准词的类型识别,避免了目标语言语料稀少的问题,同时具有良好的可 迁移性 。,下面是跨语言非标准词识别方法及装置专利的具体信息内容。

1.一种跨语言非标准词识别方法,其特征在于,所述方法包括:
获取目标语言语料;
对所述目标语言语料进行分词处理;
对所述分词后的目标语言语料中的非标准词进行预处理;
确定所述目标语言语料中目标词在源语言中的替代词向量及替代权重;
通过所述替代词向量及替代权重,使用源语言的非标准词识别模型,确定所述目标语言的非标准词类别。
2.根据权利要求1所述的跨语言非标准词识别方法,其特征在于,所述对所述分词后的目标语言语料中的非标准词进行预处理,包括:
将所述非标准词中的数字转化为固定格式,保留所述非标准词中包含的特殊字符,所述特殊字符包括:数学符号、货币符号和物理符号中的任意一种或多种字符。
3.根据权利要求1所述的跨语言非标准词识别方法,其特征在于,所述目标词为所述分词后的目标语言语料中完整句子的全部词,或以非标准词为中心上下文窗口长度内的词。
4.根据权利要求1所述的跨语言非标准词识别方法,其特征在于,所述确定所述目标语言语料中目标词在源语言中的替代词向量及替代权重,包括:
基于双语词典确定所述目标词在源语言中的替代词,并设置所述替代权重;
将所述源语言中的替代词向量化得到所述替代词向量。
5.根据权利要求4所述的跨语言非标准词识别方法,其特征在于,所述基于双语词典确定所述目标词在源语言中的替代词,并设置所述替代权重包括:
在所述双语词典中查找所述目标词对应的源语言词;
若所述目标词在所述双语词典中对应一个或多个源语言词,则将每个所述源语言词分别作为替代词;
若所述目标词在所述双语词典中无对应的源语言词,则通过目标语言词向量模型查找候选词,将所述候选词对应的源语言词作为替代词;
基于所述目标词设置所述替代权重。
6.根据权利要求5所述的跨语言非标准词识别方法,其特征在于,所述基于所述目标词设置所述替代权重包括:
若所述目标词在所述双语词典中对应一个或多个源语言词,则设置每个替代词的所述替代权重为1;
若所述目标词在所述双语词典中无对应的源语言词,则基于所述候选词与所述目标词的距离确定替代权重。
7.根据权利要求5所述的跨语言非标准词识别方法,其特征在于,所述通过目标语言词向量模型查找候选词包括:
在目标语言词向量模型中确定所述目标词的向量,统计所述目标词与目标语言中其他词的距离并排序;
确定在双语词典中存在对应的源语言词且距离所述目标词最近的词为候选词。
8.根据权利要求1所述的跨语言非标准词识别方法,其特征在于,所述通过所述替代词向量及替代权重,使用源语言的非标准词识别模型,确定所述目标语言的非标准词类别,包括:
获取所述替代词向量构成的目标语言词向量序列;
通过所述源语言的非标准词识别模型,得到所述词向量序列中包含的非标准词的类别置信度
根据所述替代权重与所述类别置信度,确定所述非标准词的类别。
9.根据权利要求8所述的跨语言非标准词识别方法,其特征在于,所述根据所述替代权重与所述类别置信度,确定所述非标准词的类别,包括:
设所述替代词向量构成的目标语言词向量序列为S,计算非标准词N的类别是T的概率为:
其中, 为非标准词N的上下文中的第i个目标词, 为  替换为替代词的替代权重,
 为通过所述源语言的非标准词识别模型计算的替代词向量序列S属于类别T的置信度;
所述非标准词的类别为使  值最大的类别T。
10.一种非标准词识别模型的训练方法,其特征在于,所述非标准词识别模型用于如权利要求1-9任一项所述的跨语言非标准词识别方法中,所述训练方法包括:
获取源语言语料;
对所述源语言语料进行分词;
对分词后的所述源语言语料进行预处理;
对预处理后的所述源语言语料进行向量化,得到源语言词向量序列;
标注所述源语言语料中的非标准词,得到包含类别信息的标注序列;
通过所述源语言词向量序列与标注序列,训练所述非标准词识别模型,其中所述模型是BiLSTM+CRF模型。
11.根据权利要求10所述的非标准词识别模型的训练方法,其特征在于,所述方法还包括:
在获取所述源语言语料后,建立过滤规则,保留包含非标准词的语句;
所述过滤规则包括,利用所述源语言的合法字符集合与标点符号集合,过滤所述源语言语料中仅包含合法字符和标点符号的句子。
12.一种跨语言非标准词识别装置,其特征在于,所述装置包括:
语料获取单元,用于获取目标语言语料;
分词单元,用于对所述目标语言语料进行分词处理;
预处理单元,用于对所述分词后的目标语言语料中的非标准词进行预处理;
替换单元,用于确定所述目标语言语料中目标词在源语言中的替代词向量及替代权重;
识别单元,用于通过所述替代词向量及替代权重,使用源语言的非标准词识别模型,确定所述目标语言的非标准词类别。
13.根据权利要求12所述的跨语言非标准词识别装置,其特征在于,所述预处理单元还用于:
将所述非标准词中的数字转化为固定格式,保留所述非标准词中包含的特殊字符,所述特殊字符包括:数学符号、货币符号和物理符号中的任意一种或多种字符。
14.根据权利要求12所述的跨语言非标准词识别装置,其特征在于,所述目标词为所述分词后的目标语言语料中完整句子的全部词,或以非标准词为中心上下文窗口长度内的词。
15.根据权利要求12所述的跨语言非标准词识别装置,其特征在于,所述替换单元还包括:
替代词查找单元,基于双语词典确定所述目标词在源语言中的替代词,并设置所述替代权重;
向量单元,用于将所述源语言中的替代词向量化得到所述替代词向量。
16.根据权利要求15所述的跨语言非标准词识别装置,其特征在于,所述替代词查找单元还包括:
字典查找单元,用于在所述双语词典中查找所述目标词对应的源语言词;
判断单元,用于当所述目标词在所述双语词典中对应一个或多个源语言词时,将每个所述源语言词分别作为替代词;当所述目标词在所述双语词典中无对应的源语言词时,通过目标语言词向量模型查找候选词,将所述候选词对应的源语言词作为替代词;
权重设置单元,用于基于所述目标词设置所述替代权重。
17.根据权利要求16所述的跨语言非标准词识别装置,其特征在于,所述权重设置单元还用于:
当所述目标词在所述双语词典中对应一个或多个源语言词时,设置每个替代词的所述替代权重为1;
当所述目标词在所述双语词典中无对应的源语言词时,则基于所述候选词与所述目标词的距离确定替代权重。
18.根据权利要求16所述的跨语言非标准词识别装置,其特征在于,所述判断单元还包括:
候选词确定单元,用于在目标语言词向量模型中确定所述目标词的向量,统计所述目标词与目标语言中其他词的距离并排序;
确定在双语词典中存在对应的源语言词且距离所述目标词最近的词为候选词。
19.根据权利要求12所述的跨语言非标准词识别装置,其特征在于,所述识别单元还包括:
词向量获取单元,用于获取所述替代词向量构成的目标语言词向量序列;
置信度计算单元,用于通过所述源语言的非标准词识别模型,得到所述词向量序列中包含的非标准词的类别置信度;
类别确定单元,用于根据所述替代权重与所述类别置信度,确定所述非标准词的类别。
20.根据权利要求19所述的跨语言非标准词识别装置,其特征在于,所述类别确定单元还用于:
设所述替代词向量构成的目标语言词向量序列为S,计算非标准词N的类别是T的概率为:
其中, 为非标准词N的上下文中的第i个目标词, 为  替换为替代词的替代权重,
 为通过所述源语言的非标准词识别模型计算的替代词向量序列S属于类别T的置信度;
所述非标准词的类别为使  值最大的类别T。
21.一种非标准词识别模型的训练装置,其特征在于,所述非标准词识别模型用于如权利要求1-9任一项所述的跨语言非标准词识别方法中,所述训练装置包括:
语料获取单元,用于获取源语言语料;
分词单元,用于对所述源语言语料进行分词;
预处理单元,用于对分词后的所述源语言语料进行预处理;
向量化单元,用于对预处理后的所述源语言语料进行向量化,得到源语言词向量序列;
标注单元,用于标注所述源语言语料中的非标准词,得到包含类别信息的标注序列;
训练单元,用于通过所述源语言词向量序列与标注序列,训练所述非标准词识别模型,其中所述模型是BiLSTM+CRF模型。
22.根据权利要求21所述的非标准词识别模型的训练装置,其特征在于,所述装置还包括:
过滤装置,用于在获取所述源语言语料后,建立过滤规则,保留包含非标准词的语句;
所述过滤规则包括,利用所述源语言的合法字符集合与标点符号集合,过滤所述源语言语料中仅包含合法字符和标点符号的句子。
23.一种电子设备,其特征在于,包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行如权利要求1至9中任一项所述的跨语言非标准词识别方法。
24.一种计算机可读存储介质,其特征在于,存储有指令,所述指令被处理器执行时,执行如权利要求1至9中任一项所述跨语言非标准词识别方法。

说明书全文

跨语言非标准词识别方法及装置

技术领域

[0001] 本公开涉及文本处理领域,尤其涉及跨语言非标准词识别方法及装置、电子设备和计算机可读存储介质。

背景技术

[0002] 文本中,非标准词之外,由本语言的字符构成,符合正字法的词,称为标准词。除了本语言的字符、标点符号外,还有很多其他的符号,比如阿拉伯数字(0-9)、货币符号(如:¥、$、€)、数学符号(如:≥、+等)、物理符号(如:km、kg、℃)等。这些符号或词,在常用词典中查不到,它们的读音也不能通过正常的发音规则得到,而且在不同的上下文中,其意义和读法往往也不同。这些词,被称为非标准词。如下,是中文文本中的非标准词的例子:
发表于:2006-09-11 12:28。
[0003] 我打算在网上订机票,但是出发时间是12:30AM。
[0004] 1996年,全区总人口控制在324万人,出生率下降到14.55‰,自然增长率9.43‰。
[0005] 北京洋海馆票门市价:成人100元/人。
[0006] 解语文和外语总分为2×90=180。
[0007] 文本正则化是语音合成等文本处理任务中的重要环节。文本正则化是将非标准词转换成标准词,以确定其读音的过程。在文本正则化的过程中,对非标准词的处理往往是用户关注的焦点,如日期、价格、电话号码、机构名等,因此文本标准化直接影响语音服务的质量。目前文本正则化,主要分两步:非标准词类型识别及标准词生成。
[0008] 非标准词类型识别,是识别出非标准词的类型,如“日期”、“时刻”、“数值+单位”、“电话号码”等。标准词生成,是根据识别出的非标准词类型,按照该类型的读法习惯,将非标准词转换成对应的标准词的过程。而非标准词的形式复杂多样,难于归纳,而且非标准词常有歧义,需要借助上下文进行判定,考虑到很多语言、特别是小语种的语言专家和标注人员的资源稀缺性,这些语言的非标准词处理往往代价巨大。发明内容
[0009] 为克服相关技术中存在的问题,本公开提供一种跨语言非标准词识别方法及装置、电子设备和计算机可读存储介质。
[0010] 根据本公开实施例的第一方面,提供一种跨语言非标准词识别方法,方法包括:获取目标语言语料;对目标语言语料进行分词处理;对分词后的目标语言语料中的非标准词进行预处理;确定目标语言语料中目标词在源语言中的替代词向量及替代权重;通过替代词向量及替代权重,使用源语言的非标准词识别模型,确定目标语言的非标准词类别。
[0011] 在一实施例中,对分词后的目标语言语料中的非标准词进行预处理,包括:将非标准词中的数字转化为固定格式,保留非标准词中包含的特殊字符,特殊字符包括:数学符号、货币符号和物理符号中的任意一种或多种字符。
[0012] 在一实施例中,目标词为分词后的目标语言语料中完整句子的全部词,或以非标准词为中心上下文窗口长度内的词。
[0013] 在一实施例中,确定目标语言语料中目标词在源语言中的替代词向量及替代权重,包括:基于双语词典确定目标词在源语言中的替代词,并设置替代权重;将源语言中的替代词向量化得到替代词向量。
[0014] 在一实施例中,基于双语词典确定目标词在源语言中的替代词,并设置替代权重包括:在双语词典中查找目标词对应的源语言词;若目标词在双语词典中对应一个或多个源语言词,则将每个源语言词分别作为替代词;若目标词在双语词典中无对应的源语言词,则通过目标语言词向量模型查找候选词,将候选词对应的源语言词作为替代词;基于目标词设置替代权重。
[0015] 在一实施例中,基于目标词设置替代权重包括:若目标词在双语词典中对应一个或多个源语言词,则设置每个替代词的替代权重为1;若目标词在双语词典中无对应的源语言词,则基于候选词与目标词的距离确定替代权重。
[0016] 在一实施例中,通过目标语言词向量模型查找候选词包括:在目标语言词向量模型中确定目标词的向量,统计目标词与目标语言中其他词的距离并排序;确定在双语词典中存在对应的源语言词且距离目标词最近的词为候选词。
[0017] 在一实施例中,通过替代词向量及替代权重,使用源语言的非标准词识别模型,确定目标语言的非标准词类别,包括:获取替代词向量构成的目标语言词向量序列;通过源语言的非标准词识别模型,得到词向量序列中包含的非标准词的类别置信度;根据替代权重与类别置信度,确定非标准词的类别。
[0018] 在一实施例中,根据替代权重与类别置信度,确定非标准词的类别,包括:设替代词向量构成的目标语言词向量序列为S,计算非标准词N的类别是T的概率为:其中,  为非标准词N的上下文中的第i个目标词,  为  替换为替代词的替代权
重,  为通过源语言的非标准词识别模型计算的替代词向量序列S属于类别T的置信
度;非标准词的类别为使  值最大的类别T。
[0019] 根据本公开实施例的第二方面,提供一种非标准词识别模型的训练方法,非标准词识别模型用于第一方面的跨语言非标准词识别方法中,训练方法包括:获取源语言语料;对源语言语料进行分词;对分词后的源语言语料进行预处理;对预处理后的源语言语料进行向量化,得到源语言词向量序列;标注源语言语料中的非标准词,得到包含类别信息的标注序列;通过源语言词向量序列与标注序列,训练非标准词识别模型,其中模型是BiLSTM+CRF模型。
[0020] 在一实施例中,方法还包括:在获取源语言语料后,建立过滤规则,保留包含非标准词的语句;过滤规则包括,利用源语言的合法字符集合与标点符号集合,过滤源语言语料中仅包含合法字符和标点符号的句子。
[0021] 根据本公开实施例的第三方面,提供一种跨语言非标准词识别装置,装置包括:语料获取单元,用于获取目标语言语料;分词单元,用于对目标语言语料进行分词处理;预处理单元,用于对分词后的目标语言语料中的非标准词进行预处理;替换单元,用于确定目标语言语料中目标词在源语言中的替代词向量及替代权重;识别单元,用于通过替代词向量及替代权重,使用源语言的非标准词识别模型,确定目标语言的非标准词类别。
[0022] 在一实施例中,预处理单元还用于:将非标准词中的数字转化为固定格式,保留非标准词中包含的特殊字符,特殊字符包括:数学符号、货币符号和物理符号中的任意一种或多种字符。
[0023] 在一实施例中,目标词为分词后的目标语言语料中完整句子的全部词,或以非标准词为中心上下文窗口长度内的词。
[0024] 在一实施例中,替换单元还包括:替代词查找单元,基于双语词典确定目标词在源语言中的替代词,并设置替代权重;向量单元,用于将源语言中的替代词向量化得到替代词向量。
[0025] 在一实施例中,替代词查找单元还包括:字典查找单元,用于在双语词典中查找目标词对应的源语言词;判断单元,用于当目标词在双语词典中对应一个或多个源语言词时,将每个源语言词分别作为替代词;当目标词在双语词典中无对应的源语言词时,通过目标语言词向量模型查找候选词,将所述候选词对应的源语言词作为替代词;权重设置单元,用于基于目标词设置替代权重。
[0026] 在一实施例中,权重设置单元还用于:当目标词在双语词典中对应一个或多个源语言词时,设置每个替代词的替代权重为1;当目标词在双语词典中无对应的源语言词时,则基于候选词与目标词的距离确定替代权重。
[0027] 在一实施例中,判断单元还包括:候选词确定单元,用于在目标语言词向量模型中确定目标词的向量,统计目标词与目标语言中其他词的距离并排序;确定在双语词典中存在对应的源语言词且距离目标词最近的词为候选词。
[0028] 在一实施例中,识别单元还包括:词向量获取单元,用于获取替代词向量构成的目标语言词向量序列;置信度计算单元,用于通过源语言的非标准词识别模型,得到词向量序列中包含的非标准词的类别置信度;类别确定单元,用于根据替代权重与类别置信度,确定非标准词的类别。
[0029] 在一实施例中,类别确定单元还用于:设替代词向量构成的目标语言词向量序列为S,计算非标准词N的类别是T的概率为:其中,  为非标准词N的上下文中的第i个目标词, 为  替换为替代词的替代权重, 
为通过源语言的非标准词识别模型计算的替代词向量序列S属于类别T的置信度;非
标准词的类别为使  值最大的类别T。
[0030] 根据本公开实施例的第四方面,提供一种非标准词识别模型的训练装置,非标准词识别模型用于第一方面的跨语言非标准词识别方法中,训练装置包括:语料获取单元,用于获取源语言语料;分词单元,用于对源语言语料进行分词;预处理单元,用于对分词后的源语言语料进行预处理;向量化单元,用于对预处理后的源语言语料进行向量化,得到源语言词向量序列;标注单元,用于标注源语言语料中的非标准词,得到包含类别信息的标注序列;训练单元,用于通过源语言词向量序列与标注序列,训练非标准词识别模型,其中模型是BiLSTM+CRF模型。
[0031] 在一实施例中,装置还包括:过滤装置,用于在获取源语言语料后,建立过滤规则,保留包含非标准词的语句;过滤规则包括,利用源语言的合法字符集合与标点符号集合,过滤源语言语料中仅包含合法字符和标点符号的句子。
[0032] 根据本公开实施例的第五方面,提供一种电子设备,包括:存储器,用于存储指令;以及处理器,用于调用存储器存储的指令执行第一方面的跨语言非标准词识别方法。
[0033] 根据本公开实施例的第六方面,提供一种计算机可读存储介质,存储有指令,指令被处理器执行时,执行第一方面的跨语言非标准词识别方法。
[0034] 本公开的实施例提供的技术方案可以包括以下有益效果:通过将源语言的非标准词类型识别模型,借助词向量和双语词典,用在目标语言上,可以在某语言没有或有很少包含非标准词的语料的情况下,进行非标准词的类型识别,减轻了人工整理规则或者标注数据的代价。同时,通过将源语言的非标准词类型识别模型,迁移到目标语言,可以较大限度的复用源语言的非标准词知识,在已有一种源语言的非标准词的类型识别模型的情况下,可以直接对目标语言进行非标准词的类型识别,大大降低了对目标语言的专家资源的依赖,减轻了目标语言文本正则化的难度,该方法具有通用性,可以容易的扩展到其他目标语言中。
[0035] 应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明
[0036] 此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0037] 图1是根据一示例性实施例示出的一种跨语言非标准词识别方法的流程示意图。
[0038] 图2是根据一示例性实施例示出的另一种跨语言非标准词识别方法的流程示意图。
[0039] 图3是根据一示例性实施例示出的Skip-Gram模型示意图。
[0040] 图4是根据一示例性实施例示出的一种跨语言非标准词识别装置的示意框图
[0041] 图5是根据一示例性实施例示出的一种装置的示意框图。
[0042] 图6是根据一示例性实施例示出的一种电子装置的示意框图。

具体实施方式

[0043] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
[0044] 目前常用的非标准词类型的识别,主要有两种方法:一是基于规则的方法;二是有监督的机器学习方法。然而常用的基于规则的方法难以适用大多数语言,对于很多语言,没有现成的规则,更没有非标准词的标注数据,需要语言专家人工逐条整理规则,或者标注大量的非标准词数据,需要耗费大量的时间和人。而常用的有监督的机器学习方法,在某语言没有或有很少包含非标准词的语料的情况下,也很难达到较高的准确率,同时方法的可迁移性差,将模型适用于一种新的语言时,不能复用现有的资源,需要重新生成模型。
[0045] 而本公开为解决上述问题,提供一种跨语言非标准词识别方法10,参见图1,包括步骤S11-步骤S15,以下详细说明:步骤S11,获取目标语言语料。
[0046] 收集包含非标准词的目标语言的文本,来源要求比较正式,主要是新闻、聊天、邮件等。对语料进行分句。将篇章文本拆分成句,得到结果是以句子为单位的多行文本。上述语料获取步骤操作简便,能提取到对应语言中大部分非标准词,同时分句便于后续处理。
[0047] 步骤S12,对所述目标语言语料进行分词处理。
[0048] 对于不用空格表示词边界的语言,将文本拆分成词序列,词与词中间使用空格分割。对于印欧语系,等使用空格表示词边界的语言,则拆分出多余的标点,主要是词开头或结尾的标点。例如,示例1:2013年3月26日的《朝闻天下》中,出镜的央视男记者一共用英语提出了三个问题。
[0049] 示例2:La Chaux du Milieu has an area, as of 2009, of 17.3 square kilometers(6.7 sq mi).
示例1、示例2,经过分词处理后的结果分别为结果1、结果2。
[0050] 结果1:2013 年 3 月 26 日 的 《 朝闻天下 》 中 , 出 镜 的 央视 男 记者 一 共 用 英语 提出 了 三 个 问题 。
[0051] 结果2:La Chaux du Milieu has an area , as of 2009  , of 17.3 square kilometers ( 6.7 sq mi ) .根据不同语言特点选用相应的分词方法,确保分词的准确,可提升后续非标准词识别
的准确率。
[0052] 步骤S13,对所述分词后的目标语言语料中的非标准词进行预处理。
[0053] 在本公开的一实施例中,对分词后的目标语言语料中的非标准词进行预处理,包括:将非标准词中的数字转化为固定格式,保留非标准词中包含的特殊字符,特殊字符包括:数学符号、货币符号和物理符号中的任意一种或多种字符。数字的处理方法是:将连续数字替换成 “D”(Digit)+ 数字长度 的形式,比如:2019,预处理后的结果为 “D_4”。数学符号、货币符号和物理符号等,则保持原有形式不变。例如:99.9%,预处理后为:D_2.D_1%。
[0054] 需要说明的是,此处的非标准词预处理规则,并不是固定的。需要根据源语言、目标语言的差异程度,以及非标准词实际情况,进行调整。例如,如果数字的大小范围是一个重要特征,那么可以保留连续数字开头的1或2位数字,那么“2019”,预处理后的结果为“2D_3”或“20D_2”。
[0055] 某些非标准词类型,如果包含连续数字较多,并且格式多样,那么可以使用长度范围,如“159-349-22453”,可以替换为“[D-]_GT6”,表示包含数字、“-”的序列,并且长度大于6。由于非标准词的形式复杂多样,通过上述将非标准词中数字统一格式的步骤,可以有效减少因为数字不同而带来的数据稀疏问题。
[0056] 步骤S14, 确定所述目标语言语料中目标词在源语言中的替代词向量及替代权重。
[0057] 在本公开的一实施例中,目标词为分词后的目标语言语料中完整句子的全部词,或以非标准词为中心上下文窗口长度内的词。用户可根据需要选择所需目标词,采用完整句子的全部词作为目标词,可以有效利用全句信息分类,同时采用中心上下文窗口长度内的词作为目标词,可以减少干扰词,提升运行速率。
[0058] 在本公开的一实施例中,如图2所示,其中步骤S14确定目标语言语料中目标词在源语言中的替代词向量及替代权重,具体包括:步骤S141:基于双语词典确定目标词在源语言中的替代词,并设置替代权重;步骤S142:将源语言中的替代词向量化得到替代词向量。在步骤141中可以将全部替代权重设置为1。使用双语词典的方式将目标词最终转化为源语言词向量,可以充分利用双语语义信息,便于快速查找替代词。
[0059] 在一实施例中,基于双语词典确定目标词在源语言中的替代词,并设置替代权重包括:在双语词典中查找目标词对应的源语言词;若目标词在双语词典中对应一个或多个源语言词,则将每个源语言词分别作为替代词;若目标词在双语词典中无对应的源语言词,则通过目标语言词向量模型查找候选词,将候选词对应的源语言词作为替代词;基于目标词设置替代权重。通过上述步骤充分考虑两种语言在对应时的多种情况,当一个词汇在目标语言中可能拥有多种含义的情况下,将每种含义对应的替代词都作为替代词进行下一步操作,避免通过含义筛选后,在识别阶段可能错漏相关含义从而导致错误的识别结果。由于双语词典的不完善,或目标语言的特殊性在双语词典中找不到对应词的情况,可以通过候选词的方式找到目标词其在源语言中对应的词汇,避免无法替换的情况。
[0060] 例如,已有中文非标准词标注语料,可以将中文作为源语言,英文作为目标语言,进行“中文->英文”的跨语言非标准词类型自动识别。在对中文、英文文本,进行分词、非标准词预处理,训练中文、英文词向量后,对于英文句子,示例3-1:International Callers Call: 1-505-998-3793, totally free.
经过预处理后:
示例3-2:International Callers Call : D_1-D_3-D_3-D_4 , totally free .
在当前的英文双语词典,找到目标词对应如下的条目,确定替换词及其在源语言中的
替换词向量。
[0061]在一实施例中,基于目标词设置替代权重包括:若目标词在双语词典中对应一个或多
个源语言词,则设置每个替代词的替代权重为1;若目标词在双语词典中无对应的源语言词,则基于候选词与目标词的距离确定替代权重。通过替代权重可以将转化过程中的语义替换信息加入类别分类模型中,利用加权的方式提升分类模型的准确率。
[0062] 在一实施例中,通过目标语言词向量模型查找候选词包括:在目标语言词向量模型中确定目标词的向量,统计目标词与目标语言中其他词的距离并排序;确定在双语词典中存在对应的源语言词且距离目标词最近的词为候选词。
[0063] 词向量是词在空间中的向量表示,向量之间的距离代表了词所在上下文之间的相似性。它的思路是通过训练,将每个词都映射到低维稠密向量上来。所有的这些词向量构成了向量空间,可以用对应的词向量来计算词与词的关系。训练词向量,是从大量文本中,为每个单词创建一个向量,原始文本中具有相似上下文的词,在向量空间中的位置也相邻。
[0064] 生成词向量时,采用Skip-Gram模型,即给定中心词,预测给定窗口内其上下文的词。Skip-Gram模型包含三层:输入层、映射层、输出层,其架构如图3,w(t)为给定输入词,在已知词w(t)的前提下预测w(t)的上下文w(t-2)、w(t-1)、w(t+1)、w(t+2)。其中有一个映射层,它执行权重矩阵和输入向量w(t)之间的点积运算,再将点积运算结果传递到输出层。输出层计算映射层输出向量和输出层权重矩阵之间的点积。然后用softmax激活函数来计算在给定上下文位置中,单词出现在w(t)上下文中的概率。将源语言、目标语言文本,经过分词、非标准词预处理后,分别训练词向量,得到源语言、目标语言词向量,而通过对词向量的距离计算,可以获知词与词之间的相似程度。
[0065] 例如,在训练的中文词向量中(中文非标准词语料训练,包括新闻、口语对话、博客、邮件、论坛等来源),“电话”最相似的词是, 训练的英文词向量(训练语料包括新闻、论坛等)中,“phone”最相似的词是:
如果目标词D1不在双语词典中,那么在目标语言词向量空间中,查找D1’,并且D1’在双语词典中,那么D1’的替代词S1’作为D1的替代词。基于D1’和D1的相似度,计算S1’替代D1的权重。
[0066] 例如,“Call”、“totally”、“free”,均在双语词典中,找到对应的中文替代词,替代权重均为1。
[0067] “Callers”不在双语词典中,不能直接找到中文替代词。在英文词向量中,找到距离相近的词“listener”、“phone”、“telephone”…。其中“phone”在双语词典中,其对应词“电话”作为“Callers”的替代词。“Callers”和“phone”的相似度0.6503,作为“电话”替代“Callers”的权重。
[0068] 通过在向量空间中的距离计算,可以快速准确地找到该语言中最接近目标词的词汇,同时确保其在源语言中有对应的词汇,便于进一步将其替换为源语言中的替代词向量,,其中距离可以采用欧式距离或余弦相似度来获取,例如通过余弦相似度计算目标语言词向量模型中两个词之间的距离,由于在余弦相似度计算中,相似的词距离取值在0到1之间,可以直接以余弦相似度作为替代权重,可以充分考虑转化步骤中的语义信息,提高后续识别精度
[0069] 步骤S15, 通过所述替代词向量及替代权重,使用源语言的非标准词识别模型,确定所述目标语言的非标准词类别。
[0070] 在本公开的一实施例中,通过替代词向量及替代权重,使用源语言的非标准词识别模型,确定目标语言的非标准词类别,包括:获取替代词向量构成的目标语言词向量序列;通过源语言的非标准词识别模型,得到词向量序列中包含的非标准词的类别置信度;根据替代权重与类别置信度,确定非标准词的类别。通过借助词向量、双语资源,将源语言的非标准词类型识别模型,迁移到目标语言,用来进行目标语言的非标准词的类型识别,充分利用源语言模型的优势解决了目标语言数据量少的问题。
[0071] 在本公开的一实施例中,根据替代权重与类别置信度,确定非标准词的类别,包括:设替代词向量构成的目标语言词向量序列为S,计算非标准词N的类别是T的概率为:其中,为非标准词N的上下文中的第i个目标词, 为  替换为替代词的替代权重, 
为通过源语言的非标准词识别模型计算的替代词向量序列S属于类别T的置信度;非
标准词的类别为使  值最大的类别T。上述步骤基于源语言模型的识别结果,同时将
替换过程中的目标语言权重值添加至计算过程,充分利用了源语言与目标语言的对应的语义信息进行分类,提升了目标语言中非标准词类别的识别准确率。
[0072] 本公开还提供一种非标准词识别模型的训练方法,其中,非标准词识别模型用于前述任一实施例的跨语言非标准词识别方法10中,训练方法包括:获取源语言语料;对源语言语料进行分词;对分词后的源语言语料进行预处理;对预处理后的源语言语料进行向量化,得到源语言词向量序列;标注源语言语料中的非标准词,得到包含类别信息的标注序列;通过源语言词向量序列与标注序列,训练非标准词识别模型,其中模型是BiLSTM+CRF(Bi-directional Long Short-Term Memory+CRF,双向长短期记忆网络结合条件随机场)模型。同时,其他神经网络模型也可以应用于非标准词的识别中。
[0073] 在获取源语言语料并分词后,对源语言中所包含的非标准词也需进行预处理。其中,预处理的方式与目标语言语料预处理的方式相同,将非标准词中的数字转化为固定格式,保留非标准词中包含的特殊字符,特殊字符包括:数学符号、货币符号和物理符号中的任意一种或多种字符。与目标语言语料预处理的方式保持一致,一方面可以避免出现数据稀疏的问题,另一方面可以保证在对非标准词向量化时与目标语言格式保持一致,提升源语言的非标准词识别模型对目标语言非标准词的识别准确率。
[0074] 例如,标记序列可采用“IOBS”标记,“2013 年 3 月 26 日 的 《 朝 闻 天下 》”的标记为:2013 年 3 月 26 日 的 《 朝闻天下 》
B_Date I_Date I_Date I_Date I_Date I_Date O O O O
单独的非标准词,标记为“S”,如,单独的“√”,标记为“S_Symbol”。
[0075] 其中,模型可采用BiLSTM+CRF模型,该模型主要包括两部分,即BiLSTM层和CRF损失层。BiLSTM层,对于一个输入句子,首先经过embedding层将每个词汇或者字符映射为一个词向量或者字符向量,然后传入BiLSTM层,获得句子的前向和后向向量,接着将前向和后向向量进行拼接作为当前词汇或字符的隐藏状态向量。CRF层,则考虑当前输入的信息,以及前后标签的信息,对输出结果进行约束。
[0076] 将非标准词类型识别,当成序列标注任务。对于输入的词序列   ,预测得到一个标记序列y   。
[0077] 预测的得分为: 其中,  为第i个位置输出为  的发射概率,  为从  到  的转移概率。
[0078] 通过使用源语言非标准词的标注数据,训练非标准词的类型识别模型,可以充分利用源语言训练语料丰富、训练准确率高的优势,便于将其应用至目标语言中。
[0079] 在一实施例中,方法还包括:在获取源语言语料后,建立过滤规则,保留包含非标准词的语句;过滤规则包括,利用源语言的合法字符集合与标点符号集合,过滤源语言语料中仅包含合法字符和标点符号的句子。通过字符过滤仅包含标准词的语句,可以实现对语料的快速筛选,使模型针对非标准词类型的识别更加准确。
[0080] 基于同一个发明构思,图4示出了一种跨语言非标准词识别装置100,如图4所示,跨语言非标准词识别装置包括:语料获取单元110,用于获取目标语言语料;分词单元120,用于对目标语言语料进行分词处理;预处理单元130,用于对分词后的目标语言语料中的非标准词进行预处理;替换单元140,用于确定目标语言语料中目标词在源语言中的替代词向量及替代权重;识别单元
150,用于通过替代词向量及替代权重,使用源语言的非标准词识别模型,确定目标语言的非标准词类别。
[0081] 在一实施例中,预处理单元130还用于:将非标准词中的数字转化为固定格式,保留非标准词中包含的特殊字符,特殊字符包括:数学符号、货币符号和物理符号中的任意一种或多种字符。
[0082] 在一实施例中,目标词为分词后的目标语言语料中完整句子的全部词,或以非标准词为中心上下文窗口长度内的词。
[0083] 在一实施例中,替换单元140还包括:替代词查找单元,基于双语词典确定目标词在源语言中的替代词,并设置替代权重;向量单元,用于将源语言中的替代词向量化得到替代词向量。
[0084] 在一实施例中,替代词查找单元还包括:字典查找单元,用于在双语词典中查找目标词对应的源语言词;判断单元,用于当目标词在双语词典中对应一个或多个源语言词时,将每个源语言词分别作为替代词;当目标词在双语词典中无对应的源语言词时,通过目标语言词向量模型查找候选词,将所述候选词对应的源语言词作为替代词;权重设置单元,用于基于目标词设置替代权重。
[0085] 在一实施例中,权重设置单元还用于:当目标词在双语词典中对应一个或多个源语言词时,设置每个替代词的替代权重为1;当目标词在双语词典中无对应的源语言词时,则基于候选词与目标词的距离确定替代权重。
[0086] 在一实施例中,判断单元还包括:候选词确定单元,用于在目标语言词向量模型中确定目标词的向量,统计目标词与目标语言中其他词的距离并排序;确定在双语词典中存在对应的源语言词且距离目标词最近的词为候选词。
[0087] 在一实施例中,识别单元150还包括:词向量获取单元,用于获取替代词向量构成的目标语言词向量序列;置信度计算单元,用于通过源语言的非标准词识别模型,得到词向量序列中包含的非标准词的类别置信度;类别确定单元,用于根据替代权重与类别置信度,确定非标准词的类别。
[0088] 在一实施例中,类别确定单元还用于:设替代词向量构成的目标语言词向量序列为S,计算非标准词N的类别是T的概率为:其中,  为非标准词N的上下文中的第i个目标词, 为  替换为替代词的替代权重,
为通过源语言的非标准词识别模型计算的替代词向量序列S属于类别T的置信度;非
标准词的类别为使  值最大的类别T。
[0089] 本公开还提供一种非标准词识别模型的训练装置,非标准词识别模型用于前述任一实施例的跨语言非标准词识别方法10中,训练装置包括:语料获取单元,用于获取源语言语料;分词单元,用于对源语言语料进行分词;预处理单元,用于对分词后的所述源语言语料进行预处理;向量化单元,用于对预处理后的源语言语料进行向量化,得到源语言词向量序列;标注单元,用于标注源语言语料中的非标准词,得到包含类别信息的标注序列;训练单元,用于通过源语言词向量序列与标注序列,训练非标准词识别模型,其中模型是BiLSTM+CRF模型。
[0090] 在一实施例中,装置还包括:过滤装置,用于在获取源语言语料后,建立过滤规则,保留包含非标准词的语句;过滤规则包括,利用源语言的合法字符集合与标点符号集合,过滤源语言语料中仅包含合法字符和标点符号的句子。
[0091] 图5是根据一示例性实施例示出的前述任一实施例装置的示意框图。例如,装置200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0092] 参照图5,装置200可以包括以下一个或多个组件:处理组件202,存储器204,电源组件206,多媒体组件208,音频组件210,输入/输出接口212,传感器组件214,以及通信组件216。
[0093] 处理组件202通常控制装置200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件202可以包括一个或多个模,便于处理组件202和其他组件之间的交互。例如,处理组件202可以包括多媒体模块,以方便多媒体组件208和处理组件202之间的交互。
[0094] 存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
[0095] 电源组件206为装置200的各种组件提供电力。电源组件206可以包括电源管理系统,一个或多个电源,及其他与为装置200生成、管理和分配电力相关联的组件。
[0096] 多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件208包括一个前置摄像头和/或后置摄像头。当装置200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0097] 音频组件210被配置为输出和/或输入音频信号。例如,音频组件210包括一个麦克(MIC),当装置200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中,音频组件210还包括一个扬声器,用于输出音频信号。
[0098] 输入/输出接口212为处理组件202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和定按钮。
[0099] 传感器组件214包括一个或多个传感器,用于为装置200提供各个方面的状态评估。例如,传感器组件214可以检测到装置200的打开/关闭状态,组件的相对定位,例如所述组件为装置200的显示器和小键盘,传感器组件214还可以检测装置200或装置200一个组件的位置改变,用户与装置200接触的存在或不存在,装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件214还可以包括加速度传感器,陀螺仪传感器,磁传感器压力传感器或温度传感器。
[0100] 通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。
在一个示例性实施例中,所述通信组件216还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
[0101] 在示例性实施例中,装置200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器微控制器微处理器或其他电子元件实现,用于执行上述方法。
[0102] 在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器204,上述指令可由装置200的处理器220执行以完成上述方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
[0103] 图6是根据一示例性实施例示出的一种电子装置300的框图。例如,装置300可以被提供为一服务器。参照图6,装置300包括处理组件322,其进一步包括一个或多个处理器,以及由存储器342所代表的存储器资源,用于存储可由处理组件322的执行的指令,例如应用程序。存储器342中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件322被配置为执行指令,以执行上述方法。
[0104] 装置300还可以包括一个电源组件326被配置为执行装置300的电源管理,一个有线或无线网络接口350被配置为将装置300连接到网络,和一个输入输出接口358。装置300可以操作基于存储在存储器342的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或类似。
[0105] 本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
[0106] 应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈