首页 / 专利库 / 人工智能 / 候选译文 / 数据处理方法、装置及电子设备

数据处理方法、装置及电子设备

阅读:933发布:2020-05-14

专利汇可以提供数据处理方法、装置及电子设备专利检索,专利查询,专利分析的服务。并且本 发明 实施例 公开了一种 数据处理 方法、装置及终端,其中,该方法可包括:从待翻译的文本内容中获取目标单词,对所述目标单词进行预处理,得到处理后的目标单词,所述处理后的目标单词满足切分成词片的条件。将所述处理后的目标单词切分成至少一个词片,根据所述至少一个词片对所述目标单词进行翻译,得到翻译结果。通过本发明实施例可以提高翻译的准确度。,下面是数据处理方法、装置及电子设备专利的具体信息内容。

1.一种数据处理方法,其特征在于,所述方法包括:
从待翻译的文本内容中获取目标单词;
对所述目标单词进行预处理,得到处理后的目标单词,所述处理后的目标单词满足切分成词片的条件;
将所述处理后的目标单词切分成至少一个词片;
根据所述至少一个词片对所述目标单词进行翻译,得到翻译结果。
2.如权利要求1所述的方法,其特征在于,所述预处理包括格式处理,所述对所述目标单词进行预处理,得到处理后的目标单词,包括:
获取词分片字典,及所述词分片字典中的单词的格式类型,所述词分片字典中包括多个单词;
根据所述词分片字典中的单词的格式类型对所述目标单词进行预处理,得到处理后的目标单词。
3.如权利要求2所述的方法,其特征在于,所述目标单词包括至少一个字母,所述词分片字典中单词的格式类型为小写字母类型;所述根据所述词分片字典中的单词的格式类型对所述目标单词进行预处理,得到处理后的目标单词,包括:
若所述目标单词中的首个字母为大写字母,则在所述目标单词中添加第一标识,并将所述目标单词中的大写字母转换为小写字母,得到所述处理后的目标单词;
若所述目标单词中的字母均为大写字母,则在所述目标单词中添加第二标识,并将所述目标单词中的大写字母转换为小写字母,得到所述处理后的目标单词。
4.如权利要求3所述的方法,其特征在于,所述至少一个词片包括第一词片和第二词片,所述将所述处理后的目标单词切分成至少一个词片,包括:
将所述处理后的目标单词中的目标标识确定为所述第一词片,所述目标标识为所述第一标识或所述第二标识;
对所述处理后的目标单词中除所述目标标识以外的字母进行切分,得到所述第二词片。
5.如权利要求4所述的方法,其特征在于,所述词分片字典中还包括每个单词对应的词片,所述对所述处理后的目标单词中除所述目标标识以外的字母进行切分,得到所述第二词片,包括:
若所述词分片字典中存在与所述处理后的目标单词匹配的单词,则将所匹配的单词对应的词片确定为所述第二词片;
若所述词分片字典中不存在与所述处理后的目标单词匹配的单词,则根据所述目标单词历史被使用的频率确定所述第二词片。
6.如权利要求5所述的方法,其特征在于,所述根据所述目标单词历史被使用的频率确定所述第二词片,包括:
获取所述目标单词历史被使用的频率;
若所述目标单词历史被使用的频率大于第一预设频率,则将所述处理后的目标单词中除所述目标标识以外的字母确定为所述第二词片;
若所述目标单词历史被使用的频率小于或等于所述第一预设频率,则获取所述处理后的目标单词中除所述目标标识以外的每个字母在所述文本内容中出现的频率;根据所述频率对所述处理后的目标单词中除所述目标标识以外的字母进行切分,得到多个第二词片。
7.如权利要求1-6任一项所述的方法,其特征在于,所述预处理包括校正处理,所述对所述目标单词进行预处理,得到处理后的目标单词,包括:
获取所述目标单词对应的目标词组历史被使用的频率,所述目标词组由所述文本内容中的所述目标单词,及与所述目标单词的相邻单词组成;
若所述目标词组历史被使用的频率小于第二预设频率,则获取与所述目标单词相匹配的单词;
采用相匹配的单词对所述目标单词进行校正处理,得到处理后的目标单词。
8.如权利要求1-6任一项所述的方法,其特征在于,所述根据所述至少一个词片对所述目标单词进行翻译,得到翻译结果,包括:
对所述至少一个词片进行编码,得到所述至少一个词片的编码值;
将所述至少一个词片的编码值输入到翻译模型中进行翻译,得到至少一个候选译文
获取所述文本内容中与所述目标单词相邻的单词的翻译结果;
根据所述至少一个候选译文及所述相邻的单词的翻译结果确定所述目标单词的翻译结果。
9.一种数据处理装置,其特征在于,所述装置包括:
获取单元,用于从待翻译的文本内容中获取目标单词;
处理单元,用于对所述目标单词进行预处理,得到处理后的目标单词,所述处理后的目标单词满足切分成词片的条件;
切分单元,用于将所述处理后的目标单词切分成至少一个词片;
翻译单元,用于根据所述至少一个词片对所述目标单词进行翻译,得到翻译结果。
10.一种电子设备,包括输入设备和输出设备,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-8任一项所述的方法。

说明书全文

数据处理方法、装置及电子设备

技术领域

[0001] 本发明涉及计算机技术领域,尤其涉及一种数据处理方法、一种数据处理装置及一种电子设备。

背景技术

[0002] 随着互联网技术的广泛应用,使得经济全球化范围不断扩大,并推动了多个国家之间的交流与协作。较多的行业的从业人员(如外贸工作者、技术研发者)需要与讲不同语言的人进行交流,并需要阅读大量采用他们不熟悉的语言所编写的文档资料,使得人与人之间的交流和沟通存在一定的障碍。基于此,对语言的翻译变得尤为重要,实践中发现,现有的语言翻译方式的准确度比较低,难以达到用户的预期效果。

发明内容

[0003] 本发明实施例所要解决的技术问题在于,提供一种数据处理方法、装置、存储介质及电子设备,可以提高翻译的准确度。
[0004] 一方面,本发明实施例提供一种数据处理方法,该方法包括:
[0005] 从待翻译的文本内容中获取目标单词;
[0006] 对所述目标单词进行预处理,得到处理后的目标单词,所述处理后的目标单词满足切分成词片的条件;
[0007] 将所述处理后的目标单词切分成至少一个词片;
[0008] 根据所述至少一个词片对所述目标单词进行翻译,得到翻译结果。
[0009] 一方面,本发明实施例提供一种数据处理装置,该装置包括:
[0010] 获取单元,用于从待翻译的文本内容中获取目标单词;
[0011] 处理单元,用于对所述目标单词进行预处理,得到处理后的目标单词,所述处理后的目标单词满足切分成词片的条件;
[0012] 切分单元,用于将所述处理后的目标单词切分成至少一个词片;
[0013] 翻译单元,用于根据所述至少一个词片对所述目标单词进行翻译,得到翻译结果。
[0014] 又一方面,本发明实施例提供了一种电子设备,包括输入设备和输出设备,还包括:
[0015] 处理器,适于实现一条或多条指令;以及,
[0016] 计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如下步骤:
[0017] 从待翻译的文本内容中获取目标单词;
[0018] 对所述目标单词进行预处理,得到处理后的目标单词,所述处理后的目标单词满足切分成词片的条件;
[0019] 将所述处理后的目标单词切分成至少一个词片;
[0020] 根据所述至少一个词片对所述目标单词进行翻译,得到翻译结果。
[0021] 又一方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如下步骤:
[0022] 从待翻译的文本内容中获取目标单词;
[0023] 对所述目标单词进行预处理,得到处理后的目标单词,所述处理后的目标单词满足切分成词片的条件;
[0024] 将所述处理后的目标单词切分成至少一个词片;
[0025] 根据所述至少一个词片对所述目标单词进行翻译,得到翻译结果。
[0026] 本发明实施例中,通过对目标单词进行预处理,得到处理后的目标单词,使该处理后的目标单词满足切分成词片的条件。即该处理后的目标单词的字母具有相同的格式类型,这样可以可避免相同单词因格式类型不一致,导致对该目标单词切分方式杂乱的问题,进而导致对目标单词的翻译准确度较低的问题;并且,该处理后的目标单词中不存在错误的字母,可提高对该处理后的目标单词分词的准确度。另外,通过将该处理后的目标单词切分成至少一个词片,即采用更小粒度的词片来描述处理后的目标单词,提高对单词的描述能。进一步,通过采用至少一个词片对该目标单词进行翻译,得到翻译结果,可提高对目标单词的翻译准确度。附图说明
[0027] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0028] 图1是本发明实施例提供的一种数据处理方法的流程示意图;
[0029] 图2是本发明实施例提供的一种数据处理过程的界面示意图;
[0030] 图3是本发明实施例提供的一种数据处理装置的结构示意图;
[0031] 图4是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

[0032] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0033] 请参见图1,图1是本发明实例提供的一种数据处理方法。该数据处理方法可以由电子设备来执行,该电子设备包括但不限于:智能手机、平板电脑、便携式个人计算机、智能手表、手环、智能电视等设备。请参见图1,该数据处理方法包括如下步骤S101~S104。
[0034] S101、从待翻译的文本内容中获取目标单词。
[0035] 待翻译的文本内容可以是指需要翻译的内容,该文本内容可以是对文本文件进行文字识别得到的,如该文本文件可以是指专业技术文档、文学著作等等。或者,该文本内容是对音频文件进行识别得到的,如该音频文件是指演讲者所演讲的内容。或者,该文本内容是指从网页页面中获取得到的,如该网页页面可以包括产品介绍网页页面、社交网页页面。或者,该文本内容可以是指在翻译界面上输入的内容,该翻译界面可以是指网页翻译界面或翻译应用程序的界面。该文本内容可以包括至少一个单词,该目标单词可以是指至少一个单词中的任一单词,该目标单词的语言种类可以是指需要区分大小格式的语种,如英文。
[0036] S102、对该目标单词进行预处理,得到处理后的目标单词,该处理后的目标单词满足切分成词片的条件。
[0037] 为了提高对目标单词翻译的准确度,电子设备可以对该目标单词进行预处理,得到该处理后的目标单词。该预处理包括如下的任一种:格式处理、校正处理、格式和校正处理。格式处理可以是指对该目标单词中的字母的格式类型进行归一化处理,这样可以避免同一个单词因格式不一致,导致对该目标单词切分方式比较杂乱的问题,进而导致对目标单词的翻译准确度较低的问题。校正处理可以是指对目标单词中错误字母进行校正,这样可以提高目标单词的准确度,进一步,提高对目标单词的翻译准确度。即该处理后的目标单词满足切分成词片的条件具体可以包括如下的任一种或多项:该处理后的目标单词中的各个字母具有相同的格式类型、处理后的目标单词中不存在错误的字母。
[0038] S103、将该处理后的目标单词切分成至少一个词片。
[0039] 为了可以更加精细的描述该目标单词,电子设备可以根据词分片字典或目标单词的使用频率将该处理后的目标单词切分成至少一个词片,该词片可以是由该处理后的目标单词中的至少一个字母组成。这样采用更小粒度的词片来描述处理后的目标单词,可提高对单词的描述能力。其中,该词分片字典可以是指用于将单词切分为词片的字典。
[0040] S104、根据该至少一个词片对该目标单词进行翻译,得到翻译结果。
[0041] 电子设备可以将该至少一个词片输入到翻译模型进行翻译,得到该目标单词的翻译结果。该翻译模型可以是指采用大量的样本单词的词片进行优化训练得到的,即通过该翻译模型对小粒度的词片进行翻译,可提高翻译的准确度。或者,可以根据该至少一个词片从翻译字典中搜索该目标单词的翻译结果,通过词片可实现更更精细化的搜索,进而,提高对目标单词翻译的准确度,可以提高翻译的准确度。可选的,根据该至少一个词片对该目标单词进行翻译,得到至少一个候选译文,若得到的候选译文的数量为1,则将该候选译文作为该目标单词的翻译结果;若得到的候选译文的数量为多个,则可以根据文本内容中与目标单词相邻的单词的翻译结果确定该目标单词的翻译结果,即结合上下文及该目标单词的候选译文确定该目标单词的翻译结果。
[0042] 本发明实施例中,通过对目标单词进行预处理,得到处理后的目标单词,使该处理后的目标单词满足切分成词片的条件。即该处理后的目标单词的字母具有相同的格式类型,这样可以可避免相同单词因格式类型不一致,导致对该目标单词切分方式杂乱的问题,进而导致对目标单词的翻译准确度较低的问题;并且,该处理后的目标单词中不存在错误的字母,可提高对该处理后的目标单词分词的准确度。另外,通过将该处理后的目标单词切分成至少一个词片,即采用更小粒度的词片来描述处理后的目标单词,提高对单词的描述能力。进一步,通过采用至少一个词片对该目标单词进行翻译,得到翻译结果,可提高对目标单词的翻译准确度。
[0043] 在一个实施例中,该预处理包括格式处理,步骤S102包括如下步骤s11和s12。
[0044] s11、获取词分片字典,及该词分片字典中的单词的格式类型,该词分片字典中包括多个单词。
[0045] s12、根据该词分片字典中的单词的格式类型对该目标单词进行预处理,得到处理后的目标单词。
[0046] 在步骤s11和s12中,词分片字典中记录了多个单词,及每个单词对应的词片,即通过该词分片字典可以查询单词对应的词片。在该词分片字典的大小固定的情况下,为了可以记录更多单词,词分片字典中的单词的格式类型均相同。例如,对于单词persistently和Persistently,这两个单词实质是指采用不同格式类型描述的同一个单词,若直接这两个单词直接记录在词分片字典中,则需要占用两个单词的内存空间;若这两个单词的格式进行归一化处理,则得到单词persistently或PERSISTENTLY,只需要将persistently或PERSISTENTLY记录到该词分片字典中,即只需要占用一个单词的内存空间。因此,词分片字典中的所有单词的格式均被归一化处理,即该词分片字典中的所有单词的格式类型均相同,格式类型可以是指大写字母类型或小写字母类型。为了从词分片字典中获取处理后的目标单词的词片,电子设备可以获取该词分片字典,及该词分片字典的中的单词的格式类型,即若该词分片字典中的单词的格式类型为小写字母类型,则根据小写字母类型对该目标单词进行预处理,得到处理后的目标单词;若该词分片字典中的单词的格式类型为大写字母类型,则根据大写字母类型对该目标单词进行预处理,得到处理后的目标单词。
[0047] 在一个实施例中,该目标单词包括至少一个字母,该词分片字典中单词的格式类型为小写字母类型;步骤s12可以包括如下步骤s21~s22。
[0048] s21、若该目标单词中的首个字母为大写字母,则在该目标单词中添加第一标识,并将该目标单词中的大写字母转换为小写字母,得到该处理后的目标单词。
[0049] s22、若该目标单词中的字母均为大写字母,则在该目标单词中添加第二标识,并将该目标单词中的大写字母转换为小写字母,得到该处理后的目标单词。
[0050] 在步骤s21~s22中,若该目标单词的首个字母为大写字母,表明该目标单词的格式类型与词分片字典中的单词的格式类型不同,这样无法从词分片字典中获取该处理后的目标单词的词片。因此,可以在该目标单词中添加第一标识,并将该目标单词中的大写字母转换为小写字母,得到该处理后的目标单词。若该目标单词中的字母均为大写字母,表明该目标单词的格式类型与词分片字典中的单词的格式类型不同,这样无法从词分片字典中获取该处理后的目标单词的词片。因此,可以在该目标单词中添加第二标识,并将该目标单词中的大写字母转换为小写字母,得到该处理后的目标单词。若该目标单词的各个字母的格式类型均为小写字母类型,则不需要对该目标单词进行格式处理。需要说明的是,对于同一个单词,若其格式类型不同可能翻译结果不相同,例如,单词China的翻译结果为中国,单词china的翻译结果为瓷制品。因此,这里在目标单词中添加第一标识或第二标识的目的在于:指示目标单词的格式类型,这样可以提高对目标单词翻译的准确度。
[0051] 其中,该第一标识用于指示该目标单词中的首个字母为大写字母,首个字母可以该目标单词从左边数的第一个单词,第二标识用于指示该目标单词中的字母均为大写字母。第一标识、第二标识可以是由字母、数字、符号中的至少一种组成,第一标识与第二标识不同。第一标识与第二标识在目标单词中的添加位置可以相同或不相同。
[0052] 在一个实施例中,该至少一个词片包括第一词片和第二词片,步骤S103包括如下步骤s31和s32。
[0053] s31、将该处理后的目标单词中的目标标识确定为该第一词片,该目标标识为该第一标识或该第二标识。
[0054] s32、对该处理后的目标单词中除该目标标识以外的字母进行切分,得到该第二词片。
[0055] 在步骤s31和s32中,该目标单词中的首个字母为大写字母与该目标单词中的字母均为大写字母的两种情况下,对应的处理后目标单词的区别仅仅在于:第一标识与第二标识不相同。因此,为了采用更少的词片描述处理后的目标单词,电子设备可以将该处理后的目标单词中的目标标识确定为该第一词片,该目标标识为该第一标识或该第二标识,可以对该处理后的目标单词中除该目标标识以外的字母进行切分,得到该第二词片。也就是说,该目标单词中的首个字母为大写字母与该目标单词中的字母均为大写字母的两种情况下,目标单词可以共享第二词片,以便可以采用更少的词片描述更多的单词,降低对单词进行切分的复杂度。并且可以避免同一个单词因格式类型不同导致的词片切分方式杂乱的问题。
[0056] 在一个实施例中,该词分片字典中还包括每个单词对应的词片,步骤s32包括如下步骤s41和s42。
[0057] s41、若该词分片字典中存在与该处理后的目标单词匹配的单词,则将所匹配的单词对应的词片确定为该第二词片。
[0058] s42、若该词分片字典中不存在与该处理后的目标单词匹配的单词,则根据该目标单词历史被使用的频率确定该第二词片。
[0059] 在步骤s41和s4,若该词分片字典中存在与该处理后的目标单词匹配的单词,则将所匹配的单词对应的词片确定为该第二词片,这里所谓的匹配是指该词分片字典中存在单词与第一子单词相同,第一子单词是指该处理后的目标单词中除目标标识以外字母组成的单词。若该词分片字典中不存在与该处理后的目标单词匹配的单词,表明该词分片字典中不存在与第一子单词相同的单词,电子设备可以根据该目标单词历史被使用的频率确定该第二词片。
[0060] 在一个实施例中,步骤s42包括如下步骤s51~s53。
[0061] s51、获取该目标单词历史被使用的频率。
[0062] s52、若该目标单词历史被使用的频率大于第一预设频率,则将该处理后的目标单词中除该目标标识以外的字母确定为该第二词片。
[0063] s53、若该目标单词历史被使用的频率小于或等于该第一预设频率,则获取该处理后的目标单词中除该目标标识以外的每个字母在该文本内容中出现的频率;根据该频率对该处理后的目标单词中除该目标标识以外的字母进行切分,得到多个第二词片。
[0064] 在步骤s51~s53中,电子设备可以从多个文本内容中统计该目标单词历史被使用的频率(即该目标单词在多个文本内容中出现的频率),若该目标单词历史被使用的频率大于第一预设频率,表明该目标单词为一个常用单词,通过翻译模型能够比较容易翻译得到该目标单词对应的译文。因此,可以将该处理后的目标单词中除该目标标识以外的字母确定为该第二词片,即将第一子单词作为第二词片。若该目标单词历史被使用的频率小于或等于该第一预设频率,表明该目标单词为不常用单词,通过翻译模型难以翻译得到该目标单词对应的译文,因此,需要对该处理后的目标单词进行更精细的切分,即获取该处理后的目标单词中除该目标标识以外的每个字母在该文本内容中出现的频率;根据该频率对该处理后的目标单词中除该目标标识以外的字母进行切分,得到多个第二词片。
[0065] 在另一个实施例中,该预处理包括校正处理,步骤S102包括如下步骤s61~s63。
[0066] s61、获取该目标单词对应的目标词组历史被使用的频率,该目标词组由该文本内容中的该目标单词,及与该目标单词的相邻单词组成。
[0067] s62、若该目标词组历史被使用的频率小于第二预设频率,则获取与该目标单词相匹配的单词。
[0068] s63、采用相匹配的单词对该目标单词进行校正处理,得到处理后的目标单词。
[0069] 在步骤s61~s63中,为了防止误操作导致目标单词出现错误,电子设备可以对目标单词进行校正处理。具体的,电子设备可以从多个文本内容中统计该目标单词对应的目标词组历史被使用的频率,若该目标词组历史被使用的频率小于第二预设频率,表明该目标单词出现错误的概率比较大,因此,可以获取与该目标单词匹配的单词。此处的匹配可以是指目标单词与相匹配的单词之间的相似度大于预设阈值,或者距离大于预设距离阈值。进一步,可以采用相匹配的单词对该目标单词进行校正处理,即采用相匹配的单词替换该目标单词,得到处理后的目标单词。可选的,若与目标单词相匹配的单词的数量为1,则直接采用相匹配的单词替换该目标单词;若与该目标单词相匹配的单词的数量为多个,则采用与目标单词的相似度最大的单词替换该目标单词。例如,目标单词为bgi,该目标单词对应的目标词组为bgi orders。若获取到目标词组历史被使用的频率为0,则获取与目标单词的相匹配的单词,如相匹配的单词为big,则采用big替换bgi。
[0070] 在有一个实施例中,步骤S102包括如下步骤s71~s74。
[0071] s71、对该至少一个词片进行编码,得到该至少一个词片的编码值。
[0072] s72、将该至少一个词片的编码值输入到翻译模型中进行翻译,得到至少一个候选译文。
[0073] s73、获取该文本内容中与该目标单词相邻的单词的翻译结果。
[0074] s74、根据该至少一个候选译文及该相邻的单词的翻译结果确定该目标单词的翻译结果。
[0075] 在步骤s71~s74中,电子设备可以通过翻译模型翻译得到该目标单词的翻译结果,此处该翻译模型可以是指神经网络机器翻译模型(Neural Machine Translation,NMT),该神经网络机器翻译模型可以由至少一个神经网络模型组成。例如,该神经网络机器翻译模型可以由两个神经网络模型组成,一个神经网络模型用于对处理后的目标单词的词片进行编码,另一个神经网络模型用于将词片的编码值进行翻译,得到目标单词的翻译结果。具体的,电子设备可以对该至少一个词片进行编码,得到该至少一个词片的编码值,该编码值可以由数字、字母、符号等中的至少一种组成,如该编码值可以是指该至少一个词片对应的id,该id可以是数字。可以将该至少一个词片的编码值输入到翻译模型中进行翻译,得到至少一个候选译文,可以获取该文本内容中与该目标单词相邻的单词的翻译结果,根据该至少一个候选译文及该相邻的单词的翻译结果确定该目标单词的翻译结果。即根据该至少一个候选译文中每个译文与该相邻的单词的翻译结果之间的关联度,将关联度最大的候选译文作为该目标单词的翻译结果。能够实现根据文本内容的上下文对目标单词进行翻译,提高翻译的准确度及流畅度。
[0076] 下面以翻译应用程序为例,对本方案的数据处理方法进行解释说明。电子设备中安装了翻译应用程序,该翻译应用程序可以用于对任一种语言的单词、词组、句子进行翻译,下面以该翻译应用程序对英文单词翻译为中文为例进行说明。如图2所示,该数据处理方法包括如下步骤1-3。
[0077] 1、获取目标单词。当用户具有翻译需求时,可以对该翻译应用程序执行触控操作,电子设备检测到作用于该翻译应用程序的触控操作,启动该翻译应用程序,展示该翻译应用程序的界面。该界面上可以包括文本内容输入框21,该文本内容输入框21允许用户进行文本内容的编辑操作,并用于接收用户编辑生成的文本内容。当用户在内容输入框21中输入文本内容之后,电子设备可以从该文本内容中获取目标单词。
[0078] 2、对目标单词进行格式处理和切分处理。电子设备可以获取词片字典中单词的格式类型,若词分片字典中单词的格式类型为小写字母类型,则可以根据小写字母类型对该目标单词进行预处理。具体的,若该目标单词为Persistently,电子设备可以将该目标单词中的大写字母转换为小写字母,并在该目标单词中添加第一标识,第一标识可以为_u,处理后的目标单词为_u和persistently。电子设备可以将第一标识作为第一词片,将该处理后的目标单词中除第一标识以外的字母进行切分得到第二词片,即_upersistently对应的词片为:_u+_pers+ist+ently。其中,_u+_pers+ist+ently中符号“+”用于区分词片,无实在意义。_u+_pers+ist+ently中包括四个词片,分别为_u、_pers、ist和ently。同理,若该目标单词为PERSISTENTLY,电子设备可以将该目标单词中的大写字母转换为小写字母,并在该目标单词中添加第二标识,第二标识可以为_U,处理后的目标单词为_U和persistently。电子设备可以将第二标识作为第一词片,将该处理后的目标单词中除第二标识以外的字母进行切分得到第二词片,即_Upersistently对应的词片为:_U+_pers+ist+ently。同理,若该目标单词为persistently,此时该目标单词的字母的格式类型均为小写字母类型,则可以不对该目标单词进行格式处理,可以直接将该目标单词进行切分,该目标单词对应的词片为_pers+ist+ently。以上单词Persistently、PERSISTENTLY和persistently实质是由不同格式类型描述的同一个单词,对比这三个单词对应的分词可知,这三个单词对应的分词均包括_pers、ist、ently,即这三个单词共享了词片_pers、ist、ently。即通过对目标单词进行预处理,可实现采用更少的词片来描述更多的单词,提高对单词的描述能力。如图2所示,获取到词片后,电子设备可以将该目标单词对应的词片22展示在翻译应用程序的界面上。
[0079] 3、对目标单词进行翻译。对该至少一个词片进行编码,得到编码值,如将每一个词片映射为一个数字,如将词片_u、_pers、ist、ently映射为1256。将编码值输入到翻译模型中进行翻译得到至少一个候选译文,并在翻译应用程序的界面上输出候选译文23,如目标单词为Persistently,该目标单词的候选译文为:一次又一次地、一直、坚持不懈地、锲而不舍地、不屈不挠地。电子设备可以获取文本内容中与该目标单词相邻的单词的翻译结果,根据相邻单词的翻译结果及候选译文确定该目标单词的翻译结果,并输出翻译结果24,如翻译结果为:坚持不懈地。当然,这些候选译文允许用户对其执行选择操作,电子设备可以将用户所选择的候选译文作为该目标单词的翻译结果。
[0080] 本发明实施例提供一种数据处理装置,该数据处理装置可设置于电子设备中,请参见图3,该装置包括:
[0081] 获取单元301,用于从待翻译的文本内容中获取目标单词。
[0082] 处理单元302,用于对所述目标单词进行预处理,得到处理后的目标单词,所述处理后的目标单词满足切分成词片的条件。
[0083] 切分单元303,用于将所述处理后的目标单词切分成至少一个词片。
[0084] 翻译单元304,用于根据所述至少一个词片对所述目标单词进行翻译,得到翻译结果。
[0085] 可选的,处理单元302,具体用于获取词分片字典,及所述词分片字典中的单词的格式类型,所述词分片字典中包括多个单词;根据所述词分片字典中的单词的格式类型对所述目标单词进行预处理,得到处理后的目标单词。
[0086] 可选的,所述目标单词包括至少一个字母,所述词分片字典中单词的格式类型为小写字母类型;处理单元302,具体用于若所述目标单词中的首个字母为大写字母,则在所述目标单词中添加第一标识,并将所述目标单词中的大写字母转换为小写字母,得到所述处理后的目标单词;若所述目标单词中的字母均为大写字母,则在所述目标单词中添加第二标识,并将所述目标单词中的大写字母转换为小写字母,得到所述处理后的目标单词。
[0087] 可选的,所述至少一个词片包括第一词片和第二词片,切分单元303,具体用于将所述处理后的目标单词中的目标标识确定为所述第一词片,所述目标标识为所述第一标识或所述第二标识;对所述处理后的目标单词中除所述目标标识以外的字母进行切分,得到所述第二词片。
[0088] 可选的,所述词分片字典中还包括每个单词对应的词片,切分单元303,具体用于若所述词分片字典中存在与所述处理后的目标单词匹配的单词,则将所匹配的单词对应的词片确定为所述第二词片;若所述词分片字典中不存在与所述处理后的目标单词匹配的单词,则根据所述目标单词历史被使用的频率确定所述第二词片。
[0089] 可选的,切分单元303,具体用于获取所述目标单词历史被使用的频率;
[0090] 若所述目标单词历史被使用的频率大于第一预设频率,则将所述处理后的目标单词中除所述目标标识以外的字母确定为所述第二词片;若所述目标单词历史被使用的频率小于或等于所述第一预设频率,则获取所述处理后的目标单词中除所述目标标识以外的每个字母在所述文本内容中出现的频率;根据所述频率对所述处理后的目标单词中除所述目标标识以外的字母进行切分,得到多个第二词片。
[0091] 可选的,处理单元302,具体用于获取所述目标单词对应的目标词组历史被使用的频率,所述目标词组由所述文本内容中的所述目标单词,及与所述目标单词的相邻单词组成;若所述目标词组历史被使用的频率小于第二预设频率,则获取与所述目标单词相匹配的单词;采用相匹配的单词对所述目标单词进行校正处理,得到处理后的目标单词。
[0092] 可选的,翻译单元304,具体用于对所述至少一个词片进行编码,得到所述至少一个词片的编码值;将所述至少一个词片的编码值输入到翻译模型中进行翻译,得到至少一个候选译文;获取所述文本内容中与所述目标单词相邻的单词的翻译结果;根据所述至少一个候选译文及所述相邻的单词的翻译结果确定所述目标单词的翻译结果。
[0093] 本发明实施例中,通过对目标单词进行预处理,得到处理后的目标单词,使该处理后的目标单词满足切分成词片的条件。即该处理后的目标单词的字母具有相同的格式类型,这样可以可避免相同单词因格式类型不一致,导致对该目标单词切分方式杂乱的问题,进而导致对目标单词的翻译准确度较低的问题;并且,该处理后的目标单词中不存在错误的字母,可提高对该处理后的目标单词分词的准确度。另外,通过将该处理后的目标单词切分成至少一个词片,即采用更小粒度的词片来描述处理后的目标单词,提高对单词的描述能力。进一步,通过采用至少一个词片对该目标单词进行翻译,得到翻译结果,可提高对目标单词的翻译准确度。
[0094] 本发明实施例提供一种电子设备,请参见图4。该电子设备包括:处理器151、用户接口152、网络接口154以及存储装置155,处理器151、用户接口152、网络接口154以及存储装置155之间通过总线153连接。
[0095] 用户接口152,用于实现人机交互,用户接口可以包括显示屏或键盘等等。网络接口154,用于与外部设备之间进行通信连接。存储装置155与处理器151耦合,用于存储各种软件程序和/或多组指令。具体实现中,存储装置155可包括高速随机存取的存储器,并且也可包括非易失性存储器,例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备。存储装置155可以存储操作系统(下述简称系统),例如ANDROID,IOS,WINDOWS,或者LINUX等嵌入式操作系统。存储装置155还可以存储网络通信程序,该网络通信程序可用于与一个或多个附加设备,一个或多个应用服务器,一个或多个网络设备进行通信。存储装置155还可以存储用户接口程序,该用户接口程序可以通过图形化的操作界面将应用程序的内容形象逼真的显示出来,并通过菜单、对话框以及按键等输入控件接收用户对应用程序的控制操作。存储装置155还可以存储视频数据等。
[0096] 在一个实施例中,所述存储装置155可用于存储一条或多条的指令;所述处理器151可以调用所述一条或多条的指令时能够实现数据处理方法,具体地,所述处理器151调用所述一条或多条的指令,执行如下步骤:
[0097] 从待翻译的文本内容中获取目标单词;
[0098] 对所述目标单词进行预处理,得到处理后的目标单词,所述处理后的目标单词满足切分成词片的条件;
[0099] 将所述处理后的目标单词切分成至少一个词片;
[0100] 根据所述至少一个词片对所述目标单词进行翻译,得到翻译结果。
[0101] 可选的,所述处理器151调用所述一条或多条的指令,执行如下步骤:
[0102] 获取词分片字典,及所述词分片字典中的单词的格式类型,所述词分片字典中包括多个单词;
[0103] 根据所述词分片字典中的单词的格式类型对所述目标单词进行预处理,得到处理后的目标单词。
[0104] 可选的,所述处理器151调用所述一条或多条的指令,执行如下步骤:
[0105] 若所述目标单词中的首个字母为大写字母,则在所述目标单词中添加第一标识,并将所述目标单词中的大写字母转换为小写字母,得到所述处理后的目标单词;
[0106] 若所述目标单词中的字母均为大写字母,则在所述目标单词中添加第二标识,并将所述目标单词中的大写字母转换为小写字母,得到所述处理后的目标单词。
[0107] 可选的,所述处理器151调用所述一条或多条的指令,执行如下步骤:
[0108] 将所述处理后的目标单词中的目标标识确定为所述第一词片,所述目标标识为所述第一标识或所述第二标识;
[0109] 对所述处理后的目标单词中除所述目标标识以外的字母进行切分,得到所述第二词片。
[0110] 可选的,所述处理器151调用所述一条或多条的指令,执行如下步骤:
[0111] 若所述词分片字典中存在与所述处理后的目标单词匹配的单词,则将所匹配的单词对应的词片确定为所述第二词片;
[0112] 若所述词分片字典中不存在与所述处理后的目标单词匹配的单词,则根据所述目标单词历史被使用的频率确定所述第二词片。
[0113] 可选的,所述处理器151调用所述一条或多条的指令,执行如下步骤:
[0114] 获取所述目标单词历史被使用的频率;
[0115] 若所述目标单词历史被使用的频率大于第一预设频率,则将所述处理后的目标单词中除所述目标标识以外的字母确定为所述第二词片;
[0116] 若所述目标单词历史被使用的频率小于或等于所述第一预设频率,则获取所述处理后的目标单词中除所述目标标识以外的每个字母在所述文本内容中出现的频率;根据所述频率对所述处理后的目标单词中除所述目标标识以外的字母进行切分,得到多个第二词片。
[0117] 可选的,所述处理器151调用所述一条或多条的指令,执行如下步骤:
[0118] 获取所述目标单词对应的目标词组历史被使用的频率,所述目标词组由所述文本内容中的所述目标单词,及与所述目标单词的相邻单词组成;
[0119] 若所述目标词组历史被使用的频率小于第二预设频率,则获取与所述目标单词相匹配的单词;
[0120] 采用相匹配的单词对所述目标单词进行校正处理,得到处理后的目标单词。
[0121] 可选的,所述处理器151调用所述一条或多条的指令,执行如下步骤:
[0122] 对所述至少一个词片进行编码,得到所述至少一个词片的编码值;
[0123] 将所述至少一个词片的编码值输入到翻译模型中进行翻译,得到至少一个候选译文;
[0124] 获取所述文本内容中与所述目标单词相邻的单词的翻译结果;
[0125] 根据所述至少一个候选译文及所述相邻的单词的翻译结果确定所述目标单词的翻译结果。
[0126] 本发明实施例中,通过对目标单词进行预处理,得到处理后的目标单词,使该处理后的目标单词满足切分成词片的条件。即该处理后的目标单词的字母具有相同的格式类型,这样可以可避免相同单词因格式类型不一致,导致对该目标单词切分方式杂乱的问题,进而导致对目标单词的翻译准确度较低的问题;并且,该处理后的目标单词中不存在错误的字母,可提高对该处理后的目标单词分词的准确度。另外,通过将该处理后的目标单词切分成至少一个词片,即采用更小粒度的词片来描述处理后的目标单词,提高对单词的描述能力。进一步,通过采用至少一个词片对该目标单词进行翻译,得到翻译结果,可提高对目标单词的翻译准确度。
[0127] 本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序解决问题的实施方式以及有益效果可以参见上述图1所述的一种数据处理方法的实施方式以及有益效果,重复之处不再赘述。
[0128] 以上所揭露的仅为本发明部分实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈