一种翻译方法及系统

阅读:859发布:2020-05-11

专利汇可以提供一种翻译方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 实施例 提供一种翻译方法及系统,用于 数据集市 ,其中方法包括:获取逻辑模型中实体中文名称;将获取的实体中文名称自动翻译为实体英文名称,将所述实体英文名称视为物理模型中表英文名称;获取逻辑模型中属性中文名称,将获取的属性中文名称自动翻译为属性英文名称,将所述属性英文名称视为物理模型中字段英文名称。,下面是一种翻译方法及系统专利的具体信息内容。

1.一种翻译方法,用于数据集市,其特征在于,包括:
获取逻辑模型中实体中文名称;将获取的实体中文名称自动翻译为实体英文名称,将所述实体英文名称视为物理模型中表英文名称;
获取逻辑模型中属性中文名称;将获取的属性中文名称自动翻译为属性英文名称,将所述属性英文名称视为物理模型中字段英文名称;
其中,所述将所述实体英文名称视为物理模型中表英文名称包括:判断所得的实体英文名称是否与物理模型中已存在的所有表英文名称均不同,如果是,得到物理模型中的表英文名称,如果不是,将所得的实体英文名称的最后一位字母替换为一个预定的整数n,0≤n≤9;判断该将最后一位字母替换为n的实体英文名称是否与物理模型中已存在的所有表英文名称均不同,若不是,则将该将最后一位字母替换为n的实体英文名称的最后一位字母替换为n+1,直至物理模型中已存在的所有表英文名称均与该替换了最后一位字母的实体英文名称不同,得到物理模型中的表英文名称;
所述将所述属性英文名称视为物理模型中字段英文名称包括:判断所得的属性英文名称是否与物理模型中已存在的所有字段英文名称均不同,若不是,将所得的属性英文名称的最后一位字母替换为一个预定的整数n,0≤n≤9;判断物理模型中已存在的所有字段英文名称是否均与该将最后一位字母替换为n的属性英文名称不同,若不是,则将该将最后一位字母替换为n的属性英文名称的最后一位字母替换为n+1,直至物理模型中已存在的所有字段英文名称均与该替换了最后一位字母的属性英文名称不同,得到物理模型中的字段英文名称。
2.根据权利要求1所述的方法,其特征在于,
所述将获取的实体中文名称自动翻译为实体英文名称包括:将获取的实体中文名称进行拆分,得实体词根;根据词根表将所有实体词根翻译为对应的实体英文简称;将所有实体英文简称按预定顺序通过预定方法进行拼接,并自动加上代表所述实体英文名称所在主题的英文前缀,得到实体中文名称对应的实体英文名称;
所述将获取的属性中文名称自动翻译为属性英文名称包括:将获取的属性中文名称进行拆分,得属性词根;根据词根表将所有属性词根翻译为对应的属性英文简称;将所有属性英文简称按预定顺序通过预定方法进行拼接,得到属性中文名称对应的属性英文名称。
3.根据权利要求2所述的方法,其特征在于,
所述将获取的实体中文名称进行拆分,包括:判断获取的实体中文名称是否在词根表中;若不在,则去掉该实体中文名称中最后一个汉字,获取该去掉最后端一个汉字的实体中文名称;若在,则将该实体中文名称作为一个实体词根,并将该实体词根从该实体中文名称中去除,获取该去除了所述实体词根的实体中文名称;
所述将获取的属性中文名称进行拆分,包括:判断获取的属性中文名称是否在词根表中;若不在,则去掉该属性中文名称中最后一个汉字,获取该去掉最后端一个汉字的属性中文名称;若在,则将该属性中文名称作为一个属性词根,并将该属性词根从该实体中文名称中去除,获取该去除了所述属性词根的属性中文名称。
4.根据权利要求3所述的方法,其特征在于,
所述去掉该实体中文名称中最后一个汉字后还包括:判断是否所有汉字都已经去除,若是,则找出该实体中文名称对应的原始实体中文名称中未被拆分为实体词根的汉字,在词根表中添加所有未被拆分为实体词根的汉字的英文翻译及简称;
所述去掉该属性中文名称中最后一个汉字后还包括:判断是否所有汉字都已经去除,若是,则找出该属性中文名称对应的原始属性中文名称中未被拆分为属性词根的汉字,在词根表中添加所有未被拆分为属性词根的汉字的英文翻译及简称。
5.根据权利要求3所述的方法,其特征在于,
所述获取该去除了所述实体词根的实体中文名称后还包括:判断获取的去除了所述实体词根的实体中文名称中是否包含汉字,若不包含,则说明获取的实体中文名称已拆分完成,根据词根表将所有实体词根翻译为对应的实体英文简称;
所述获取该去除了所述属性词根的属性中文名称后还包括:判断获取的去除了所述属性词根的实体中文名称中是否包含汉字,若不包含,则说明获取的属性中文名称已拆分完成,根据词根表将所有实体词根翻译为对应的实体英文简称。
6.根据权利要求2所述的方法,其特征在于,
所述得到实体中文名称对应的实体英文名称后还包括:判断所得的实体英文名称的字节数是否超过预定的字节数,若超过,则去掉该实体英文名称最后端超出的字节;
所述得到属性中文名称对应的属性英文名称后还包括:判断所得的属性英文名称的字节数是否超过预定的字节数,若超过,则去掉该属性英文名称最后端超出的字节。
7.一种翻译系统,用于数据集市,其特征在于,包括:第一翻译模和第二翻译模块;其中,
所述第一翻译模块,用于将逻辑模型中实体中文名称翻译为物理模型中表英文名称;
所述第二翻译模块,用于将逻辑模型中属性中文名称翻译为物理模型中字段英文名称;
所述第一翻译模块包括:第一获取单元和第一翻译单元,其中,所述第一获取单元用于获取逻辑模型中实体中文名称;所述第一翻译单元用于将获取的实体中文名称自动翻译为实体英文名称,将所述实体英文名称视为物理模型中表英文名称;
所述第二翻译模块包括:第二获取单元和第二翻译单元,其中,所述第二获取单元用于获取逻辑模型中属性中文名称;所述第二翻译单元用于将获取的属性中文名称自动翻译为属性英文名称,将所述属性英文名称视为物理模型中字段英文名称;
其中,所述第一翻译单元还包括:第一视为子单元,用于判断所得的实体英文名称是否与物理模型中已存在的所有表英文名称均不同,如果是,得到物理模型中的表英文名称,如果不是,将所得的实体英文名称的最后一位字母替换为一个预定的整数n,0≤n≤9;判断该将最后一位字母替换为n的实体英文名称是否与物理模型中已存在的所有表英文名称均不同,若不是,则将该将最后一位字母替换为n的实体英文名称的最后一位字母替换为n+1,直至物理模型中已存在的所有表英文名称均与该替换了最后一位字母的实体英文名称不同,得到物理模型中的表英文名称;
所述第二翻译单元还包括:第二视为子单元,用于判断所得的属性英文名称是否与物理模型中已存在的所有字段英文名称均不同,若不是,将所得的属性英文名称的最后一位字母替换为一个预定的整数n,0≤n≤9;判断物理模型中已存在的所有字段英文名称是否均与该将最后一位字母替换为n的属性英文名称不同,若不是,则将该将最后一位字母替换为n的属性英文名称的最后一位字母替换为n+1,直至物理模型中已存在的所有字段英文名称均与该替换了最后一位字母的属性英文名称不同,得到物理模型中的字段英文名称。
8.根据权利要求7所述的翻译系统,其特征在于,
所述第一翻译单元包括:第一拆分子单元、第一翻译子单元和第一拼接子单元,其中,所述第一拆分子单元用于将获取的实体中文名称进行拆分,得实体词根;所述第一翻译子单元用于根据词根表将所有实体词根翻译为对应的实体英文简称;所述第一拼接子单元用于将所有实体英文简称按预定顺序通过预定方法进行拼接,并自动加上代表所述实体英文名称所在主题的英文前缀,得到实体中文名称对应的实体英文名称;
所述第二翻译单元包括:第二拆分子单元、第二翻译子单元和第二拼接子单元,其中,所述第二拆分子单元用于将获取的属性中文名称进行拆分,得属性词根;所述第二翻译子单元用于根据词根表将所有属性词根翻译为对应的属性英文简称;所述第二拼接子单元用于将所有属性英文简称按预定顺序通过预定方法进行拼接,得到属性中文名称对应的属性英文名称。
9.根据权利要求8所述的翻译系统,其特征在于,
所述第一翻译单元还包括:第一判断子单元,用于判断所得的实体英文名称的字节数是否超过预定的字节数,若超过,则去掉该实体英文名称最后端超出的字节;
所述第二翻译单元还包括:第二判断子单元,用于判断所得的属性英文名称的字节数是否超过预定的字节数,若超过,则去掉该属性英文名称最后端超出的字节。

说明书全文

一种翻译方法及系统

技术领域

[0001] 本发明涉及翻译技术领域,特别是涉及一种翻译方法及系统,应用于数据集市

背景技术

[0002] 数据集市(Data Mart),也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。从范围上来说,数据是从企业范围的数据库数据仓库,或者是更加专业的数据仓库中抽取出来的。数据集市的重点就在于它迎合了专业用户群体的特殊需求,在分析、内容、表现,以及易用方面。数据中心的用户希望数据是由他们熟悉的术语表现的。
[0003] 目前,在数据集市开发过程中,将逻辑模型中的实体与属性的中文名称翻译为物理模型中表与字段的英文名称的方法有汉语拼音全字母翻译、单词拼音首字母翻译、无含义字段翻译和英文词组翻译四种;汉语拼音全字母翻译,根据逻辑模型的实体和属性中文名称采用汉字的全拼音来手动定义相应的表和字段英文名称;单词拼音首字母翻译,根据逻辑模型的实体和属性中文名称用手动的方式首先把汉字进行分词处理,然后针对每个词,翻译成全拼音,采用每个词的拼音的首字母作为字段和表名的英文名称;无含义字段翻译,手动采用无任何特殊含义的英文字母、数字以及特殊字符组合的方式,依次翻译逻辑模型中的实体和属性中文名称;英文词组翻译,根据逻辑模型的实体和属性中文名称,首先用人工的方式把汉字进行分词处理,然后针对每个词,翻译成全英文单词,然后使用字符进行连接。
[0004] 由于数据集市项目一般规模比较大,在以上四种翻译方法中,均需要大量的设计人员实现物理模型的生成,如果每个设计人员都是手动生成物理模型的话,那么,相同的属性在不同的实体内时,很可能就翻译为不同的字段英文名,而在数据集市系统逻辑模型设计中,同名的属性,不管它在哪个实体中,代表的都是相同的业务含义,所以原则上由逻辑模型生成物理模型的过程中,同名的属性应该翻译为相同的字段名,所以利用现有技术完成逻辑模型实体与属性中文名称翻译为对应的表与字段英文名称,会导致物理模型命名的规范性及质量无法保证。同时,手动生成物理模型的过程中,要保证物理模型比较明确的反映逻辑模型的含义,需要设计人员认真分析哪个英文名称能够比较准确的翻译出中文名称的含义,且不同的设计人员面临相同的属性时,都会考虑相同的问题,会有很多重复性劳动,物理模型生成效率较低。

发明内容

[0005] 有鉴于此,本发明实施例提供一种翻译方法及系统,以解决现有技术中使用人工手动生成物理模型而造成物理模型命名的规范性及质量无法保证且物理模型生成效率较低的问题。
[0006] 为实现上述目的,本发明实施例提供如下技术方案:
[0007] 一种翻译方法,用于数据集市,包括:
[0008] 获取逻辑模型中实体中文名称;将获取的实体中文名称自动翻译为实体英文名称,将所述实体英文名称视为物理模型中表英文名称;
[0009] 获取逻辑模型中属性中文名称;将获取的属性中文名称自动翻译为属性英文名称,将所述属性英文名称视为物理模型中字段英文名称。
[0010] 其中,将所述实体英文名称视为物理模型中表英文名称包括:
[0011] 判断所得的实体英文名称是否与物理模型中已存在的所有表英文名称均不同,如果是,得到物理模型中的表英文名称;如果不是,将所得的实体英文名称的最后一位字母替换为一个预定的正整数n,0≤n≤9;判断该将最后一位字母替换为n的实体英文名称是否与物理模型中已存在的所有表英文名称均不同,若不是,则将该将最后一位字母替换为n的实体英文名称的最后一位字母替换为n+1,直至物理模型中已存在的所有表英文名称均与该替换了最后一位字母的实体英文名称不同,得到物理模型中的表英文名称;
[0012] 所述将所述属性英文名称视为物理模型中字段英文名称包括:
[0013] 判断所得的属性英文名称是否与物理模型中已存在的所有字段英文名称均不同,若不是,将所得的属性英文名称的最后一位字母替换为一个预定的正整数n,0≤n≤9;判断物理模型中已存在的所有字段英文名称是否均与该将最后一位字母替换为n的属性英文名称不同,若不是,则将该将最后一位字母替换为n的属性英文名称的最后一位字母替换为n+1,直至物理模型中已存在的所有字段英文名称均与该替换了最后一位字母的属性英文名称不同,得到物理模型中的字段英文名称。
[0014] 其中,所述将获取的实体中文名称自动翻译为实体英文名称包括:
[0015] 将获取的实体中文名称进行拆分,得实体词根;根据词根表将所有实体词根翻译为对应的实体英文简称;将所有实体英文简称按预定顺序通过预定方法进行拼接,并自动加上代表所述实体英文名称所在主题的英文前缀,得到实体中文名称对应的实体英文名称;
[0016] 所述将获取的属性中文名称自动翻译为属性英文名称包括:
[0017] 将获取的属性中文名称进行拆分,得属性词根;根据词根表将所有属性词根翻译为对应的属性英文简称;将所有属性英文简称按预定顺序通过预定方法进行拼接,得到属性中文名称对应的属性英文名称。
[0018] 其中,所述将获取的实体中文名称进行拆分,包括:
[0019] 判断获取的实体中文名称是否在词根表中;若不在,则去掉该实体中文名称中最后一个汉字,获取该去掉最后端一个汉字的实体中文名称;若在,则将该实体中文名称作为一个实体词根,并将该实体词根从该实体中文名称中去除,获取该去除了所述实体词根的实体中文名称;
[0020] 所述将获取的属性中文名称进行拆分,包括:
[0021] 判断获取的属性中文名称是否在词根表中;若不在,则去掉该属性中文名称中最后一个汉字,获取该去掉最后端一个汉字的属性中文名称;若在,则将该属性中文名称作为一个属性词根,并将该属性词根从该实体中文名称中去除,获取该去除了所述属性词根的属性中文名称。
[0022] 其中,所述去掉该实体中文名称中最后一个汉字后还包括:
[0023] 判断是否所有汉字都已经去除,若是,则找出该实体中文名称对应的原始实体中文名称中未被拆分为实体词根的汉字,在词根表中添加所有未被拆分为实体词根的汉字的英文翻译及简称;
[0024] 所述去掉该属性中文名称中最后一个汉字后还包括:
[0025] 判断是否所有汉字都已经去除,若是,则找出该属性中文名称对应的原始属性中文名称中未被拆分为属性词根的汉字,在词根表中添加所有未被拆分为属性词根的汉字的英文翻译及简称。
[0026] 其中,所述获取该去除了所述实体词根的实体中文名称后还包括:
[0027] 判断获取的去除了所述实体词根的实体中文名称中是否包含汉字,若不包含,则说明获取的实体中文名称已拆分完成,根据词根表将所有实体词根翻译为对应的实体英文简称;
[0028] 所述获取该去除了所述属性词根的属性中文名称后还包括:
[0029] 判断获取的去除了所述属性词根的实体中文名称中是否包含汉字,若不包含,则说明获取的属性中文名称已拆分完成,根据词根表将所有实体词根翻译为对应的实体英文简称。
[0030] 其中,所述得到实体中文名称对应的实体英文名称后还包括:
[0031] 判断所得的实体英文名称的字节数是否超过预定的字节数,若超过,则去掉该实体英文名称最后端超出的字节;
[0032] 所述得到属性中文名称对应的属性英文名称后还包括:
[0033] 判断所得的属性英文名称的字节数是否超过预定的字节数,若超过,则去掉该属性英文名称最后端超出的字节。
[0034] 本发明实施例还提供一种翻译系统,用于数据集市,包括:第一翻译模和第二翻译模块;其中,
[0035] 所述第一翻译模块,用于将逻辑模型中实体中文名称翻译为物理模型中表英文名称;
[0036] 所述第二翻译模块,用于将逻辑模型中属性中文名称翻译为物理模型中字段英文名称;
[0037] 其中,所述第一翻译模块包括:第一获取单元和第一翻译单元,其中,所述第一获取单元用于获取逻辑模型中实体中文名称;所述第一翻译单元用于将获取的实体中文名称自动翻译为实体英文名称,将所述实体英文名称视为物理模型中表英文名称;
[0038] 其中,所述第二翻译模块包括:第二获取单元和第二翻译单元,其中,所述第二获取单元用于获取逻辑模型中属性中文名称;所述第二翻译单元用于将获取的属性中文名称自动翻译为属性英文名称,将所述属性英文名称视为物理模型中字段英文名称。
[0039] 其中,所述第一翻译单元包括:第一拆分子单元、第一翻译子单元和第一拼接子单元,其中,
[0040] 所述第一拆分子单元,用于将获取的实体中文名称进行拆分,得实体词根;
[0041] 所述第一翻译子单元,用于根据词根表将所有实体词根翻译为对应的实体英文简称;
[0042] 所述第一拼接子单元,用于将所有实体英文简称按预定顺序通过预定方法进行拼接,并自动加上代表所述实体英文名称所在主题的英文前缀,得到实体中文名称对应的实体英文名称;
[0043] 其中,所述第二翻译单元包括:第二拆分子单元、第二翻译子单元和第二拼接子单元,其中,
[0044] 所述第二拆分子单元,用于将获取的属性中文名称进行拆分,得属性词根;
[0045] 所述第二翻译子单元,用于根据词根表将所有属性词根翻译为对应的属性英文简称;
[0046] 所述第二拼接子单元,用于将所有属性英文简称按预定顺序通过预定方法进行拼接,得到属性中文名称对应的属性英文名称。
[0047] 其中,所述第一翻译单元还包括:第一判断子单元,
[0048] 所述第一判断子单元,用于判断所得的实体英文名称的字节数是否超过预定的字节数,若超过,则去掉该实体英文名称最后端超出的字节;
[0049] 第一视为子单元,用于判断所得的实体英文名称是否与物理模型中已存在的所有表英文名称均不同,如果是,得到物理模型中的表英文名称,如果不是,将所得的实体英文名称的最后一位字母替换为一个预定的整数n,0≤n≤9;判断该将最后一位字母替换为n的实体英文名称是否与物理模型中已存在的所有表英文名称均不同,若不是,则将该将最后一位字母替换为n的实体英文名称的最后一位字母替换为n+1,直至物理模型中已存在的所有表英文名称均与该替换了最后一位字母的实体英文名称不同,得到物理模型中的表英文名称;
[0050] 其中,所述第二翻译单元还包括:第二判断子单元,
[0051] 所述第二判断子单元,用于判断所得的属性英文名称的字节数是否超过预定的字节数,若超过,则去掉该属性英文名称最后端超出的字节;
[0052] 第二视为子单元,用于判断所得的属性英文名称是否与物理模型中已存在的所有字段英文名称均不同,若不是,将所得的属性英文名称的最后一位字母替换为一个预定的整数n,0≤n≤9;判断物理模型中已存在的所有字段英文名称是否均与该将最后一位字母替换为n的属性英文名称不同,若不是,则将该将最后一位字母替换为n的属性英文名称的最后一位字母替换为n+1,直至物理模型中已存在的所有字段英文名称均与该替换了最后一位字母的属性英文名称不同,得到物理模型中的字段英文名称。
[0053] 基于上述技术方案,本发明实施例提供的用于数据集市的翻译方法及系统,将获取的实体中文名称自动翻译为实体英文名称,将所述实体英文名称视为物理模型中表英文名称;将获取的属性中文名称自动翻译为属性英文名称,将所述属性英文名称视为物理模型中字段英文名称。本发明实施例提供的翻译方法及系统,采用全自动的方式生成物理模型,相同中文名称的属性能够翻译为相同的字段英文名称,在由逻辑模型生成物理模型过程中,保证了属性中文名称到字段英文名称的一致性,从而保证了物理模型命名的规范性;整个数据集市项目组只需要一个或者一组专业的人员来进行词根翻译,保证词根翻译的准确合理性,从而提高了物理模型命名的质量;完全采用自动化方式将中文名称进行翻译,与以前手动生成方式相比,大大减少了物理模型生成的工作量,提高了物理模型的生成速度,缩短了逻辑模型到物理模型的生成过程,进而提高整个数据集市项目设计开发效率。
附图说明
[0054] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0055] 图1为本发明实施例提供的翻译方法的流程图
[0056] 图2为本发明实施例提供的翻译方法中处理自动翻译得到的实体英文名称的方法流程图;
[0057] 图3为本发明实施例提供的翻译方法中处理自动翻译得到的属性英文名称的方法流程图;
[0058] 图4为本发明实施例提供的翻译方法中将获取的实体中文名称自动翻译为实体英文名称的方法流程图;
[0059] 图5为本发明实施例提供的翻译方法中将获取的属性中文名称自动翻译为属性英文名称的方法流程图;
[0060] 图6为本发明实施例提供的翻译方法中将获取的实体中文名称进行拆分的方法流程图;
[0061] 图7为本发明实施例提供的翻译方法中将获取的属性中文名称进行拆分的方法流程图;
[0062] 图8为本发明实施例提供的翻译方法中扩充词根表的方法流程图;
[0063] 图9为本发明实施例提供的翻译方法中判断获取的实体中文名称是否拆分完成的方法流程图;
[0064] 图10为本发明实施例提供的翻译方法中判断获取的属性中文名称是否已经拆分完成的方法流程图;
[0065] 图11为本发明实施例提供的翻译方法中处理实体英文名称的方法流程图;
[0066] 图12为本发明实施例提供的翻译方法中处理属性英文名称的方法流程图;
[0067] 图13为本发明实施例提供的翻译系统的系统框图
[0068] 图14为本发明实施例提供的翻译系统中第一翻译模块的结构框图;
[0069] 图15为本发明实施例提供的翻译系统中第二翻译模块的结构框图;
[0070] 图16为本发明实施例提供的翻译系统中第一翻译单元的结构框图;
[0071] 图17为本发明实施例提供的翻译系统中第二翻译单元的结构框图;
[0072] 图18为本发明实施例提供的翻译系统中第一翻译单元的另一结构框图;
[0073] 图19为本发明实施例提供的翻译系统中第二翻译单元的另一结构框图。

具体实施方式

[0074] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0075] 图1为本发明实施例提供的翻译方法的流程图,用于数据集市,采用全自动的方式生成物理模型,保证了物理模型命名的规范性,提高了物理模型命名的质量,且缩短了逻辑模型到物理模型的生成过程,进而提高整个数据集市项目设计开发效率,参照图1,该方法可以包括:
[0076] 步骤S100:获取逻辑模型中实体中文名称;
[0077] 逻辑模型中包括所有的实体和关系,并确定每个实体的属性,定义每个实体的主键,指定每个实体的外键,明确属性是否为代码等。
[0078] 例如,如表1所示,财会数据集市中的“组织单元”实体的逻辑模型:
[0079] 财会数据集市中的“组织单元”实体的逻辑模型
[0080]
[0081] 表1
[0082] 可以看出,财会数据集市中的“组织单元”实体的逻辑模型其中,实体名称为“组织单元”,获取该逻辑模型中实体中文名称即获取汉字“组织单元”。
[0083] 步骤S110:将获取的实体中文名称自动翻译为实体英文名称,将所述实体英文名称视为物理模型中表英文名称;
[0084] 可选的,可以通过将获取的实体中文名称拆分为一个个存在于词根表中的实体词根后,再根据词根表将所有实体词根进行翻译,得到每个实体词根对应的实体英文简称,再将得到的各个实体词根对应的实体英文简称按照预定的顺序通过预定的方法进行拼接,并在其前自动加上代表所述实体英文名称所在主题的英文前缀,从而得到获取的实体中文名称所对应的实体英文名称。
[0085] 可选的,可以根据最长匹配原则从左往右对获取的实体中文名称拆分为一个个存在于词根表中实体词根,最长匹配原则,即找到获取的实体中文名称中存于词根表中拥有最多汉字数的实体词根,例如,有如表2所示的词根表:
[0086] 词根表
[0087]
[0088] 表2
[0089] 当获取的实体中文名称为“经济资本计量结果”时,词根表中既有词根“经济”和词根“资本”,还有词根“经济资本”,采用最长匹配原则从左往右对获取的实体中文名称进行拆分,则应该将“经济资本”、“计量”和“结果”作为拆分出的实体词根。
[0090] 由于一般的数据库设计中的英文名称长度,即英文名称所拥有的字节数均有一定的限制,使用最长匹配原则对获取的实体中文名称进行拆分,使用最长匹配原则拆分获取的实体词根进行翻译,之后将翻译得到的实体英文简称进行拼接,得到实体英文名称的方法,可以最大限度地减少所得的实体英文名称的长度,即最大限度地减少所得的实体英文名称所拥有的字节数,
[0091] 如实体中文名称“经济资本”,若将“经济资本”拆分为实体词根“经济”和实体词根“资本”,若采用下划线的方法来连接各个实体英文简称,则最后获得的实体英文名称为“ECO_CAP”,得到的实体英文名称为7个字节;而若将“经济资本”本身作为实体词根“经济资本”,则最后获得的实体英文名称为“ECAP”,得到的实体英文名称为4个字节,在很大程度上缩短了获取的实体英文名称的长度,降低了获得的实体英文名称长度超长的几率。
[0092] 同时,由于一些组合中文名称当前组合在一起时具有自己独特的含义,该独特的含义并非是其被拆分后各个词根含义的简单组合,因此,使用最大匹配原则将获取的实体中文名称进行拆分,可以很好地确保这些组合词的完整含义,如实体中文名称“经济资本”,“经济资本”这一组合词其本身具有自己的独有含义,而该含义并非是词汇“经济”的含义与词汇“资本”的含义的简单组合。
[0093] 可选的,可以将得到的所有实体英文简称按照其对应的实体词根的排列顺序来进行拼接,例如,当得到“经济资本”、“计量”和“结果”三个实体词根时,翻译得到的对应的实体英文简称分别为“ECAP”、“MESR”和“RST”,而根据实体词根中的将实体词根“经济资本”排列在最左端第一位,实体词根“计量”排列在最左端第二位,实体词根“结果”排列在最右端第一位的排列顺序来排列实现英文简称,则应该将实体英文简称“ECAP”排列在最左端第一位,实体英文简称“MESR”排列在最左端第二位,实体英文简称“RST”排列在最右端第一位。
[0094] 可选的,可以使用下划线符号将得到的所有实体英文简称进行拼接,如获得的实体英文简称从左到右分别为“ECAP”、“MESR”和“RST”,则最后得到的实体英文名称为“ECAP_MESR_RST”。
[0095] 若获取的实体中文名称未能被拆分成功,即获取的实体中文名称中存在不存在于词根表中的字或词,说明词根表中存在词根缺失的问题。
[0096] 可选的,当获取的实体中文名称中存在不存在于词根表中的字或词时,即当获取的实体中文名称中存在在词根表中无法找到相同中文词的字或词时。可以通过找出该未能成功拆分的实体中文名称中不存在于词根表中的字或词,在词根标准添加该词根对应的中文词、英文翻译和英文简称。
[0097] 可选的,由于得到的实体英文名称可能已经超过预定长度,因此在翻译得到实体英文名称后,可以判断所得的实体英文名称是否超长,即判断所得的实体英文名称所拥有的字节数是否超过预订的字节数,若超过,则将该超长的实体英文名称中最后超出的字节去除,将最后保留下来的英文字节作为翻译得到的实体英文名称;若未超过,那么此翻译得到的实体英文名称便为最后得到的实体英文名称。
[0098] 如,若设置实体英文名称可以拥有的最长字节数为12,若获取的实体中文名称为“经济资本计量结果”,该实体中文名称翻译得到的实体英文名称为“ECAP_MESR_RST”,该实体英文名称拥有13个字节,超过12个字节,那么,便将获得的使用英文名称中的第13位字节去除,保留去前12位字节,最后得到的实体英文名称为“ECAP_MESR_RS”;若获取的实体中文名称为“计量结果”,该实体中文名称翻译得到的实体英文名称为“MESR_RST”,该实体英文名称拥有8个字节,未超过12个字节,那么,最后获得的实体英文名称便为“MESR_RST”。
[0099] 由于数据集市有主题之分,不同的主题下的逻辑模型中可能会存在相同实体中文名称,相同的实体中文名将会被拆分为相同的实体词根,然后相同的实体词根被翻译为相同的英文简称,将这些相同的英文简称按照预定的顺序按照预定的方法相拼接后,得到的拼接实体英文名称也将相同,若直接将该拼接实体英文名称作为物理模型中的表英文名称,将导致物理模型中存在相同名称的表英文名称,这为在物理模型设计中是所不被允许的,因此,为了在物理模型层面区分不同主题下相同中文名称的实体,在得到拼接实体英文名称后,自动给该拼接实体英文名称加上代表其所在主题的英文前缀。
[0100] 例如,“组织单元附属信息”表在“组织单元”主题下,实体中文名称“组织单元附属信息”在拆分、翻译和拼接后得到的拼接实体英文名称为“OGU_ATCH_INFO”,可代表主题“组织单元”的前缀为“B_OU_”,将拼接实体英文名称“OGU_ATCH_INFO”自动加上前缀“B_OU_”得到实体英文名称为“B_OU_OGU_ATCH_INFO”。
[0101] 可选的,加上代表主题的前缀后所得的实体英文名称可能还是在物理模型中存在与其相同的表英文名称,将此实体英文名称作为表英文名称也将不被允许,因此,可以在得到实体英文名称后判定该实体英文名称是否与物理模型中已存在的所有表英文名称均不相同,若均不相同,则将该实体英文名称作为物理模型中的表英文名称;若不是均不相同,则将该实体英文名称的最后一位字母替换为一个预定的整数n,如1。
[0102] 其中,需要说明的是,英文名称中的一个字母只占用一个字节,一个数字也占用一个字节,当用一个预定的整数n替换所得的实体英文名称的最后一位字母时,由于只替换了所得实体英文名称中的一个字节,因此,该预订的整数n也应该只占用一个字节,即,该个预订的整数n应该为一个个位数,即该预订的整数n的范围为0至9,即0≤n≤9。
[0103] 可选的,对于将最后一位字母替换为n的实体英文名称,仍然可能在物理模型中已经存在与其名称相同的表英文名称,因此,在得到将最后一位字母替换为n的实体英文名称后还需要判定该将最后一位字母替换为n的实体英文名称是否与物理模型中已存在的所有表英文名称均不同,若是,则将该最后一位字母替换为n的实体英文名称作为物理模型中的表英文名称;若不是,则将该将最后一位字母替换为n的实体英文名称的最后一位字母替换为n+1,直至物理模型中已存在的所有表英文名称均与该替换了最后一位字母的实体英文名称不同,得到物理模型中的表英文名称。
[0104] 可选的,当n的取值为9,而将最后一位字母替换为n的实体英文名称在物理模型中存在与其名称相同的表英文名称,需要将该将最后一位字母替换为n的实体英文名称的最后一位字母替换为n+1时,此时的n+1在数学上的值为10,而数字10具有两个字节,因此,可以设定,当n的取值为9时,n+1的值为1。
[0105] 数据集市的设计包括:概念模型设计、逻辑模型设计和在逻辑模型的基础上生成物理模型三步,其中,概念数据模型的目标是统一业务概念,作为业务人员和技术人员之间沟通的桥梁,确定不同实体之间的最高层次的关系;逻辑模型则根据各个上游业务系统的数据结构,按照分主题的原则,在各个主题下设计出多个实体,实体内含有多个属性,并且指定实体的主外键、存储策略等;在逻辑模型的基础上生成物理模型,主要工作就是将逻辑模型中的实体中文名称翻译成数据库设计所用到的表英文名称,同时,将逻辑模型中的属性中文名称翻译成数据库设计所用到的字段英文名称,并确定字段的数据类型、是否主键、是否分区等物理化关键要素。
[0106] 可以看出,在逻辑模型的基础上生成物理模型这一过程中,主要包括两个部分,一部分是将逻辑模型中的实体中文名称翻译成数据库设计所用到的表英文名称,另一部分是将逻辑模型中的属性中文名称翻译成数据库设计所用到的字段英文名称。步骤S100到步骤S110为其中将逻辑模型中的实体中文名称翻译成数据库设计所用到的表英文名称的具体实施步骤。
[0107] 步骤S120:获取逻辑模型中属性中文名称;
[0108] 例如,如表1所示,财会数据集市中的“组织单元”实体的逻辑模型中,实体“组织单元”中包含的5个属性的属性中文名称分别为:“组织单元编号”、“源组织单元编号”、“中文名称”、“组织单元类型代码”和“机构层级”,获取该逻辑模型中的属性中文名称即为获取汉字“组织单元编号”、“源组织单元编号”、“中文名称”、“组织单元类型代码”和“机构层级”,可选的,可以每次获取时只获取其中一个属性中文名称,当将该属性中文名称翻译完成后字获取下一个属性中文名称。
[0109] 步骤S130:将获取的属性中文名称自动翻译为属性英文名称,将所述属性英文名称视为物理模型中字段英文名称。
[0110] 可选的,可以通过将获取的属性中文名称拆分为一个个存在于词根表中的属性词根后,再根据词根表将所有属性词根进行翻译,得到每个属性词根对应的属性英文简称,再将得到的各个属性词根对应的属性英文简称按照预定的顺序通过预定的方法进行拼接,从而得到获取的属性中文名称所对应的属性英文名称。
[0111] 可选的,可以根据最长匹配原则从左往右对获取的属性中文名称拆分为一个个存在于词根表中属性词根,使可以最大限度地减少所得的属性英文名称的长度,即最大限度地减少所得的属性英文名称所拥有的字节数,以使获得的属性英文名称的字节数不超过预订的字节数;同时,使不破坏组合词其特有的含义。
[0112] 可选的,可以将得到的所有属性英文简称按照其对应的实体词根的排列顺序来进行拼接,以便于看到属性英文简称后可以迅速找到其对应的属性中文名称,提高可读性。可选的,还可以使用下划线符号或空格符号将得到的所有属性英文简称进行拼接,进一步提高可读性。
[0113] 当获取的属性中文名称未能被拆分成功,即获取的属性中文名称中存在不存在于词根表中的字或词,此时,说明词根表中存在词根缺失的问题。
[0114] 可选的,当获取的属性中文名称中存在不存在于词根表中的字或词时,即当获取的属性中文名称中存在在词根表中无法找到相同中文词的字或词时。可以通过找出该未能成功拆分的属性中文名称中不存在于词根表中的字或词,在词根标准添加该词根对应的中词词、英文翻译和英文简称。
[0115] 可选的,由于得到的属性英文名称可能已经超过预定长度,因此在翻译得到属性英文名称后,可以判断所得的属性英文名称是否超长,即判断所得的属性英文名称所拥有的字节数是否超过预订的字节数,若超过,则将该超长的属性英文名称中最后超出的字节去除,将最后保留下来的英文字节作为翻译得到的属性英文名称;若未超过,那么此翻译得到的属性英文名称便为最后得到的属性英文名称。
[0116] 可选的,由于得到的属性英文名称可能还是在物理模型中存在与其相同的字段英文名称,若将该属性英文名称作为字段英文名称也将不被允许,因此,可以在得到属性英文名称后判定该属性英文名称是否与物理模型中已存在的所有字段英文名称均不相同,若均不相同,则将该属性英文名称作为物理模型中的字段英文名称;若不是均不相同,则将该属性英文名称的最后一位字母替换为一个预定的正整数n,如1。
[0117] 可选的,对于将最后一位字母替换为n的属性英文名称,仍然可能在物理模型中已经存在与其名称相同的字段英文名称,因此,在得到将最后一位字母替换为n的属性英文名称后还需要判定该将最后一位字母替换为n的属性英文名称是否与物理模型中已存在的所有字段英文名称均不同,若是,则将该最后一位字母替换为n的属性英文名称作为物理模型中的字段英文名称;若不是,则将该将最后一位字母替换为n的属性英文名称的最后一位字母替换为n+1,直至物理模型中已存在的所有字段英文名称均与该替换了最后一位字母的属性英文名称不同,得到物理模型中的字段英文名称。
[0118] 基于上述技术方案,本发明实施例提供的用于数据集市的翻译方法及系统,将获取的实体中文名称自动翻译为实体英文名称,将所述实体英文名称视为物理模型中表英文名称;将获取的属性中文名称自动翻译为属性英文名称,将所述属性英文名称视为物理模型中字段英文名称。本发明实施例提供的翻译方法及系统,采用全自动的方式生成物理模型,相同中文名称的属性能够翻译为相同的字段英文名称,在由逻辑模型生成物理模型过程中,保证了属性中文名称到字段英文名称的一致性,从而保证了物理模型命名的规范性;整个数据集市项目组只需要一个或者一组专业的人员来进行词根翻译,保证词根翻译的准确合理性,从而提高了物理模型命名的质量;完全采用自动化方式将中文名称进行翻译,与以前手动生成方式相比,大大减少了物理模型生成的工作量,提高了物理模型的生成速度,缩短了逻辑模型到物理模型的生成过程,进而提高整个数据集市项目设计开发效率。
[0119] 可选的,图2示出了本发明实施例提供的翻译方法中处理自动翻译得到的实体英文名称的方法流程图,参照图2,处理自动翻译得到的实体中文名称的方法可以包括:
[0120] 步骤S200:判断得到的实体英文名称是否与物理模型中已存在的所有表英文名称均不同,若是,则进入步骤S230,若不是,则进入步骤S210;
[0121] 得到的实体英文名称可能在物理模型中存在与其相同的表英文名称,若将所得的在物理模型中存在与其相同的表英文名称的实体英文名称作为表英文名称,将不会被允许,因此,需要在得到实体英文名称后对其进行判定是否与物理模型中已存在的所有表英文名称均不相同的处理。
[0122] 若得到的实体英文名称与物理模型中已存在的所有表英文名称均不同,则说明在物理模型中没有与得到的实体英文名称相同的表英文名称,可以将该实体英文名称作为物理模型中的表英文名称。
[0123] 步骤S210:将所得的实体英文名称的最后一位字母替换为一个预定的整数n;
[0124] 其中,n的取值范围为0至9,即0≤n≤9。
[0125] 其中,当所得的实体英文名称中的字符按照从左往右排列,则所述最后一位字母是指最右端的一位字母,当所述的实体英文名称中的字符按照从上往下排列,则所述最后一位字母是指最下端的一位字母。
[0126] 可选的,可以设置该正整数n为1,即若获得一个实体英文名称“B_0U_OGU”,而物理模型中已经存在一个名为“B_0U_OGU”的表英文名称,那么,则将该得到的实体英文名称改为“B_0U_OG1”。
[0127] 步骤S220:判断该将最后一位字母替换为n的实体英文名称是否与物理模型中已存在的所有表英文名称均不同,若是,则进入步骤S230,若不是,则进入步骤S240;
[0128] 对于将最后一位字母替换为n的实体英文名称,仍然可能在物理模型中已经存在与其名称相同的表英文名称,因此,在得到将最后一位字母替换为n的实体英文名称后还需要判定该将最后一位字母替换为n的实体英文名称是否与物理模型中已存在的所有表英文名称均不同。
[0129] 步骤S230:得到物理模型中的表英文名称;
[0130] 步骤S240:将n赋值为n+1,即n=n+1;
[0131] 可选的,若之前将n的值设置为1,那么将n赋值为n+1后,得到的n的值将变为2。
[0132] 可选的,设当n的取值为9时,得到的n+1的值为1。
[0133] 步骤S250:将所得的实体英文名称的最后一位字母替换为n,进入步骤S220。
[0134] 若一直存在于替换了最后一位字母相同的实体英文名称,则一直将n的值进行替换,直至物理模型中已存在的所有表英文名称均与该替换了最后一位字母的实体英文名称不同,得到物理模型中的表英文名称。
[0135] 可选的,图3示出了本发明实施例提供的翻译方法中处理自动翻译得到的属性英文名称的方法流程图,参照图3,处理自动翻译的道德属性中文名称的方法可以包括:
[0136] 步骤S300:判断得到的属性英文名称是否与物理模型中已存在的所有字段英文名称均不同;若是,则进入步骤S330,若不是,则进入步骤S310
[0137] 所得的属性英文名称可能在物理模型中存在与其相同的字段英文名称,若将所得的属性英文名称作为字段英文名称也将不被允许,因此,需要在得到属性英文名称后对其进行判定是否与物理模型中已存在的所有字段英文名称均不相同的处理。
[0138] 若得到的属性英文名称与物理模型中已存在的所有字段英文名称均不同,则说明在物理模型中没有与得到的属性英文名称相同的字段英文名称,可以将该属性英文名称作为物理模型中的字段英文名称。
[0139] 步骤S310:将所得的属性英文名称的最后一位字母替换为一个预定的整数n;
[0140] 其中,n的取值范围为0至9,即0≤n≤9。其中,当属性英文名称中的字符按照从左往右排列,则所述最后一位字母是指最右端的一位字母,当属性英文名称中的字符按照从上往下排列,则所述最后一位字母是指最下端的一位字母。
[0141] 步骤S320:判断该将最后一位字母替换为n的属性英文名称是否与物理模型中已存在的所有字段英文名称均不同,若是,则进入步骤S330,若不是,则进入步骤S340;
[0142] 对于将最后一位字母替换为n的属性英文名称,仍然可能在物理模型中已经存在与其名称相同的字段英文名称,因此,在得到将最后一位字母替换为n的属性英文名称后还需要判定该将最后一位字母替换为n的属性英文名称是否与物理模型中已存在的所有字段英文名称均不同。
[0143] 步骤S330:得到物理模型中的字段英文名称;
[0144] 步骤S340:将该将n赋值为n+1,即n=n+1;
[0145] 可选的,若之前将n的值设置为1,那么将n赋值为n+1后,得到的n的值将变为2。
[0146] 可选的,设当n的取值为9时,得到的n+1的值为1。
[0147] 步骤S350:将所得的属性英文名称的最后一位字母替换为n,,进入步骤S320。
[0148] 若一直存在于替换了最后一位字母相同的属性英文名称,则一直将n的值进行替换,直至物理模型中已存在的所有字段英文名称均与该替换了最后一位字母的属性英文名称不同,得到物理模型中的字段英文名称。
[0149] 可选的,图4示出了本发明实施例提供的翻译方法中将获取的实体中文名称自动翻译为实体英文名称的方法流程图,参照图4,将获取的实体中文名称自动翻译为实体英文名称的方法可以包括:
[0150] 步骤S400:将获取的实体中文名称进行拆分,得实体词根;
[0151] 可选的,可以根据最长匹配原则从左往右对获取的实体中文名称拆分为一个个存在于词根表中实体词根。
[0152] 步骤S410:根据词根表将所有实体词根翻译为对应的实体英文简称;
[0153] 词根表中具有中文词、英文翻译和英文简称三项,可选的,可以根据得到的实体词根,找到词根表中与该实体词根相同的中文词,然后再通过找到的中文词找到与该中文词对应的英文简称,该英文简称即为所需得到的实体英文简称。
[0154] 步骤S420:将所有实体英文简称按预定顺序通过预定方法进行拼接,并自动加上代表所述实体英文名称所在主题的英文前缀,得到实体中文名称对应的实体英文名称。
[0155] 可选的,可以将得到的所有实体英文简称按照其对应的实体词根的排列顺序来进行拼接。
[0156] 可选的,可以使用下划线符号将得到的所有实体英文简称进行拼接。
[0157] 可选的,图5示出了本发明实施例提供的翻译方法中将获取的属性中文名称自动翻译为属性英文名称的方法流程图,参照图5,将获取的属性中文名称自动翻译为属性英文名称的方法可以包括:
[0158] 步骤S500:将获取的属性中文名称进行拆分,得属性词根;
[0159] 可选的,可以根据最长匹配原则从左往右对获取的属性中文名称拆分为一个个存在于词根表中实体词根。
[0160] 步骤S510:根据词根表将所有属性词根翻译为对应的属性英文简称;
[0161] 词根表中具有中文词、英文翻译和英文简称三项,可选的,可以根据得到的属性词根,找到词根表中与该属性词根相同的中文词,然后再通过找到的中文词找到与该中文词对应的英文简称,该英文简称即为所需得到的属性英文简称。
[0162] 步骤S520:将所有属性英文简称按预定顺序通过预定方法进行拼接,得到属性中文名称对应的属性英文名称。
[0163] 可选的,可以将得到的所有属性英文简称按照其对应的属性词根的排列顺序来进行拼接。
[0164] 可选的,可以使用下划线符号将得到的所有属性英文简称进行拼接。
[0165] 可选的,图6示出了本发明实施例提供的翻译方法中将获取的实体中文名称进行拆分的方法流程图,参照图6,将获取的实体中文名称进行拆分的方法可以包括:
[0166] 步骤S600:判断获取的实体中文名称是否在词根表中;
[0167] 步骤S610:若不在,则去除该实体中文名称中最后端一个汉字,获取该去掉最后端一个汉字的实体中文名称;
[0168] 步骤S620:若在,则将该实体中文名称作为一个实体词根,并将该实体词根从该实体中文名称中去除,获取该去除了所述实体词根的实体中文名称。
[0169] 其中,步骤S600到步骤S620中获取的实体中文名称为左右方向排列,步骤S600到步骤S620为使用最长匹配原则从左往右对获取的实体中文名称进行拆分的方法。其中步骤S620中的最后端指的是最右端。若使用最长匹配原则从右往左对获取的实体中文名称进行拆分,则步骤S620中的最后端指的是最左端。
[0170] 相应的,使用最长匹配原则从左往右对获取的属性中文名称进行拆分的方法与使用最长匹配原则从左往右对获取的属性中文名称进行拆分的方法相对应。
[0171] 可选的,图7示出了本发明实施例提供的翻译方法中将获取的属性中文名称进行拆分的方法流程图,参照图7,将获取的属性中文名称进行拆分的方法可以包括:
[0172] 步骤S700:判断获取的属性中文名称是否在词根表中;
[0173] 步骤S710:若不在,则去除该属性中文名称中最后端一个汉字,获取该去掉最后端一个汉字的属性中文名称;
[0174] 步骤S720:若在,则将该属性中文名称作为一个属性词根,并将该属性词根从该属性中文名称中去除,获取该去除了所述属性词根的属性中文名称。
[0175] 其中,步骤S700到步骤S720中获取的属性中文名称页为左右方向排列,步骤S700到步骤S720为使用最长匹配原则从左往右对获取的属性中文名称进行拆分的方法。其中步骤S720中的最后端指的是最右端。若使用最长匹配原则从右往左对获取的属性中文名称进行拆分,则步骤S720中的最后端指的是最左端其中。
[0176] 其中,在去除实体中文名称中最后端一个汉字后,或去掉实体中文名称中最后一个汉字后,获取的实体中文名称中已经没有汉字,即,去除了最后端的一个汉字为获取的实体中文名称中的最后一个汉字,则说明存在词根表中不存在的新词,需要在词根表中添加词根,即对词根表进行扩充。
[0177] 可选的,图8示出了本发明实施例提供的翻译方法中扩充词根表的方法流程图,参照图8,添加词根表的方法可以包括:
[0178] 步骤S800:确定去掉最后端一个汉字的实体中文名称;
[0179] 步骤S810:判断该实体中文名称中是否所有汉字都已经去除;
[0180] 步骤S820:若是,则找出该实体中文名称对应的原始实体中文名称中未被拆分为实体词根的汉字;
[0181] 其中,原始实体中文名称是指,存储于逻辑模型中的原始中文名称。
[0182] 对应原始实体中文名称,其中存在于词根表中的词,将被全部被拆分未实体词根,而不存在与词根表中的词,将不能被拆分。
[0183] 步骤S830:在词根表中添加所有未被拆分为实体词根的汉字的英文翻译及简称;
[0184] 未被拆分为实体词根的汉字可能那个为一个字、或一个词,或多个词,需要分别将这些未拆分的字和词均添加到词根表中。
[0185] 步骤S840:确定去掉最后端一个汉字的属性中文名称;
[0186] 步骤S850:判断该属性中文名称中是否所有汉字都已经去除;
[0187] 步骤S860:若是,则找出该属性中文名称对应的原始属性中文名称中未被拆分为属性词根的汉字;
[0188] 其中,原始属性中文名称是指,存储于逻辑模型中的属性中文名称。
[0189] 对应原始属性中文名称,其中存在于词根表中的词,将被全部被拆分未属性词根,而不存在与词根表中的词,将不能被拆分。
[0190] 步骤S870:在词根表中添加所有未被拆分为属性词根的汉字的英文翻译及简称。
[0191] 未被拆分为属性词根的汉字可能那个为一个字、或一个词,或多个词,需要分别将这些未拆分的字和词均添加到词根表中。
[0192] 可选的,在对获取的实体中文名称进行拆分后,可以对该实体中文名称是否拆分完成进行判断,拆分完成后再对各个拆分出来的实体词根进行翻译得到实体英文简称。
[0193] 可选的,图9示出了本发明实施例提供的翻译方法中判断获取的实体中文名称是否拆分完成的方法流程图,参照图9,判断获取的实体中文名称是否已经拆分完成的方法可以包括:
[0194] 步骤S900:确定去除了实体词根的实体中文名称;
[0195] 步骤S910:判断获取的去除了实体词根的实体中文名称中是否包含汉字;
[0196] 步骤S920:若不包含,则说明获取的实体中文名称已拆分完成,根据词根表将所有实体词根翻译为对应的实体英文简称;
[0197] 步骤S930:若包含,则说明获取的实体中文名称未拆分完成,获取还未拆分完成的实体中文名称。
[0198] 对还未完成拆分的实体中文名称,将对该实体中文名称进行继续拆分,直到拆分完成。
[0199] 可选的,图10示出了本发明实施例提供的翻译方法中判断获取的属性中文名称是否已经拆分完成的方法流程图,参照图10,判断获取的属性中文名称是否已经拆分完成的方法可以包括:
[0200] 步骤S1000:确定除了属性词根的属性中文名称;
[0201] 步骤S1010:判断获取的去除了属性词根的属性中文名称中是否包含汉字;
[0202] 步骤S1020:若不包含,则说明获取的属性中文名称已拆分完成,根据词根表将所有属性词根翻译为对应的属性英文简称;
[0203] 步骤S1030:若包含,则说明获取的属性中文名称未拆分完成,获取还还未拆分完成的属性中文名称。
[0204] 对还未完成拆分的属性中文名称,将对该属性中文名称进行继续拆分,直到拆分完成。
[0205] 对于得到的实体英文名称,和得到的属性英文名称,两者均存在超过预订字节数的可能,因此,可以对得到的实体英文名称和属性英文名称进行判断是否超长的处理。
[0206] 可选的,图11示出了本发明实施例提供的翻译方法中处理实体英文名称的方法流程图,参照图11,处理实体英文名称的方法可以包括:
[0207] 步骤S1100:确定得到的实体中文名称对应的实体英文名称;
[0208] 步骤S1110:判断所得实体英文名称的字节数是否超过预定字节数;
[0209] 可选的,预订的字节数可以为30,设置的预定的字节数越多,则实体英文名称被允许拥有的字节数则越多。
[0210] 步骤S1120:若超过,则去掉该实体英文名称最后端超出的字节。
[0211] 可选的,图12示出了本发明实施例提供的翻译方法中处理属性英文名称的方法流程图,参照图12,处理属性英文名称的方法可以包括:
[0212] 步骤S1200:确定得到的属性中文名称对应的属性英文名称;
[0213] 步骤S1210:判断所得属性英文名称的字节数是否超过预定字节数;
[0214] 步骤S1220:若超过,则去掉该属性英文名称最后超出的字节。
[0215] 本发明实施例提供的翻译方法,用于数据集市,采用全自动的方式生成物理模型,保证了物理模型命名的规范性,提高了物理模型命名的质量,且缩短了逻辑模型到物理模型的生成过程,进而提高整个数据集市项目设计开发效率。
[0216] 下面对本发明实施例提供的翻译系统进行介绍,下文描述的翻译系统与上文描述的翻译方法可相互对应参照。
[0217] 图13示出了本发明实施提供的翻译系统的系统框图,参照图13,该翻译系统可以包括:第一翻译模块100和第二翻译模块200;其中,
[0218] 第一翻译模块100,用于将逻辑模型中实体中文名称翻译为物理模型中表英文名称;
[0219] 第二翻译模块200,用于将逻辑模型中属性中文名称翻译为物理模型中字段英文名称。
[0220] 可选的,图14示出了本发明实施提供的翻译系统中第一翻译模块100的结构框图,参照图14,该第一翻译模块100可以包括:第一获取单元110和第一翻译单元120,其中,[0221] 第一获取单元110,用于获取逻辑模型中实体中文名称;
[0222] 第一翻译单元120,用于将获取的实体中文名称自动翻译为实体英文名称,将所述实体英文名称视为物理模型中表英文名称。
[0223] 可选的,图15示出了本发明实施提供的翻译系统中第二翻译模块200的结构框图,参照图15,该第二翻译模块200可以包括:第二获取单元210和第二翻译单元220,其中,[0224] 第二获取单元210,用于获取逻辑模型中属性中文名称;
[0225] 第二翻译单元220,用于将获取的属性中文名称自动翻译为属性英文名称,将所述属性英文名称视为物理模型中字段英文名称。
[0226] 可选的,图16示出了本发明实施例提供的翻译系统中第一翻译单元120的结构框图,参照图16,该第一翻译单元120可以包括:第一拆分子单元121、第一翻译子单元122和第一拼接子单元123,其中,
[0227] 第一拆分子单元121,用于将获取的实体中文名称进行拆分,得实体词根;
[0228] 第一翻译子单元122,用于根据词根表将所有实体词根翻译为对应的实体英文简称;
[0229] 第一拼接子单元123,用于将所有实体英文简称按预定顺序通过预定方法进行拼接,并自动加上代表所述实体英文名称所在主题的英文前缀,得到实体中文名称对应的实体英文名称。
[0230] 可选的,图17示出了本发明实施例提供的翻译系统中第二翻译单元220的结构框图,参照图17,该第二翻译单元220可以包括:第二拆分子单元221、第二翻译子单元222和第二拼接子单元223,其中,
[0231] 第二拆分子单元221,用于将获取的属性中文名称进行拆分,得属性词根;
[0232] 第二翻译子单元222,用于根据词根表将所有属性词根翻译为对应的属性英文简称;
[0233] 第二拼接子单元223,用于将所有属性英文简称按预定顺序通过预定方法进行拼接,得到属性中文名称对应的属性英文名称。
[0234] 可选的,图18示出了本发明实施例提供的翻译系统中第一翻译单元120的另一结构框图,参照图18,该第一翻译单元120还可以包括:第一判断子单元124,
[0235] 第一判断子单元124,用于判断所得的实体英文名称的字节数是否超过预定的字节数,若超过,则去掉该实体英文名称最后端超出的字节;
[0236] 第一视为子单元125,用于判断所得的实体英文名称是否与物理模型中已存在的所有表英文名称均不同,如果是,得到物理模型中的表英文名称,如果不是,将所得的实体英文名称的最后一位字母替换为一个预定的整数n,0≤n≤9;判断该将最后一位字母替换为n的实体英文名称是否与物理模型中已存在的所有表英文名称均不同,若不是,则将该将最后一位字母替换为n的实体英文名称的最后一位字母替换为n+1,直至物理模型中已存在的所有表英文名称均与该替换了最后一位字母的实体英文名称不同,得到物理模型中的表英文名称;
[0237] 可选的,图19示出了本发明实施例提供的翻译系统中第二翻译单元220的另一结构框图,参照图19,该第二翻译单元220还可以包括:第二判断子单元224,
[0238] 第二判断子单元224,用于判断所得的属性英文名称的字节数是否超过预定的字节数,若超过,则去掉该属性英文名称最后端超出的字节;
[0239] 第二视为子单元225,判断所得的属性英文名称是否与物理模型中已存在的所有字段英文名称均不同,若不是,将所得的属性英文名称的最后一位字母替换为一个预定的整数n,0≤n≤9;判断物理模型中已存在的所有字段英文名称是否均与该将最后一位字母替换为n的属性英文名称不同,若不是,则将该将最后一位字母替换为n的属性英文名称的最后一位字母替换为n+1,直至物理模型中已存在的所有字段英文名称均与该替换了最后一位字母的属性英文名称不同,得到物理模型中的字段英文名称。
[0240] 本发明实施例提供的翻译系统,用于数据集市,采用全自动的方式生成物理模型,保证了物理模型命名的规范性,提高了物理模型命名的质量,且缩短了逻辑模型到物理模型的生成过程,进而提高整个数据集市项目设计开发效率。
[0241] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0242] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈