文档处理设备

阅读:103发布:2023-03-09

专利汇可以提供文档处理设备专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种文档处理设备,其具有翻译部件,其翻译包括在原稿的 指定 区域的字符数据;和替换部件,当经翻译的字符数据包含有引用了在经翻译的字符数据中没有指明的对象语的指示语时,该替换部件将该经翻译的字符数据中的该指示语替换为存在于所述指定区域以外的原稿区域中的所述对象语的翻译。,下面是文档处理设备专利的具体信息内容。

1、一种文档处理设备,包括:
翻译部件,其翻译原稿的指定区域中包含的字符数据;和
替换部件,当经翻译的字符数据中包含有引用了经翻译的所述字符 数据中没有指明的对象语的指示语时,所述替换部件将经翻译的字符数 据中的所述指示语替换为存在于所述指定区域以外的原稿区域中的所述 对象语的译文。
2、一种文档处理设备,包括:
替换部件,当包括在原稿的指定区域的字符数据中包含有引用了所 述字符数据中没有指明的对象语的指示语时,所述替换部件将所述字符 数据中的指示语替换为存在于所述指定区域以外的原稿区域中的所述对 象语;和
翻译部件,其翻译包括在指定区域的字符数据。
3、根据权利要求1所述的文档处理设备,其中通过在原稿上进行标 记来指定所述指定区域。
4、根据权利要求2所述的文档处理设备,其中通过在原稿上进行标 记来指定所述指定区域。
5、根据权利要求1所述的文档处理设备,还包括用于用户指定所述 指定区域的输入部件。
6、根据权利要求2所述的文档处理设备,还包括用于用户指定所述 指定区域的输入部件。
7、根据权利要求1所述的文档处理设备,其中当没有指明对象语时, 输出包含对象语没有被指明的消息的经翻译的字符数据。
8、根据权利要求2所述的文档处理设备,其中当没有指明对象语时, 输出包含对象语没有被指明的消息的经翻译的字符数据。
9、根据权利要求1所述的文档处理设备,还包括警告部件,其在没 有指明对象语时向用户提供警告。
10、根据权利要求2所述的文档处理设备,还包括警告部件,其在 没有指明对象语时向用户提供警告。
11、根据权利要求1所述的文档处理设备,其中使用定义了对象语 与指示语之间的对应的表来指明所述对象语。
12、根据权利要求2所述的文档处理设备,其中使用定义了对象语 与指示语之间的对应的表来指明所述对象语。
13、一种处理字符数据的方法,所述方法包括:
翻译步骤,翻译包括在原稿的指定区域的字符数据;和
替换步骤,当经翻译的字符数据包含有引用了所述经翻译的字符数 据中没有指明的对象语的指示语时,将所述经翻译的字符数据中的所述 指示语替换为存在于所述指定区域以外的原稿区域中的所述对象语的译 文。
14、一种处理字符数据的方法,所述方法包括:
替换步骤,当包括在原稿的指定区域的字符数据包含有引用了所述 字符数据中没有指明的对象语的指示语时,将字符数据中的所述指示语 替换为存在于所述指定区域以外的原稿区域中的所述对象语;和
翻译步骤,翻译包括在所述指定区域的字符数据。
15、一种计算机可读记录介质,其记录使得计算机执行如下步骤的 程序:
翻译步骤,翻译包括在原稿的指定区域的字符数据;和
替换步骤,当经翻译的字符数据包含有引用了所述经翻译的字符数 据中没有指明的对象语的指示语时,将经翻译的字符数据中的所述指示 语替换为所述指定区域以外的原稿区域中的所述对象语的译文。
16、一种计算机可读记录介质,其记录使得计算机执行如下步骤的 程序:
替换步骤,当包括在原稿的指定区域的字符数据中包括有引用了所 述字符数据中没有指明的对象语的指示语时,将所述字符数据中的所述 指示语替换为存在于所述指定区域以外的原稿区域中的所述对象语;和
翻译步骤:翻译包括在指定区域的字符数据。

说明书全文

技术领域

发明涉及读取、翻译和输出文档的文档处理设备

背景技术

为了能够有效地使用外语文档,已开发了机器翻译和输出文档的设 备。
在该设备中,可以仅仅翻译文档的一部分用作文档的摘要或索引。 然而,由于略去了包括在所提取部分之前或之后的信息,所以当照原样 进行翻译时,翻译的结果可能难于理解。
鉴于上述情况作出了本发明,本发明提供了一种文档处理设备,该 文档处理设备即使在只翻译文档的一部分的情况下,也能够提供含义可 理解的译文。

发明内容

为了解决上述问题,在一个方面,本发明提供了一种文档处理设备, 该文档处理设备具有:翻译部件,其翻译原稿的指定区域中包括的字符 数据;和替换部件,当经翻译的字符数据中包含有引用了该经翻译的字 符数据中没有指明的对象语的指示语时,该替换部件将该经翻译的字符 数据中的该指示语替换为存在于所述指定区域以外的原稿区域中的该对 象语的译文。
利用根据本发明的文档处理设备,即使只指定一部分文档并进行翻 译工作时,也可以自动地搜索需要的信息并且输出具有高度完整性的经 翻译的文档。
附图说明
将基于附图详细说明本发明的实施例
图1是示出了根据本发明的实施例的文档处理设备的配置的框图
图2是说明指示语数据库的内容的表;
图3是示出了文档处理操作的特定示例的视图;
图4是示出了根据本发明的实施例的文档处理设备的操作的流程 图。

具体实施方式

下面是参照附图对本发明实施例的说明。图1是示出了根据本发明 的实施例的文档处理设备的配置的框图。为该文档处理设备配有:读取 部件10,其读取要发送的文档并输出图像数据;区域提取部件12,提取 图像数据中应当进行文档处理的区域;字符识别部件14,执行字符识别 并提取所提取区域的图像数据的字符数据;翻译部件16,将从所述字符 识别部件14输出的字符数据从翻译源语言翻译到翻译目标语言,所述源 语言和目标语言的每一个都是预先指定的;内容检查部件18,检查翻译 结果的内容并且判断其中是否存在任何意思不明确的指示语;和输出部 件20,其在翻译被检查之后将经翻译的文档输出到适当的设备。这里, “指示语”是指引用另一个词语的词语,其可以像代词一样替换其引用 的词语。
读取部件10,例如是一种公知的技术,当文档沿着读取设备的读取 面(reading face)移动时,其将该文档的各部分的亮度转换成二进制 图像数据,并且通常包括被称作扫描仪的具有自动给纸机构的硬件部分。 所述区域提取部件12提取以某种形式反映用户的意图的部分图像数据。 在该实施例中,提供了用户界面22,用于由人向所述区域提取部件12提 供指令。这例如可以由区域提取部件12在显示器上显示读取部件10获 得的图像数据,并且用户使用鼠标等在显示器上进行区域指定来执行。 用户界面22可以采用合适的配置,例如键盘触摸屏等,并且如果在文 档处理设备中存在现有的配置,也可以应用。
此外,例如也可以由用户直接地在文档中划出边界而指示提取区域。 在这种情况下,通过使区域提取部件12具有直接判断该边界的功能,可 以无需用户界面22。因为当用户拿着原始文档的复件并且在该复件内写 出边界时,以后设备将自动处理该文档,所以这种方法很方便地节省了 处理大量文档所需的时间。
所述字符识别部件14以预先指定的源文档语言进行图像数据的字 符识别,并且生成该文档的字符数据。所述翻译部件16是查阅字典数据 库(翻译源语言和翻译目标语言的对照表)的常规翻译部件,用于进行 翻译。输出部件20可以适当地选择打印机、显示器或存储部件。当源文 档除文本之外还包括图像信息(例如图像、照片等)时,该输出部件20 可以将翻译结果与图像信息合并,并输出合并的数据。
所述内容检查部件18从翻译结果的内容中检索指示语。该内容检查 部件18具有指示语数据库,其中这些类型的指示语以如图2所示的表形 式事先存储。在这个表TBL中,将指示语设定在左栏,将对应于这些指 示语的对象语的候选设置在中间栏,将搜索方向设置在右栏。因为通常 没有对应于单个指示语的单个对象语,所以设定了多个相应的候选词语。
在如图2所示的表TBL的搜索对象语栏中的候选词语不是直接搜索 的词语,而是设置为具有这样的特征的主体的词语组。例如,将概念“人” 和“普通人”设置为指示语“他”的对象语。此外,像合并到词语“人” 中的词语,适用于“人的名字”“指定人的名词”,“从事人一般地从事的 职业的人”的词语都被包括。这些从属于“人”的概念语也存储在表TBL 中。也可以将从属概念语存储在翻译部件16的字典中,而不存储在表TBL 中。例如,如果采用了层次结构以致从属概念语对应于作为对象语说明 的关键字“人”,可以使用字典数据库检索对象语。
此外,如果当执行搜索时出现了多个候选,通过预先确定的规则选 择这些候选的其中之一。将这个规则确定为检索最接近于指示语的位置 (在文本段中的位置)的词语等。此外该规则可以与参照每个词语发生 的频率并建立优先权的规则联合使用,等等。
可以将例如“多个人”、“多个对象”和“多个动物”的概念语设置 为如图2所示的“they(他们)”的对象语。在这种情况下,例如也将“人 名和人名(连续表达人的名字的部分)”的定义设置为“多个人”的从属 概念语。
下面将说明这个实施例的操作。图3是使用示例句子显示文档处理 的流程的图。D1表示用日语写的原始句子,D2表示该句子照原样的英文 翻译,D3表示根据本发明的实施例对该句子的翻译。下面,将参照如图 4所示的流程图说明如图3所示的文档处理设备的操作。
由读取部件10读取原稿(步骤1),区域提取部件12检查是否具有 指定部分(步骤2)。当通过标记原稿而指定了一部分时,判断图像数据 有无指定部分。在用户对图像数据进行个别指定的系统中,在显示器等 上打开文档图像数据,提示用户指定区域,并且根据用户的响应判断指 定。当没有指定部分时,字符识别部件14和翻译部件16像往常一样操 作,翻译整个区域(步骤3)并且输出部件20输出结果(步骤4)。
当在步骤2判断具有指定部分时,所述区域提取部件12提取指定区 域(步骤5),并进行字符识别和翻译(步骤6)。接下来,内容检查部件 18检查翻译结果中是否具有指示语(步骤7)。这参照图2所示的表的左 栏执行。如果这些词语没有出现在指定的区域中,则照原样输出该结果 (步骤4)。在步骤7,当发现了指示语时,则判断在指定区域是否具有 对应于这些指示语的对象语。
在如图3所示的实施例中,因为如图2所示指示语是“they(他们)”, 则按照(1)多个人;(2)多个物体;(3)多个动物等的顺序搜索对象语。 在表TBL中搜索方向被指定为“前面”方向,就是在指示语之前。并且, 当该指定区域具有对象语时,则照原样输出指示语(步骤4)。这样处理 的原因是如果对应于指示语的对象语在该指定区域的文本段落中,则由 于这样的事实,即在该区域中指示语表示的词语可以清楚地对应于对象 语,所以无需用对象语替换指示语就可以理解意思。另一方面,如果没 有发现对应于指示语的词语,则在搜索方向的相同方向向前扩大翻译区 域(步骤9)。以适当的文本量为单位执行翻译区域的扩大,并且此处以 段落为单位进行。对所述扩大部分进行翻译(步骤10),并且在该区域再 次搜索对象语(步骤11)。
在步骤11,如果在所述扩大的区域中具有对象语,则翻译该部分, 用对象语的翻译替换对应的指示语的翻译(步骤12),并且将结果输出(步 骤4)。在如图3所示的示例中,“人名和人名(该部分中人的名字被连续 的表示)”的定义作为词语包括在概念“多个人”中,并且在初始扩大部 分具有这样的适用词语。因此,在步骤12,如图3所示的D3,“他们” 被“Mr.Tanaka和Mr.Matsui(田中先生和松井先生)”替换。通常, 指示语的对象语是最近的,因此在搜索方向上最先发现的词可以被选为 对象语,但是当具有多个候选时作为选择标准,除了距离上的接近外, 还可以考虑内容上的接近,基于发生频率预先规定优先权等。
在步骤11,当扩大区域中没有对象语时,判断进一步扩大的可能性 (步骤13),当可扩大时,进程返回到步骤9,并且直到步骤11的步骤 被重复。当在原稿中没有空间去扩大时,指示语不变地输出结果(步骤4)。 在这种情况下,可以输入附带有评论的结果,该评论说明指示语的内容 不清楚,并且通过单独的方法(例如通过显示部件显示或使用语音合成 设备的声音指导)对这个效果提供警告。用户响应于这样的警告可以采 取将前面的页提供给读取部件等的策略。而且,当以这种方式指定了部 分并且翻译时,因为在指定部分之前和之后的页可能具有需要的信息, 所以当读取文档时最初可以包括指定部分之前和之后的页。
在上面的实施例中,指示语是代词,并且在文本中搜索稍早提到的 词语,但是在指示语中也具有像“如以下说明的X”那样在指示语之后解 释对象语的情况。在这样的情况下,被搜索的词语是“X”自身,并且当 替换搜索结果时,替换也包括该说明。
在这个实施例中,在翻译之后检查是否具有指示语,但是也可以在 原始文本中进行检查。在该情况下,内容检查部件18的所有工作(包括 图4的替换步骤12)都以翻译源的语言进行,并随后执行步骤3的翻译 工作。
如上所述,本发明的一个方面提供了一种文档处理设备,其具有: 翻译部件,其翻译原稿的指定区域中包括的字符数据;和替换部件,当 该经翻译的字符数据中包含有引用了该经翻译的字符数据中没有指明的 对象语的指示语时,该替换部件将该经翻译的字符数据中的该指示语替 换为存在于所述指定区域以外的原稿区域中的该对象语的译文。
如上所述,本发明的一方面还提供了一种文档处理设备,其具有: 替换部件,当包括在原稿的指定区域的字符数据中包含有引用了该字符 数据中没有指明的对象语的指示语时,该替换部件将该字符数据中的指 示语替换为存在于所述指定区域以外的原稿区域中的该对象语;和翻译 部件,其翻译包括在该指定区域的字符数据。
根据本发明的上述实施例之一,所述指定区域可以通过原稿上的进 行标记来指定。根据本发明的上述实施例之一,该文档处理设备还可以 包括用于用户指定所述指定区域的输入部件。
根据本发明的上述实施例之一,当没有指明对象语时,可以输出包 含对象语没有被指明的消息的经翻译的字符数据。根据本发明的上述实 施例之一,该文档处理设备还可以具有警告部件,其在没有指明对象语 时向用户提供警告。而且,根据本发明的上述实施例之一,可以使用定 义了对象语与指示语之间的对应的表来指明对象语。
本发明的一个方面还提供了一种处理字符数据的方法,该方法具有: 翻译步骤,翻译原稿的指定区域中包含的字符数据;和替换步骤,当经 翻译的字符数据中包含有引用了该经翻译的字符数据中没有指明的对象 语的指示语时,将该经翻译的字符数据中的该指示语替换为所述指定区 域以外的原稿区域中的该对象语的译文。
本发明的一方面还提供了一种处理字符数据的方法,该方法具有: 替换步骤,当包括在原稿的指定区域的字符数据中包含有引用了在该字 符数据中没有指明的对象语的指示语时,将字符数据中的该指示语替换 为存在于所述指定区域以外的原稿区域中的该对象语;和翻译步骤:翻 译包括在该指定区域的字符数据。
本发明的一方面还提供了一种计算机可读记录介质,其记录了使得 计算机执行上述方法之一的程序。
前面对本发明实施例的描述是出于例示和说明目的的,并不是排他 性的,也不是为了将本发明限制到所公开的确切形式。显然,对于本领 域的普通技术人员,很多修改和变型是显而易见的。选择并说明这些实 施例是为了最好地说明本发明的原理及其实际应用。从而使得本领域的 其他技术人员能够理解用于各种实施例的本发明以及本发明适于特殊使 用目的的变型。旨在本发明的范围由所附权利要求及其等同物来限定。
在此以引用的方式并入2005年3月25日提交的日本申请第 2005-090174号的全部公开内容,包括说明书、权利要求书、附图和摘要。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈