首页 / 专利库 / 人工智能 / 候选译文 / 字符识别电子设备和字符识别方法

字符识别电子设备和字符识别方法

阅读:989发布:2020-07-19

专利汇可以提供字符识别电子设备和字符识别方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种字符识别 电子 设备和一种字符识别方法,所述字符识别电子设备具有:识别单元,其对表示以第一语言写成的文本的图像数据执行字符识别处理并且识别候选字符串,该候选字符串表示对文本的各个结构单位进行字符识别处理的结果;确定单元,其确定由用户 指定 第二语言是否与第一语言不同;提示单元,其在第一语言与第二语言不同时,提示识别出了多个候选字符串的各个结构单位的第二语言的候选字符串的译文;和选择单元,其使用户从提示单元所提示的多个译文中选择一个译文。,下面是字符识别电子设备和字符识别方法专利的具体信息内容。

1. 一种字符识别电子设备,所述电子设备包括:
输入单元,其输入表示以第一语言写成的文本的原始图像数据;
识别单元,其对由输入单元输入的原始图像数据执行字符识别处理 并且识别候选字符串,该候选字符串表示对原始图像数据表示的文本的 各个结构单位进行字符识别处理的结果;
指定单元,其使得用户指定第二语言;
确定单元,其确定第二语言是否与第一语言不同;
提示单元,其在确定单元确定第一语言与第二语言不同时,对于被 所述识别单元识别出了多个候选字符串的各个结构单位,提示所述多个 候选字符串的第二语言的译文;
选择单元,其使用户从提示单元提示的多个译文中选择一个译文, 以从所述多个候选字符串中获得与所述选择的一个译文对应的单个候选 字符串;以及
生成单元,其生成表示文本的图像数据或代码数据,该文本使用所 述识别单元为由原始图像数据表示的文本的结构单位唯一地识别的各候 选字符串,以及与选择单元为由原始图像数据表示的文本的、被识别出 了多个候选字符串的结构单位选出的译文对应的各候选文本字符串组合 而成。
2. 根据权利要求1所述的电子设备,其中:
所述结构单位是字词、字词或句子的至少其中之一。
3. 根据权利要求1所述的电子设备,其中:
提示单元与多个候选字符串的每一个候选字符串的第二语言的译文 一起提示表示识别单元做出的识别的确定度的数据。
4. 根据权利要求1所述的电子设备,所述电子设备还包括:
翻译单元,其将由生成单元生成的图像数据或代码数据表示的文本 翻译成第三语言,该第三语言与第一语言不同并且与第二语言不同。
5. 一种字符识别方法,所述方法包括以下步骤:
接收表示以第一语言写成的文本的原始图像数据;
对原始图像数据执行字符识别处理并且识别候选字符串,该候选字 符串表示对文本的各个结构单位进行字符识别处理的结果;
使用户指定第二语言;
确定第二语言是否与第一语言不同;
在确定第一语言和第二语言是不同时,提示被识别出了多个候选字 符串的各个结构单位对应的候选字符串的第二语言的译文,并且使用户 从多个译文中选择一个译文,以从所述多个候选字符串中获得与所述选 择的一个译文对应的单个候选字符串;以及
生成表示文本的图像数据或代码数据,该文本使用为由原始图像数 据表示的文本的结构单位唯一地识别的各候选字符串和与为由原始图像 数据表示的文本的、被识别出了多个候选字符串的结构单位选出的译文 对应的各候选文本字符串组合而成。
6. 根据权利要求5所述的方法,其中:
所述结构单位是字词、字词块或句子的至少其中之一。
7. 根据权利要求5所述的方法,其中提示被识别出了多个候选字符 串的各个结构单位对应的候选字符串的第二语言的译文的步骤包括:
与多个候选字符串的每一个候选字符串的第二语言的译文一起提示 表示识别的确定度的数据。
8. 根据权利要求5所述的方法,所述方法还包括:
将由生成的图像数据或代码数据表示的文本翻译成第三语言,该第 三语言与第一语言不同并且与第二语言不同。

说明书全文

技术领域

发明涉及一种对其文本由第一语言写成的纸制文档执行OCR(光 学字符读取器)处理以获得该文本的技术,更具体地,涉及一种可以有 效地校正OCR处理引起的识别错误的技术。

背景技术

近些年,随着因特网和其他世界范围通信环境的普及以及商业界和 各种其他领域的国际化的发展,遇到由常用语言(如母语等)之外的语 言写成的文本的可能性增加。因此,对简单、容易的文本翻译的需求不 断增加并且提出了各种技术以满足这种需求。作为这种技术的一个示例, 将翻译软件安装在诸如个人计算机(下面称“PC”)的计算机装置上,以 提供机器翻译,在此期间由翻译软件执行翻译处理。
另外,为了使计算机装置对记录在纸制文档中的原文执行机器翻译, 需要例如通过对该纸制文档执行OCR处理,将表示原文的数据输入到计 算机装置中。然而,因为OCR处理的字符识别率不是100%,所以有时会 获得单个字符的多个候选字符串。当获得了这些多个候选字符串时,需 要使用户从该多个候选字符串中选择正确地表示写在原文中的字符的一 个候选字符串,以校正OCR处理所获得的处理结果。然而,如果该处理 频繁发生,则这样的校正会使OCR处理的效率急剧下降。

发明内容

为了解决以上问题,本发明的一方面提供了一种电子设备,其具有: 输入单元,其输入表示以第一语言写成的文本的原始图像数据;识别单 元,其对由输入单元输入的原始图像数据执行字符识别处理并且识别候 选字符串,该候选字符串表示对原始图像数据所代表的文本的各结构单 元进行字符识别处理的结果;指定单元,其使用户指定第二语言;确定 单元,其确定第二语言是否与第一语言不同;提示(presentation)单 元,其在确定单元确定第一语言和第二语言不同时,对于识别单元识别 出了多个候选字符串的各结构单元,提示第二语言的候选字符串的译文; 选择单元,其使用户从提示单元提示的多个译文中选择一个译文,以从 所述多个候选字符串中获得单个候选字符串;生成单元,其生成表示文 本的图像数据或代码数据,该文本使用所述识别单元为由原始图像数据 表示的文本的结构单位唯一地识别的各候选字符串,以及与选择单元为 由原始图像数据表示的文本的、被识别出了多个候选字符串的结构单位 选出的译文对应的各候选文本字符串组合而成。
根据本发明的实施例,即使用于书写原文的语言与用户语言不同, 当对记录在纸制文档上的原文执行OCR处理以获取原文时,用户也能够 有效地校正由OCR处理生成的字符识别结果。
附图说明
将根据下面的附图详细说明本发明的实施例,其中:
图1是示出了配备有表示根据本发明实施例的电子设备的翻译装置 110的翻译系统10的示例性配置的框图
图2是示出了翻译装置110的硬件配置示例的框图;
图3是示出了显示在显示单元220上的语言指定画面的示例的图;
图4是示出了控制单元200使用翻译软件所执行的翻译处理的流程 的流程图
图5(a)、5(b)和5(c)是示出了在翻译处理期间在翻译装置110的显 示单元220上显示的内容的示例的图;
图6是示出在变型例3中显示的候选字符串示例的图;以及
图7是示出在变型例5中提示的候选字符串示例的图。

具体实施方式

下面,将参照附图对本发明的实施例进行详细说明。
(A.配置)
图1是示出了配备有翻译装置110的翻译系统10的示例性配置的框 图,该翻译系统10代表了根据本发明实施例的电子设备。如图1所示, 图像读取器120是提供了诸如ADF(自动文档进给器)的自动进纸机构的 扫描仪装置,其一次一页地光学获取放置在ADF中的纸制文档并且将与 获取的图像相对应的图像数据通过通信线130(例如LAN(局域网)等) 传送到翻译装置110。此外,虽然本实施例说明了通信线130是LAN的情 况,但是当然其也可以是WAN(广域网)或因特网。此外,虽说本实施例 说明了将翻译装置110和图像读取器120分别构成为单独硬件的情况, 但理所当然地,也可以将两者构成为单个的集成硬件。在这样的实施例 中,通信线130是在硬件中将翻译装置110连接到图像读取器120的内 部总线。
图1的翻译装置110具有这样的功能:将从图像读取器120传送的 图像数据所表示的文本翻译成翻译目的语言并且显示翻译的结果(也就 是,翻译成目的语言的文本译文),该翻译目的语言与用于书写所述文本 的翻译源(source)语言不同。此外,本实施例说明了一种情况,其中翻 译源语言是中文,翻译目的语言是英语。此外,在本实施例中,从图像 读取器120向翻译装置110传送的图像数据表示要被翻译的文本(换句 话说,原文),并且下文将该图像数据称为“原文数据”。
图2是示出了翻译装置110的硬件配置的示例的框图。
如图2所示,翻译装置110配备了控制单元200、通信接口(下文 称为IF)单元210、显示单元220、操作单元230、存储单元240和作为 这些组件之间的数据交换的媒介的总线250。
该控制单元200(例如是CPU(中央处理器))通过运行存储在存储 单元240中的各种软件(其将在下文描述)对翻译装置110中的各个单 元执行中央控制。通信IF单元210通过通信线130与图像读取器120相 连接,接收通过通信线130从图像读取器120发送的原文数据并且将其 传送给控制单元200。简言之,通信IF单元210用作用于输入从图像读 取器120发送的原文数据的输入单元。
显示单元220,例如是液晶显示器及其驱动电路,显示与从控制单 元200传送的数据相对应的图像,并且提供各种用户接口。操作单元230, 例如是配备有多个键的键盘(其图被省略),其通过传送与键操作内容相 对应的数据(下文称为操作内容数据)将用户操作内容传送到控制单元 200。
如图2所示,存储单元240包括易失性存储单元240a和非易失性存 储单元240b。该易失性存储单元240a,例如是RAM(随机存取存储器), 用作控制单元200运行下述各种软件的工作区域。另一方面,非易失性 存储单元240例如是硬盘。存储在非易失性存储单元240b中的是使控制 单元200可以执行本实施例的翻译装置110所特有的功能的数据和软件。
建议将在执行以上机器翻译时所使用的各种双语字典作为存储在非 易失性存储单元240b中的数据的示例。另一方面,建议将翻译软件和使 控制单元200运行操作系统(Operation System,下文称为“OS”)的OS 软件作为存储在非易失性存储单元240b的软件的示例。此处,“翻译软 件”一词是指使控制单元200执行处理以将由图像读取器120所输入的 原文数据表示的原文翻译成预定的翻译目的语言的软件。下面,将针对 控制单元200由于执行软件程序而具有的功能进行说明。
当接通翻译装置110的电源(其图被省略)时,首先,控制单元200 从非易失性存储单元240b读取OS软件并且执行它。当其执行OS软件并 且由此运行了OS时,控制单元200具有控制翻译装置110的单元的功能 和从非易失性存储单元240b读取其他软件并且根据用户的指令执行该软 件的功能。例如,当发送指令来运行翻译软件时,控制单元200从非易 失性存储单元240b读取翻译软件并执行它。当执行翻译软件时,控制单 元200被至少赋予了下述的7个功能。
首先,其被赋予了使用户指定常用语言(即,用户语言)并存储指 定内容的功能。具体地说,首先控制单元200使用显示单元220显示如 图3所示画面的语言指定画面。随后视觉地检查语言指定画面的用户可 以通过操作单元230适当地操作下拉菜单310然后按下“输入”按钮B1 而输入所希望的用户语言,来指定他们自己的语言。另一方面,控制单 元200基于从操作单元230传送的操作内容数据识别用户语言,然后将 表示用户语言的数据(下文称为用户语言数据)写入并存储到易失性存 储单元240a中。此外,尽管本实施例说明了通过下拉菜单指定用户语言 的情况,但是也可以使用户通过键入表示用户语言的字符串数据等来指 定用户指定语言。
第二,其具有使其对从图像读取器120输入的原文数据执行例如OCR 处理的字符识别处理的功能,以及对候选字符串进行识别的功能,这些 候选字符串代表了组成原文(由原文数据表示)的各个字词的识别结果。
第三,其具有确定用于书写由原文数据表示的原文的翻译源语言是 否与由用户指定的用户语言不同的功能。因为在本实施例中将“中文” 预置为翻译源语言,所以控制单元200确定由用户指定的用户语言是否 为中文,如果不是中文,则该控制单元200确定翻译源语言和用户语言 不同。
第四,其具有当第三功能确定用户语言和翻译源语言不同时,提示 具有由第二功能识别出的多个候选字符串字的字词的用户语言译文的功 能。更具体地说,对于组成原文(由原文数据表示)的任何字词,控制 单元200确定第二功能是否识别出了多个候选字符串,通过参照双语字 典,对具有肯定确定结果的字词(也就是,具有多个识别出的候选字符 串的字词),识别出该多个候选字符串的每一个所代表的字词的用户语言 译文;并且将表示该译文的字符串显示在显示单元220上以提示这些译 文。
第五,其具有使用户从由第四功能提示的多个译文中选择一个译文 并将选择结果存储在存储器中的功能。
第六,在结构单位具有由第二功能唯一识别出的候选字符串的情况 下,生成表示使用该对应的候选字符串组成的文本的代码数据,在结构 单位具有多个识别出的候选字符串的情况下,生成表示使用与第五功能 存储的译文相对应的候选字符串组成的文本的代码数据。此处,代码数 据是这样的数据,其中按照字符被写入的顺序排列组成文本的字符的字 符代码(例如,ASCII码和Shift-JIS码等)。尽管本实施例说明了这样 的情况,其中在结构单位具有由第二功能唯一识别出的候选字符串的情 况下,生成表示使用相应的候选字符串组成的文本的代码数据,并且在 结构单位具有多个识别出的候选字符串的情况下,生成表示使用与由第 五功能存储的译文相对应的候选字符串组成的文本的代码数据,但是当 然也可以生成表示文本的图像数据。
以及,第七,其具有将第六功能生成的代码数据表示的文本翻译为 翻译目的语言的译文并将翻译结果显示在显示单元220上的功能。此外, 尽管本实施例说明了这样的情况,其中将由代码数据表示的文本的翻译 成翻译目的语言的翻译结果显示在显示单元220上,但也可以生成表示 这种翻译结果的图像数据和代码数据,将该图像数据和代码数据发送到 诸如打印机的图像形成装置,并且打印翻译结果,也可以将表示翻译结 果的图像数据和代码数据与原文数据相关联地存储。
如上所述,这种根据本实施例的翻译装置110的硬件配置与普通计 算机装置的硬件配置相同,通过使控制单元200能够执行存储在非易失 性存储单元240b中的各种软件来实现本发明的电子设备的特有功能。因 此,尽管本实施例说明了这样的情况,其中在软件模的协助下实现了 本发明的电子设备所特有的功能,然而,也可以通过组合执行这些功能 的硬件模块来构建本发明的电子设备。
(B:操作)
下面,针对翻译装置110的操作进行说明,其中强调说明将表明其 显著特征的操作。此外,在下面所说明的操作示例中,假设操作翻译装 置110的用户是日本人,该日本人除了他或她自己的母语(也就是日语) 之外不擅长任何语言。此外,下面假设翻译装置110的控制单元200运 行OS软件并且等待用户执行输入操作。
如果用户正确地操作了操作单元230并且执行了发送指令以执行翻 译软件的输入操作,则操作单元230将与该操作的内容相对应的操作内 容数据传送到控制单元200。在本操作示例中,将用于发送指令以执行翻 译软件的操作内容数据从操作单元230传送到控制单元200,控制单元 200从非易失性存储单元240b读取翻译软件并且根据操作内容数据执行 该翻译软件。下面将参照附图说明运行翻译软件的控制单元200的翻译 操作。
图4是示出了控制单元200使用翻译软件所执行的翻译处理的流程 的流程图。首先,如图4所示,控制单元200在显示单元220上显示语 言指定画面(见图3)并且使用户可以指定用户语言(步骤SA100)。如 上所述,随后视觉监视语言指定画面的用户可以通过适当地操作下拉菜 单310然后按下“输入”按钮B1来指定所希望的用户语言。控制单元200 从操作单元230接收表示用户操作内容的操作内容数据(也就是,表示 从下拉菜单所选择的项的数据和反映已经按下了“输入”按钮B1的事实 的数据)并且基于操作内容数据(也就是,下拉菜单中的显示所选择的 语言的项的编号)识别所选择的语言。此外,因为操作翻译装置110的 用户不擅长“日语”之外的任何语言,所以在该操作示例中选择“日语” 作为用户语言。
接下来,控制单元200将表示根据从操作单元230传送的操作内容 数据所识别的语言的用户语言数据写入易失性存储单元240a,将其存储 在该处,并且等待从图像读取器120发送原文数据。另一方面,当用户 将纸制文档放置在图像读取器120的ADF中并且执行某些特定操作(例 如,按下在图像读取器120的操作单元上提供的开始按钮等)时,通过 图像读取器120获取表示记录在纸制文档中的内容的图像,并且将与该 图像相对应的原文数据通过通信线130从图像读取器120传送到翻译装 置110。此外,在本实施例中,将表示用“中文”写成的文本的图像数据 作为原文数据从图像读取器120传送到翻译装置110。
此时,当控制单元200通过通信IF单元210接收了从图像读取器 120发送的原文数据(步骤SA110)时,对原文数据执行OCR处理以执行 字符识别并且识别候选字符串,该候选字符串表示组成由原文数据表示 的原文的各个字词的识别候选(步骤SA120)。然后,控制单元200确定 由用户通过语言指定画面所指定的用户语言与翻译源语言是否不同 (SA130),并且,当确定该两者相同时,执行常规的校正处理(步骤 SA140),并且,另一方面,当确定该两者不同时,执行根据本发明的实 施例的电子设备所特有的校正处理(也就是,在图4中,从步骤SA150 到步骤SA170的处理)。
在此处所用的术语“常规校正处理”表示包括如下步骤的处理,将 具有在步骤SA120中识别出的具有多个候选字符串的字词的候选字符串 显示在显示单元220上,使用户选择正确地表示由原文数据表示的原文 中的字词的单个候选字符串,并且响应于选择结果生成表示原文的代码 数据。因此,如果当用户语言和翻译源语言相同时,翻译源语言中的多 个候选字符串显示在显示单元220上,则用户可以从多个候选字符串中 选择正确地表示原文中的字词的单个候选字符串。
相反地,当用户语言和翻译源语言不同时,如果原样地显示这些候 选字符串,则用户无法选择正确地表示原文中的字词的单个候选字符串。 因此,在这种情况下,翻译装置110执行根据本发明的实施例的电子设 备所特有的校正处理,该处理使用户可以从多个候选字符串中选择一个 正确地表示原文中的字词的候选字符串。因为在步骤SA100中所指定的 用户语言是“日语”而翻译源语言是“中文”,所以在这个操作示例中, 步骤SA130中的确定结果是“是”并且执行从步骤SA150到步骤SA170 的处理。
当在步骤SA130中的确定结果是“是”时,则在随后执行的步骤SA150 中,对组成由原文数据表示的文本的字词中的具有多个识别出的候选字 符串的字词,将由候选字符串表示的字词翻译成用户语言的字词,并且 将该译文显示在显示单元220上。例如,如图5(a)、5(b)所示,当对于 包含在由原文数据表示的原文中的一个字词识别出两个候选字符串时, 控制单元200使用显示单元220显示选择画面(见图5(c)),该选择画面 将该两个候选字符串的用户语言译文提示给用户。然后,视觉监视选择 画面的用户可以通过适当地操作操作单元230并且参照在选择画面上提 示的译文,从该两个候选字符串中选择一个候选字符串。在该操作示例 中,假设用户从图5(c)所示的选择画面上提示的译文中选择“東京”。
在执行以上选择之后,控制单元200从操作单元230接收表示选择 的内容的操作内容数据(步骤SA160),将由操作内容数据表示的候选字 符串之外的候选字符串从步骤SA120的字符识别处理中获得的处理结果 中删除,并且生成表示要被翻译的文本的代码数据(步骤SA170)。更加 具体地说,在步骤SA170,在字词具有在步骤SA120中唯一地识别出的候 选字符串的情况下,生成表示使用相应的候选字符串组成的文本的代码 数据,在字词具有多个候选字符串的情况下,生成表示使用与在步骤 SA160中选择的译文相对应的候选字符串组成的文本的代码数据。
以上描述了根据本发明实施例的电子设备所特有的校正处理。
通过参照存储在非易失性存储单元240b中的双语字典,控制单元 200随后将由步骤SA140或步骤SA170生成的代码数据表示的文本翻译成 翻译目的语言(步骤SA180)并且将表示该译文的图像数据传送到显示单 元220,在该显示单元220上显示该译文(步骤SA190)。在本实施例中, 翻译目的语言是“英文”,因此,将在选择画面(见图5(c))上选择的其 译文为“東京”的字词翻译为“Tokyo”。
如上所述,即使翻译源语言与使用该翻译装置的用户的用户语言不 同,当通过OCR处理获得以某种翻译源语言记录在纸制文档上的原文并 且将原文翻译成预定的翻译目的语言时,本实施例的翻译装置也能实现 使用户能够有效地校正OCR处理生成的字符识别结果的效果,并执行到 翻译目的语言的翻译。
(C.变型例)
上述的实施例是本发明的一个示例性实施例,当然,可以对其例如 进行如下地修改
(C-1:变型例1)
上述实施例说明了这样的情况,其中将本发明应用于翻译装置,该 翻译装置通过光学获取纸制文档来获得原文数据并且对由原文数据表示 的文本执行机器翻译。然而,本发明还可以应用于这样的电子设备,该 电子设备接收原文数据,对原文数据执行OCR处理并且将所获得的数据 存储在存储器中或将其发送到其他装置。
(C-2:变型例2)
上述实施例说明了这样的情况,其中预先提供以翻译源语言(实施 例中为中文)写成的文本,并且将该文本翻译成预定的翻译目的语言(实 施例中为英文)。然而,可以使用户以与指定用户语言相同的方式指定翻 译源语言和翻译目的语言。因此,当允许用户指定翻译源语言和翻译目 的语言时,可以根据与选择的内容相对应的双语字典(也就是,与用户 指定的用户语言和与用户指定的翻译源语言相对应的双语字典)获得各 候选字符串的译文。此外,当对从图像读取器传送的原文数据执行OCR 处理时,可以基于处理结果识别翻译源语言。
(C-3:变型例3)
上述实施例说明了这样的情况,其中对于字词单位选择候选字符串。 然而,如图6中所示,也可以使用户提示候选字符串并且从多个候选字 符串中以句子单位级别选择一个候选字符串,也可以允许用户提示候选 字符串并且以字词块单位级别选择一个候选字符串。例如,图6示出了 这样的情况,其中所提示的句子的用户语言译文包括字词“****”,对于 该字词,识别出了“mmmm”、“kkkk”和“pppp”作为候选字符串,并且 用户将要选择该三个候选字符串中的一个。简言之,在针对文本的结构 单位提示候选字符串的实施例中,该结构单位可以是字词、字词块或句 子。
(C-4:变型例4)
上述实施例说明了这种情况,其中在字词具有多个识别出的候选字 符串的情况下,使用户可以通过提示各个候选字符串的用户语言译文, 从多个候选字符串中选择一个候选字符串。然而,当识别出了多个候选 字符串时,除了候选字符串的译文,还可以提示OCR处理方面的特定确 定度的数据(例如,表示确定度的值和与确定度相对应的优先级的数据)。
(C-5:变型例5)
上述实施例中说明了这样的情况,其中在字词具有识别出的多个候 选字符串的情况下,用户在显示各个候选字符串的用户语言译文的显示 单元220的帮助下,从多个候选字符串中选择一个候选字符串。然而, 涉及多个候选字符串的用户语言译文的表示的实施例不限于将译文显示 在显示单元220上的实施例。例如,如图7所示,在字词具有多个识别 出的候选字符串的情况下(图7中的字“****”),也可以通过向候选字 符串的用户语言译文添加预定的检查标记(图7中的“◇”),在通过在例 如打印纸的记录材料上打印字符识别处理的处理结果而输出该处理结果 的同时,对它们进行打印。在通过勾涂(paint out)紧接一个候选字符 串提供的检查标记而从多个候选字符串中选择一个候选字符串之后, 视觉监视这样打印出的字符识别结果的用户随后可以通过使图像读取器 120再次读入打印出的结果将选择结果传送到电子设备。
(C-6:变型例6)
上述的实施例说明了这样的情况,其中将使控制单元200执行本发 明的翻译装置所特有的功能的软件预先存储在非易失性存储单元240b 中。然而,当然,可以将该软件安置在计算机可读记录介质上(例如CD-ROM (压缩盘只读存储器)或DVD(数字万能盘)),并且将该软件安装在使用 这种记录介质的普通计算机装置上。这么做实现了使普通计算机装置可 以用作本发明的翻译装置的效果。
如上所述,本发明一方面提供了一种电子设备,其具有:输入单元, 其输入表示以第一语言写成的文本的图像数据;识别单元,其对由输入 单元输入的图像数据执行字符识别处理并且识别候选字符串,该候选字 符串表示对由图像数据表示的文本的各个结构单位进行字符识别处理的 结果;指定单元,其允许用户指定第二语言;确定单元,其确定第二语 言是否与第一语言不同;提示单元,其在确定单元确定第一语言和第二 语言不同时,为识别单元识别出了多个候选字符串的各个结构单位以第 二语言提示候选字符串的译文;以及选择单元,其允许用户从提示单元 提示的多个译文中选择一个译文。
使用这种电子设备,当由用户指定为第二语言的用户语言与第一语 言不同时,该设备提示具有多个识别出的候选字符串的结构单位的用户 语言译文。从而,虽然用户不擅长第一语言,但是也可以通过参照由提 示单元提示的译文从多个候选字符串中选择一个候选字符串。
在该方面的实施例中,电子设备可以具有生成单元,其生成表示文 本的图像数据或代码数据,该文本使用识别单元为由图像数据表示的文 本的结构单位唯一地识别的各候选字符串和选择单元为由图像数据表示 的文本的、被识别出了多个候选字符串的结构单位选出的各候选文本字 符串组合而成。
在该方面的另一实施例中,所述结构单位可以是字词、字词块或句 子的至少其中之一。在这样的实施例中,与为分离的字符提示多个候选 字符串的情况相对地,为包含具有多个识别出的候选字符串的字符的字 词、字词块或句子,提示第二语言的译文,结果,可以通过以字词、字 词块或句子为单位考虑上下文和适合性,从多个候选字符串中选择一个 候选字符串。
在该方面的另一实施例中,提示单元可以与多个候选字符串的每一 个候选字符串的第二语言的译文一起提示表示识别单元做出的识别的确 定度的数据。在这样的实施例中,可以通过除了考虑译文以外还考虑确 定度,从多个候选字符串中选择一个候选字符串。此外,当所述结构单 位是字词单位时,可以确定第二语言的多个候选字符串的译文是否存储 在第二语言的术语数据库(例如,其中表示语义内容和用法的数据与第 二语言的字词相互关联地存储的数据库)中,并且指示提示单元通过提 高存储在术语字典数据库中的译文的优先级来提示它们。
在该方面的另一实施例中,电子设备还可以具有翻译单元,其将由 生成单元生成的图像数据或代码数据表示的文本翻译成不同于第一语言 和第二语言的第三语言。在这样的实施例中,即使使用电子设备的用户 既不擅长第一语言(也就是,翻译源语言)也不擅长第三语言(也就是 翻译目的语言),也可以有效地校正通过对表示以第一语言写成的原文的 图形数据执行OCR处理而获得的字符识别结果中的识别错误,并且通过 对经校正的识别结果进行机器翻译而获得第三语言的译文。
本发明的另一方面提供了一种计算机可读记录介质,该计算机可读 记录介质记录了使计算机执行上述电子设备的功能的程序。在这样的实 施例中,将记录在介质中的程序安装在普通计算机装置上并且执行该程 序以使该计算机装置具有与上述电子设备相同的功能。
本发明的另一方面提供一种方法,该方法具有执行上述的电子设备 的功能的步骤。
对本发明实施例的上述说明是出于示例和说明的目的而提供的。并 非旨在穷举或将本发明限于所公开的具体形式。很显然,对本领域技术 人员,多种修改和变型是显而易见的。所选取并描述的实施例用于最好 地说明本发明的原理及其实际应用,从而使本领域的其他技术人员能够 理解本发明的各种实施例,以及适合于期望的具体应用的各种变型。本 发明的范围旨在由以下权利要求及其等同物来限定。
在此以引用的方式并入2005年3月25日提交的日本专利申请第 2005-090199号的全部公开(包括说明书、权利要求、附图和摘要)。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈