首页 / 专利库 / 电信 / 移动通信终端 / 平板电脑 / 一种在统一识别框架下小型化手写体文本识别器的方法

一种在统一识别框架下小型化手写体文本识别器的方法

阅读:813发布:2020-05-08

专利汇可以提供一种在统一识别框架下小型化手写体文本识别器的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及智能手机、 平板电脑 、手提电脑、导航仪等移动智能终端的信息输入领域,具体地指一种统一识别 框架 下小型化手写体文本识别器的方法。具体包括以下步骤:(1)小型化单字切分分类器,(2)小型化单字识别器,(3)小型化自然语言模型,(4)系统参数优化。,下面是一种在统一识别框架下小型化手写体文本识别器的方法专利的具体信息内容。

1.一种在统一识别框架下小型化手写体文本识别器的方法,其特征在于,具体包括以下步骤:
(1)小型化单字切分分类器
在单字切分分类器的构建过程中,采用基于多假设的切分,先依据相邻笔 画的外接矩阵的重叠,把所有的笔画分成不可分割的笔画,然后由从相邻原始块的滑边(off-stroke)上抽取的几何特征,同时在原始块或组合块上抽取内部结构特征向量,组成单字切分特征向量,然后对抽取的特征向量通过基于 Fisher 线性判定分析进行特征选择,使单字切分特征 向量的维度压缩至10 左右;
(2)小型化单字识别器
在小型化单字识别器的构建过程中,首先选择只占内存几百KB 的联机单字识别器 LTM, 然后基于最小分类错误线性统合联机 LTM 识别器和小型化的脱机单字识别器,用最大似然估计方法初始化特征压缩矩阵、脱机单字识别器的参数,进一步对识别器的特征向量通过分块聚类获得数据压缩用数据字典(聚类中心),最后基于判定分析方法步优化以上三个部分参数,以确保脱机单字识别器小型化与高识别率;
(3)小型化自然语言模型
在小型化自然语言模型的构建中,将通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变,即采用基于一元、二元和三元线性内插(Interpolation)平滑的自然语言模型;
(4)系统参数优化
在上述各专家模块小型化的基础上,基于最小分类错误算法对统一识别框架各模块的统合参数进行最优化。

说明书全文

一种在统一识别框架下小型化手写体文本识别器的方法

技术领域

[0001] 本发明涉及智能手机、平板电脑、手提电脑、导航仪等移动智能终端的信息输入领域,具体地指一种统一识别框架下小型化手写体文本识别器的方法。技术背景
[0002] 伴随着移动计算(Mobile Computing)对无线通信、网络、移动技术、端计算和移动智能终端的整合,笔式用户接口成为研究的热点。智能手机、平板电脑、手提电脑、导航仪等移动智能终端的迅猛发展使得手写体信息输入深受大家欢迎和认可。当前,此类设备主要以手写体单字(一次 1 个)输入辅以联想候选项集实现信息输入,这大大的限制了输入的自由性及速度;尽管也有一次输入数个单字(一次 2、3 个)的手写体串输 入,但其识别率和速度还有待进一步提高。像人们平时写字一样,手写体文本输入(一次书写多行且每行多字)是进一步提高信息输入速度和自由度的最佳选择,必将进一步方便大家生产及生活。 尽管以文本的形式手写输入信息较单字手写输入具有较高的速度且满足人 类书写习惯,但手写体文本的识别却挑战巨大。该挑战主要源于手写体文本识别过程中的单字切分和识别产生的不确定性,即首先输入设备不能确定哪些笔画或部分组成一个手写体单字,其次单字识别过程中产生的误识别。因此,手写体文本识别需要经历一系列子专家模的处理。如果让各子专家模块逐次做出判定,会导致前以子模块产生的错误传递给后续子专家模块,即错误累积,使手写体文本识别率极大地降低。另外,经过识别后的手写体文本为文本而非单字,具有自然语言特性,因此可借助信息融合技术消除以上各子专家模块处理时因不确定性产生的歧义。鉴于此,让单字切分、单字识别、自然语言模型三个子专家模块一起对手写体文本做出识别判断,即统一识别框架下的手写体文本识别,是保证手写体文本高认识率最优选择。 虽然统一识别框架保证手写体文本识别器的高认识率,但随着子专家模块的增加,手写体文本识别器所需要的内存空间显著增大。鉴于移动计算过程中完成信息输入的移动智能终端内存相对较小、实时响应性高的特点,要求运行其上的手写体文本识别器占内存相对较小。手写体文本识别器的高认识率与小型化两个特征的互斥性,使现有研究和应用基本都没能够使用全部专家模块,即提高识别率是加专家模块,小型化时则压缩专家模块,导致手写体文本输入无法在移动智能终端上得到应用。

发明内容

[0003] 为解决上述背景技术中存在的问题,达到兼顾高识别率与小型化两个特性,本发明提供了一种在统一识别框架下小型化手写体文本识别器的方法。
[0004] 一种在统一识别框架下小型化手写体文本识别器的方法,具体包括以下步骤:(1)小型化单字切分分类器
在单字切分分类器的构建过程中,采用基于多假设的切分,先依据相邻笔 画的外接矩阵的重叠,把所有的笔画分成不可分割的笔画块,然后由从相邻原始块的滑边(off-stroke)上抽取的几何特征,同时在原始块或组合块上抽取内部结构特征向量,组成单字切分特征向量。然后对抽取的特征向量通过基于 Fisher 线性判定分析进行特征选择,使单字切分特征 向量的维度压缩至10 左右;
(2)小型化单字识别器
在小型化单字识别器的构建过程中,首先选择只占内存几百KB 的联机单字识别器 LTM, 然后基于最小分类错误线性统合联机 LTM 识别器和小型化的脱机单字识别器。用最大似然估计方法初始化特征压缩矩阵、脱机单字识别器的参数,进一步对识别器的特征向量通过分块聚类获得数据压缩用数据字典(聚类中心)。最后基于判定分析方法步优化以上三个部分参数,以确保脱机单字识别器小型化与高识别率;
(3)小型化自然语言模型
在小型化自然语言模型的构建中,将通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变,即采用基于一元、二元和三元线性内插(Interpolation)平滑的自然语言模型;
(4)系统参数优化
在上述各专家模块小型化的基础上,基于最小分类错误算法对统一识别框架各模块的统合参数进行最优化。

具体实施方式

[0005] 一种在统一识别框架下小型化手写体文本识别器的方法,具体包括以下步骤:(1)小型化单字切分分类器
在单字切分分类器的构建过程中,采用基于多假设的切分,先依据相邻笔画的外接矩阵的重叠,把所有的笔画分成不可分割的笔画块,然后由从相邻原始块的滑边(off-stroke)上抽取的几何特征,同时在原始块或组合块上抽取内部结构特征向量,组成单字切分特征向量。然后对抽取的特征向量通过基于 Fisher 线性判定分析进行特征选择,使单字切分特征 向量的维度压缩至10 左右;
(2)小型化单字识别器
在小型化单字识别器的构建过程中,首先选择只占内存几百KB 的联机单字识别器 LTM, 然后基于最小分类错误线性统合联机 LTM 识别器和小型化的脱机单字识别器。用最大似然估计方法初始化特征压缩矩阵、脱机单字识别器的参数,进一步对识别器的特征向量通过分块聚类获得数据压缩用数据字典(聚类中心)。最后基于判定分析方法步优化以上三个部分参数,以确保脱机单字识别器小型化与高识别率;
(3)小型化自然语言模型
在小型化自然语言模型的构建中,将通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变,即采用基于一元、二元和三元线性内插(Interpolation)平滑的自然语言模型;
(4)系统参数优化
在上述各专家模块小型化的基础上,基于最小分类错误算法对统一识别框架各模块的统合参数进行最优化。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈