一种在统一识别框架下小型化手写体文本识别器的方法专利检索-平板电脑移动通信终端电信专利检索查询-专利查询网

一种在统一识别 框架下小型化手写体文本识别器的方法

阅读：813发布：2020-05-08

专利汇可以提供一种在统一识别框架下小型化手写体文本识别器的方法专利检索，专利查询，专利分析的服务。并且本发明涉及智能手机、平板电脑、手提电脑、导航仪等移动智能终端的信息输入领域，具体地指一种统一识别框架下小型化手写体文本识别器的方法。具体包括以下步骤：（1）小型化单字切分分类器，（2）小型化单字识别器，（3）小型化自然语言模型，（4）系统参数优化。，下面是一种在统一识别框架下小型化手写体文本识别器的方法专利的具体信息内容。

权利要求

1.一种在统一识别框架下小型化手写体文本识别器的方法，其特征在于，具体包括以下步骤：
（1）小型化单字切分分类器
在单字切分分类器的构建过程中，采用基于多假设的切分，先依据相邻笔画的外接矩阵的重叠，把所有的笔画分成不可分割的笔画块，然后由从相邻原始块的滑边（off-stroke）上抽取的几何特征，同时在原始块或组合块上抽取内部结构特征向量，组成单字切分特征向量，然后对抽取的特征向量通过基于 Fisher 线性判定分析进行特征选择，使单字切分特征向量的维度压缩至10 左右；
（2）小型化单字识别器
在小型化单字识别器的构建过程中，首先选择只占内存几百KB 的联机单字识别器 LTM, 然后基于最小分类错误线性统合联机 LTM 识别器和小型化的脱机单字识别器，用最大似然估计方法初始化特征压缩矩阵、脱机单字识别器的参数，进一步对识别器的特征向量通过分块聚类获得数据压缩用数据字典（聚类中心），最后基于判定分析方法步优化以上三个部分参数，以确保脱机单字识别器小型化与高识别率；
（3）小型化自然语言模型
在小型化自然语言模型的构建中，将通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变，即采用基于一元、二元和三元线性内插（Interpolation）平滑的自然语言模型；
（4）系统参数优化
在上述各专家模块小型化的基础上，基于最小分类错误算法对统一识别框架各模块的统合参数进行最优化。

说明书全文

一种在统一识别框架下小型化手写体文本识别器的方法

技术领域

[0001] 本发明涉及智能手机、平板电脑、手提电脑、导航仪等移动智能终端的信息输入领域，具体地指一种统一识别框架下小型化手写体文本识别器的方法。技术背景

[0002] 伴随着移动计算（Mobile Computing）对无线通信、网络、移动技术、云端计算和移动智能终端的整合，笔式用户接口成为研究的热点。智能手机、平板电脑、手提电脑、导航仪等移动智能终端的迅猛发展使得手写体信息输入深受大家欢迎和认可。当前，此类设备主要以手写体单字（一次 1 个）输入辅以联想候选项集实现信息输入，这大大的限制了输入的自由性及速度；尽管也有一次输入数个单字（一次 2、3 个）的手写体串输入，但其识别率和速度还有待进一步提高。像人们平时写字一样，手写体文本输入（一次书写多行且每行多字）是进一步提高信息输入速度和自由度的最佳选择，必将进一步方便大家生产及生活。尽管以文本的形式手写输入信息较单字手写输入具有较高的速度且满足人类书写习惯，但手写体文本的识别却挑战巨大。该挑战主要源于手写体文本识别过程中的单字切分和识别产生的不确定性，即首先输入设备不能确定哪些笔画或部分组成一个手写体单字，其次单字识别过程中产生的误识别。因此，手写体文本识别需要经历一系列子专家模块的处理。如果让各子专家模块逐次做出判定，会导致前以子模块产生的错误传递给后续子专家模块，即错误累积，使手写体文本识别率极大地降低。另外，经过识别后的手写体文本为文本而非单字，具有自然语言特性，因此可借助信息融合技术消除以上各子专家模块处理时因不确定性产生的歧义。鉴于此，让单字切分、单字识别、自然语言模型三个子专家模块一起对手写体文本做出识别判断，即统一识别框架下的手写体文本识别，是保证手写体文本高认识率最优选择。虽然统一识别框架保证手写体文本识别器的高认识率，但随着子专家模块的增加，手写体文本识别器所需要的内存空间显著增大。鉴于移动计算过程中完成信息输入的移动智能终端内存相对较小、实时响应性高的特点，要求运行其上的手写体文本识别器占内存相对较小。手写体文本识别器的高认识率与小型化两个特征的互斥性，使现有研究和应用基本都没能够使用全部专家模块，即提高识别率是加专家模块，小型化时则压缩专家模块，导致手写体文本输入无法在移动智能终端上得到应用。

发明内容

[0003] 为解决上述背景技术中存在的问题，达到兼顾高识别率与小型化两个特性，本发明提供了一种在统一识别框架下小型化手写体文本识别器的方法。

[0004] 一种在统一识别框架下小型化手写体文本识别器的方法，具体包括以下步骤：（1）小型化单字切分分类器
在单字切分分类器的构建过程中，采用基于多假设的切分，先依据相邻笔画的外接矩阵的重叠，把所有的笔画分成不可分割的笔画块，然后由从相邻原始块的滑边（off-stroke）上抽取的几何特征，同时在原始块或组合块上抽取内部结构特征向量，组成单字切分特征向量。然后对抽取的特征向量通过基于 Fisher 线性判定分析进行特征选择，使单字切分特征向量的维度压缩至10 左右；
（2）小型化单字识别器
在小型化单字识别器的构建过程中，首先选择只占内存几百KB 的联机单字识别器 LTM, 然后基于最小分类错误线性统合联机 LTM 识别器和小型化的脱机单字识别器。用最大似然估计方法初始化特征压缩矩阵、脱机单字识别器的参数，进一步对识别器的特征向量通过分块聚类获得数据压缩用数据字典（聚类中心）。最后基于判定分析方法步优化以上三个部分参数，以确保脱机单字识别器小型化与高识别率；
（3）小型化自然语言模型
在小型化自然语言模型的构建中，将通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变，即采用基于一元、二元和三元线性内插（Interpolation）平滑的自然语言模型；
（4）系统参数优化
在上述各专家模块小型化的基础上，基于最小分类错误算法对统一识别框架各模块的统合参数进行最优化。

具体实施方式

[0005] 一种在统一识别框架下小型化手写体文本识别器的方法，具体包括以下步骤：（1）小型化单字切分分类器
在单字切分分类器的构建过程中，采用基于多假设的切分，先依据相邻笔画的外接矩阵的重叠，把所有的笔画分成不可分割的笔画块，然后由从相邻原始块的滑边（off-stroke）上抽取的几何特征，同时在原始块或组合块上抽取内部结构特征向量，组成单字切分特征向量。然后对抽取的特征向量通过基于 Fisher 线性判定分析进行特征选择，使单字切分特征向量的维度压缩至10 左右；
（2）小型化单字识别器
在小型化单字识别器的构建过程中，首先选择只占内存几百KB 的联机单字识别器 LTM, 然后基于最小分类错误线性统合联机 LTM 识别器和小型化的脱机单字识别器。用最大似然估计方法初始化特征压缩矩阵、脱机单字识别器的参数，进一步对识别器的特征向量通过分块聚类获得数据压缩用数据字典（聚类中心）。最后基于判定分析方法步优化以上三个部分参数，以确保脱机单字识别器小型化与高识别率；
（3）小型化自然语言模型
在小型化自然语言模型的构建中，将通过存储词汇元组出现概率的传统模式向直接拟合一个泛化了的概率生成函数转变，即采用基于一元、二元和三元线性内插（Interpolation）平滑的自然语言模型；
（4）系统参数优化
在上述各专家模块小型化的基础上，基于最小分类错误算法对统一识别框架各模块的统合参数进行最优化。

标题	发布/更新时间	阅读量
一种光刻机数据通讯系统及其通讯方法	2020-05-08	521
一种在统一识别框架下小型化手写体文本识别器的方法	2020-05-08	813
一种基于OCR的硬件设备配置方法	2020-05-11	309
一种基于LoRa技术的电力沟道内光缆故障定位系统及方法	2020-05-08	584
基于人工智能的在线教育课程分配平台	2020-05-08	11
基于实景三维地理信息系统的可视化系统	2020-05-08	58
一种基于互联网的共享打印（扫描）设备及系统	2020-05-11	375
带磁吸架的行李箱	2020-05-08	385
一种平板导光板抛光设备	2020-05-08	132
一种后壳带有内置游戏手柄的平板电脑	2020-05-08	179

一种在统一识别框架下小型化手写体文本识别器的方法

一种在统一识别框架下小型化手写体文本识别器的方法

技术领域

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：