首页 / 专利库 / 专利权 / 第I章 / 国际检索单位 / 模糊识别法在词组识别中的应用

模糊识别法在词组识别中的应用

阅读:239发布:2020-05-11

专利汇可以提供模糊识别法在词组识别中的应用专利检索,专利查询,专利分析的服务。并且本 发明 提出了一种通过识别组成词组的各个孤立单字来识别词组的有效方法。单字识别时,采用模糊识别技术,极大地提高了单字识别的识别率和响应速度。为提高词组识别率打下了良好的 基础 。本发明提出的这一词组识别法具有一定的创造性、新颖性和实用性。,下面是模糊识别法在词组识别中的应用专利的具体信息内容。

申请提出的这一词组识别法具有一定的创造性、新颖性和实用性。它具有如下特征:
1、将输入词组语音信号以辅音为标志切分成一段段以单字为单位的语音信号
2、以单字语音信号中的语音特征作为识别特征对单字进行识别。(特征的选取见表1)
表1 等级1 用35个元音音素作为单字识别特征 等级2 用35个元音音素配合声调作为单字 识别特征 等级3 用21个辅音配合35个元音作为单字 识别特征 等级4 用辅音加元音再配合声调作为单字 识别特征
3、单字识别时采用模糊识别方法。单字识别时的模糊程度,由单字识别时所选取的语音特征决定。这里将模糊程度定为四个等级,模糊程度:等级1>等级2>等级3>等级4>。见表1。
4、定义一个词组字符串检索词库。词库中的每一个记录由两项组成,“key”项和“showc”项.见表2。
表2 key showc 特征序列字 符串1 国际码库序 列1 特征序列字 符串2 国标码库序 列2 : : : :
“国际码序列”:由组成该词组的各单字的国际码组成的序列。
“特征序列字符串”:由组成该词组的各单字的识别用语音特征表示符组成的字符串。
5、用由(三)给出的组成输入词组的各单字的语音特征符串作为输入,在由(四)定义的库中通过对“key”项检索找出与其距离最近的“key”项,其该“key”项相应的“showc”项作为输入词组的识别结果。

说明书全文

将汉字输入计算机主要有三种方法:键盘输入、字形识别输入和语音识别输入。在语音识别中,有单字识别和词组识别两种途径。由于汉字同音字较多,因此,单字识别的重码字较多,输入效率不高,速度较慢。目前的语音识别系统多以词组输入为主,目前的词组输入系统有不少缺点:①识别响应速度慢;②与特定人有关,且朗读速度要求严格;③需要高速专用语音处理芯片;④价格昂贵。

现有的词组识别输入系统大都使用整个词组语音信号作为识别样本进行整词识别的。因此,一个词在词汇样本库中至少要有一个模板。随着词库词汇量的增加,其词库中的词条模板也不断增加,数据量也随之增加,识别时间增长,响应速度变慢,识别率降低。即使使用高速专用语音信号处理芯片也难以满足大词汇量词库的识别需要。

申请提出了一种通过识别组成词组的各个孤立单字来识别词组的有效方法。单字识别时,采用模糊识别技术,极大地提高了单字识别的识别率和响应速度。

由于以单字语音特征为识别基础所以极大地减少了词组识别时所要处理的数据量,而且要处理的数据量不会随着词库中词组条目的增加而增加,另外,由于识别模板数量少(一般只有几十个或几百个),所要处理的数据量也少,所以识别响应速度快,识别率也较高。为提高词组识别率打下了良好的基础。本识别方法将单字的识别结果不直接用汉字本身给出,而是用反映该汉字特征的语言音素的符号来表示。这样就将词组转换成了一串表示各单字语音音素特征的字符。进而可以用表示该输入词组特征的字符串在词库中找出输入词组的识别结果。本申请提出的这一词组识别法具有一定的创造性、新颖性和实用性。它具有如下特征:

一、将输入词组语音信号以辅音为标志切分成一段段以单字为单位的语音信号。

二、以单字语音信号中的语音特征作为识别特征对单字进行识别。(特征的选取见表2)。

三、本方法的最大特点是通过单字识别实现词组识别,单字识别时采用模糊识别方法。

单字识别出的结果不直接用汉字来给出(表示),而是用该汉字所属语音特征的语音特征符表示,说明书中表1是该特征表的一种定义形式。这样使得单字的识别结果具有很大的模糊性,这不但提高了对单字识别的正确识别率(因为大的模糊性,高的容错性),同时为下一步进行词组字符串检索识别作好了准备。

单字识别时的模糊程度,由单字识别时所选取的语音特征决定。这里将模糊程度定为四个等级,模糊程度:等级1>等级2>等级3>等级4。见表2。

表2 等级1 用35个元音音素作为单字识别特征 等级2 用35个元音音素配合声调作为单字 识别特征 等级3 用21个辅音配合35个元音作为单字 识别特征 等级4 用辅音加元音再配合声调作为单字 识别特征

四、定义一个词组字符串检索词库。词库中的每一个记录由两项组成,“key”项和“showc”项。见表3。

表3 key showc 特征序列字 符串1 国际码库序 列1 特征序列字 符串2 国标码库序 列2 : : : :

“国际码序列”:由组成该词组的各单字的国标码组成的序列。

“特征序列字符串”:由组成该词组的各单字的识别用语音特征表示符组成的字符串。

五、用由(三)给出的组成输入词组的各单字的语音特征符串作为输入,在由(四)定义的库中通过对“key”项检索找出与其距离最近的“key”项,其该“key”项相应的“showc”项作为输入词组的识别结果。

[实例]下面给出上述方法的一个具体实施例子,本例选取汉字的元音音素作为其识别特征。汉字虽然有上万个,但其语音音节总共不过419个,再加上声调的配合也不过1332个。汉字的语音音素可分为两类;辅音和元音。汉语辅音有21个,元音有35个。用英文26个大写字母A,B,C,..Z和1,2,3..9九个数字 表示35个元音,称为它们的符号表示,另外用mi(i=1,2...,35)表示其语音模板。见表1。表1=(表1.1+表1.2+表1.3+表1.4)。

表1.4

对待识别词组,建立一个词库。该词库的每一条由两项组成。一项是组成该词组的各汉字的国标码序列,另一项是表示该词组的一个字符串,该符号串由表1中“元音表示符号”栏(栏3)中的符号组成,它反映了该词组的语音特征。

对于每一个可能在词组中出现的汉字,都根据其元音部分,映射到表1中表示该元音的某个符号上。即用表1中表示该元音的某个符号表示。因此,一个汉字就可以用一个符号表示,一个词组就可以用一个符号串表示。表3是词库的一个例子。表4=(表4.1+表4.2),表4.1是其书面形式,表4.2是其机内形式。

设输入词组的语音信号为YC,YC为一个连续语音信号,它由几个单字语音信号组成,设单字的语音信号为fiyi,则YC可由下式表示:

YC=fiyi(i=1,2,...,n)

其中fi为辅音信号,yi为元音信号

对于输入语音信号fiyi(i=1,2,...n)用辅音作为分割标志对其进行切分后,保留其元音信号序列yi(i=1,2,...n)取yi与表1中元音音素模板进行匹配,当模板mj与yi匹配距离最近时,则用mj第三栏中的对应符表示yi。例:如果y1=m3,则有y1=c。当yi(i=1,2,...n)都匹配完成,并都用其符号表示时,语音信号序列fiyi就转换成了字符序列。用该字符序列,到词库中去寻找与其匹配距离最近的词条项,将该词条项国标码序列所表示的汉字串作为输入词组的识别结果。

对于输入词组“语音识别”,假设其语音信号为f1y1f2y2f3y3f4y4,按辅音通过对其切分后,我们有y1,y2,y3,y4。则:

经过对yi(i=1,2,3,4)的识别后我们有:

y1=6,y2=S,y3=M,y4=0。得输入词组的字符串表示:6SMO。用该字符串在4.2中可以找到其识别结果为“语音识别”。

表4.1

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈