首页 / 专利库 / 专利权 / 第I章 / 一种基于隐马尔科夫模型的智能分词方法

一种基于隐尔科夫模型的智能分词方法

阅读:1028发布:2020-06-21

专利汇可以提供一种基于隐尔科夫模型的智能分词方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于隐 马 尔科夫模型的智能分词方法,该方法包括以下步骤:⑴建立 隐马尔可夫模型 参数;⑵确定文章中的状态集Θ;⑶在确定了N,M,L之后,将简记为;⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵;⑸对形成的初始A矩阵和B1矩阵及B2矩阵采用BW 算法 进行文章训练,并按BW算法重估公式进行重估,得到新的π矩阵、A矩阵和B1、B2矩阵;⑹运用新的隐马尔可夫模型的参数、采用维特比算法进行中文分词,根据标点符号把文章分为多个句子,对每一个句子进行中文分词,即得分词后的文章。本发明可对大量中文文本进行准确而高效分词。,下面是一种基于隐尔科夫模型的智能分词方法专利的具体信息内容。

1.一种基于隐尔科夫模型的智能分词方法,包括以下步骤:
⑴建立隐马尔可夫模型参数 ,
其中
N为模型中马尔科夫链的状态数目;记N个状态为θ1,…,θN,记t时刻马尔科夫链所处的状态为 ,且 ( ,…, );
M为每个状态对应的可能的单个汉字的观察值数目;记M个观察值为V1,…,VM,记t时刻观察到的观察值 ,其中, (V1,…,VM);
L为每个状态对应的可能的多个汉字的观察值数目;记L个扩展观察值 ,……, ,记t时刻观察到的观察值 ,其中 ( ,……, );
π表示序列开始时选取某个状态的概率,π=(π1,…,πN ),式中 ,1 ≤і≤N;
A表示在当前状态下选取下一个状态的转移概率矩阵,( )N×N,式中
,1 ≤ ≤N;
B1表示第j个状态对应M中第k个观察值出现的概率矩阵, N×M,式中
,1 ≤j ≤N,1 ≤k ≤M;
B2表示第j个状态对应L中第k个元素的观察值出现的概率矩阵,即扩展型观察值概率矩阵,  N×L,式中 ,1≤j≤N,1≤k≤L;
⑵确定文章中的状态集Θ:结合汉语的语言规律,将汉语单字状态集选为字首H、字中Z、字尾E、独字S四个状态;
⑶在确定了N,M,L之后,将 简记为 ;
⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而统计每一个字在该状态上出现的概率,形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵;
⑸对形成的所述初始A矩阵和所述初始的B1矩阵及所述初始的B2矩阵采用BW算法进行文章训练,文章观察值序列称为O,扩展型观察值序列称为EO,得到每一个期望值,以及序列在此参数下出现的条件概率 ,并对每个观察元素的观察值概率按BW算法重
估公式进行重估,算出新的隐马尔可夫模型的参数 及
;并使 收敛到一个最大值,从而得到新的π矩
阵、A矩阵和B1、B2矩阵;
其中: ;
;T指序列的总长度;
所述BW算法是指:给定一个观察值序列O= o1,o2,…,ot,以及扩展EO=e1,e2,…,et,确定一个 ,使 在 条件下处于扩展观察序列EO的概率
最大;
定义观察值概率函数:

前向算法的公式为 ;
初始化:对1 ≤i≤N,有 ;
递推:对于1≤ t ≤ T-1,1 ≤j≤N,有 ;
终止: ;
后向算法的公式为 ;
初始化:对1 ≤ i ≤ N,有 ;
递推:对t=T-1,T-2,…,1,且1 ≤i ≤N,有 ;
终止: ;
根据定义的前向和后向变量,BW算法有
,1≤t≤T-1;
定义 为给定训练序列O和模型 时,在t时刻处于i状态,t+1时刻处于j状态的概率,即 ;在时刻t处于
i状态的概率为 ;
⑹运用新的隐马尔可夫模型的参数 、采用维特比算法进行中
文分词,根据标点符号把文章分为多个句子,对每一个句子进行中文分词,即得分词后的文章。
2.如权利要求1所述的一种基于隐马尔科夫模型的智能分词方法,其特征在于:所述步骤⑹中维特比算法是指定义 为时刻t时沿一条路径q1,q2,…,qt,且qt=i,产生出e1,e2,…,et的最大概率,即有: ;则
求取最佳状态序列Q*的过程为
初始化:对 ,有 ; ;
递推:对 有 , ;
, ;
终止: ; ;
路径回溯,确定最佳状态序列 t=T-1,T-2,…,1。

说明书全文

一种基于隐尔科夫模型的智能分词方法

技术领域

[0001] 本发明涉及一种中文分词方法,尤其涉及一种基于隐马尔科夫模型的智能分词方法。

背景技术

[0002] 随着互联网技术的发展,人们对计算机处理文本的要求越来越高。其中,软件需要具有对文章的输入、显示、编辑、输出等功能,而实现这些功能的基础则是对文本中词语的辨识;但是与英语不同,中文的词语没有天然的分界,所以要想提高中文软件对文本的处理能,就必须做好中文分词。
[0003] 目前,用来进行中文分词的主要方法有机械分词法、理解法和统计法。机械分词法是根据词典中已有的字符串进行分词,但是其分词需要大量的数据,而且对于新出现的词语无能为力;理解法是通过计算机对文章句意、语法的分析来进行分词,缺点在于由于汉语的复杂性,其算法的实现上有极大的困难;统计法,是通过大量的训练对字与字之间概率进行统计,从而实现中文分词。
[0004] 隐马尔可夫模型(Hidden Markov Model,HMM)作为一种统计分析模型,已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。《基于隐马尔科夫模型的中文分词研究》(魏晓宁,电脑知识与技术(学术交流),2007年21期)采用一种基于隐马尔科夫模型(HMM)的算法,通过CHMM(层叠形马尔科夫模型)进行分词,再做分层,既增加了分词的准确性,又保证了分词的效率。但隐马尔可夫模型缺乏对于语言环境的分析,对于频率较低但不常用或较多出现但不成词的情况处理也容易不准确。
[0005] Asahara M, Goh C L, Wang X, et al. Combining segmenter and chunker for Chinese word segmentation[C]//Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17. Association for Computational Linguistics, 2003: 144-147.
[0006] Xue N. Chinese word segmentation as  character tagging[J]. Computational Linguistics and Chinese Language Processing, 2003, 8(1): 29-48.[0007] 这两篇文献介绍了一种基于字标注的隐马尔科夫中文分词模型,该模型继承了字标注模型的优点它能够平衡地看待词表词和未登录词的识别问题,但是缺乏对语言环境的分析。

发明内容

[0008] 本发明所要解决的技术问题是提供一种对大量中文文本进行准确而高效分词的基于隐马尔科夫模型的智能分词方法。
[0009] 为解决上述问题,本发明所述的一种基于隐马尔科夫模型的智能分词方法,包括以下步骤:
[0010] ⑴建立隐马尔可夫模型参数 ,
[0011] 其中
[0012] N为模型中马尔科夫链的状态数目;记n个状态为θ1,…,θn,记t时刻马尔科夫链所处的状态为 ,且 ( ,…, );
[0013] M为每个状态对应的可能的单个汉字的观察值数目;记m个观察值为V1,…,VM,记t时刻观察到的观察值 ,其中, (V1,…,VM);
[0014] L为每个状态对应的可能的多个汉字的观察值数目;记l个扩展观察值 ,……,,记t时刻观察到的观察值 ,其中 ( ,……, );
[0015] π表示序列开始时选取某个状态的概率,π=(π1,…,πn),式中 ,1 ≤ і≤ N;
[0016] A表示在当前状态下选取下一个状态的转移概率矩阵,( )N×N,式中,1 ≤ ≤ N;
[0017] B1表示第j个状态中观察值k 出现的概率矩阵, N×M ,式中,1 ≤ ≤ N,1 ≤ ≤ M;
[0018] B2表示第j个状态中观察值s和观察值k连续出现的概率矩阵,即扩展型观察值概率矩阵,  N×L,式中 ,1 ≤ ≤ N,1 ≤ ≤ L;
[0019] ⑵确定文章中的状态集Θ:结合汉语的语言规律,将汉语单字状态集选为字首H、字中Z、字尾E、独字S四个状态;
[0020] ⑶在确定了N,M,L之后,将 简记为 ;
[0021] ⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而统计每一个字在该状态上出现的概率,形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵;
[0022] ⑸对形成的所述初始A矩阵和所述初始的B1矩阵及所述初始的B2矩阵采用BW算法进行文章训练,文章观察值序列称为O,扩展型观察值序列称为EO,得到每一个期望值,以及序列在此参数下出现的条件概率 ,并对每个观察元素的观察值概率按BW算法重估公式进行重估,算出新的隐马尔可夫模型的参数 及;并使 收敛到一个最大值,从而得到新的π矩阵、A
矩阵和B1、B2矩阵;
[0023] 其中: ;
[0024]
[0025];
[0026] ⑹运用新的隐马尔可夫模型的参数 、采用维特比算法进行中文分词,根据标点符号把文章分为多个句子,对每一个句子进行中文分词,即得分词后的文章。
[0027] 所述步骤⑸中BW算法是指:给定一个观察值序列O= o1,o2,…,ot,以及扩展EO=e1,e2,…,et,确定一个 ,使 在 条件下处于扩展观察序列EO的概率最大;
[0028] 定义观察值概率函数:
[0029] ;
[0030] 前向算法的公式为 ;
[0031] 初始化:对1 ≤ i ≤ N,有 ;
[0032] 递推:对于1≤t≤t-1,1≤j≤N,有 ;
[0033] 终止: ;
[0034] 后向算法的公式为 ;
[0035] 初始化:对1 ≤ i ≤ N,有 ;
[0036] 递推:对t=t-1,t-2,…,1,且1 ≤ i ≤ N,有 ;
[0037] 终止: ;
[0038] 根据定义的前向和后向变量,BW算法有,1≤t≤t-1;
[0039] 定义 为给定训练序列O和模型 时,在t时刻处于i状态,t+1时刻处于j状态的概率,即 ;在时刻t处于i状态的概率为 。
[0040] 所述步骤⑹中维特比算法是指定义 为时刻t时沿一条路径q1,q2,…,qt,且qt=i,产生出e1,e2,…,et的最大概率,即有:;则求取最佳状态序列Q*的过程为
[0041] 初始化:对 ,有 ; ;
[0042] 递推:对 有 , ;, ;
[0043] 终止: ; ;
[0044] 路径回溯,确定最佳状态序列 t=T-1,T-2,…,1。
[0045] 本发明与现有技术相比具有以下优点:
[0046] 1、本发明先通过Baum-Welch算法(简称BW算法)对已有的观察值概率矩阵,和状态概率矩阵进行训练,得到新的观察值概率矩阵和状态概率矩阵,基于新的矩阵,再运用维特比算法对文章进行中文分词。与传统的隐马尔科夫模型不同,本发明采用了新型的观察值概率矩阵,即扩展型观察值概率矩阵;这种矩阵不仅涵盖了中文单字的本身的信息,而且涵盖了语境的信息,有效地减少了统计法中文分词的错误,大大提高了中文分词的正确率[0047] 2、本发明可以对大量的中文文本进行准确而高效的分词,作为其他一系列文本处理技术的前提。附图说明
[0048] 下面结合附图对本发明的具体实施方式作进一步详细的说明。
[0049] 图1为本发明示例扩展后的一个观察状态示意图。
[0050] 图2为本发明示例A矩阵初值示意图。

具体实施方式

[0051] 一种基于隐马尔科夫模型的智能分词方法,包括以下步骤:
[0052] ⑴建立隐马尔可夫模型参数 ,
[0053] 其中
[0054] N为模型中马尔科夫链的状态数目;记n个状态为θ1,…,θn,记t时刻马尔科夫链所处的状态为 ,且 ( ,…,);
[0055] M为每个状态对应的可能的单个汉字的观察值数目;记m个观察值为V1,…,VM,记t时刻观察到的观察值 ,其中, (V1,…,VM);
[0056] L为每个状态对应的可能的多个汉字的观察值数目;记l个扩展观察值 ,……,,记t时刻观察到的观察值 ,其中 ( ,……, );
[0057] π表示序列开始时选取某个状态的概率,π=(π1,…,πn),式中 ,1 ≤ і≤ N;
[0058] A表示在当前状态下选取下一个状态的转移概率矩阵,( )N×N,式中,1 ≤ ≤ N;
[0059] B1表示第j个状态中观察值k出现的概率矩阵 , N×M ,式中,1 ≤ ≤ N,1 ≤ ≤ M;
[0060] B2表示第j个状态中观察值s和观察值k连续出现的概率矩阵,即扩展型观察值概率矩阵,  N×L,式中 ,1 ≤ ≤ N,1 ≤ ≤ L。
[0061] ⑵确定文章中的状态集Θ:结合汉语的语言规律,将汉语单字状态集选为字首H、字中Z、字尾E、独字S四个状态。
[0062] ⑶在确定了N,M,L之后,将 简记为 。
[0063] ⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而统计每一个字在该状态上出现的概率,形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵。
[0064] 例如:由t时刻与t-1时刻共同构成观察序列中的一个元素,具体到分词,扩展到二个汉字,加上序列的前一个时刻的汉字,扩展为一个观察状态(如图1所示)。状态序列中各个时刻的状态由文字序列中各个时刻的观察值(ot)决定,把观察值进行扩展,成了图中两个汉字(该时刻以及之前一个字),t时刻这个观察值(t≠1)即 。而A矩阵可以通过统计得到初值其值,由于汉语中的逻辑规律,其中一些值应该为0,如图2、表1所示。
[0065] 表1
[0066]⑸对形成的初始A矩阵和初始的B1矩阵及初始的B2矩阵采用BW算法进行文章训练,文章观察值序列称为O,扩展型观察值序列称为EO,得到每一个期望值,以及序列在此参数下出现的条件概率 ,并对每个观察元素的观察值概率按BW算法重估公式进行重估,算出新的隐马尔可夫模型的参数 及 ;
并使 收敛到一个最大值,从而得到新的π矩阵、A矩阵和B1、B2矩阵;
[0067] 其中: ;
[0068]
[0069]。
[0070] 其中: BW算法是指:给定一个观察值序列O= o1,o2,…,ot,以及扩展EO=e1,e2,…,et,确定一个 ,使 在 条件下处于扩展观察序列EO的概率最大;
[0071] 定义观察值概率函数:
[0072] ;
[0073] 前向算法的公式为 ;
[0074] 初始化:对1 ≤ i ≤ N,有 ;
[0075] 递推:对于1≤t≤t-1,1≤j≤N,有 ;
[0076] 终止: ;
[0077] 后向算法的公式为 ;
[0078] 初始化:对1 ≤ i ≤ N,有 ;
[0079] 递推:对t=t-1,t-2,…,1,且1 ≤ i ≤ N,有 ;
[0080] 终止: ;
[0081] 根据定义的前向和后向变量,BW算法有,1≤t≤t-1;
[0082] 定义 为给定训练序列O和模型 时,在t时刻处于i状态,t+1时刻处于j状态的概率,即 ;在时刻t处于i状态的概率为 。
[0083] ⑹运用新的隐马尔可夫模型的参数 、采用维特比算法进行中文分词,根据标点符号把文章分为多个句子,对每一个句子进行中文分词,即得分词后的文章。
[0084] 其中:维特比算法是指定义 为时刻t时沿一条路径q1,q2,…,qt,且qt=i,产生出e1,e2,…,et的最大概率,即有:;则求取最佳状态序列Q*的过程为
[0085] 初始化:对 ,有 ; ;
[0086] 递推:对 有 , ;, ;
[0087] 终止: ; ;
[0088] 路径回溯,确定最佳状态序列 t=T-1,T-2,…,1。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈