专利汇可以提供一种基于隐马尔科夫模型的智能分词方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于隐 马 尔科夫模型的智能分词方法,该方法包括以下步骤:⑴建立 隐马尔可夫模型 参数;⑵确定文章中的状态集Θ;⑶在确定了N,M,L之后,将简记为;⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵;⑸对形成的初始A矩阵和B1矩阵及B2矩阵采用BW 算法 进行文章训练,并按BW算法重估公式进行重估,得到新的π矩阵、A矩阵和B1、B2矩阵;⑹运用新的隐马尔可夫模型的参数、采用维特比算法进行中文分词,根据标点符号把文章分为多个句子,对每一个句子进行中文分词,即得分词后的文章。本发明可对大量中文文本进行准确而高效分词。,下面是一种基于隐马尔科夫模型的智能分词方法专利的具体信息内容。
1.一种基于隐马尔科夫模型的智能分词方法,包括以下步骤:
⑴建立隐马尔可夫模型参数 ,
其中
N为模型中马尔科夫链的状态数目;记N个状态为θ1,…,θN,记t时刻马尔科夫链所处的状态为 ,且 ( ,…, );
M为每个状态对应的可能的单个汉字的观察值数目;记M个观察值为V1,…,VM,记t时刻观察到的观察值 ,其中, (V1,…,VM);
L为每个状态对应的可能的多个汉字的观察值数目;记L个扩展观察值 ,……, ,记t时刻观察到的观察值 ,其中 ( ,……, );
π表示序列开始时选取某个状态的概率,π=(π1,…,πN ),式中 ,1 ≤і≤N;
A表示在当前状态下选取下一个状态的转移概率矩阵,( )N×N,式中
,1 ≤ ≤N;
B1表示第j个状态对应M中第k个观察值出现的概率矩阵, N×M,式中
,1 ≤j ≤N,1 ≤k ≤M;
B2表示第j个状态对应L中第k个元素的观察值出现的概率矩阵,即扩展型观察值概率矩阵, N×L,式中 ,1≤j≤N,1≤k≤L;
⑵确定文章中的状态集Θ:结合汉语的语言规律,将汉语单字状态集选为字首H、字中Z、字尾E、独字S四个状态;
⑶在确定了N,M,L之后,将 简记为 ;
⑷运用计算机语言,先采用机械分词法对大量的文章进行分词;然后用计算机对其状态进行标注,进而统计每一个字在该状态上出现的概率,形成初始的π矩阵、A矩阵、B1矩阵、B2矩阵;
⑸对形成的所述初始A矩阵和所述初始的B1矩阵及所述初始的B2矩阵采用BW算法进行文章训练,文章观察值序列称为O,扩展型观察值序列称为EO,得到每一个期望值,以及序列在此参数下出现的条件概率 ,并对每个观察元素的观察值概率按BW算法重
估公式进行重估,算出新的隐马尔可夫模型的参数 及
;并使 收敛到一个最大值,从而得到新的π矩
阵、A矩阵和B1、B2矩阵;
其中: ;
;T指序列的总长度;
所述BW算法是指:给定一个观察值序列O= o1,o2,…,ot,以及扩展EO=e1,e2,…,et,确定一个 ,使 在 条件下处于扩展观察序列EO的概率
最大;
定义观察值概率函数:
;
前向算法的公式为 ;
初始化:对1 ≤i≤N,有 ;
递推:对于1≤ t ≤ T-1,1 ≤j≤N,有 ;
终止: ;
后向算法的公式为 ;
初始化:对1 ≤ i ≤ N,有 ;
递推:对t=T-1,T-2,…,1,且1 ≤i ≤N,有 ;
终止: ;
根据定义的前向和后向变量,BW算法有
,1≤t≤T-1;
定义 为给定训练序列O和模型 时,在t时刻处于i状态,t+1时刻处于j状态的概率,即 ;在时刻t处于
i状态的概率为 ;
⑹运用新的隐马尔可夫模型的参数 、采用维特比算法进行中
文分词,根据标点符号把文章分为多个句子,对每一个句子进行中文分词,即得分词后的文章。
2.如权利要求1所述的一种基于隐马尔科夫模型的智能分词方法,其特征在于:所述步骤⑹中维特比算法是指定义 为时刻t时沿一条路径q1,q2,…,qt,且qt=i,产生出e1,e2,…,et的最大概率,即有: ;则
求取最佳状态序列Q*的过程为
初始化:对 ,有 ; ;
递推:对 有 , ;
, ;
终止: ; ;
路径回溯,确定最佳状态序列 t=T-1,T-2,…,1。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
网络文章原创性判定方法 | 2020-05-17 | 58 |
以密钥基础建设系统实现的电子签验章方法 | 2020-05-15 | 57 |
印章自动对比辨识系统 | 2020-05-20 | 245 |
以密钥基础建设系统实现的电子签验章方法 | 2020-05-15 | 892 |
信息记录设备和信息记录方法 | 2020-05-20 | 677 |
印章自动对比辨识系统 | 2020-05-20 | 1029 |
一种分布式电子签章方法和系统 | 2020-05-15 | 976 |
一种文章生成的方法和装置 | 2020-05-11 | 611 |
基于内容主观倾向的文章推荐方法及系统 | 2020-05-19 | 721 |
一种便于携带的财务章存放装置 | 2020-05-13 | 897 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。