首页 / 专利库 / 人工智能 / 计算语言学 / 一种中文自动校对方法及其系统

一种中文自动校对方法及其系统

阅读:783发布:2020-06-08

专利汇可以提供一种中文自动校对方法及其系统专利检索,专利查询,专利分析的服务。并且本 发明 属于 计算语言学 领域,本发明是将汉语语言学知识、信源模型和信道模型引入汉语文本的自动校对。其特征在于将汉语语法、语义规则和从大型语料库中统计出汉语语法单位之间的搭配关系做为正确的模板与实际被测文本进行比较,从而找出与汉语语法及习惯用法不合的奇异点。针对上述奇异点,引入各种汉字输入的差错模式,排除易虚报部分,最终确定出错可能较大的那部分奇异点并找到错字或错词(短语)。本发明可查找汉语文本的录入错误及语法、语义错误。,下面是一种中文自动校对方法及其系统专利的具体信息内容。

1一种计算机中文自动校对方法,其特征包括以下步骤:
1).将有关语言学知识编制成程序及各类数据库预先存储在计算机 中,其中包括语法、语义数据库;由汉语语法单位之间惯用搭配关系构 成的信源模型,通常的差错模式构成的信道模型;
2).将输入的中文文本按标点切分成句,再按句切分为音节、字词、 短语或意群等语法单位;
3).采用动态规划或维特比算法,排除歧义切分,找出最佳匹配;
4).将切分后的文本与语法、语义库进行比较找出病句,错句的语 法相关性检查;
5).将文本语法单位之间的搭配与所说的信源模型进行比较,找出 不相关点的统计相关性检查;
6).将所说4、5步骤得到的不相关点与差错模式库进行比较,排除 虚报错误;得到真实错误供修改
2如权利要求所说的校对方法,其特征在于所说的语法切分采用正 向最大匹配法和逆向匹配法,再用最大组合概率法处理上述两种方法的 歧义切分点,得到最佳匹配。
3如权利要求所述的校对方法,其特征在于所说的统计相关性检查 的信源模型为尔可夫模型,其状态可取为汉语的音节、字、词、短语, 阶数可取为0、1、2。
4如权利要求1所述的中文自动校对方法,所对应的差错模式的特 征在于信道模型包括汉字的所有编码输入法及OCR和语音识别输入法。
5一种中文自动校对系统,包括输入单元,CPU处理单元和输出单元, 其特征在于所说的处理单元内存储有按权利要求1所述方法编制的中文 校对软件

说明书全文

发明属于计算语言学领域,特别涉及利用计算机进行中文自动校 对的方法及其系统。

随着计算机在出版印刷和办公自动化领域的广泛应用,中文字处理 系统已成为国内计算机系统不可缺少的组成部份。由于文字录入不可避 免地存在错误,利用计算机对机内中文文本进行校对已成为出版印刷和 办公自动化的必然要求。

目前与计算机中文自动校对有关的已有技术主要有以下几种:

1计算机语音校对:该技术利用语音合成模拟“唱校”,由计算机 “朗读”机内文本,由人监听、判断是否有错。其缺点是阅读速度慢, 合成语音自然度差,一字多音易出现虚警,一音多字易造成漏报。监听 人员实际劳动强度大于人工“唱校”,并需在计算机上安装发声设备。

2计算机多文本对照比较:该技术要点是利用小概率事件(录入错误) 不大可能多次重复发生这一原理,利用计算机在多次录入的同一文本之 间进行了对比,从而找出相异处进行人工干预修正。该方法精度高,不 足之处需多遍录入同一文本(通常是二次或三次)。

3西文拼写校对和语法语义校对:该技术要点是对西文机内文本进 行词典匹配和语法语义分析检查。西文拼写校对因简单易行而在世界范 围得到了普及。语法语义校对除用于错误检查外还用于篇章评价。该方 法的缺点是词典或语法、语义规则覆盖程度不够易造成精度低和虚报高 。该缺点已得到广大使用者的理解和容忍。

由于机内汉语文本中词与词之间没有自然间隔(如英文的空格等), 单字本身无对错可言,故拼写校对的原理并不适用中文自动校对。汉语 由于缺乏时态、语态和形态特征从而使其语法体系带有较大的不确定性, 分析难度大。单纯的语法语义校对是人工智能和计算语言学短期内难于 解决的难题。

本发明的目的在于克服或回避已有技术的不足之处,提出一种新的 中文自动校对方法,主要采用语法相关性检查与统计相关性检查相结合 的方法,在不增加(语音)设备的前提下,单纯利用计算机的存储、运算、 判断功能来查找汉语文本中可能存在的错误,再通过汉语信道模型对可 能的错误进行确认,并以此方法制成校对软件与通用微机相结合构成中 文自动校对系统。

本发明所述的一种计算机中文自动校对方法,其特征包括以下步骤:

1).将有关语言学知识编制成各类数据库予先存储在计算机中,其 中包括语法、语义数据库;由汉语语法单位之间惯用搭配关系构成的信 源模型,通常的差错模式构成的信道模型;

2).将输入的中文文本按标点切分成句,再按句切分音节、字词、 短语或意群等语法单位;

3).采用动态规划或维特比算法,排除歧义切分,找出最佳匹配;

4).将切分后的文本与语法、语义库进行比较找出病句,错句的语法 相关性检查;

5).将文本语法单位之间的搭配与所说的信源模型进行比较,找出 不相关点的统计相关性检查;

6).将所说4、5步骤得到的不相关点与差错模式库进行比较,排除 虚报错误;得到真实错误供修改

本发明所说的语法单位的切分采用正向最大匹配法和逆向匹配法, 再用最大组合概率法处理上述两种方法的歧义切分点,得到最佳匹配。

本发明所说的统计相关性检查的信源模型为尔可夫模型,其状态 可取为汉语的音节、字、词、短语,阶数可取为0、1、2。

本发明所说的差错模式对应的信道模型包括汉字的所有编码输入法 及OCR和语音识别输入法。

本发明提出一种中文自动校对系统,包括输入单元,CPU处理单元和 输出单元,其特征在于所说的处理单元内运行按上述方法编制的中文校 对软件。

本发明的特征在于将语言学知识、信源模型和信道模型引入中文自 动校对。

首先,该方法将各类语法、语义知识存储在计算机内,将其用于汉 语文本的语法相关性检查,即通常所说的找“错句”、“病句”。

其次,该方法用统计方法总结出汉语语法单位(如字、词)之间的搭 配关系。将其作为标准模板用于检查汉语文本中的错字和用词不当。从 理论上讲就是将汉语语法单位作为组成马尔可夫信源模型的状态,利用 状态之间的转移概率来判断汉语语法单位之间的统计相关性。

最后,该方法总结出常见的易错字、词和出错方式,用于进一步确 定真实错误。把不属于上述范围的不相关点作为虚报排除掉。

该方法通过程序编制体现为软件形式,与计算机相结合即构成中文 自动校对系统。通过计算机进行知识存储、文本分析、判决运算、错误 显示及存储从而实现计算机汉语文本自动校对。

附图简要说明:

图1本发明所述的中文自动校对方法的流程框图

图2本发明所述的中文自动校对系统的构成框图。

本发明所述中文自动校对方法的一种实施例如图1所示,包括以下 步骤:

1语法单位的切分。

为了判断汉语文本中可能存在的错误,首先要将文章按标点切分为 句,在句内依据语法单位之间的语法相关性或统计相关性进行错误侦测。 如果基本语法单位为音节或字,则可直接按固定长度直接切分。如果基 本语法单位是词、短语或意群,则按常用的正向最大匹配法(FMM)和逆 向最大匹配法(BMM)分词,产生歧义切分时引入动态规划或维特比算法 来排除歧义切分,寻找最佳路径(即最佳匹配)。

2相关性检查

①语法相关性检查

其目的在于找出汉语句子中不符合语法、语义规则的不相关点。例 如:

“我/们/再/北京”,即可通过语法相关性检查判断出其语法结构 不完整。

语法相关性检查所用的语法、语义库是靠将汉语法、语义知识转化 为计算机程序或数据库的方式获取的。知识来源包括语法书、辞典及形 式语言的基本理论。

例如:汉语中有如下句法:

句子=主语+谓语+宾语          (规则一)

语法库中即有相应规则,用形式语言表达如下:

Sentence→subj+pred+obj       (规则二)

如果语法书中规定只有名词、代词能够做主语、宾语,只有动词能 够做谓语,则可用数组表示如下:

subj{noun,pronoun}             (规则三)

pred{verb}

obj{noun,pronoun}

通过演绎,可得到如下规则:

Sentence→{noun|pronoun}+{verd}+{noun|pronoun}  (规则四)

如果语法系统借助词典对每个词都进行了词性标注,则各单词有如 下属性:

我们(pronoun),在(adv),北京(noun)

“我们/再/北京”显然不符合规则四,也不符合规则一。就与汉语 基本语法规则相矛盾,由此可检查出语法不相关点——“在”字。

②统计相关性检查

其目的在于查找那些符合实际语言习惯的错误。如“美国/总理/访 华”,该句符合Sentennce→subj+pred+obj结构,并无句法错误, 但实际上此句“通而不顺”。因为尽管“美国”、“总理”都是名词, 两个名词可构成偏正词组,但实际语言中并无“美国总理”这一搭配。

统计相关性检查实质上是检查汉语语法单位之间的搭配关系。大量 的汉语语法单位之间的搭配关系构成了汉语的信源模型,被作为标准模 板用于检查被测文本是否与其相符合。

信源模型的建立是靠对大量实际文本进行统计实现的,例如:文本 中有句子:

“美国/总统/会见/泰国/总理。”

“法国/总理/访/华。”

“泰国/总理/访/华。”

从这三句中可统计出如下搭配关系:

美国/总统总统/会见  会见/泰国泰国/总理

法国/总理总理/访    访/华

泰国/总理总理/访    访/华

这些搭配构成了以词为状态的一阶汉语马尔可夫信源模型。可用矩 阵表示如下:

     美国 总统 会见 泰国 总理 法国  访 华 

美国  0    1    0    0    0    0    0   0

总统  0    0    1    0    0    0    0   0

会见  0    0    0    1    0    0    0   0

泰国  0    0    0    0    2    0    0   0

总理  0    0    0    0    0    0    2   0

法国  0    0    0    0    1    0    0   0

访    0    0    0    0    0    0    0   2

华    0    0    0    0    0    0    0   0

矩阵中的零元素即表示无搭配关系。非零元素不仅可用于表示存在 搭配关系,还可以进一步表示这种搭配关系的强弱,如P(访,华)=2, 即表示这种搭配用法经常出现,可能是强搭配关系。

对于实际文本,只需在信源模型中检查其搭配关系是否存在即可判 断是否统计相关。

例如:美国/总理/访/华。

P(美国,总理)=0,P(总理/访)=2,P(访,华)=2,

“美国总理”即为统计不相关点。 3   错误的确认

由于语法、语义规则并不能完全覆盖所有的语法现象,并且语料库 作为一个有限集合不能完全反映汉语自然语言的统计规律,相关性检查 得出的错误中必然含有一部分由于知识不足所造成的虚报。

本发明总结出常见的易错字、词和录入中常见的出错方式,构成信 道畸变模型,用于进一步确定真实错误。把不属于上述范围的不相关点 作为虚报排除掉。现以OCR(光学字符扫描设备)为例:

设有句子:“敌人的来日来到了”,经分词后得到序列:“敌人/ 的/未/日/来到/了”。不相关的奇点为”的/未/日”,在OCR扫描输入中, 差错模式为字形相近的字之间误识,如“未”与“末”,此时将“末” 替换“未”,“敌人的末日来到了”,经分词后得序列:“敌人/的/末 日/来到/了”。无不相关奇点,故确定“未”字为真实错误。其原型 为“末”。

又如“氟胍酸胶囊”这类技术性新词短语,已往的语料库中很少涉 及,也无法用常规语法解释,在这种情况下,若在奇异点字、词的差 错模式中找不出其原型,则认为该奇异点为特例(新词或词的新用法), 作为虚报处理。

对于拼音而言,其误码往往是同音字或近音字。对五笔字型,其差 错模式往往是拆字错或少打识别码。如对于OCR(光学字符识别系统)或 人眼看错字,差错模式往往是字型相似。如“未”各“末”,“已”和 “已”等。

对于击键错误,国外已总结出四类差错模式,即“插入”(多一字 符)、“删除”(少一字符)、“交叉换位”、“错字符”。

对于各种各样的输入方法会有各种不同的差错模式,本发明所述方 法的特点在于将这些差错模式引入自动校对。

信道模型的引入能极大地降低虚报率,克服英文拼写校对系统中由 于词汇量、缩写、专有名词等造成的虚报。这是本发明的技术特点之一

本发明所述的中文自动校对系统的一种实施例如图2所示。由输入 单元,处理单元和输出单元三部分组成。其中,输入单元可以是通用键 盘,也可以是语音卡,OCR光笔板等。即可通过各种方式输入中文文本, 处理单元包括CPU处理器及其存储器,本发明所述自动校对方法用C语言 编制成中文自动校对程序存储在处理单元的存储器中,输出单元包括显 示器及打印机,可将校对好的中文文本显示并输出。

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈