首页 / 专利库 / 人工智能 / 词性标注 / 一种融入语义信息的中文句法分析方法

一种融入语义信息的中文句法分析方法

阅读:913发布:2021-08-29

专利汇可以提供一种融入语义信息的中文句法分析方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种结合语义信息的中文句法分析方法,属于 自然语言处理 技术领域。本发明的方法为:1)按照知网的上下位关系 抽取 出词的不同层次的语义类别,得到由词到语义类的索引;2)以句法树中的词作为键值对知网进行查询得到该词的语义类,并将语义类添加到句法树的某一层上;3)将步骤2)处理后的句法树作为 训练数据 ,进行文法训练,得到文法模型;4)利用步骤3)训练后的文法模型对待分析的句子进行解码。与 现有技术 相比,本发明采用语义信息帮助句法分析消歧,使句法分析效果有显著提升。,下面是一种融入语义信息的中文句法分析方法专利的具体信息内容。

1.一种结合语义信息的中文句法分析方法,其步骤为:
1)按照知网的上下位关系抽取出词的不同层次的语义类别,得到由词到语义类的索 引;
2)以句法树中的词作为键值对知网进行查询得到该词的语义类,并将语义类添加到句 法树的某一层上;
3)将步骤2)处理后的句法树作为训练数据,进行文法训练,得到文法模型;
4)利用步骤3)训练后的文法模型对待分析的句子进行解码。
2.如权利要求1所述的方法,其特征在于所述某一层为预终结符层。
3.如权利要求2所述的方法,其特征在于所述词中包含词性信息。
4.如权利要求3所述的方法,其特征在于以词和词性为键值对知网进行查询得到该词的 语义类。
5.如权利要求1或4所述的方法,其特征在于对知网的同一层语义类进行查询,使所有 词查询得到的语义类在知网中处于同一层。
6.如权利要求1所述的方法,其特征在于采用非词汇化句法分析模型进行所述文法训练。
7.如权利要求6所述的方法,其特征在于所述文法训练方法为:对于预终结符采用自动 分裂、合并的方式进行细化。
8.如权利要求1所述的方法,其特征在于如果词语存在多个不同的语义类,则选取多个 语义中的第一个语义类作为该词的语义类,或采用人工标注的方式根据上下文选择。

说明书全文

技术领域

发明属于自然语言处理技术领域,具体涉及一种融入语义信息的中文句法分析方 法,在句法分析中引入语义知识来帮助提高句法分析的性能。

背景技术

句法分析是自然语言处理当中非常重要的一项技术,它所分析的是词与词之间如何组 合形成有意义的短语、句子,来揭示深层的语言规律。句法分析的结果将直接影响到对自 然语言的理解。在实际的自然语言处理应用当中,一个高性能的句法分析器有利于提升信 息抽取信息检索机器翻译、自动问答等高层应用系统的性能。
句法分析过程就是在给定一套文法模型的情况下,根据一定的算法推导出句子的语法 结构,通常用一种树状结构来表示。例如对一句话,“大连外贸出口额一半以上来自‘三 资’企业。”,进行句法分析的结果可由附图1(a)中的结构树来表示。在这个树结构当中, 最底层的叶子结点是词,称作终结符;上层的非叶子结点均称为非终结符,而非叶子结点 的最底层代表词性,称作预终结符。由于自然语言普遍存在着歧义性,对于同一句话可能 分析出多个不同的语法结构,因此就需要利用有效的信息和算法来消解存在的歧义,找出 最合理的句法结构,这也是当前各种句法分析方法所要解决的问题。
利用统计学写的方法可以从训练语料中学习词汇和结构的偏向性信息,从而在一定程 度上处理句法结构的歧义问题。一些人工标注的语法结构树库资源(如美国宾夕法尼亚大 学构建的宾大树库)的出现,为提出基于统计的句法分析方法创造了条件,极大的推动了 这类技术的发展。在统计句法分析方法中研究的最多的是概率上下文无关文法(PCFG: Probabilistic Context-Free Grammar),它通过一系列的上下文无关的文法规则来描述句子 结构,并且赋予每条规则一定的概率。这种方法的优点是形式简单,可在多项式时间内处 理。
PCFG模型的一个问题来自于条件独立性假设,在这个假设条件下,认为任何一个非 终结符(即在句法树中词结点以上的各个结点)的展开与其他非终结符的展开是相互独立 的。但通过对树库中各个位置非终结符的统计分布研究发现,有时一个结点的展开是与其 所在树中的位置相关的,而在简单PCFG建模时这一点是被忽略的。为了解决这一问题, 就需要对基本PCFG模型进行改进,通常有两种途径:引入词汇化信息和扩展非终结符标 记,后者常常又被称作非词汇化方法。引入词汇化信息方面最具代表性的工作是中心词驱 动的句法分析方法,代表工作如Michael Collins在他的博士论文当中为语法规则中的每一 个非终结符引入词汇、距离等信息,提高文法的区分性,非词汇化句法分析的方法主要有 通过人工的方式对部分非终结符进行细化,以及通过监督学习的方法自动细化标记从而 能够覆盖更多的语言现象,代表工作为UC Berkeley的Dan Klein等人的工作。然而这两种 方法也存在着各自的缺陷:词汇化方法中词汇信息的引入带来了一定的数据稀疏问题,非 词汇化方法中自动细化标记存在着对语言现象的刻画是否准确等问题。

发明内容

本发明的目的在于提供一种融入语义信息的中文句法分析方法,利用语义信息来帮助 提高句法分析的性能,同时还可以从句法分析结果当中获得带有句法约束的语义信息。
已经有理论研究表明语义信息可以帮助句法消歧。语义概念所涉及的是词语的含义、 结构和说话方式等,相关研究可以分为两个部分:研究单个词的语义(词义)以及单个词 的含义是怎样联合起来组成句子的含义。语义分析的主要任务是产生语言文本的词汇语义 单元表示和它们之间的依赖关系。句法分析和语义分析虽然是语言分析的两个不同层面, 但两者存在着相互制约的关系。汉语的语序对语义的制约性很强,句法成分之间存在着较 复杂的语义关系。在许多情况下,仅对语法形式进行句法结构分析是解释不了句子的内部 规律的。因此,在中文句法分析中引入语义会有利于结构歧义的消解。
使用语义信息的前提是存在一套预先定义的语义规范,最直接的办法是使用现有的语 义资源。在我们的方法中所使用的语义资源是知网(HowNet)。知网是一个以英汉双语所 代表的概念以及概念的特征为基础的,以揭示概念与概念之间以及概念所具有的特性之间 的关系为基本内容的常识知识库。从中我们可以得到某个词的不同层次的概念或者概念属 性作为我们的语义类,比如我们可以从中得到“汽车”的语义类“entity|实体=>thing|万物 =>physical|物质=>inanimate|无生物=>artifact|人工物=>implement|器具=>vehicle|交通工具 =>LandVehicle|车”,这其中从左到右表示的是“汽车”在HowNet中的由粗到细的不同层 次的语义类。比如,“entity|实体”是最粗一层的语义类,他包含的范围最广;而“LandVehicle| 车”是最细一层的语义类,它表达的意思最细,最接近“汽车”。
本发明通过考察句法分析和语义分析的关系,将语义信息融入到非词汇化句法分析过 程中,来解决PCFG模型缺少语义信息的问题,以及通过语义标记对词性层进行进一步的 细化。通过引入语义信息,帮助句法分析进行歧义消解,从而使句法分析的性能有一定程 度的提高。
因此,本发明的基本思想是认为句法和语义是语言分析的两个不同层面,它们在语言 分析的过程当中共同发挥作用,并相互影响,语义信息非常有助于结构歧义的消解。通过 在非词汇化句法分析方法中融入语义信息,使句法分析器的性能得到明显提升,并且所得 到的分析结果当中既包含句法的修饰关系,也包含了每个词的语义类别。
本发明的出发点是得到高性能的句法分析器,并以语义分析为辅助手段来提高句法分 析性能。句法分析的基本模型采用的是非词汇化的PCFG模型,该模型是通过无监督学习 的方法自动细化标记,提高文法的描述能,其性能已经超过了词汇化句法分析器。本方 法在此基础之上以HowNet作为语义词典,为句法树库当中的部分词提供某一层次的语义 类别,并将语义类附着在句法树的预终结符(即词汇层的上一层)层次,并以标记后的树 库进行训练得到包含语义信息的文法模型。在解码部分不需要进行任何特殊处理即可得到 带有语义标记的句法分析结果。通过实验发现该方法有效的提高了句法分析的性能。
下面分三个部分详细介绍本发明的技术方案。
1.语义信息融入句法分析的方式
以HowNet作为语义词典,以其中定义的义原(定义为意义的最小单位)作为语义类 别。义原在HowNet中存在着一定的上下位关系,如附图2所示,按照这种上下位关系抽 取出不同层次的语义类别,以句法树中的词作为键值进行查询得到其语义类,并将语义类 附着在预终结符上。为了保证语义体系的一致性以及减轻数据稀疏问题,在这里需要保证 的一点是所有词查询得到的语义类在HowNet中处于同一层。
对于存在多个语义类别的词就存在词义消歧的问题,我们这里的策略是取第一个语义 类别;另一方面我们设计了一个多义词的意义类别标注系统,采用人工标注的方式对多义 词的语义类进行标注。对于HowNet中不存在的词,则不添加语义信息。
附图1显示的是一个标注语义的例子。附图1(a)是标注前的树库中的句子;附图1(b) 是经过语义标注后的句子,可以看到引入语义的策略就是将某个词的语义类别附着到它所 对应的预终结符上。
对于词性层以上的非终结符,不能从HowNet中直接得到,最简单的添加方式可以采 用类似于提取中心词的方法,将预终结符的语义信息当成中心词,提取到上层结点上。但 是考虑到,词的语义类别比较多,附加到上层结点可能会产生更多的非终结符,对于数据 量不充足的情况会产生非常严重数据稀疏问题。因此,对于上层非终结符仍然采用无监督 自动分裂合并的方式进行自动细分,而不引入语义。
经过这样的处理后,树库中的大多数词所对应的上层预终结符就标记上了HowNet中 的某一层语义类,采用该树库进行句法分析模型训练,就可以获得融入语义信息的文法模 型。利用该文法进行解码,可以得到带有语义标记的句法分析结果,同时句法分析结果也 更加准确。
2.句法分析模型训练
本发明所采用的基本句法分析模型为非词汇化句法分析模型,即采用无监督的方式对 非终结符结点标记进行细化,来提高文法的描述能力。下面简要介绍该模型。
近年来,非词汇化PCFG句法分析方法取得了较大的进展,最好的模型的性能已经达 到了当前句法分析的最高平。该模型是在基本的PCFG框架下通过无监督学习的方式自 动细化非终结符标记,增强文法的描述能力。该模型的训练部分主要包含分裂、融合两个 过程。分裂过程是将每一个非终结符分裂为两个,对标记进行细化,从而扩大了文法复杂 性,扩大了对树库中出现的语言现象的覆盖范围;融合过程是为了保证分裂步骤中标记的 分裂哪些是必要的,这一点是通过考察某一标记分裂与否对于整个树库似然度的影响来衡 量的,即如果将两个分裂出的子标记合并后整个树库似然度下降不明显,则这一标记的分 裂是不必要的,从而将子标记合并。
采用这种基于自动分裂的非词汇化句法分析方法,首先能够保证较高性能的基线系 统,同时这种模型便于融入语义信息。此外,通过外部语义词典添加语义信息,有利于约 束句法标记的自动分裂;而另一方面,后续的自动分裂又能保证添加的语义类不至于影响 句法功能的划分。
3.句法分析解码过程
对于一个新的待分析句,根据训练过程中得到的文法模型就可以分析出它的句法结 构。基本的方法是采用文法模型中的文法规则按照线图分析的方式自底向上推导出一个最 可能的句法树,但是这种最简单的分析方式其搜索空间是非常巨大的。为了提高效率,就 采用一种由粗到细的分析策略,即首先采用简单的文法模型解码得到一系列候选结果,然 后再采用更精细的文法模型在这些候选结果中再进行解码,这样就可以在后面的精细解码 前裁掉许多不可能结果,从而减小了搜索空间,提高了效率。
本发明的积极效果:
现有技术相比,本发明采用语义信息帮助句法分析消歧,有效提高了句法分析的性 能,使句法分析的效率和准确性得到显著提升;并且能够通过这种融合语义信息的句法分 析器获得部分词的语义信息。

附图说明

图1句法树及添加语义信息后的句法树;
(a)是标注前的树库中的句子;(b)是经过语义标注后的句子;
图2语义资源HowNet中义原树片段示例;
图3本发明的方法流程图

具体实施方式

下面结合附图详细描述本发明的具体实施方式,本发明的方法流程图如图3所示。
1.构建词-语义类索引
根据HowNet中定义的义原之间的上下位关系抽取出由粗到细的不同层的语义类,并 与每一个词相对应,从而构建出由词到语义类的索引。这里的词是附带着词性信息的。
2.对原始树库添加语义类信息
对原始树库,以词和词性作为键值来得到语义类的信息,然后将语义类的信息附着到 词性(预终结符)层次上,实现对词性层标记的细化。这样部分词性就包含了语义信息。
某些词语可能存在多个不同的语义类,针对这种情况采用了两种策略:选取多个语义 中的第一个,或者采用人工标注的方式根据上下文选择。
3.训练文法模型
以添加了语义类信息的树库作为训练数据。采用前面介绍的非词汇化句法分析模型进 行文法训练,训练过程中对于非终结符采用自动分裂、合并的方式进行细化。另一方面, 为了考察是否需要对添加了语义信息的预终结符也进行这一细化过程,我们进行了实验验 证,结果发现在添加粗粒度语义的同时仍然进行自动细分其效果要好于不进行细分,而这 一做法的效果也要好于直接添加区分性更强的细粒度语义而不进行自动细化,下面的效果 分析部分还会详细的介绍。
4.对待分析语句进行句法分析
有了上面训练出的文法模型,对于一个待分析的句子(已经过分词处理)就可以采用 前面介绍的非词汇化句法分析器根据文法模型进行解码,得到句法分析结果,同时还带有 该语句的语义标注结果。
效果分析:
为了验证本发明的有效性,我们设计了一系列的实验,下面介绍部分实验。
实验语料:
训练和测试语料采用宾大中文树库UPenn Chinese Tree Bank 2.0,其中共325篇新闻类 语料,采用标准方式进行划分:使用1-25篇作为开发集,共350句话;26-270篇作为训练 集,共3172句话;271-300篇作为测试集,共348句话。
语义词典采用HowNet。
基线系统:
基线系统采用前面介绍的非词汇化句法分析模型,采用无监督的方法对非终结符标记 自动分裂细化,每次迭代将原始标记分裂为2个,通过EM算法确定新标记对应的参数, 接着根据似然度贡献对分裂的标记进行合并。
评测程序:
评测程序采用当前使用较为广泛的句法分析评测工具EVALB。该工具是以括号标记 匹配为评价标准,关注准确率、召回率和F值。
实验结果及分析:
基线系统在CTB标准数据集上进行测试的结果见表1:
表1:基线系统性能

其中S&M表示分裂-合并过程循环的次数,比如S&M-1表示进行一次分裂-迭代; S&M-2表示进行两次分裂-迭代,即在一次分裂-迭代得到的文法基础上再进行一次分裂- 迭代。Len表示句子的长度,即句子中包含的词数,Len<=40表示只在长度小于40的句子 上进行测试;All表示在所有句子上进行测试。LR表示召回率,LP表示准确率,F1表示 F值。
为了在一定程度上减弱数据稀疏问题,我们选取HowNet中最顶层的语义类,并且对 所有标记进行自动细化,采用相同数据集的实验结果如表2。
表2 添加粗粒度语义类标记分析性能

从上表中可以发现从第四次迭代分裂合并开始,通过添加语义信息类的句法分析性能 超过了基线系统。在第六次迭代的时候,分裂过细出现了过训练,F值有一定的下降,在 基线系统和改进系统上呈现的趋势一致。但添加语义类的结果仍然优于基线系统。以第五 轮迭代的结果进行比较,F值由80.26%提高到了81.63%,绝对提高1.37个点,这在句法 分析的研究中提高相当显著。
此外,采用最新发布的5.0版本的宾大中文树库(共包含18782个句子)进行训练, 本发明的句法分析性能最高可达到F值86.39%。添加语义信息前后的对比趋势与上面列出 的宾大中文树库2.0上得出的结果相似,这里就不再赘述。
本发明以非词汇化句法分析器为基础,将语义信息融入其中,利用语义信息帮助句法 分析进行消歧,使句法分析器性能得到明显提升,并且能够通过这种融合语义信息的句法 分析器获得部分词的语义信息。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈