专利汇可以提供一种基于语素标注的自然语言成分识别、校正装置及方法专利检索,专利查询,专利分析的服务。并且本 发明 为一种基于语素标注的自然语言成分识别、校正装置及方法,包括:输入部,用于输入待分析符号序列;语素学习部,用于生成语素属性,并从待分析自然语言成分的标注样本中学习得到语素与所述语素属性之间的关系规律;语素属性标注部,用于对输入的待分析符号序列进行语素属性标注,生成语素属性标注序列;分析成分合成部,用于从语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记;输出部,用于输出所述分析成分合成部的识别结果。用以从输入的汉语、日语等自然语言或基因组等符号序列中识别出需要的语言成分或遗传因子等符号组,并标注出识别成分的分类属性。从而解决诸如汉语的未登录词等问题。,下面是一种基于语素标注的自然语言成分识别、校正装置及方法专利的具体信息内容。
1.一种基于语素标注的自然语言成分识别装置,包括:输入部,用于输入待分析符号序列;其特征在于还包括:语素学习部,用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性,并从待分析自然语言成分的标注样本中学习得到语素与所述语素属性之间的关系规律;语素属性标注部,用于根据所述语素学习部学习得到的语素与语素属性之间的关系规律对输入的待分析符号序列进行语素属性标注,生成语素属性标注序列;分析成分合成部,用于从所述语素属性标注部生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记;输出部,用于输出所述分析成分合成部的识别结果。
2.根据权利要求1所述的装置,其特征在于,所述的语素学习部进一步包括:语素属性生成单元,用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置信息生成语素属性集,以用语素属性表示自然语言成分及其分类信息;语素属性转换单元,用于根据所述语素属性集将标注了待分析自然语言成分的样本转换为语素属性标注样本;语素标注知识抽取单元,用于以语素为基本单元从所述的语素属性标注样本中学习待分析自然语言成分的内部构成及自然语言成分与上下文的关系,生成用统计模型描述的语素属性标注知识;所述的语素属性标注部根据所述的语素属性标注知识对输入的待分析符号序列进行语素属性标注,生成语素属性标注序列。
3.根据权利要求2所述的装置,其特征在于,所述的语素学习部还包括:语素属性集存储单元,用于存储所述的语素属性集;语素属性标注知识存储单元,用于存储所述的语素属性标注知识;语言知识抽取单元,用于从分析自然语言成分标注样本中抽取待分析语言成分,生成待分析语言成分列表作为该语言成分的语言资源;语言资源和知识存储单元,用于存储所述的语言资源,以及各种层次的与所述分析自然语言成分相关的语言资源和知识;所述的语素属性标注部根据所述的语言资源和知识、语素属性标注知识对输入的待分析符号序列进行语素属性标注,生成语素属性标注序列;所述的分析成分合成部,根据所述的语素属性集从所述语素属性标注部生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记。
4.根据权利要求1所述的装置,其特征在于,所述的语素学习部还包括:语素属性生成单元、语素属性转换单元、语素标注知识抽取单元、语言知识抽取单元、语素属性集存储单元、语素属性标注知识存储单元、自然语言资源和知识存储单元;其中:所述的语素属性生成单元,用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置信息生成语素属性集,并讲所述的语素属性集存入所述的语素属性集存储单元;所述的语素属性转换单元,用于根据所述语素属性集将标注了待分析自然语言成分的样本转换为语素属性标注样本;语素标注知识抽取单元,用于以语素为基本单元从所述的语素属性标注样本中学习待分析自然语言成分的内部构成及自然语言成分与上下文的关系,生成用统计模型描述的语素属性标注知识,并将所述的语素属性标注知识存入所述的语素属性标注知识存储单元;所述的语言知识抽取单元,用于从分析自然语言成分标注样本中抽取待分析语言成分,生成待分析语言成分列表作为该语言成分的语言资源,并将所述的语言资源以及各种层次的与所述分析自然语言成分相关的语言资源和知识存入所述的语言资源和知识存储单元;所述的语素属性标注部根据所述的语言资源和知识、语素属性标注知识对输入的待分析符号序列进行语素属性标注,生成语素属性标注序列;所述的分析成分合成部,根据所述的语素属性集从所述语素属性标注部生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记。
5.根据权利要求1或4所述的装置,其特征在于,所述的语素属性标注部进一步包括:可能语素标注生成单元,采用语素属性标注知识生成语素标注候选;错误候选剔除单元,采用语素、以及比语素高级的语言成分等各种层次的语言资源与知识对语素属性候选进行筛选,去除不合法的语素属性候选,实现对所述的可能语素标注生成单元传来的语素标注候选的错误过滤;最优标注结果选择单元,生成待分析符号序列的最优语素属性标注序列,实现对所述的错误候选剔除单元传来的语素属性候选的最优化处理。
6.根据权利要求1所述的装置,其特征在于,所述的自然语言包括汉语、日语等自然语言或基因符号。
7.根据权利要求1所述的装置,其特征在于,所述的输入的待分析符号序列包括:自然语言文本序列、基因组序列。
8.一种基于语素标注的自然语言成分校正装置,包括:输入部,用于接收来自其它自然语言成分识别系统输出的待校正符号序列;其特征在于包括:语素学习部,用于根据待校正自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性,并从待校正自然语言成分的标注样本中学习得到语素与所述语素属性之间的关系规律;错误位置发现部,用于对输入的待校正符号序列进行检查,发现错误的位置;语素属性标注部,用于根据所述语素学习部学习得到的语素与语素属性之间的关系规律对输入的待校正符号序列中的错误位置进行语素属性标注,生成语素属性标注序列;分析成分合成部,用于从所述语素属性标注部生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记;输出部,用于输出所述分析成分合成部的识别结果。
9.根据权利要求8所述的装置,其特征在于,所述的语素属性标注部进一步包括:语素标注候选生成单元,用于对输入的待校正符号序列保留正确的原有分析结果,对出错部分的语素则生成该语素所有可能的标注候选;最优结果选择单元,用于对语素标注序列保留了原有结果中正确的分析信息,而对出错的位置进行重新标注。
10.根据权利要求8或9所述的装置,其特征在于,所述的语素学习部还包括:语素属性生成单元、语素属性转换单元、语素标注知识抽取单元、语素属性集存储单元、语素属性标注知识存储单元、错误分析知识存储单元;其中:所述的语素属性生成单元,用于根据待校验自然语言成分的分类信息和语素在该自然语言成分中的位置信息生成语素属性集,并讲所述的语素属性集存入所述的语素属性集存储单元;所述的语素属性转换单元,用于根据所述语素属性集将标注了待校验自然语言成分的样本转换为语素属性标注样本;语素标注知识抽取单元,用于以语素为基本单元从所述的语素属性标注样本中学习待校验自然语言成分的内部构成及自然语言成分与上下文的关系,生成用统计模型描述的语素属性标注知识,并将所述的语素属性标注知识存入所述的语素属性标注知识存储单元;错误分析知识存储单元,用于存储待校验语言成分的错误分析知识;所述的错误位置发现部,根据所述的错误分析知识对输入的待校正符号序列进行检查,发现错误的位置;所述的语素属性标注部根据所述的语素属性标注知识对输入的待校正符号序列进行语素属性标注,生成语素属性标注序列;所述的分析成分合成部,根据所述的语素属性集从所述语素属性标注部生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记。
11.根据权利要求8所述的装置,其特征在于,所述的自然语言包括汉语、日语等自然语言或基因符号。
12.根据权利要求8所述的装置,其特征在于,所述的输入的待校验符号序列包括:自然语言文本序列、基因组序列。
13.一种基于字属性标注的汉语成分识别装置,包括:输入部,用于输入待分析汉语文本序列;其特征在于还包括:字属性学习部,用于根据待分析汉语的分词、词性标注语料生成字属性,并从待分析汉语的分词、词性的标注样本中学习得到字与所述字属性之间的关系规律;字属性标注部,用于根据所述字属性学习部学习得到的字与字属性之间的关系规律对输入的待分析汉语文本序列进行字属性标注,生成字属性标注序列;词及词性标注合成部,用于从所述字属性标注部生成的字属性标注序列中识别出需要的分类标记,生成输入汉语文本序列的切分和词性标注结果;输出部,用于输出所述词及词性标注合成部生成的结果。
14.根据权利要求13所述的装置,其特征在于,所述的字属性学习部进一步包括:字属性转换单元,用于根据字属性组成词及词性规则将汉语分词、词性标注语料的样本转换为字属性标注样本;字标注知识训练单元,用于以字为基本单元从所述的字属性标注样本中学习待分析汉语分词、词性的内部构成及该分词、词性与上下文的关系,生成用统计模型描述的字属性标注知识;所述的字属性标注部根据所述的字属性标注知识对输入的待分析汉语文本序列进行字属性标注,生成字属性标注序列。
15.根据权利要求14所述的装置,其特征在于,所述的字学习部还包括:字属性组成词及词性规则存储单元,用于存储字属性组成词及词性规则;字属性标注知识存储单元,用于存储所述的字属性标注知识;词典及词结构规则存储单元,用于存储汉语的语言资源,以及各种层次的与汉语成分相关的语言资源和知识;所述的字属性标注部根据所述的语言资源和知识、字属性标注知识对输入的待分析汉语文本序列进行字属性标注,生成字属性标注序列;所述的词及词性标注合成部,根据所述的字属性组成词及词性规则从所述字属性标注部生成的字属性标注序列中识别出需要的汉语成分及该成分的分类标记。
16.根据权利要求13或15所述的装置,其特征在于,所述的字属性标注部进一步包括:字属性标注生成单元,采用字属性标注知识生成字属性标注候选;错误候选剔除单元,采用构词规则和高频词词典对字属性标注候选进行筛选,去除不合法的字属性标注候选,实现对所述的字属性标注生成单元传来的字属性标注候选的错误过滤;最优标注结果选择单元,生成待分析汉语文本序列的最优字属性标注序列,实现对所述的错误候选剔除单元传来的字属性标注候选的最优化处理。
17.一种基于语素标注的自然语言成分识别方法,其特征在于包括:输入步骤,用于输入待分析符号序列;语素学习步骤,用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性,并从待分析自然语言成分的标注样本中学习得到语素与所述语素属性之间的关系规律;语素属性标注步骤,用于根据所述语素学习步骤学习得到的语素与语素属性之间的关系规律对输入的待分析符号序列进行语素属性标注,生成语素属性标注序列;分析成分合成步骤,用于从所述语素属性标注步骤生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记;输出步骤,用于输出所述分析成分合成部的识别结果。
18.根据权利要求17所述的方法,其特征在于,所述的语素学习步骤进一步包括:语素属性生成步骤,用于根据待分析自然语言成分的分类信息和语素在该自然语言成分中的位置信息生成语素属性集,以用语素属性表示自然语言成分及其分类信息;语素属性转换步骤,用于根据所述语素属性集将标注了待分析自然语言成分的样本转换为语素属性标注样本;语素标注知识抽取步骤,用于以语素为基本单元从所述的语素属性标注样本中学习待分析自然语言成分的内部构成及自然语言成分与上下文的关系,生成用统计模型描述的语素属性标注知识;所述的语素属性标注步骤根据所述的语素属性标注知识对输入的待分析符号序列进行语素属性标注,生成语素属性标注序列。
19.根据权利要求18所述的方法,其特征在于,所述的语素学习步骤还包括:语素属性集存储步骤,用于存储所述的语素属性集;语素属性标注知识存储步骤,用于存储所述的语素属性标注知识;语言知识抽取步骤,用于从分析自然语言成分标注样本中抽取待分析语言成分,生成待分析语言成分列表作为该语言成分的语言资源;语言资源和知识存储步骤,用于存储所述的语言资源,以及各种层次的与所述分析自然语言成分相关的语言资源和知识;所述的语素属性标注步骤,根据所述的语言资源和知识、语素属性标注知识对输入的待分析符号序列进行语素属性标注,生成语素属性标注序列;所述的分析成分合成步骤,根据所述的语素属性集从所述语素属性标注部生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记。
20.根据权利要求17所述的方法,其特征在于,所述的语素属性标注步骤进一步包括:可能语素标注生成步骤,采用语素属性标注知识生成语素标注候选;错误候选剔除步骤,采用语素、以及比语素高级的语言成分等各种层次的语言资源与知识对语素属性候选进行筛选,去除不合法的语素属性候选,实现对所述的可能语素标注生成步骤传来的语素标注候选的错误过滤;最优标注结果选择步骤,生成待分析符号序列的最优语素属性标注序列,实现对所述的错误候选剔除步骤传来的语素属性候选的最优化处理。
21.根据权利要求17所述的方法,其特征在于,所述的自然语言包括汉语、日语等自然语言或基因符号。
22.根据权利要求17所述的方法,其特征在于,所述的输入的待分析符号序列包括:自然语言文本序列、基因组序列。
23.一种基于语素标注的自然语言成分校正方法,其特征在于包括:输入步骤,用于接收来自其它自然语言成分识别系统输出的待校正符号序列;语素学习步骤,用于根据待校正自然语言成分的分类信息和语素在该自然语言成分中的位置生成语素属性,并从待校正自然语言成分的标注样本中学习得到语素与所述语素属性之间的关系规律;错误位置发现步骤,用于对输入的待校正符号序列进行检查,发现错误的位置;语素属性标注步骤,用于根据所述语素学习步骤学习得到的语素与语素属性之间的关系规律对输入的待校正符号序列中的错误位置进行语素属性标注,生成语素属性标注序列;分析成分合成步骤,用于从所述语素属性标注步骤生成的语素属性标注序列中识别出需要的自然语言成分及该自然语言成分的分类标记;输出步骤,用于输出所述分析成分合成步骤的识别结果。
24.根据权利要求23所述的方法,其特征在于,所述的语素属性标注步骤进一步包括:语素标注候选生成步骤,用于对输入的待校正符号序列保留正确的原有分析结果,对出错部分的语素则生成该语素所有可能的标注候选;最优结果选择步骤,用于对语素标注序列保留了原有结果中正确的分析信息,而对出错的位置进行重新标注。
25.根据权利要求23所述的方法,其特征在于,所述的自然语言包括汉语、日语等自然语言或基因符号。
26.根据权利要求23所述的方法,其特征在于,所述的输入的待校验符号序列包括:自然语言文本序列、基因组序列。
27.一种基于字属性标注的汉语成分识别方法,其特征在于包括:输入步骤,用于输入待分析汉语文本序列;字属性学习步骤,用于根据待分析汉语的分词、词性标注语料生成字属性,并从待分析汉语的分词、词性的标注样本中学习得到字与所述字属性之间的关系规律;字属性标注步骤,用于根据所述字属性学习步骤学习得到的字与字属性之间的关系规律对输入的待分析汉语文本序列进行字属性标注,生成字属性标注序列;词及词性标注合成步骤,用于从所述字属性标注步骤生成的字属性标注序列中识别出需要的分类标记,生成输入汉语文本序列的切分和词性标注结果;输出步骤,用于输出所述词及词性标注合成部生成的结果。
28.根据权利要求27所述的方法,其特征在于,所述的字属性学习步骤进一步包括:字属性转换步骤,用于根据字属性组成词及词性规则将汉语分词、词性标注语料的样本转换为字属性标注样本;字标注知识训练步骤,用于以字为基本单元从所述的字属性标注样本中学习待分析汉语分词、词性的内部构成及该分词、词性与上下文的关系,生成用统计模型描述的字属性标注知识;所述的字属性标注步骤根据所述的字属性标注知识对输入的待分析汉语文本序列进行字属性标注,生成字属性标注序列。
29.根据权利要求28所述的方法,其特征在于,所述字学习步骤还包括:字属性组成词及词性规则存储步骤,用于存储字属性组成词及词性规则;字属性标注知识存储步骤,用于存储所述的字属性标注知识;词典及词结构规则存储步骤,用于存储汉语的语言资源,以及各种层次的与汉语成分相关的语言资源和知识;所述的字属性标注步骤根据所述的语言资源和知识、字属性标注知识对输入的待分析汉语文本序列进行字属性标注,生成字属性标注序列;所述的词及词性标注合成步骤,根据所述的字属性组成词及词性规则从所述字属性标注部生成的字属性标注序列中识别出需要的汉语成分及该成分的分类标记。
30.根据权利要求27或29所述的方法,其特征在于,所述的字属性标注步骤进一步包括:字属性标注生成步骤,采用字属性标注知识生成字属性标注候选;错误候选剔除步骤,采用构词规则和高频词词典对字属性标注候选进行筛选,去除不合法的字属性标注候选,实现对所述的字属性标注生成单元传来的字属性标注候选的错误过滤;最优标注结果选择步骤,生成待分析汉语文本序列的最优字属性标注序列,实现对所述的错误候选剔除单元传来的字属性标注候选的最优化处理。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于深度学习的校园心理辅导的方法及装置 | 2020-05-13 | 942 |
互联网政治外交类新闻事件抽取方法 | 2020-05-13 | 81 |
一种电商产品竞争分析方法及系统 | 2020-05-14 | 221 |
一种电力营销知识体系平台及应用方法 | 2020-05-14 | 979 |
一种智能文本处理方法、装置、电子设备及存储介质 | 2020-05-11 | 5 |
一种用于智能质检服务禁语的识别方法及系统 | 2020-05-08 | 805 |
一种基于句法模式和机器学习的开放式关系的抽取方法 | 2020-05-11 | 921 |
非命名实体对象抽取方法、装置、电子设备及存储介质 | 2020-05-13 | 627 |
用于增强已标注样本的方法和设备 | 2020-05-11 | 934 |
一种基于事理推荐的逻辑图谱构建及预警方法和装置 | 2020-05-13 | 332 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。