首页 / 专利库 / 人工智能 / 词性标注 / 汉语语意数据智能识别系统及方法

汉语语意数据智能识别系统及方法

阅读:178发布:2021-10-12

专利汇可以提供汉语语意数据智能识别系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种汉语语意数据智能识别系统及方法,其特征在于,该发明利用 基础 内核 对外部 数据库 中的语意数据表达自动探索、导入并预处理;利用分析器对汉语语意数据进行有效切分;利用标注器对语意数据切分单词集进行 词性标注 ;利用减噪器对语意数据进行减噪处理;利用 过滤器 过滤汉语语意表达中的非关键词性;利用确认器 锁 定表达中的准确语意;最后利用基础内核向外部数据库进行反馈。本发明提供一种适用于企业、政府、行业、以及 电子 商务所迫切需要的高效、低成本、高可用性,可运行在任何中文数据环境下的终端产品的汉语语意数据智能识别系统及方法。,下面是汉语语意数据智能识别系统及方法专利的具体信息内容。

1.一种汉语语意数据智能识别系统,该系统是一种在互联网、 局域网和广域网环境中,具有开放性、自主化和智能化的语意数据探 索、语意分析、词性标注、数据减噪、词性过滤、关键词确认能的 跨网络、跨平台、跨数据库的汉语语意数据集成系统,其特征在于, 该系统包括:
一个实现了过程管理和数据流管理的基础内核,该内核提供上述 系统在汉语语意数据识别处理中的算法、规则、模型、底层调用和设 备管理;
一个连接到上述基础内核的分析器,该分析器实现语意数据词法 分析和切分处理;
一个连接到上述基础内核的标注器,该标注器实现语意数据单词 集的词性标注处理;
一个连接到上述基础内核的减噪器,该减噪器实现搜索单词集并 自动删除语意数据中无相关辅助描述的信息;
一个连接到上述基础内核的过滤器,该过滤器实现语意识别处理 中的数据清洗及词性过滤;
一个连接上述基础内核的确认器,该确认器根据语意字典库,针 对过滤器的输出结果,即关键词集进行最终确认处理,用规范用词替 换语意数据中的汉语不规范用法,达到语意表达准确识别目的;
系统中预置独立的语料字典及关键词字典,语料字典是构建在汉 语词典基础上的专业字典,收集语意描述过程中的各种缩写及方言; 关键词字典是语意表达确认的主要依据。
2.根据权利要求1所述的汉语语意数据智能识别系统,其特征在 于,所述的基础内核为该系统核心,提供系统与外部数据库的信息交 换接口,实现接收系统外部数据库中数据及将数据导入系统内部数据 存储器的功能,实现将系统内部存放的数据转化为标准格式的功能, 实现基础内核与系统外部的指令信息交换和事务调度功能,实现系统 内部数据交换服务,实现系统内部汉语语意数据智能识别全过程的事 务调度,即在系统内部各模间的进程管理。
3.根据权利要求1所述的汉语语意数据智能识别系统,其特征在 于,所述的分析器、标注器、减噪器、过滤器和确认器之间通过系统 内部数据存储器连接,以实现数据内部传输、消息交换和数据堆栈访 问。
4.一种汉语语意智能数据识别方法,该方法是一种在互联网、 局域网和广域网环境中的语意数据探索、语意分析、词性标注、语意 减噪、清洗过滤、关键词挖掘、及语意确认的跨数据库的汉语语意集 成方法,其特征在于,该方法包括下列步骤:
利用基础内核进行汉语语意数据的自动数据探索,将外部数据库 中的语意数据导入系统中,将需要识别处理的数据推入数据存储器, 同时发出指令启动分析器;
基于上述步骤的结果,利用分析器对存储器中的数据进行单词分 析及切分处理;
基于上述步骤的结果,利用标注器对切分后的单词进行词性标注 处理;
基于上述步骤的结果,利用减噪器去除数据中的无相关辅助描述 的信息;
基于上述步骤的结果,利用过滤器进行数据清洗及词性过滤;
基于上述步骤的结果,利用确认器进行语意字典映射,规范汉语 用词。
最后,基础内核将数据存储器中的数据反馈给外部数据库系统, 完成整个语意识别。
5.根据权利要求4所述的汉语语意数据智能识别方法,其特征在 于,所述的分析器步骤中还包括层级分检及梯次处理步骤,层级分检 步骤指在分析过程中分两个层级对专业词素与通用词素分检的步骤; 梯次处理步骤指对不同字数的词素设定不同的系数的步骤。
6.根据权利要求4所述的汉语语意数据智能识别方法,其特征在 于,所述的减噪器步骤中还包括发现并清除汉语语意数据中无相关的 单词子集的步骤。
7.根据权利要求4所述的汉语语意数据智能识别方法,其特征在 于,所述的过滤器步骤中还包括通过设定词性过滤时过滤的词性类别 产生语意语干的处理步骤。
8.根据权利要求4所述的汉语语意数据智能识别方法,其特征在 于,所述的确认器步骤中还包括核心语意认定步骤,指用标准含义关 键词替换原语意数据表达,达到语意标准化目的步骤。

说明书全文

技术领域

发明涉及一种与汉语语意数据识别技术以及数据挖掘技术相 关的网络数据互相识别技术领域,更具体地涉及一种汉语语意数据智 能识别系统及方法。

背景技术

中国政府明确提出了以信息化带动工业化的方针政策,大推进 信息化建设。随着我国各行各业信息化工作的快速发展,各行业各企 业建设了内部的信息系统,在发展过程中积累了大量数据。但是在信 息共享过程中发现,各数据源中对信息的汉语语意表达差异很大,同 一事物在各系统中存在多种不规范描述。由于汉语数据不能有效识 别,严重制约企业间、行业间数据信息共享与系统间的互联需求。由 此产生了大量的“信息孤岛”,占用了国家、企业大量的人力物力, 已成为制约国家信息化的瓶颈之一。
当前,国际上自然语言处理研究深入开展,中国在汉语处理方面 取得一定成果。但由于汉语信息识别难度与西文相比要大得多,以至 于实际应用很不成熟。但目前汉语自然语言处理研究成果主要应用于 翻译机、图书馆文献管理系统、中文搜索引擎中,还没有应用在数据 库数据集成领域的先例,原因是数据库数据集成领域中语言文字使用 极不标准、应用难度大。

发明内容

本发明的目的是提供一种适用于企业、政府、行业、以及电子商 务所迫切需要的高效、低成本、高可用性,可运行在任何中文数据环 境下的终端产品的汉语语意数据智能识别系统及方法
本发明是这样实现的:
一种汉语语意数据智能识别系统,该系统是一种在互联网、局域 网和广域网环境中,具有开放性、自主化和智能化的语意数据探索、 语意分析、词性标注、数据减噪、词性过滤、关键词确认能力的跨网 络、跨平台、跨数据库的汉语语意数据集成系统,该系统包括:
一个实现了过程管理和数据流管理的基础内核,该内核提供上述 系统在汉语语意数据识别处理中的算法、规则、模型、底层调用和设 备管理;
一个连接到上述基础内核的分析器,该分析器实现语意数据词法 分析和切分处理;
一个连接到上述基础内核的标注器,该标注器实现语意数据单词 集的词性标注处理;
一个连接到上述基础内核的减噪器,该减噪器实现搜索单词集并 自动删除语意数据中无相关辅助描述的信息;
一个连接到上述基础内核的过滤器,该过滤器实现语意识别处理 中的数据清洗及词性过滤;
一个连接上述基础内核的确认器,该确认器根据语意字典库,针 对过滤器的输出结果,即关键词集进行最终确认处理,用规范用词替 换语意数据中的汉语不规范用法,达到语意表达准确识别目的;
系统中预置独立的语料字典及关键词字典,语料字典是构建在汉 语词典基础上的专业字典,收集语意描述过程中的各种缩写及方言; 关键词字典是语意表达确认的主要依据。
所述的基础内核为该系统核心,提供系统与外部数据库的信息交 换接口,实现接收系统外部数据库中数据及将数据导入系统内部数据 存储器的功能,实现将系统内部存放的数据转化为标准格式的功能, 实现基础内核与系统外部的指令信息交换和事务调度功能,实现系统 内部数据交换服务,实现系统内部汉语语意数据智能识别全过程的事 务调度,即在系统内部各模间的进程管理。
所述的分析器、标注器、过滤器、过滤器和确认器之间通过系统 内部数据存储器连接,以实现数据内部传输、消息交换和数据堆栈访 问。
一种汉语语意智能数据识别方法,该方法是一种在互联网、局域 网和广域网环境中的语意数据探索、语意分析、词性标注、语意减噪、 清洗过滤、关键词挖掘、及语意确认的跨数据库的汉语语意集成方法, 该方法包括下列步骤:
利用基础内核进行汉语语意数据的自动数据探索,将外部数据库 中的语意数据导入系统中,将需要识别处理的数据推入数据存储器, 同时发出指令启动分析器;
基于上述步骤的结果,利用分析器对存储器中的数据进行单词分 析及切分处理;
基于上述步骤的结果,利用标注器对切分后的单词进行词性标注 处理;
基于上述步骤的结果,利用减噪器去除数据中的无相关辅助描述 的信息;
基于上述步骤的结果,利用过滤器进行数据清洗及词性过滤;
基于上述步骤的结果,利用确认器进行语意字典映射,规范汉语 用词。
最后,基础内核将数据存储器中的数据反馈给外部数据库系统, 完成整个语意识别。
所述的分析器步骤中还包括层级分检及梯次处理步骤,层级分检 步骤指在分析过程中分两个层级对专业词素与通用词素分检的步骤; 梯次处理步骤指对不同字数的词素设定不同的系数的步骤。
所述的减噪器步骤中还包括发现并清除汉语语意数据中无相关 的单词子集的步骤。
所述的过滤器步骤中还包括通过设定词性过滤时过滤的词性类 别产生语意语干的处理步骤。
所述的确认器步骤中还包括核心语意认定步骤,指用标准含义关 键词替换原语意数据表达,达到语意标准化目的步骤。
现有技术比较,本发明具备如下优点:开放的体系结构,可以 适用于不同行业;汉语语意有效识别率高;汉语语意识别处理速度快; 全面支持中文环境;支持各类数据库的智能语意数据识别。
附图说明
根据下面附图及最佳实施例的描述,本发明的特性和优点将会更 加易于理解。
图1是本发明汉语语意数据智能识别系统的总体方框图
图2为图1中的基础内核的内部模块结构示意图;
图3为图1中的分析器的内部模块结构示意图;
图4为图1中的标注器的内部模块结构示意图;
图5为图1中的减噪器的内部模块结构示意图;
图6为图1中的过滤器的内部模块结构示意图;
图7为图1中的确认器的内部模块结构示意图;
图8为本发明汉语语意数据智能识别方法的流程图

具体实施方式

图1是本发明汉语语意数据智能识别系统的总体方框图,在图1 中,本发明包括基础内核10,和通过基础内核连接的分析器11、标 注器12、减噪器13、过滤器14和确认器15。
基础内核10提供底层计算和服务基础,包括实现一个通用数据 库的接口,将需要处理的数据表导入系统并转化为标准格式,推入系 统内部数据存储器23;与基础内核10连接的分析器11主要实现汉 语数据的词性切分,其算法依据存放于系统内部设置的语料字典21 中;与基础内核10连接的标注器12主要实现切分词单元的词性标注, 其标注依据存放于系统内部设置的语料字典21中;与基础内核10连 接的减噪器13主要实现删除语意数据中无相关辅助描述信息,所谓 无相关辅助信息是指那些不构成与语意表达含义发生关系的词料;与 基础内核10连接的过滤器14主要实现关键词探查,生成后选关键词 集;与基础内核10连接的确认器15主要实现标准语意确认,其算法 依据存放于系统内部设置的关键词字典22中,语意确认之后将数据 推回基础内核。
语意分析器11、词性标注器12、噪音过滤器13、词性过滤器14 和语意确认器15之间通过系统内部数据存储器23连接,以实现数据 内部传输、消息交换和数据堆栈访问
图2更详细地图示了基础内核10的内部模块结构。
基础内核10包括数据库服务引擎101、事务服务引擎102、数据 库接口103、公共类接口104、数据转化器105、数据接收器106、XML 引擎107和消息队列管理器108,各部件组成系统核心。在基础内核 10中的数据库接口103提供系统与外部数据库的信息交换接口功能, 与数据库接口103连接的数据接收器106及数据库服务引擎101实现 接收系统外部数据库中数据及将数据导入系统内部数据存储器23的 功能,与数据库接口103连接的数据转化器105实现将系统内部存放 的数据转化为标准格式的功能。在基础内核10中的公共类接口104 实现基础内核与系统外部的指令信息交换和事务调度功能,与公共类 接口104连接的XML引擎107实现系统内部数据交换服务,消息队列 管理器108实现系统内部汉语语意数据智能识别全过程的事务调度, 即在系统内部各模块间的进程管理。
图3更详细地图示了分析器11的内部模块结构。
分析器11中算法采用国家863研究成果“汉语切分技术”,包括 单词分析模块111、单词切分模块112,和北京慧讯信息技术有限公 司开发的语料字典21,各模块间通过内部管道相连接,处理数据的 输入输出。分析器11中的单词分析模块111实现基于汉语的词法分 析,分析过程采用创新的层级分检、梯次处理等算法,有效提高分析 的准确性能;单词切分模块112实现将单词分析模块的数据输出通过 内部管道读入,基于语料字典中的单词库,将原始数据进行切分,即 将一个汉语语意表达信息切分为汉语单词集,单词间由分隔符连接。 系统内部预设的语料字典21以汉语词典为基础,考虑数据语意集成 特点,集合北京慧讯信息技术有限公司按统计学原理整理出的专业化 的汉语标注语料库。
图4更详细地图示了标注器12的内部模块结构。
标注器12包括单词标注模块121和北京慧讯信息技术有限公司 开发的语料字典21。标注器12中的单词标注模块121基于分析器11 输出结果,实现对切分后单词集中各元素的词性标注;语料字典21 在单词标注过程中在“北京大学分词标注标记集2003规范”基础上 进行扩充。
图5更详细地图示了减噪器13的内部模块结构。
减噪器13包括噪音探查模块131和噪音清除模块132,各模块 间通过内部管道相连接,处理数据输入输出。减噪器13中的噪音探 查模块131实现对单词切分后的单词集进行探求,发现其中无相关的 单词子集,这些单词往往导致语意识别过程中产生歧义,噪音探查模 块将其定义为语意噪音;减噪器13中的噪音清除模块132按照噪音 清除规则算法,实现删除语意噪音,保留语意主干信息,提高语意描 述清晰度。
图6更详细地图示了过滤器14的内部模块结构。
过滤器14包括词性定义模块141和词性过滤模块142,各模块 间通过内部管道相连接,处理数据输入输出。过滤器14中的词性定 义模块141实现存储过滤规则,装置可以根据不同需要规定需要保留 的词性类别,如识别语意主语时选择名词,识别语意定语时选择形容 词,可以通过内存擦洗更改规则;过滤器14中的词性过滤模块142 根据词性定义模块141制定的过滤规则,自动删除不符合所选词性的 单词,保留语意关键词词集。
图7更详细地图示了确认器15的内部模块结构。
确认器15包括关键词检索模块151,关键词认定模块152和北 京慧讯信息技术有限公司开发的关键词字典22,各模块间通过内部 管道相连接,处理数据输入输出。确认器15中的关键词检索模块151 实现将过滤后的关键词词集导入模块后,从基础内核中读取规则(正 序或倒序),对系统中预置的关键词字典22进行检索;确认器15中 的关键词认定模块152实现最终认定语意的最终含义,并用标准含义 关键词替换原语意数据表达,达到语意标准化目的;关键词字典22 是实现语意标准化的依据,因为关键词集中的元素中只有一个元素表 示语意最终含义,所以关键词字典具有专业特性。
图8说明了本发明汉语语意数据智能识别方法的全过程步骤顺 序。
图8更深入地说明了各个模块组件处理语意数据的全过程。在装 置基础内核10将语意数据从外部数据库中导入装置后,在步骤301 中,分析器11接收到基础内核10发出的语意数据处理请求,自动从 系统内部数据存储器23读取待处理数据,对其进行初始化处理;在 步骤302中,分析器11从系统基础内核10中导入分析规则,包括层 级分检和梯次处理规则,这些规则是单词分析304的准则;在步骤 303中,分析器11依次读取初始化后的语意数据,将其存储于系统 数据存储器23中;步骤304对内存中的语意数据进行分析,生成语 法分析结果;在步骤305中,分析器11根据语法分析结果,对汉语 语意数据进行切分,生成该语意数据的单词集;在步骤306中,依次 读取语意数据单词集中的单元,与语料库中的词元素匹配;步骤307 判断匹配成功与否,如果成功转至步骤308,如果不成功,说明单词 分析有误,转至步骤304重新对该语意数据进行分析;在步骤308中, 将匹配成功的单词按顺序推入系统存储器,并添加词间分隔符号;步 骤309判断语意数据是否全部分析完毕,如仍有单词未被匹配,则转 至步骤306继续处理,否则转至标注器12。
在步骤310中,标注器12依次读取数据存储器23中的单词集单 元;在步骤311中,将读取出的单词单元与语料库词元素匹配;步骤 312判断匹配成功与否,如果成功,记录词元素的词性标记后转至步 骤313,如果不成功,转至上一步骤311继续在语料库中寻找匹配的 词元素;在步骤313中,将词性标记追加至单词单元后,按顺序推入 系统数据存储器23;步骤315判断语意数据是否全部标注完毕,如 仍有单词未被标注,则转至步骤310继续处理,否则转至减噪器13。
在步骤316中,减噪器13依次读取数据存储器23中的单词集单 元和词性标注;在步骤317中,系统根据噪音类型分别对单词集各单 元数据进行探求;步骤318判断单元数据是否为噪音数据,如果是噪 音自动转至步骤319清除该单元数据,否则自动转至步骤320,将该 单词单元推入数据存储器23;步骤321判断系统是否对全部单词单 元进行减噪处理,如仍有单词未被减噪处理,则转至步骤316继续处 理,否则转至过滤器14。
在步骤322中,过滤器14依次读取数据存储器23中的单词集单 元和词性标注;在步骤323中,系统根据词性选择规则对读取的单词 进行匹配;步骤324判断单元数据匹配成功,如果匹配失败,自动转 至步骤325将该单元数据丢弃,如果匹配成功自动转至步骤326,将 该单词单元推入数据存储器23;步骤327判断系统是否对全部单词 单元进行过滤处理,如仍有单词集中的单词仍停留在未处理系统堆栈 中,则转至步骤322继续处理,否则转至确认器15。
在步骤328中,确认器15首先导入读取规则,规定读取顺序; 步骤329中,依次读取数据存储器23中的关键词集单元;在步骤330 中,系统将读取出的关键词单元与关键词字典中的词条进行匹配;步 骤331判断关键词数据是否匹配成功,如果匹配失败,自动转至步骤 332将该关键词丢弃,并转至步骤329继续按读取规则读取下一个关 键词单元,如果匹配成功自动转至步骤333,将该关键词推入数据存 储器23,之后自动转至步骤334;步骤334将数据存储器23中的关 键字认定为语意数据最终含义,将此关键字返回系统基础内核10, 并结束进程。
应当理解前面只是图解本发明的原理,本领域的技术人员在不脱 离本发明的范围和本质的情况下可以进行各种修改
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈