首页 / 专利库 / 人工智能 / 词性标注 / 基于电力专业术语的语义分析方法

基于电专业术语的语义分析方法

阅读:502发布:2020-05-12

专利汇可以提供基于电专业术语的语义分析方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种基于电 力 专业术语的语义分析方法,可以快速、高效的实现 人机交互 ,同时保证数据安全。一种基于电力专业术语的语义分析方法,包括文本预处理、中文分词、中文标注、专业术语语音库、 机器学习 、语义模型、业务流程控制以及 服务器 端内网私有 云 服务。基于电力专业术语的语义分析方法优选方案,文本预处理具体步骤包括对收集的地方方言、专业术语及操作指令在书写形式上进行统一规范,修正错别字及非常规词,对语句段落进行重新划分,通过以上描述的文字预处理方法为下一步语义分析提供准确的数据源。,下面是基于电专业术语的语义分析方法专利的具体信息内容。

1.一种基于电专业术语的语义分析方法,其特征在于:包括文本预处理、中文分词、中文标注、专业术语语音库、机器学习、语义模型、业务流程控制以及服务器端内网私有服务。
2.根据权利要求1所述基于电力专业术语的语义分析方法,其特征在于:文本预处理具体步骤包括对收集的地方方言、专业术语及操作指令在书写形式上进行统一规范,修正错别字及非常规词,对语句段落进行重新划分,通过以上描述的文字预处理方法为下一步语义分析提供准确的数据源。
3.根据权利要求1所述基于电力专业术语的语义分析方法,其特征在于:中文分词具体步骤包括结合电力专业文本自身特点及其应用时所依赖的物理环境设计电力专业术语的分词规则,规则遵循以分词时以具有真实物理含义的词为语义单元的原则,同时采用基于词典的分词方法和统计模型的分词方法,基于词典的分词方法把文本中的文字与词典中的词汇进行匹配,将匹配到的文字单元作为一个分词结果,基于统计模型的分词方法按照位置将每个字用标签进行标注,通过标注的标签对中文文本进行分词。
4.根据权利要求1所述基于电力专业术语的语义分析方法,其特征在于:中文标注具体步骤包括中文文本在文字预处理中通常以序列的形式存在,在对文本序列进行词性等的标注时选择HMM、CRF等能够胜任序列标注的统计概率模型,标注过程中以中文语句为输入,输出类包含汉字、标点、标注符等字符的序列标注结果。
5.根据权利要求1所述基于电力专业术语的语义分析方法,其特征在于:专业术语语音库具体步骤包括后台服务器端提供配置专业术语与移动终端操作流程之间功能函数映射关系,配置完成后移动终端通过服务端接口自动更新最新语音库版本,语音识别之后通过语义过滤引擎,在语音库中匹配对应的业务操作。
6.根据权利要求1所述基于电力专业术语的语义分析方法,其特征在于:机器学习采用词表示技术将自然语言语句表示成计算机可识别处理的形式,基于向量空间模型,用矩阵向量的形式表示文本集合,以句子为单位,文本中每个语句为一行向量,通过向量空间模型可以将文本对象转化为计算机可处理的矩阵向量,然后通过词语到向量的转换能够体现词序、邻近词信息。
7.根据权利要求1所述基于电力专业术语的语义分析方法,其特征在于:语义模型具体步骤包括电力专业在语义解析过程中主要用到CRF语义模板及事件类型语义模型,其中语义模板用于解析文本中的有效语义成分单元,语义模型用于提供具体业务所包含的语义成分用以识别文本对象所属业务类型,形式上语义模型分为语义匹配模型和语义训练模型,使用过程中语义匹配模型用于语句的分类匹配及语义解析,语义训练模型是用于生成CRF语义模板的中间标注结果,需要人工辅助标注,以添加感兴趣的目标物理含义。
8.根据权利要求1所述基于电力专业术语的语义分析方法,其特征在于:业务流程控制具体步骤包括把不同业务场景的不同表单组合注入到语音处理逻辑框架中,移动应用在使用过程中可自动判断表单类型以及事件处理类型,控制表单相关的语音导航、表单数据录入、业务函数调用以及表单焦点移动等操作。
9.根据权利要求1至8任一项所述基于电力专业术语的语义分析方法,其特征在于:内网私有云具体步骤包括部署在Linux系统下的企业云服务器,提供内网的语音识别以及语义分析调用能力。

说明书全文

基于电专业术语的语义分析方法

技术领域

[0001] 本发明涉及一种语义分析方法,具体涉及一种基于电力专业术语的语义分析方法 ,属于电力计算机信息通信技术领域。

背景技术

[0002] 随着移动互联网的高速发展,智能手机移动应用在各行各业爆发式增长,各种类型的用户交互方式层出不穷。但考虑到受使用人群年龄、文化平、使用习惯、使用环境等各方面因素的限制,交互的准确性及便捷性还有很大的提升空间。尤其是在电力专业,作业人员在相对恶劣的操作环境中如何更方便、快速、高效的使用业务应用,成为行业面临的一项重大课题。
[0003] 近年来,随着计算、人工智能、网络通信技术迅猛发展,自然语言处理技术发展迅速,促使机器能够在一定程度上“理解”语音。基于云服务的语音智能识别、语义分析在理论研究和技术实践层面均取得关键性突破,业界涌现出一批以科大讯飞为代表的语音识别、语义分析解决方案。
[0004] 语义分析技术,是让机器通过识别和理解过程使之听懂人类语言的技术。语义分析技术是信息技术中人机交互的关键技术,目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。但是以科大讯飞为代表的语音识别技术是以外网在线语音处理能力为核心,针对于电力行业数据安全性及业务专业性方面,存在一定的局限性,同时电力是个专业性非常强的行业,对电力专业术语语义分析模型要求较高的准确性和可靠性。因此,深度分析研究电力行业的业务需求,构建一种基于内网私有云服务,通过特定电力专业术语的语音库,集成现有的业务操作,形成一种快速高效交互的解决方案,具有深远的意义和较强的利用价值。

发明内容

[0005] 本发明目的是提供了一种基于电力专业术语的语义分析方法,可以快速、高效的实现人机交互,同时保证数据安全。
[0006] 本发明为实现上述目的,通过以下技术方案实现:一种基于电力专业术语的语义分析方法,包括文本预处理、中文分词、中文标注、专业术语语音库、机器学习、语义模型、业务流程控制以及服务器端内网私有云服务。
[0007] 基于电力专业术语的语义分析方法优选方案,文本预处理具体步骤包括对收集的地方方言、专业术语及操作指令在书写形式上进行统一规范,修正错别字及非常规词,对语句段落进行重新划分,通过以上描述的文字预处理方法为下一步语义分析提供准确的数据源。
[0008] 基于电力专业术语的语义分析方法优选方案,中文分词具体步骤包括结合电力专业文本自身特点及其应用时所依赖的物理环境设计电力专业术语的分词规则,规则遵循以分词时以具有真实物理含义的词为语义单元的原则,同时采用基于词典的分词方法和统计模型的分词方法,基于词典的分词方法把文本中的文字与词典中的词汇进行匹配,将匹配到的文字单元作为一个分词结果,基于统计模型的分词方法按照位置将每个字用标签进行标注,通过标注的标签对中文文本进行分词。基于电力专业术语的语义分析方法优选方案,中文标注具体步骤包括中文文本在文字预处理中通常以序列的形式存在,在对文本序列进行词性等的标注时选择HMM、CRF等能够胜任序列标注的统计概率模型,标注过程中以中文语句为输入,输出类包含汉字、标点、标注符等字符的序列标注结果。
基于电力专业术语的语义分析方法优选方案,专业术语语音库具体步骤包括后台服务器端提供配置专业术语与移动终端操作流程之间功能函数映射关系,配置完成后移动终端通过服务端接口自动更新最新语音库版本,语音识别之后通过语义过滤引擎,在语音库中匹配对应的业务操作。
[0009] 基于电力专业术语的语义分析方法优选方案,机器学习采用词表示技术将自然语言语句表示成计算机可识别处理的形式,基于向量空间模型,用矩阵向量的形式表示文本集合,以句子为单位,文本中每个语句为一行向量,通过向量空间模型可以将文本对象转化为计算机可处理的矩阵向量,然后通过词语到向量的转换能够体现词序、邻近词信息。
[0010] 基于电力专业术语的语义分析方法优选方案,语义模型具体步骤包括电力专业在语义解析过程中主要用到CRF语义模板及事件类型语义模型,其中语义模板用于解析文本中的有效语义成分单元,语义模型用于提供具体业务所包含的语义成分用以识别文本对象所属业务类型,形式上语义模型分为语义匹配模型和语义训练模型,使用过程中语义匹配模型用于语句的分类匹配及语义解析,语义训练模型是用于生成CRF语义模板的中间标注结果,需要人工辅助标注,以添加感兴趣的目标物理含义。基于电力专业术语的语义分析方法优选方案,业务流程控制具体步骤包括把不同业务场景的不同表单组合注入到语音处理逻辑框架中,移动应用在使用过程中可自动判断表单类型以及事件处理类型,控制表单相关的语音导航、表单数据录入、业务函数调用以及表单焦点移动等操作。
[0011] 基于电力专业术语的语义分析方法优选方案,内网私有云具体步骤包括部署在Linux系统下的企业云服务器,提供内网的语音识别以及语义分析调用能力。通过多路授权以及分布式部署,有效的提高了语音识别及语义分析速度。本发明的优点在于:
 1)使输电现场作业人员能够解放双手,通过语音命令进行移动应用操作,显著提高信息输入的效率,特别是在电网发生紧急情况时更能快速有效的及时应对,保障电网运行安全。同时,极大提高生产效率和服务质量,推动智能电网朝着“动用各种感官,实现人机全面沟通” 的人工智能方向发展;
2)基于专业术语语音库所收集的涵盖不同方言和不同类型背景噪声的海量语音数据,通过先进的区分性训练方式进行语音建模,使语音识别器在复杂应用环境下均有良好的效果;
3)通过内网私有云服务多路授权及分布式部署,有效的提高了语音识别及合成速度。
通过内置了大量的电力行业专业术语及名词,使电力设备名称等专业词汇识别率达到90%以上。

具体实施方式

[0012] 下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0013] 一种基于电力专业术语的语义分析方法,包括文本预处理、中文分词、中文标注、专业术语语音库、机器学习、语义模型、业务流程控制以及服务器端内网私有云服务。
[0014] 文本预处理具体步骤包括对收集的地方方言、专业术语及操作指令在书写形式上进行统一规范,修正错别字及非常规词,对语句段落进行重新划分,通过以上描述的文字预处理方法为下一步语义分析提供准确的数据源。
[0015] 中文分词具体步骤包括结合电力专业文本自身特点及其应用时所依赖的物理环境设计电力专业术语的分词规则,规则遵循以分词时以具有真实物理含义的词为语义单元的原则,同时采用基于词典的分词方法和统计模型的分词方法,基于词典的分词方法把文本中的文字与词典中的词汇进行匹配,将匹配到的文字单元作为一个分词结果,基于统计模型的分词方法按照位置将每个字用标签进行标注,通过标注的标签对中文文本进行分词。中文标注具体步骤包括中文文本在文字预处理中通常以序列的形式存在,在对文本序列进行词性等的标注时选择HMM、CRF等能够胜任序列标注的统计概率模型,标注过程中以中文语句为输入,输出类包含汉字、标点、标注符等字符的序列标注结果。
专业术语语音库具体步骤包括后台服务器端提供配置专业术语与移动终端操作流程之间功能函数映射关系,配置完成后移动终端通过服务端接口自动更新最新语音库版本,语音识别之后通过语义过滤引擎,在语音库中匹配对应的业务操作。
[0016] 机器学习采用词表示技术将自然语言语句表示成计算机可识别处理的形式,基于向量空间模型,用矩阵向量的形式表示文本集合,以句子为单位,文本中每个语句为一行向量,通过向量空间模型可以将文本对象转化为计算机可处理的矩阵向量,然后通过词语到向量的转换能够体现词序、邻近词信息。
[0017] 语义模型具体步骤包括电力专业在语义解析过程中主要用到CRF语义模板及事件类型语义模型,其中语义模板用于解析文本中的有效语义成分单元,语义模型用于提供具体业务所包含的语义成分用以识别文本对象所属业务类型,形式上语义模型分为语义匹配模型和语义训练模型,使用过程中语义匹配模型用于语句的分类匹配及语义解析,语义训练模型是用于生成CRF语义模板的中间标注结果,需要人工辅助标注,以添加感兴趣的目标物理含义。业务流程控制具体步骤包括把不同业务场景的不同表单组合注入到语音处理逻辑框架中,移动应用在使用过程中可自动判断表单类型以及事件处理类型,控制表单相关的语音导航、表单数据录入、业务函数调用以及表单焦点移动等操作。
[0018] 内网私有云具体步骤包括部署在Linux系统下的企业云服务器,提供内网的语音识别以及语义分析调用能力。通过多路授权以及分布式部署,有效的提高了语音识别及语义分析速度。最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈