首页 / 专利库 / 人工智能 / 对话语料库 / 一种针对自然语言进行情绪识别的方法

一种针对自然语言进行情绪识别的方法

阅读:988发布:2020-06-18

专利汇可以提供一种针对自然语言进行情绪识别的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种针对自然语言进行情绪识别的方法,本方法综合考虑语音和文本内容两方面的信息,通过 机器学习 算法 ,判断出客户正确的情绪反应,并根据客户问题和情绪识别结果,让 机器人 更加智能、自然的与客户进行交流。,下面是一种针对自然语言进行情绪识别的方法专利的具体信息内容。

1.一种针对自然语言进行情绪识别的方法,其特征在于:该方法对收集的自然语言分别进行基于文本内容和基于语音的的情绪识别,然后综合两方面的信息,判断客户情绪类别,包括以下步骤:S01)、采集载有自然语言的语音信息,通过语音识别将其转换为文本信息,输入到事先建立好的文本情绪分类器,判断该文本信息是积极、消极还是客观,并输出各个类别的置信度;S02)、基于现有的语音库和机器人不断采集的自然语音,提取不同情绪状态下的声学特征并进行统计学习,建立一个语音情绪分类器,载有自然语言的语音信息输入后,判断该语音信息是积极、消极还是客观,并输出各个类别的置信度;S03)、参考基于文本内容的类别置信度和基于语音的类别置信度,通过支持向量机进行训练学习,最终得到一个综合语音和文本内容的情绪分析分类器。
2.根据权利要求1所述的针对自然语言进行情绪识别的方法,其特征在于:基于文本内容的情绪识别包括以下步骤:S11)、构建语料库,依据现有的情绪分类语料库,将其分为积极、消极和客观三组样本,同时,通过机器人不断地与客户进行自然语言交互,收集文本内容信息,不断地丰富语料库;S12)、特征词选择,采用CHI算法从构建的语料库中选择能够区分情绪类别的特征词;S13)、权重计算,根据步骤S11提供的语料库和步骤S12提供的特征词,采用改进的TF-IDF算法进行特征词统计和权重计算;S14)、采用SVM进行样本训练和测试,语料库中分为积极、消极和客观三类,采用SVM算法进行三分类的训练学习,训练结束后,输入由语音信息转换成的文本内容,即可输出各个类别的置信度。
3.根据权利要求1所述的针对自然语言进行情绪识别的方法,其特征在于:基于语音的情绪识别包括以下步骤:S21)、构建语音库,依据现有采集的语音构建语音库,同时通过机器人不断的进行现场语料采集来进行补充;S22)、语音信号的预处理和特征采集,将采集的语音信号进行采样、量化、加窗的预处理之后进行特征提取,提取时域下的持续时间、短时能量、短时平均过零率、基音周期作为情绪识别的特征;S23)、采用高斯混合模型进行情绪判断,根据不同的语音特征在情绪表达的权重大小进行线性组合分析。
4.根据权利要求2所述的针对自然语言进行情绪识别的方法,其特征在于:步骤S11中,通过python爬虫爬取微博、淘宝等网站上面的大量的回复、评论进行分类,或者直接使用网络上公开的短文本情绪分类库,构建情绪识别语料库,同时利用交互机器人不断的进行现场采集,在机器人收到语音信号后,将其识别为文本内容发送给后台,并将这部分数据进行标注之后输入语料库,不断丰富语料库。
5.根据权利要求4所述的针对自然语言进行情绪识别的方法,其特征在于:针对机器人不能正确切分出来的词汇,建立一份用户自定义词表,依据机器人不断收集的问答数据和现场工作人员的反馈,不断丰富用户自定义词表。
6.根据权利要求2所述的针对自然语言进行情绪识别的方法,其特征在于:步骤S12中,采用情感词典来进行辅助特征选择。
7.根据权利要求6所述的针对自然语言进行情绪识别的方法,其特征在于:采用知网的情感分析词语集来辅助进行特征词的选择。
8.根据权利要求2所述的针对自然语言进行情绪识别的方法,其特征在于:步骤S13中,改进的TF-IDF算法为:根据短文本中是否有情感词、程度修饰词,分别在TF计算项上乘以一个自定义系数,以体现情感词、程度修饰词对情绪识别的表示能
9.根据权利要求3所述的针对自然语言进行情绪识别的方法,其特征在于:步骤S21中,依赖网络上已有的情感语音库构建语音库,同时通过对话机器人不断的进行现场语音采集,丰富语音库,并将其分为积极、消极和客观三组样本。
10.根据权利要求3所述的针对自然语言进行情绪识别的方法,其特征在于:步骤S23中,采用高斯混合模型进行分类,将语音信号分为积极、消极和客观三类,在分类过程中,采用最大期望算法,将被测语音在情绪分类中的对数似然函数最大化,以完成情绪的判断,将一条语音输入到训练好的分类器中,即可输出不同类别的置信度。

说明书全文

一种针对自然语言进行情绪识别的方法

技术领域

[0001] 本发明涉及一种针对自然语言进行情绪识别的方法,属于自然语言处理机器学习领域。

背景技术

[0002] 作为人机交互中最直接和最有效的方式,自然语言是传递和表达信息最精确、最复杂的重要媒介。人与人之间正常的自然语言交互,往往含有感情色彩,在不同的情绪下,同一句话可能会表达出不同的含义,因此,声音和语言都是语义理解的重要参量。而当下的聊天机器人,基本上通过语音识别技术,依据说话人的文本内容,进行语义理解与交互。用户收到的响应,要么是文本信息,要么是经过TTS语音合成的没有感情色彩的反馈。这种仅依赖文本内容而不考虑情绪状态进行语义理解的方式,使得机器人不能够全面的理解说话人的意图。
[0003] 目前也有很多基于文本内容进行情绪识别的研究,比如,人在愤怒的状态下可能会使用更多的侮辱性的词汇;在高兴的时候,可能会使用一些积极向上的词汇。但是,应用到具有自然语言交互的机器人对话系统中时,往往难以正确识别到客户正确的情绪反应。语音本身就富含大量的情感信息,比如,人在紧张的时候,更容易有停顿和语法方面的错误;在愤怒的时候,声音明显会响亮很多。综合考虑语音和文本内容两方面的信息,通过机器学习,判断出客户正确的情绪反应,并依此进行答案和情绪反馈,会让机器人更加智能的与客户进行交流。

发明内容

[0004] 本发明要解决的技术问题是提供一种针对自然语言进行情绪识别的方法,综合考虑语音和文本内容两方面的信息,通过机器学习算法,判断出客户正确的情绪反应,并根据客户问题和情绪识别结果,让机器人更加智能、自然的与客户进行交流。
[0005] 为了解决所述技术问题,本发明采用的技术方案是:一种针对自然语言进行情绪识别的方法,该方法对收集的自然语言分别进行基于文本内容和基于语音的的情绪识别,然后综合两方面的信息,判断客户情绪类别,包括以下步骤:S01)、采集载有自然语言的语音信息,通过语音识别将其转换为文本信息,输入到事先建立好的文本情绪分类器,判断该文本信息是积极、消极还是客观,并输出各个类别的置信度;S02)、基于现有的语音库和机器人不断采集的自然语音,提取不同情绪状态下的声学特征并进行统计学习,建立一个语音情绪分类器,载有自然语言的语音信息输入后,判断该语音信息是积极、消极还是客观,并输出各个类别的置信度;S03)、参考基于文本内容的类别置信度和基于语音的类别置信度,通过支持向量机进行训练学习,最终得到一个综合语音和文本内容的情绪分析分类器。
[0006] 本发明所述针对自然语言进行情绪识别的方法,基于文本内容的情绪识别包括以下步骤:S11)、构建语料库,依据现有的情绪分类语料库,将其分为积极、消极和客观三组样本,同时,通过机器人不断地与客户进行自然语言交互,收集文本内容信息,不断地丰富语料库;S12)、特征词选择,采用CHI算法从构建的语料库中选择能够区分情绪类别的特征词;S13)、权重计算,根据步骤S11提供的语料库和步骤S12提供的特征词,采用改进的TF-IDF算法进行特征词统计和权重计算;S14)、采用SVM进行样本训练和测试,语料库中分为积极、消极和客观三类,采用SVM算法进行三分类的训练学习,训练结束后,输入由语音信息转换成的文本内容,即可输出各个类别的置信度。
[0007] 本发明所述针对自然语言进行情绪识别的方法,基于语音的情绪识别包括以下步骤:S21)、构建语音库,依据现有采集的语音构建语音库,同时通过机器人不断的进行现场语料采集来进行补充;S22)、语音信号的预处理和特征采集,将采集的语音信号进行采样、量化、加窗的预处理之后进行特征提取,提取时域下的持续时间、短时能量、短时平均过零率、基音周期作为情绪识别的特征;S23)、采用高斯混合模型进行情绪判断,根据不同的语音特征在情绪表达的权重大小进行线性组合分析。
[0008] 本发明所述针对自然语言进行情绪识别的方法,步骤S11中,通过python爬虫爬取微博、淘宝等网站上面的大量的回复、评论进行分类,或者直接使用网络上公开的短文本情绪分类库,构建情绪识别语料库,同时利用交互机器人不断的进行现场采集,在机器人收到语音信号后,将其识别为文本内容发送给后台,并将这部分数据进行标注之后输入语料库,不断丰富语料库。
[0009] 本发明所述针对自然语言进行情绪识别的方法,针对机器人不能正确切分出来的词汇,建立一份用户自定义词表,依据机器人不断收集的问答数据和现场工作人员的反馈,不断丰富用户自定义词表。
[0010] 本发明所述针对自然语言进行情绪识别的方法,步骤S12中,采用情感词典来进行辅助特征选择。
[0011] 进一步地,采用知网的情感分析词语集来辅助进行特征词的选择。
[0012] 本发明所述针对自然语言进行情绪识别的方法,步骤S13中,改进的TF-IDF算法为:根据短文本中是否有情感词、程度修饰词,分别在TF计算项上乘以一个自定义系数,以体现情感词、程度修饰词对情绪识别的表示能
[0013] 本发明所述针对自然语言进行情绪识别的方法,步骤S21中,依赖网络上已有的情感语音库构建语音库,同时通过对话机器人不断的进行现场语音采集,丰富语音库,并将其分为积极、消极和客观三组样本。
[0014] 本发明所述针对自然语言进行情绪识别的方法,步骤S23中,采用高斯混合模型进行分类,将语音信号分为积极、消极和客观三类,在分类过程中,采用最大期望算法,将被测语音在情绪分类中的对数似然函数最大化,以完成情绪的判断,将一条语音输入到训练好的分类器中,即可输出不同类别的置信度。
[0015] 本发明的有益效果:本发明综合考虑语音和文本内容两方面的信息,通过机器学习算法,判断出客户正确的情绪反应,并根据客户问题和情绪识别结果,让机器人更加智能、自然的与客户进行交流。附图说明
[0016] 图1为基于文本内容的情绪识别流程图;图2为基于语音的情绪识别流程图;
图3为综合语音、文本内容的情绪识别流程图。
具体实施例
[0017] 下面结合附图和具体实施例对本发明作进一步的说明。
[0018] 本实施例立足于智能交互机器人,提供一种针对自然语言进行情绪识别的方法,其通过机器人麦克收集语音,然后分别进行基于文本内容和基于语音的情绪识别,然后综合两方面的信息,判定客户情绪类别,由此可以使机器人更加自然地进行交互。本方法也可以使用于其他可以进行人机交互的设备,如手机、电脑等,包括但不仅限于这些设备。
[0019] 如图3所示,本方法包括以下步骤:S01)、采集载有自然语言的语音信息,通过语音识别将其转换为文本信息,输入到事先建立好的文本情绪分类器,判断该文本信息是积极、消极还是客观,并输出各个类别的置信度;
S02)、基于现有的语音库和机器人不断采集的自然语音,提取不同情绪状态下的声学特征并进行统计学习,建立一个语音情绪分类器,载有自然语言的语音信息输入后,判断该语音信息是积极、消极还是客观,并输出各个类别的置信度;
S03)、参考基于文本内容的类别置信度和基于语音的类别置信度,通过支持向量机进行训练学习,最终得到一个综合语音和文本内容的情绪分析分类器。
[0020] 如图1所示,基于文本内容的情绪识别包括以下步骤:S11)、构建语料库,依据现有的情绪分类语料库,将其分为积极、消极和客观三组样本,同时,通过机器人不断地与客户进行自然语言交互,收集文本内容信息,不断地丰富语料库。
[0021] 立足于机器人的情绪识别,其对话样本往往是短文本,类似于聊天或者微博等互联网上的回复、评论信息。短文本的表述更加口语化,同时表述比书面语更加简单。通过python爬虫爬取微博、淘宝等网站上面的大量的回复、评论进行分类,或者直接使用网络上公开的短文本情绪分类库,构建情绪识别语料库。
[0022] 由于交互机器人往往是面向一个垂直的业务场景,单纯的从网络上爬取的大量信息,可能与垂直业务的场景有较大的偏差。因此,利用交互机器人不断的进行现场采集,在机器人收到语音信号后,将其识别为文本内容发送给后台,并将这部分数据进行标注之后,不断丰富我们的语料库。另外,对于一些垂直领域内特有的词汇或者一些互联网的新出的流行词等,机器人可能不能够正确的切分出来。为此,可以建立一份用户自定义此表。依据机器人不断收集的问答数据和现场工作人员的反馈,不断丰富词表。
[0023] S12)、特征词选择,采用CHI算法从构建的语料库中选择能够区分情绪类别的特征词。
[0024] 在进行情绪识别时,不同类别中短文本中的情绪词往往具有更好的区分能力。因此,我们采用知网的中文情感分析词语集,来辅助进行特征词的选择。知网的中文情感分析词语集包括程度级别词语集、负面评价词语集、正面评价词语集等多个词典。基于前面收集的语料库,我们采用CHI算法来进行特征词的选取。当该词属于情感词典时,我们可以将CHI算法的输出设为一个较大值,这样可以保证情感词一定能够被用于特征词中。
[0025] S13)、权重计算,根据步骤S11提供的语料库和步骤S12提供的特征词,采用改进的TF-IDF算法进行特征词统计和权重计算;采用传统的tf-idf算法进行权重计算,虽然具有一定的通用性,但是没有考虑到对短文本进行情绪识别中情感词的标识能力。对于短文本而言,情感词的出现往往比出现次数更加重要。因此,对于情感词,尤其是带有程度修饰词(如“非常”、“极其”、“很”)修饰的情感词,在进行权重计算时,需要做一些特殊的处理。根据短文本中是否有情感词,是否有程度修饰词,分别在有情感词、程度修饰词的TF计算项上乘以一个自定义系数,以强调情感词对于分类的重要性。
[0026] S14)、采用SVM进行样本训练和测试,语料库中分为积极、消极和客观三类,采用SVM算法进行三分类的训练学习,训练结束后,输入由语音信息转换成的文本内容,即可输出各个类别的置信度。
[0027] 如图2所示,基于语音的情绪识别包括以下步骤:S21)、构建语音库,依赖于网络上已有的情感语音库,同时,通过对话机器人不断的进行现场语音采集,丰富语音库。
[0028] S22)、语音信号的预处理和特征采集,将采集的语音信号进行采样和量化,将其转换为计算机可以进行处理的数字信号。同时对语音信号进行短时加窗分帧操作,分帧之后的语音信号可以认为时短时间内的平稳信号。另外,提取时域下的持续时间、短时能量、短时平均过零率、基音周期作为情绪识别的特征。
[0029] S23)、采用高斯混合模型进行分类,将语音信号分为积极、消极和客观三类。在分类过程中,采用最大期望算法,将被测语音在情绪分类中的对数似然函数最大化,以完成情绪的判断。将一条语音输入到训练好的分类器中,即可输出不同类别的置信度。
[0030] 本发明综合考虑语音和文本内容两方面的信息,通过机器学习算法,判断出客户正确的情绪反应,并根据客户问题和情绪识别结果,让机器人更加智能、自然的与客户进行交流。
[0031] 以上描述的仅是本发明的基本原理和优选实施例,本领域技术人员根据本发明做出的改进和替换,属于本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈