首页 / 专利库 / 人工智能 / 情感计算 / 智能问答信息处理方法、电子设备及计算机可读存储介质

智能问答信息处理方法、电子设备及计算机可读存储介质

阅读:691发布:2020-05-11

专利汇可以提供智能问答信息处理方法、电子设备及计算机可读存储介质专利检索,专利查询,专利分析的服务。并且本 申请 实施例 提供了一种智能问答信息处理方法、 电子 设备及计算机可读存储介质,涉及 人工智能 技术领域。该方法包括:接收用户输入的提问信息,然后从提问信息中提取情感特征和文本特征,情感特征用于表征提问信息中是否包含情感信息,以及包含的情感信息的类型,然后基于情感特征和文本特征确定提问信息对应的目标意图信息,并基于目标意图信息确定目标答复信息。本申请实施例实现了提高确定用户提问意图的准确度,进而可以提升匹配出的回复信息的准确度,以及提升用户体验。,下面是智能问答信息处理方法、电子设备及计算机可读存储介质专利的具体信息内容。

1.一种智能问答信息处理方法,其特征在于,该方法包括:
接收用户输入的提问信息;
从所述提问信息中提取情感特征和文本特征,所述情感特征用于表征所述提问信息中是否包含情感信息,以及包含的情感信息的类型;
基于所述情感特征和所述文本特征确定所述提问信息对应的目标意图信息;
基于所述目标意图信息确定目标答复信息。
2.根据权利要求1所述的方法,其特征在于,所述文本特征包括:正则特征;
从所述提问信息中提取所述正则特征的方式,包括:
获取提问信息的各个第一业务类型分别对应的正则规则;
通过每个第一业务类型对应的正则规则,从所述提问信息中提取与所述各个第一业务类型分别匹配的正则特征。
3.根据权利要求1或2所述的方法,其特征在于,所述文本特征还包括:词频-逆向文件频率TF-IDF特征;
从所述提问信息中提取所述TF-IDF特征的方式,包括:
对所述提问信息进行分词处理;
确定每个词出现的词频以及所述每个词对应的权值参数;
基于所述每个词出现的词频以及所述每个词对应的权值参数,确定所述提问信息的TF-IDF特征;
从所述提问信息中提取文本特征,之后还包括:
对所述TF-IDF特征进行主成分分析,得到分析处理后的特征。
4.根据权利要求3所述的方法,其特征在于,所述对所述TF-IDF特征进行主成分分析PCA,得到分析处理后的特征,之后还包括:
对所述分析处理后的特征进行编码,得到编码后的特征;
其中,所述基于所述情感特征和所述文本特征确定目标意图信息,包括:
基于所述情感特征、正则特征以及所述编码后的特征确定所述目标意图信息。
5.根据权利要求1所述的方法,其特征在于,从所述提问信息中提取情感特征的方式,包括以下至少一项:
基于情感字典从所述提问信息中提取所述情感特征;
基于训练后的情感特征提取模型从所述提问信息中提取所述情感特征。
6.根据权利要求1所述的方法,其特征在于,所述基于所述情感特征和所述文本特征确定目标意图信息,包括:
基于所述情感特征和所述文本特征并通过训练后的分类模型进行意图分类处理,以确定所述目标意图信息。
7.根据权利要求6所述的方法,其特征在于,所述基于所述情感特征和所述文本特征并通过训练后的分类模型进行分类处理,之前还包括:
获取多个历史提问信息,并将各个历史提问信息按照所述第二业务类型进行标注;
从标注后的各个历史提问信息中分别提取文本特征以及情感特征,作为训练样本;
基于所述训练样本对预设模型进行训练,得到训练后的分类模型。
8.一种智能问答信息处理装置,其特征在于,包括:
接收模,用于接收用户输入的提问信息;
第一提取模块,用于从所述提问信息中提取情感特征和文本特征,所述情感特征用于表征所述提问信息中是否包含情感信息,以及包含的情感信息的类型;
第一确定模块,用于基于所述情感特征和所述文本特征确定所述提问信息对应的目标意图信息;
第二确定模块,用于基于所述目标意图信息确定目标答复信息。
9.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~7任一项所述的智能问答信息处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~7任一项所述的智能问答信息处理方法。

说明书全文

智能问答信息处理方法、电子设备及计算机可读存储介质

技术领域

[0001] 本申请涉及人工智能技术领域,具体而言,本申请涉及一种智能问答信息处理方法、电子设备及计算机可读存储介质。

背景技术

[0002] 随着人工智能技术以及自然语言处理技术的发展,智能问答系统随之产生,智能问答系统可以基于用户的提问,确定出用户的提问意图,进而基于确定出的提问意图匹配出与之相应的答复,并回复给用户。
[0003] 现有技术中在获取到用户的提问信息之后,从用户的提问信息中提取对应的关键词,然后基于关键词匹配出与用户的提问信息相匹配的意图信息,进而确定出对应的答复信息,并回复至用户。
[0004] 然而,仅是通过从用户的提问信息中提取的关键词匹配出用户的意图,进而确定出相匹配的答复的方式,可能会将关键词相同,但是用户的意图完全不相同的两个提问信息匹配出相同的意图,进而得到相同的回复信息,例如,用户的提问信息1为“XX游戏好不好玩?”以及提问信息2“XX游戏?”,通过关键词“XX游戏”匹配出相同的意图,进而得到回复信息也是与XX游戏相关的信息,从而导致确定用户提问意图的准确度较低,进而导致匹配出的回复信息的准确度同样较低,以及用户体验较差。发明内容
[0005] 本申请提供了一种智能问答信息处理方法、电子设备及计算机可读存储介质,可以解决上述至少一项技术问题。所述技术方案如下:
[0006] 第一方面,提供了一种智能问答信息处理方法,包括:
[0007] 接收用户输入的提问信息;
[0008] 从提问信息中提取情感特征和文本特征,情感特征用于表征提问信息中是否包含情感信息,以及包含的情感信息的类型;
[0009] 基于情感特征和文本特征确定提问信息对应的目标意图信息;
[0010] 基于目标意图信息确定目标答复信息。
[0011] 在一种可能的实现方式中,文本特征包括:正则特征;
[0012] 从提问信息中提取正则特征的方式,包括:
[0013] 获取提问信息的各个第一业务类型分别对应的正则规则;
[0014] 通过每个第一业务类型对应的正则规则,从提问信息中提取与各个第一业务类型分别匹配的正则特征。
[0015] 在另一种可能的实现方式中,文本特征还包括:词频-逆向文件频率TF-IDF特征;
[0016] 从提问信息中提取TF-IDF特征的方式,包括:
[0017] 对提问信息进行分词处理;
[0018] 确定每个词出现的词频以及每个词对应的权值参数;
[0019] 基于每个词出现的词频以及每个词对应的权值参数,确定提问信息的TF-IDF特征;
[0020] 从提问信息中提取文本特征,之后还包括:
[0021] 对TF-IDF特征进行主成分分析,得到分析处理后的特征。
[0022] 在另一种可能的实现方式中,对TF-IDF特征进行主成分分析PCA,得到分析处理后的特征,之后还包括:
[0023] 对分析处理后的特征进行编码,得到编码后的特征;
[0024] 其中,基于情感特征和文本特征确定目标意图信息,包括:
[0025] 基于情感特征、正则特征以及编码后的特征确定目标意图信息。
[0026] 在另一种可能的实现方式中,从提问信息中提取情感特征的方式,包括:
[0027] 基于情感字典从提问信息中提取情感特征;
[0028] 基于训练后的情感特征提取模型从提问信息中提取情感特征。
[0029] 在另一种可能的实现方式中,基于情感特征和文本特征确定目标意图信息,包括:
[0030] 基于情感特征和文本特征并通过训练后的分类模型进行意图分类处理,以确定目标意图信息。
[0031] 在另一种可能的实现方式中,基于情感特征和文本特征并通过训练后的分类模型进行分类处理,之前还包括:
[0032] 获取多个历史提问信息,并将各个历史提问信息按照第二业务类型进行标注;
[0033] 从标注后的各个历史提问信息中分别提取文本特征以及情感特征,作为训练样本;
[0034] 基于训练样本对预设模型进行训练,得到训练后的分类模型。
[0035] 第二方面,提供了一种智能问答信息处理装置,该装置包括:
[0036] 接收模,用于接收用户输入的提问信息;
[0037] 第一提取模块,用于从提问信息中提取情感特征和文本特征,情感特征用于表征提问信息中是否包含情感信息,以及包含的情感信息的类型;
[0038] 第一确定模块,用于基于情感特征和文本特征确定提问信息对应的目标意图信息;
[0039] 第二确定模块,用于基于目标意图信息确定目标答复信息。
[0040] 在一种可能的实现方式中,文本特征包括:正则特征;
[0041] 第一提取模块在从提问信息中提取正则特征时,具体用于:
[0042] 获取提问信息的各个第一业务类型分别对应的正则规则;
[0043] 通过每个第一业务类型对应的正则规则,从提问信息中提取与各个第一业务类型分别匹配的正则特征。
[0044] 在另一种可能的实现方式中,文本特征还包括:词频-逆向文件频率TF-IDF特征;
[0045] 提问信息在从提问信息中提取TF-IDF特征时,具体用于:
[0046] 对提问信息进行分词处理;
[0047] 确定每个词出现的词频以及每个词对应的权值参数;
[0048] 基于每个词出现的词频以及每个词对应的权值参数,确定提问信息的TF-IDF特征;
[0049] 装置还包括:主成分分析模块,其中,
[0050] 主成分分析模块,用于对TF-IDF特征进行主成分分析,得到分析处理后的特征。
[0051] 在另一种可能的实现方式中,装置还包括:编码模块,其中,
[0052] 编码模块,用于对分析处理后的特征进行编码,得到编码后的特征;
[0053] 其中,第一确定模块在基于情感特征和文本特征确定目标意图信息时,具体用于:
[0054] 基于情感特征、正则特征以及编码后的特征确定目标意图信息。
[0055] 在另一种可能的实现方式中,第一提取模块在从提问信息中提取情感特征时,具体用于:
[0056] 基于情感字典从提问信息中提取情感特征;
[0057] 基于训练后的情感特征提取模型从提问信息中提取情感特征。
[0058] 在另一种可能的实现方式中,第一确定模块在基于情感特征和文本特征确定目标意图信息时,具体用于:
[0059] 基于情感特征和文本特征并通过训练后的分类模型进行意图分类处理,以确定目标意图信息。
[0060] 在另一种可能的实现方式中,装置还包括:获取模块、第二提取模块、标注模块和训练模块,其中,
[0061] 获取模块,用于获取多个历史提问信息;
[0062] 标注模块,用于将各个历史提问信息按照第二业务类型进行标注;
[0063] 第二提取模块,用于从标注后的各个历史提问信息中分别提取文本特征以及情感特征,作为训练样本;
[0064] 训练模块,用于基于训练样本对预设模型进行训练,得到训练后的分类模型。
[0065] 第三方面,提供了一种电子设备,该电子设备包括:
[0066] 一个或多个处理器;
[0067] 存储器
[0068] 一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面或者第一方面任一可能的实现方式所示的智能问答信息处理方法对应的操作。
[0069] 第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面或者第一方面任一可能的实现方式所示的智能问答信息处理方法。
[0070] 本申请提供的技术方案带来的有益效果是:
[0071] 本申请提供了一种智能问答信息处理方法、电子设备及计算机可读存储介质,与现有技术中通过关键词匹配出用户意图,进而得到对应回复的方式相比,本申请接收用户输入的提问信息,然后从提问信息中提取情感特征和文本特征,情感特征用于表征提问信息中是否包含情感信息,以及包含的情感信息的类型,然后基于情感特征和文本特征确定提问信息对应的目标意图信息,并基于目标意图信息确定目标答复信息。即本申请中基于从用户输入的提问信息中提取的情感特征和文本特征进行匹配,以匹配出对应的提问信息,进而得到对应的答复信息,而不是仅仅通过关键词匹配出对应的意图,以得到对应的答复,从而可以提高确定用户提问意图的准确度,进而可以提升匹配出的回复信息的准确度,以及提升用户体验。附图说明
[0072] 为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
[0073] 图1a为现有技术中进行智能问答的方法示意图;
[0074] 图1b为本申请实施例提供的一种智能问答信息处理方法的流程示意图;
[0075] 图2为本申请实施例提供的一种智能问答信息处理装置的结构示意图;
[0076] 图3为本申请实施例提供的一种智能问答信息处理的电子设备的结构示意图;
[0077] 图4为本申请实施例中基于情感字典从用户输入的提问信息中提取情感特征的示意图;
[0078] 图5为本申请实施例中进行智能问答的示例图。

具体实施方式

[0079] 下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
[0080] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0081] 为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0082] 首先对本申请涉及的几个名词进行介绍和解释:
[0083] 游戏运营机器人:专注于游戏运营的智能机器人,可以提供游戏运营相关的自动智能问答,是查询游戏运营数据的统一接口
[0084] 模糊匹配:指的是根据输入字符串寻找答案,不需要字符串中每个字都相同,找到类似的答案就进行返回;
[0085] 领域性意图识别:在限定领域下,识别出用户输入文本对应的相应类别,根据类别返回与用户查询最相关的内容;
[0086] 情感分类:对文本进行分析,发现其中是否存在带有情感色彩的主观性文本。具体实现是对用户输入进行划分类别,类别结果是三类,要么倾向于正面,要么倾向于负面,要么是中性;
[0087] 机器学习:是人工智能的一个分支,机器学习中包括各种无监督或有监督的学习算法,可以用来让计算机自动判断得到分析结果;
[0088] 有监督学习算法:指的是有训练样本,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型;
[0089] 决策树:机器学习中的有监督学习算法,可以作为预测模型来预测数据样本的类标,通过被称作分类树或回归树;
[0090] 文本特征:在做文本分类聚类时,用于表示文本的基本单位通常被成为文本特征;
[0091] 特征提取:指的是提取出目标文本与其他文本可以区分开的特征,用于更好的表示该文本;
[0092] 词频-逆向文件频率(Term Frequency–Inverse Document Frequency,TF-IDF):是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。
[0093] 本申请实施例中提供的智能问答信息处理方法、装置、电子设备及计算机可读存储介质可以应用于游戏运营领域,以实现对用户的输入的提问信息识别意图,并确定目标答复。
[0094] 目前,进行意图识别的方式可以采用通过模糊匹配方法和机器学习训练方式来进行意图识别,其中模糊匹配的方式主要是关键字匹配,以确定出用户意图,具体地,用户通过产品形态1、产品形态2和产品形态3输入用户的提问信息,在接收到用户输入的提问信息之后,通过搜索引擎和正则引擎在知识库中搜索对应的答复信息,其中知识库可以包括:运营知识库、智能聊天库、内部管理端、内外部API、自学知识库等,具体如图1a所示。但是通过这种关键字进行匹配很容易出现关键字相同,但是意图完全不同的情况,因此通过这种方式识别用户意图,并匹配答复信息可能会出现答非所问的情况;另外,机器学习训练方式通过有监督的学习算法来训练语料,以得到训练后的神经网络,并通过训练后的神经网络来识别用户意图,并基于用户意图得到对应的答复信息,但是通过这种方式来识别意图的方式对训练样本的要求较高,但是目前可能通过机器学习训练方式来进行意图识别的效果不好,尤其是针对游戏运营领域进行智能问答的准确度不佳,效果不好。
[0095] 本申请实施例为了解决上述技术问题,提供的智能问答方法、装置、电子设备及计算机可读存储介质,该方法中通过从用户输入的提问信息中提取文本特征和情感特征,并通过训练后的模型匹配出目标意图信息(确定用户输入的提问信息所属业务类型),并根据目标意图信息匹配出目标答复信息,以呈现给用户,(根据确定出的所属业务类型进行答案搜索,得到对应的答复)。
[0096] 下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
[0097] 本申请实施例提供了一种智能问答信息处理方法,可以由电子设备执行,该电子设备可以为终端设备,也可以服务器,如图1b所示,该方法包括:
[0098] 步骤S101、接收用户输入的提问信息。
[0099] 在本申请实施例中,步骤S101中终端设备可以接收用户在输入框中输入的提问信息,也可以接收用户通过其他方式输入的提问信息,例如通过选择操作选择的提问信息;步骤S101中服务器可以接收终端设备发送的提问信息。
[0100] 步骤S102、从提问信息中提取情感特征和文本特征。
[0101] 其中,情感特征用于表征提问信息中是否包含情感信息,以及包含的情感信息的类型。
[0102] 对于本申请实施例中,步骤S102中从提问信息中提取的情感特征可以用于表征用户输入的提问信息中是否包含预设情感词,例如,好、舒服、不好玩等,并且步骤S102中从提取信息中提取的情感特征可以用向量或者矩阵进行表征,例如,可以通过一维的特征向量表征,其中,特征向量的元素值可以为两个取值(一个取值表征提问信息中包含预设情感词,另一个取值保证提问信息中不包含预设情感词)中的一个,如取值可以0,1表征,具体地,若从提问信息中提取的情感特征表征该提问信息中包含预设情感词,可以通过特征向量{1}表征;若从提问信息中提取的情感特征表征该提问信息中不包含预设情感关键词,可以通过特征向量为{0}表征。
[0103] 进一步地,步骤S102中从提问信息中提取的情感特征还可以用于表征用户输入的提问信息中包含的情感信息的类型,其中情感信息的类型可以分为:正向、负向和中性,并可以通过上述向量或者矩阵方式进行表征,例如,可以通过二维特征矩阵表征,任一二维特征矩阵可以包含两个元素,每个元素的取值可以为0或1,从而可以通过二维特征矩阵中两个元素取值的不同组合来表征情感信息的类型,具体地,若情感信息的类型为正向,则通过矩阵[0 1]表征,若情感特征的类型为负向,则通过矩阵[1 0]表征,若情感特征的类型为中性,则通过矩阵[0 0]表征。
[0104] 进一步地,步骤S102中涉及的文本特征可以包括:TF-IDF特征和正则特征,当然还可以包含其他文本特征。在本申请实施例中并不限定于这两种文本特征,并且从用户输入的提问信息中提取TF-IDF特征和正则特征的方式具体详见下述实施例,在此不再赘述。
[0105] 步骤S103、基于情感特征和文本特征确定提问信息对应的目标意图信息。
[0106] 对于本申请实施例,步骤S103中基于情感特征和文本特征确定提问信息对应的目标意图信息的步骤,具体可以包括:基于情感特征和文本特征确定用户输入的提问信息所属的业务类型。在游戏运营领域中,业务类型可以包括:闲聊、网络、业务、舆情、主机、企业XX,IP,但是并不限定于这些业务类型。
[0107] 步骤S104、基于目标意图信息确定目标答复信息。
[0108] 对于本申请实施例,在确定出用户输入的提问信息所属业务类型之后,在该业务类型下进行答案搜索,以得到匹配的答复信息作为目标答复信息。在本申请实施例中,终端设备可以从服务器中获取的目标答复信息呈现给用户,或者终端设备还可以由本地中确定出的目标答复信息呈现给用户。
[0109] 例如,用户输入的提问信息中为“XX游戏”,确定出其所属的业务部类别为业务,则在业务所对应的数据库中进行答复搜索,以得到匹配的答复信息,并将该答复信息呈现给用户。
[0110] 本申请实施例提供了一种智能问答信息处理方法,与现有技术中通过关键词匹配出用户意图,进而得到对应回复的方式相比,本申请实施例接收用户输入的提问信息,然后从提问信息中提取情感特征和文本特征,情感特征用于表征提问信息中是否包含情感信息,以及包含的情感信息的类型,然后基于情感特征和文本特征确定提问信息对应的目标意图信息,并基于目标意图信息确定目标答复信息。即本申请实施例中基于从用户输入的提问信息中提取的情感特征和文本特征进行匹配,以匹配出对应的提问信息,进而得到对应的答复信息,而不是仅仅通过关键词匹配出对应的意图,以得到对应的答复,从而可以提高确定用户提问意图的准确度,进而可以提升匹配出的回复信息的准确度,以及提升用户体验。
[0111] 进一步地,步骤S101中接收用户输入的提问信息的方式可以采用现有的方式接收到用户输入的提问信息,还可以通过本申请实施例介绍的方式接收到用户输入的提问信息,在接收到用户输入的提问信息之后,从提问信息中提取文本特征,其中,文本特征包括:正则特征;进一步地,步骤S102中从提问信息中提取正则特征的方式,包括:获取提问信息的各个第一业务类型分别对应的正则规则;通过每个第一业务类型对应的正则规则,从提问信息中提取与各个第一业务类型分别匹配的正则特征。
[0112] 其中,在游戏运营领域中第一业务类型可以包含上述涉及到的第一业务类型,还可以包括IP类型、舆情类型、网络类型和业务类型。在本申请实施例中提取的正则特征可以包括:IP特征、舆情特征、网络特征和业务特征。
[0113] 具体地,正则特征可以用于表征用户输入的提问信息是否满足预设的正则规则。在本申请实施例中从用户输入的提问信息中提取的正则特征用于表征用户输入的提问信息是否满足预设设置的每个第一业务类型对应的正则规则,若用户输入的提问信息满足某一业务类型对应的正则规则,则其特征向量可以用“1”来表征,反之用“0”来表征。
[0114] 例如,IP类型对应的正则规则包括:(r'\d+\.\d+\.\d+\.\d+'),用户输入的提问信息为1.1.1.1,则通过上述规则得到IP特征为1,以表征用户输入的提问信息满足IP类型对应的正则规则。其中,\d表示0-9任意一个数字后面有+号表征这个0-9单个数位出现一到多次,r为起始字符;
[0115] 进一步地,从用户输入的提问信息中提取的正则特征可以通过向量或者矩阵来表征。
[0116] 例如,第一业务类型依次包括:IP类型、舆情类型、网络类型和业务类型,从用户输入的提问信息中提取的正则特征为(0,1,1,0),则表征用户输入的提问信息满足舆情类型对应的正则规则和网络类型对应的正则规则,但是并不满足IP类型和业务类型对应的正则规则。
[0117] 进一步地,从用户输入的提问信息中提取的文本信息还可以包括:词频-逆向文件频率TF-IDF特征;进一步地,步骤S102中从提问信息中提取TF-IDF特征的方式,包括:对提问信息进行分词处理;确定每个词出现的词频以及每个词对应的权值参数;基于每个词出现的词频以及每个词对应的权值参数,确定提问信息的TF-IDF特征。
[0118] 具体地,在确定出每个词出现的词频(TF)以及每个词对应的权值参数(IDF)之后,可以通过每个词出现的词频以及每个词对应的权值参数,并通过下述公式确定用户输入的提问信息的TF-IDF特征。
[0119] tfiidfij=tfij×idfi;
[0120] 其中,针对提问信息dj词语ti,其重要性可以表示为:
[0121]
[0122] 其中,ni,j为该词语ti在提问信息dj中出现的次数, 表征提问信息dj中所有字词出现次数之和,
[0123] 其中,|D|为语料库中的文件总数,|{j:ti∈dj}|包含词语ti的文本数目(即nij≠0的文件数目),若词语ti并不在语料库中,则|{j:ti∈dj}|为0。
[0124] 进一步地,通过上述方式从提问信息中提取的TF-IDF特征也可以通过向量或者矩阵进行表征,但是由于TF-IDF特征向量太过离散,因此从提问信息中提取文本特征,之后还包括:对TF-IDF特征进行主成分分析(Principal Component Analysis,PCA),得到分析处理后的特征。在本申请实施例中,在对TF-IDF特征进行主成分分析之后,可以进行降维处理,例如,对TF-IDF特征进行主成分分析之后,可以得到2维关键特征向量,以实现降维。
[0125] 对于本领域的技术人员可知:主成分分析为一个降维算法,即将n维特征映射到k维上,这k维全新的正交特征也被称为主成分。在本申请实施例中,在对TF-IDF特征进行主成分分析之后,得到的降维后的特征可以称为主成分,如上述得到2维关键特征向量。
[0126] 具体地,主成分分析是一个线性变换,这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
[0127] 进一步地,PCA计算过程如下:将提问信息对应的TF-IDF特征向量,其n维空间X,降维的目标维度k,通过特征标准化、计算样本协方差矩阵、计算协方差矩阵的特征值以及对应的特征向量,并将特征向量按照从上到下按行排列,取前k行组成矩阵P,则Y=PX即降维后的k维数据。
[0128] 例如,用户输入的提问信息为“XX游戏好不好玩?”以及“XX游戏”,从这两个提问信息中提取的TF-IDF为6维,且均为0,再经过主成分分析之后,转换为2维特征向量矩阵为:
[0129] [-0.04888652-0.05734314]
[0130] [-0.04888652-0.05734314]。
[0131] 本申请实施例的另一种可能的实现方式,对TF-IDF特征进行PCA主成分分析,得到分析处理后的特征,之后还包括:对分析处理后的特征进行编码,得到编码后的特征。在本申请实施例中对分析处理后的特征进行编码即对分析处理后的特征进行one-hot编码,其中one-hot编码又称为一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候只有一位有效,也就是映射后为:
[0132]
[0133] 进一步地,在从用户输入的提问信息中提取正则特征和TF-IDF特征之后,再对TF-IDF特征进行主成分分析和编码之后,其中,步骤S103具体可以包括:基于情感特征、正则特征以及编码后的特征确定目标意图信息。
[0134] 进一步地,由上述实施例可知在确定目标意图信息时处理利用正则特征和编码后的特征(对TF-IDF特征进行编码处理后的特征)之外,还需要利用情感特征。其中,在游戏运营领域中,若用户输入的提问信息中若包含情感信息,则可能并不是专业性的问答,即可以将提问信息中关键词相同,但是场景不同的提问进行区分,即确定提问信息所属业务类型不同(对应的目标意图信息不同),正是基于上述原因,则需要从用户输入的提问信息中提取情感特征,具体地,步骤S102中从提问信息中提取情感特征的方式,包括:基于情感字典从提问信息中提取情感特征;基于训练后的情感特征提取模型从提问信息中提取情感特征。
[0135] 由上述实施例可知:从用户输入的提问信息中提取情感特征的方式可以包括:基于情感词典进行提取或者基于训练后的情感特征提取模型进行提取。再者,在上述实施例中可知情感特征用于表征提问信息中是否包含情感信息,以及包含的情感信息的类型。
[0136] 具体地,基于情感词典从提问信息中提取情感特征的方式具体可以包括:将用户输入的提问信息通过情感字典进行打分,基于打分结果,确定用户输入的提问信息中是否包含情感信息,若包含情感信息,则该情感特征对应的特征向量置为1,若不包含情感信息,则该情感特征对应的特征向量置为0,具体如图4所示。
[0137] 进一步地,基于训练后的情感特征提取模型从提问信息中提取情感特征可以通过训练后的朴素贝叶斯模型从提问信息中提取情感特征。在本申请实施例中,训练后的情感特征提取模型并不限定于朴素贝叶斯模型,其他可以实现情感特征提取的模型均在本申请实施例的保护范围之内。
[0138] 进一步地,上述实施例中介绍了步骤S102中从提问信息中提取文本特征和情感特征的具体方式,在提取到上述文本特征和情感特征之后,步骤S103具体可以包括:基于情感特征和文本特征并通过训练后的分类模型进行意图分类处理,以确定目标意图信息。
[0139] 本申请实施例中的分类模型可以为决策树,当然还可以为其他分类模型。在本申请实施例中不做限定。具体地,基于情感特征和文本特征并通过训练后的分类模型进行意图分类处理,以确定目标意图信息的方式可以包括:将情感特征对应的向量和文本特征对应的向量拼接之后,输入至训练后的分类模型进行意图分类处理,得到提问信息所属第二业务类型。其中,关于第二业务类型可以和第一业务类型相同,还可以不同。
[0140] 进一步地,基于情感特征和文本特征并通过训练后的分类模型进行分类处理,之前还包括:获取多个历史提问信息,并将各个历史提问信息按照所述业务类型进行标注;从标注后的各个历史提问信息中分别提取文本特征以及情感特征,作为训练样本;基于所述训练样本对预设模型进行训练,得到训练后的分类模型。
[0141] 例如,获取三个月内的历史提问信息并确定这些历史提问信息分别对应的业务类型,并基于这些历史提问信息分别对应的第二业务类型对从这些历史提问信息中提取的文本特征和情感特征进行标注,并通过标注后的特征对预设模型进行训练。在本申请实施例中对从这些历史提问信息中提取的文本特征以及情感特征进行标注的方式可以为人工标注,也可以为自动标注。在本申请实施例中不做限定。进一步地,针对游戏运营领域,第二业务类型可以包括:闲聊、网络、业务、舆情、主机、企业XX,IP。
[0142] 进一步地,基于训练样本对预设模型进行训练的方式在下述实施例中以决策树为例具体进行介绍:决策树训练是一种有监督的学习算法,一棵树的训练过程为:根据一个指标,分裂训练样本为几个子集。这个过程不断的在产生的子集里重复递归进行,即递归分割。当一个训练子集的类标都相同时,递归停止。这种决策树的自顶向下归纳,是贪心算法的一种。
[0143] 进一步地,训练后的分类模型并不限定于游戏运营领域平台,其他领域平台均可以利用上述方式对模型进行训练(仅是训练样本不同),并通过训练后的模型进行意图识别,并反馈对应的答复。
[0144] 上述实施例中具体介绍了对用户输入的提问信息进行意图识别,得到目标意图信息,并通过目标意图信息确定目标回复的方式,针对上述实施例,以游戏运营领域作为实例进行介绍:
[0145] 首先获取用户在游戏运营领域内的历史提问信息,并对这些历史提问信息进行分类标注,分为7类标注文本(按照第二业务类型进行类型标注),然后从标注文本中提取情感特征和文本特征,对决策树进行训练,得到训练好的决策树,并通过训练好的决策树对用户输入的提问信息进行业务类型分类,并基于分类结果进行智能问答,具体如图5所示。
[0146] 例如,用户输入的提问信息1为“XX游戏好不好玩?”以及用户输入的提问信息2为“XX游戏?”,将用户输入的提问信息1和用户输入的提问信息2分别输入至训练后的决策树,则确定用户输入的提问信息1对应闲聊业务类型,并将其转入闲聊业务类型进行智能问答,得到对应的答复信息,呈现给用户;确定用户输入的提问信息2对应业务类型,并将其转入业务类型进行智能问答,得到对应的答复信息。
[0147] 上述实施例中介绍了在支持相同样本数的情况下通过从用户输入提问信息中提取的情感特征和文本特征,确定目标意图信息,相比于仅根据文本特征确定目标意图信息在精确率(Precision)、召回率(Recall)、F1值的方面均有提高,其中,Precision(精确率)通过下述公式计算:
[0148]
[0149] 其中,真正(True Positive,TP)表征将正类预测为正类数,真负(True Negative,TN)表征将负类预测为负类数,假正(False Positive,FP):将负类预测为正类数误报(Type I error),假负(False Negative,FN):将正类预测为负类数→漏报(Type II error);
[0150] 其中,Recall(召回率)通过下述公式计算:
[0151]
[0152] 其中,F1-score(f1值)通过下述公式计算:
[0153]
[0154] 支持的样本数:根据历史数据随机划分的40%样本用来做测试。
[0155] 其中,通过从用户输入提问信息中提取的情感特征和文本特征,确定目标意图信息在精确率(Precision)、召回率(Recall)、F1值和支持的样本数方面的测试数据如表一所示,根据文本特征确定目标意图信息在精确率(Precision)、召回率(Recall)、F1值和支持的样本数方面的测试数据如表二所示。
[0156] 表一
[0157]业务类型 precision recall F1-score support
ip 0.94 0.98 0.96 104
业务 0.78 0.77 0.78 66
主机 1.00 1.00 1.00 10
企业XX 0.67 1.00 0.80 6
网络 0.95 0.95 0.95 65
舆情 0.91 1.00 0.95 20
闲聊 0.86 0.78 0.82 80
Avg/total 0.89 0.89 0.89 351
[0158] 表二
[0159]业务类型 precision recall F1-score support
ip 0.95 1.00 0.98 104
业务 0.86 0.77 0.82 66
主机 1.00 1.00 1.00 10
企业XX 0.67 1.00 0.80 6
网络 0.98 0.97 0.98 65
舆情 0.91 1.00 0.95 20
闲聊 0.87 0.85 0.86 80
Avg/total 0.92 0.92 0.92 351
[0160] 由上述表一和表二可知,在支持相同的样本的情况下,通过从用户输入提问信息中提取的情感特征和文本特征,确定目标意图信息,相比于仅根据文本特征确定目标意图信息在精确率(Precision)、召回率(Recall)、F1值均有提高。
[0161] 上述实施例从方法流程的度介绍了智能问答信息处理方法,下述从虚拟模块或者虚拟单元的角度介绍智能问答信息处理装置,具体详见下述实施例。
[0162] 本申请实施例提供了一种智能问答信息处理装置,如图2所示,该智能问答信息处理装置20可以包括:接收模块21、第一提取模块22以及第一确定模块23以及第二确定模块24,其中,
[0163] 接收模块21,用于接收用户输入的提问信息。
[0164] 第一提取模块22,用于从提问信息中提取情感特征和文本特征。
[0165] 其中,情感特征用于表征提问信息中是否包含情感信息,以及包含的情感信息的类型。
[0166] 第一确定模块23,用于基于情感特征和文本特征确定提问信息对应的目标意图信息。
[0167] 第二确定模块24,用于基于目标意图信息确定目标答复信息。
[0168] 本申请实施例的另一种可能的实现方式,文本特征包括:正则特征;第一提取模块22在从提问信息中提取正则特征时,具体用于:获取提问信息的各个第一业务类型分别对应的正则规则;通过每个第一业务类型对应的正则规则,从提问信息中提取与各个第一业务类型分别匹配的正则特征。
[0169] 本申请实施例的另一种可能的实现方式,文本特征还包括:词频-逆向文件频率TF-IDF特征;第一提取模块22在从提问信息中提取TF-IDF特征时,具体用于:对提问信息进行分词处理;确定每个词出现的词频以及每个词对应的权值参数;基于每个词出现的词频以及每个词对应的权值参数,确定提问信息的TF-IDF特征。
[0170] 其中,装置20还包括:主成分分析模块,其中,
[0171] 主成分分析模块,用于对TF-IDF特征进行主成分分析,得到分析处理后的特征。
[0172] 本申请实施例的另一种可能的实现方式,装置20还包括:编码模块,其中,[0173] 编码模块,用于对分析处理后的特征进行编码,得到编码后的特征;
[0174] 其中,第一确定模块23在基于情感特征和文本特征确定目标意图信息时,具体用于:基于情感特征、正则特征以及编码后的特征确定目标意图信息。
[0175] 本申请实施例的另一种可能的实现方式,第一提取模块22在从提问信息中提取情感特征时,具体用于:基于情感字典从提问信息中提取情感特征;基于训练后的情感特征提取模型从提问信息中提取情感特征。
[0176] 本申请实施例的另一种可能的实现方式,第一确定模块23在基于情感特征和文本特征确定目标意图信息时,具体用于:基于情感特征和文本特征并通过训练后的分类模型进行意图分类处理,以确定目标意图信息。
[0177] 本申请实施例的另一种可能的实现方式,装置20还包括:获取模块、第二提取模块、标注模块和训练模块,其中,
[0178] 获取模块,用于获取多个历史提问信息;
[0179] 标注模块,用于将各个历史提问信息按照第二业务类型进行标注;
[0180] 第二提取模块,用于从标注后的各个历史提问信息中分别提取文本特征以及情感特征,作为训练样本;
[0181] 训练模块,用于基于训练样本对预设模型进行训练,得到训练后的分类模型。
[0182] 对于本申请实施例,第一确定模块23和第二确定模块24可以为相同的确定模块,还可以为不同的确定模块。在本申请实施例中不做限定。
[0183] 对于本申请实施例,第一提取模块22和第二提取模块可以为相同的提取模块,也可以为不同的提取模块。在本申请实施例中不做限定。
[0184] 本申请实施例提供了一种智能问答信息处理装置,与现有技术中通过关键词匹配出用户意图,进而得到对应回复的方式相比,本申请实施例接收用户输入的提问信息,然后从提问信息中提取情感特征和文本特征,情感特征用于表征提问信息中是否包含情感信息,以及包含的情感信息的类型,然后基于情感特征和文本特征确定提问信息对应的目标意图信息,并基于目标意图信息确定目标答复信息。即本申请实施例中基于从用户输入的提问信息中提取的情感特征和文本特征进行匹配,以匹配出对应的提问信息,进而得到对应的答复信息,而不是仅仅通过关键词匹配出对应的意图,以得到对应的答复,从而可以提高确定用户提问意图的准确度,进而可以提升匹配出的回复信息的准确度,以及提升用户体验。
[0185] 本实施例的智能问答信息处理装置可执行上述方法实施例所示的智能问答信息处理方法,其实现原理相类似,此处不再赘述。
[0186] 上述实施例从方法流程的角度介绍了智能问答信息处理方法,以及从虚拟模块或者虚拟单元的角度介绍了智能问答信息处理装置,下述从实体装置的角度介绍了一种电子设备,用于执行上述方法实施例所示的智能问答信息处理方法,其中关于电子设备的介绍具体详见下述实施例。
[0187] 本申请实施例提供了一种电子设备,该电子设备可以包括:终端设备和服务器,如图3所示,图3所示的电子设备3000包括:处理器3001和存储器3003。其中,处理器3001和存储器3003相连,如通过总线3002相连。可选地,电子设备3000还可以包括收发器3004。需要说明的是,实际应用中收发器3004不限于一个,该电子设备3000的结构并不构成对本申请实施例的限定。
[0188] 处理器3001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器3001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
[0189] 总线3002可包括一通路,在上述组件之间传送信息。总线3002可以是PCI总线或EISA总线等。总线3002可以分为地址总线数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0190] 存储器3003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
[0191] 存储器3003用于存储执行本申请方案的应用程序代码,并由处理器3001来控制执行。处理器3001用于执行存储器3003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
[0192] 本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:存储器和处理器;至少一个程序,存储于存储器中,用于被处理器执行时,与现有技术相比可实现:本申请实施例接收用户输入的提问信息,然后从提问信息中提取情感特征和文本特征,情感特征用于表征提问信息中是否包含情感信息,以及包含的情感信息的类型,然后基于情感特征和文本特征确定提问信息对应的目标意图信息,并基于目标意图信息确定目标答复信息。即本申请中基于从用户输入的提问信息中提取的情感特征和文本特征进行匹配,以匹配出对应的提问信息,进而得到对应的答复信息,而不是仅仅通过关键词匹配出对应的意图,以得到对应的答复,从而可以提高确定用户提问意图的准确度,进而可以提升匹配出的回复信息的准确度,以及提升用户体验。
[0193] 本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请实施例接收用户输入的提问信息,然后从提问信息中提取情感特征和文本特征,情感特征用于表征提问信息中是否包含情感信息,以及包含的情感信息的类型,然后基于情感特征和文本特征确定提问信息对应的目标意图信息,并基于目标意图信息确定目标答复信息。即本申请中基于从用户输入的提问信息中提取的情感特征和文本特征进行匹配,以匹配出对应的提问信息,进而得到对应的答复信息,而不是仅仅通过关键词匹配出对应的意图,以得到对应的答复,从而可以提高确定用户提问意图的准确度,进而可以提升匹配出的回复信息的准确度,以及提升用户体验。
[0194] 应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0195] 以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈