信息处理装置、信息处理方法、信息处理系统以及程序专利检索-文本分析解析法数学与统计专利检索查询-专利查询网

信息处理装置、信息处理方法、信息处理系统以及程序

阅读：429发布：2024-02-09

专利汇可以提供信息处理装置、信息处理方法、信息处理系统以及程序专利检索，专利查询，专利分析的服务。并且本发明提供一种用于对反映出无法用语言明确识别的信息的语句进行分析的信息处理装置、信息处理方法、信息处理系统以及程序。信息处理装置(120)包括：音频分析部(208)，其从记录通话得到的声音数据中识别出该声音数据中的无法用语言明确表示的信息，使用音频数据对声音数据进行音频分析；韵律信息获取部(212)，其识别声音数据的前后因停顿而分离的区域，通过对识别出的区域进行音频分析来识别上述识别出的区域的语句，生成以该语句的韵律特征值为要素的该语句的一个以上的韵律特征值；出现频度获取部(210)，其获取音频分析部(208)所获取到的语句在声音数据中的出现频度；以及韵律偏差分析部(214)，其计算出现频度高的语句的韵律特征值在上述声音数据中的偏差度，并确定特征语句。，下面是信息处理装置、信息处理方法、信息处理系统以及程序专利的具体信息内容。

权利要求

1.一种信息处理装置，其用于从记录通话得到的声音数据中获取特征语句，该特征语句用于识别该声音数据中的无法用语言明确表示的信息，上述信息处理装置包括：
数据库，其记录有声音数据和音频数据，该声音数据记录了上述通话，该音频数据用于将包含在上述声音数据中的音素识别为语句；
音频分析部，其使用上述音频数据对上述声音数据进行音频分析，向上述声音数据分配语句；
韵律信息获取部，其识别上述声音数据的声音频谱中前后因停顿而分离出的区域，通过对识别出的区域进行音频分析，来生成以识别出的上述区域的语句的韵律特征值为要素的该语句的一个以上的韵律特征值；
出现频度获取部，其获取上述音频分析部获取到的上述语句在上述声音数据中的出现频度；以及
韵律偏差分析部，其计算出现频度高的上述语句的韵律特征值在上述声音数据中的偏差度，以偏差度为基准来确定特征语句。
2.根据权利要求1所述的信息处理装置，其特征在于，
上述信息处理装置还包括对象话题识别部，该对象话题识别部将上述声音数据按每个说话者识别为包含对象话题的声音数据以及包含特征语句的声音数据，确定上述特征语句在上述声音数据中出现的时间，与该特征语句同步地将在前记录的声音区域识别为对象话题。
3.根据权利要求1所述的信息处理装置，其特征在于，
上述韵律信息获取部采用包含音素持续长度、音素的功率、音素的基本频率、以及Mel频率倒谱系数的上述语句的一个以上的韵律特征值作为上述韵律特征值而使韵律具有特征。
4.根据权利要求1所述的信息处理装置，其特征在于，
上述韵律偏差分析部针对在上述声音数据中出现频度高的上述语句计算上述语句的一个以上的韵律特征值的上述要素的方差，与上述方差的大小相对应地确定上述特征语句。
5.一种信息处理方法，其由信息处理装置为了从记录通话得到的声音数据中获取特征语句而执行，该特征语句用于识别该声音数据中的无法用语言明确识别的信息，在上述信息处理方法中，上述信息处理装置执行以下步骤：
从记录有声音数据和音频数据的数据库中提取上述声音数据，识别在上述声音数据的声音频谱中前后因停顿而分离的区域的步骤，其中，该声音数据记录了上述通话，该音频数据用于将包含在上述声音数据中的音素识别为语句；
对识别出的上述区域进行音频分析，来识别上述识别出的区域的语句，从而生成以该语句的韵律特征值为要素的该语句的一个以上的韵律特征值的步骤；
获取上述识别出的上述语句在上述声音数据中的出现频度的步骤；
计算出现频度高的上述语句的韵律特征值在上述声音数据中的偏差度的步骤；以及以上述偏差度为基准来确定特征语句的步骤。
6.根据权利要求5所述的信息处理方法，其特征在于，还包括以下步骤：
按每个说话者识别上述声音数据的步骤；以及
确定上述特征语句在上述声音数据中出现的时间，与该特征语句同步地将在前记录的声音区域识别为对象话题的步骤。
7.根据权利要求5所述的信息处理方法，其特征在于，
生成上述语句的一个以上的韵律特征值的步骤包括以下步骤：使用音素持续长度、音素的功率、音素的基本频率以及 Mel频率倒谱系数来生成上述语句的一个以上的韵律特征值。
8.根据权利要求5所述的信息处理方法，其特征在于，
确定上述特征语句的步骤包括以下步骤：对于在上述声音数据中出现频度高的上述语句，计算上述语句的一个以上的韵律特征值的上述要素的方差，与上述方差的大小相对应地确定上述特征语句。
9.一种装置可执行的程序，用于使信息处理装置执行信息处理方法，该信息处理方法用于从记录通话得到的声音数据中获取用于识别该声音数据中的无法用语言明确识别的信息的特征语句，上述程序使上述信息处理装置作为以下部分发挥功能：数据库，其记录有声音数据和音频数据，该声音数据记录了上述通话，该音频数据用于将包含在上述声音数据中的音素识别为语句；
音频分析部，其使用上述音频数据对上述声音数据进行音频分析，向上述声音数据分配语句；
韵律信息获取部，其识别上述声音数据的声音频谱中前后因停顿而分离出的区域，通过对识别出的区域进行音频分析，来生成以识别出的上述区域的语句的韵律特征值为要素的该语句的一个以上的韵律特征值；
出现频度获取部，其获取上述音频分析部获取到的上述语句在上述声音数据中的出现频度；以及
韵律偏差分析部，其计算出现频度高的上述语句的韵律特征值在上述声音数据中的偏差度，以偏差度为基准来确定特征语句。
10.根据权利要求9所述的程序，其特征在于，
使上述信息处理装置还作为对象话题识别部而发挥功能，该对象话题识别部将上述声音数据按每个说话者识别为包含对象话题的声音数据以及包含特征语句的声音数据，确定上述特征语句在上述声音数据中出现的时间，与该特征语句同步地将在前记录的声音区域识别为对象话题。
11.根据权利要求9所述的程序，其特征在于，
上述韵律信息获取部采用包含音素持续长度、音素的功率、音素的基本频率、以及Mel频率倒谱系数的上述语句的一个以上的韵律特征值作为上述韵律特征值而使韵律具有特征。
12.根据权利要求9所述的程序，其特征在于，
上述韵律偏差分析部针对在上述声音数据中出现频度高的上述语句计算上述语句的一个以上的韵律特征值的上述要素的方差，与上述方差的大小相对应地确定上述特征语句。
13.一种信息处理系统，其经由网络获取记录说话者的通话得到的声音数据，并获取特征语句，该特征语句用于识别上述声音数据中的无法用语言明确识别的信息，上述信息处理系统包括：
声音数据获取部，其将通过公共电话网或IP电话网来使用固定电话机说话得到的声音数据以可识别说话者的方式经由上述网络进行获取；
数据库，其记录有由上述声音数据获取部获取到的上述声音数据和音频数据，该音频数据用于将包含在上述声音数据中的音素识别为语句；
音频分析部，其使用上述音频数据对上述声音数据进行音频分析；
韵律信息获取部，其识别上述声音数据的声音频谱中前后因停顿而分离出的区域，通过对识别出的区域进行音频分析来对识别出的上述区域的语句进行识别，作为该语句的韵律特征值，生成包含音素持续长度、音素的功率、音素的基本频率、以及Mel频率倒谱系数的向量数据；
出现频度获取部，其获取上述音频分析部获取到的上述语句在上述声音数据中的出现频度；以及
韵律偏差分析部，其计算出现频度高的上述语句的韵律特征值在上述声音数据中的偏差度，以偏差度为基准来确定特征语句。
14.根据权利要求13所述的信息处理系统，其特征在于，
还包括对象话题识别部，该对象话题识别部将上述声音数据按每个说话者进行识别，确定上述特征语句在上述声音数据中出现的时间，与该特征语句同步地将在前记录的声音区域识别为对象话题，
上述信息处理系统通过获取与识别出的上述声音区域对应的文本数据，来对上述对象话题的内容进行分析、评价。

说明书全文

信息处理装置、信息处理方法、信息处理系统以及程序

技术领域

[0001] 本发明涉及一种声音分析技术，更详细地说是涉及一种用于对反映声音数据中的非语言信息、副语言信息等无法用语言明确表示的信息的语句进行分析的信息处理装置、信息处理方法、信息处理系统以及程序。

背景技术

[0002] 为了进行顾客针对产品、服务的意见、投诉和咨询等，客户或用户等向投诉处、咨询处打电话的情况较多。企业、团体等的负责人与客户或用户之间使用电话线路进行通话，来应对投诉、咨询等。近年来，说话人之间的通话被声音处理系统进行录音，用于以后掌握、分析正确的状况。关于这样的咨询内容，通过将录音内容以文本的形式记录出来，也能够进行分析。然而，声音包括所记录的文本中无法包含的非语言信息(说话者的性别、年龄、悲伤/愤怒/喜悦这样的基本情绪等)、副语言信息(如怀疑、赞赏这样的心态等)。

[0003] 考虑只要能够从如上所述那样被录音的说话人的声音数据中准确地提取出与说话人的情绪、心态有关的信息，就能够将其明确地反映于电话中心关联业务处理的改进、新的市场活动。

[0004] 另外，较为理想的是，除了产品、服务以外，在电话会议、电话咨询等不与对方实际面对面的环境中，也可以通过判断对方处于什么样的情绪，来提出更有效的提议、或者根据对方的非语言信息或副语言信息通过预测将来而事先准备对策等、除了商业目的以外也将有效利用电话语音。

[0005] 目前为止，作为基于被录音得到的声音数据来分析情绪的技术，已知有国际公开2010/041507号小册子(专利文献1)、日本特开2004-15478号公报(专利文献2)、日本特开2001-215993号公报(专利文献3)、日本特开2001-117581号公报(专利文献4)、日本特开2010-217502号公报(专利文献5)以及大野等人发表的“韻律的特徴の総合的なモデル化と、感情の表現·伝達過程(韵律特征的综合模型化以及情绪的表现、传递过程)”、http://www.gavo.t.u-tokyo.ac.jp/tokutei_pub/houkoku/model/ohno.pdf(非专利文献
1)。

[0006] 专利文献1记载了如下技术：分析通话的声音，自动地提取出有可能产生了在特定场合的通话中的特定状况的部分。

[0007] 专利文献2记载了一种能够传达情绪等非语言信息的声音通信终端装置，其将从声音数据中获取到的文字数据与从由摄像部获取到的通话者的脸图像自动辨别出的情绪对应地进行文字修饰。

[0008] 专利文献3记载了如下的对话处理：为了根据用户的情绪状态进行富于变化的对话，而提取语句的概念信息，使用由生理信息输入部获取到的脉搏、由图像输入部获取到的表情来估计情绪，生成向用户输出的输出语句。

[0009] 专利文献4记载了如下一种情绪识别装置，其为了进行情绪识别，而对收集到的输入信息进行声音识别来识别出识别字符串，判断大致的情绪种类，将词汇的重复、感叹词等的检测结果进行组合来判断详细的情绪种类。

[0010] 并且，在专利文献5中，记载了如下一种装置，其为了基于与说话声音所包含的韵律有关的信息和与音质有关的信息检测说话意图，而提取关于说话声音中的感动词的说话意图来检测说话意图。另外，非专利文献1公开了一种用于将声音的韵律特征与情绪表现结合的规格化、模型化的技术。

[0011] 专利文献1～专利文献5以及非专利文献1记载了基于声音数据估计情绪的技术。专利文献1～专利文献5以及非专利文献1所记载的技术以使用文本和声音中的某一个或者使用双方估计情绪为课题，并不是以将语言、声音信息合用来自动检测该声音数据中的代表情绪的语句、对象部位为课题。

[0012] 专利文献1：国际公开2010/041507号小册子

[0013] 专利文献2：日本特开2004-15478号公报

[0014] 专利文献3：日本特开2001-215993号公报

[0015] 专利文献4：日本特开2001-117581号公报

[0016] 专利文献5：日本特开2010-217502号公报

[0017] 非专利文献1：大野等人发表的“韻律的特徴の総合的なモデル化と、感情の表現·伝達過程”、http://www.gavo.t.u-tokyo.ac.jp/tokutei_pub/houkoku/model/ohno.pdf

发明内容

[0018] 如上所述，目前为止已知有各种对包含在声音数据中的语句所具有的非语言信息、副语言信息进行估计的技术，其中存在如下的技术，即：为了估计非语言信息、副语言信息而将生理信息、表情等语言信息以外的信息合用、或者预先将关于所设定的语句的韵律信息与非语言信息、副语言信息相关联地进行登记，并估计与所登记的特定的单词有关的情绪等的技术。

[0019] 为了获取非语言信息、副语言信息而利用生理信息、表情的技术存在如下问题：使系统变得复杂、需要获取用于得到生理信息、表情的声音数据以外的信息的装置。另外，虽然预先设定语句，分析其韵律信息等并将其与非语言信息、副语言信息进行对应，但是也存在说话人未必发出所设定的语句、说话人具有特有的表达方式、单词的情况。另外，情绪表达所使用的单词在所有通话中也未必是通用的。

[0020] 另外，被录音得到的声音数据通常具有有限的时长，在该时长的期间未必在每个时间分区都进行相同语境(context)的通话，因此关于有限时长的声音数据中哪个部分产生了什么样的非语言信息、副语言信息，这根据通话内容的不同以及时间的推移也是不同的。因此，考虑不预先决定特定的语句，而通过对声音数据直接进行分析，来获取使声音数据整体具有意义的使非语言信息、副语言信息具有特征的语句、或代表特定的时间分区的使非语言信息、副语言信息具有特征的语句，对经过特定的时长的声音数据附加索引，从而上述动作能够减少声音数据的分析范围，并能够有效地检索该结果声音数据的特定区域。

[0021] 即，本发明的目的在于提供一种在以时长记录的声音数据中估计出声音数据的反映了情绪、心理等无法用语言明确地表达的非语言信息、副语言信息的语句的信息处理装置、信息处理方法、信息处理系统以及程序。

[0022] 本发明是鉴于上述现有技术的问题而完成的，通过基于通话等通过人的通话产生的声音数据，使用声音数据的韵律特征量来分析带有说话人的情绪、心态等无法用语言明确表现的信息的语句，从作为分析对象的声音数据中提取出上述语句作为使该通话中的说话者的非语言信息或副语言信息具有特征的特征语句。

[0023] 本发明对具有特定时长的声音数据所包含的声音频谱中的因停顿而被形成为片段(segment)的声音区域进行音频分析，并形成语句、词组的时间长度、基本频率、大小、倒谱等特征量。将该特征量在整个声音数据中的变动大小定义为偏差度，在特定的实施方式中，将偏差度最大的语句确定为特征语句。在其它的实施方式中，能够从偏差度大的语句中确定多个语句作为特征语句。

[0024] 所确定的特征语句能够用于对声音数据中的、对特征语句所带有的非语言信息或副语言信息产生了影响的区域附加索引。附图说明

[0025] 图1是表示本发明的用于进行情绪分析的信息处理系统100的实施方式的图。

[0026] 图2是表示本发明的信息处理装置120的功能块的图。

[0027] 图3是本发明的用于确定特征语句的信息处理方法的概要流程图。

[0028] 图4是在图3中所说明的处理的、在步骤S303中由信息处理装置执行的声音频谱区域的识别处理的概念图。

[0029] 图5是表示在本实施方式的步骤S304、步骤S305、以及步骤S309中生成的各种列表的实施方式的图。

[0030] 图6是使用例示性的语句“はい(是)”来说明本实施方式所生成的韵律信息向量的实施方式的图。

[0031] 图7是将本发明中所确定的特征语句作为声音频谱中的索引来识别对说话者产生心理影响的对象话题的处理的概要流程图。

[0032] 图8是将构成在计算偏差度时使用的语句的音拍(mora)的音素持续长度以在声音数据中出现的时刻为横轴、以音拍的音素持续长度为纵轴进行描绘得到的曲线图。

[0033] 图9是表示用语句“ええ(对)”以及语句“へえ(唉)”在时间上对实施方式2中使用的声音数据附加索引的结果的图。

[0034] 图10是将图9所示的矩形框880的区域放大示出的图。

[0035] 附图标记的说明

[0036] 100 信息处理系统

[0037] 102 IP电话网

[0038] 104 固定电话机

[0039] 106 便携式电话

[0040] 110 呼叫方

[0041] 112 负责人

[0042] 120 信息处理装置

[0043] 122 数据库

[0044] 124 声音数据

[0045] 202 网络

[0046] 204 网络适配器

[0047] 206 声音数据获取部

[0048] 208 声音分析部

[0049] 210 出现频度获取部

[0050] 212 韵律信息获取部

[0051] 214 韵律偏差分析部

[0052] 216 输入输出接口

[0053] 218 对象话题识别部

[0054] 400 矩形区域

[0055] 500 计数列表

[0056] 510 高出现语句列表

[0057] 520 高出现语句列表

[0058] 530 特征语句列表

[0059] 880 矩形框

具体实施方式

[0060] 以下、参照附图所示出的实施方式说明本发明，本发明并不应被解释为限定于后述的实施方式。图1表示本发明的用于进行情绪分析的信息处理系统100的实施方式。在图1所示的信息处理系统100中，呼叫方通过连接在公共电话网或IP电话网102上的固定电话机104、便携式电话106向作为电话的对方的企业、团体打电话来进行通话。此外，在图1所示的实施方式中省略了电话交换器。当呼叫方(Caller)110从固定电话机104向企业、团体打电话时，在企业、团体中，进行对呼叫方110进行答复的业务的负责人(Agent)112接听来自呼叫方的电话，与负责人112的固定电话机104相连接的个人计算机等对呼叫方110与负责人112之间形成的通话进行录音，并向服务器这样的信息处理装置120发送声音数据。

[0061] 信息处理装置120将接收到的声音数据以呼叫方110、负责人112的说话区域可识别的方式存储到数据库122等中，能够用于以后的分析。信息处理装置120能够以单芯或者多芯的方式安装例如PENTIUM(注册商标)系列、PENTIUM(注册商标)换芯、OPETRON(注册商标)、XEON(注册商标)等CISC体系结构的微处理器、或者POWERPC(注册商标)等RISC体系结构的微处理器。另外，信息处理装置能够通过WINDOWS(注册商标)系列、UNIX(注册商标)、LINUX(注册商标)等操作系统进行控制，执行使用C、C++、Java(注册商标)、JavaBeans(注册商标)、Perl、Ruby、Python等程序语言实现的程序，对声音数据进行分析。

[0062] 此外，在图1中，信息处理装置120作为存储声音数据并进行分析的装置进行说明，但是在本发明的其它实施方式中，除了存储声音数据的信息处理装置120以外，还能够利用用于分析声音数据的相分离的信息处理装置(未图示)来进行声音分析。在使用相分离的信息处理装置进行声音分析的情况下，信息处理装置120也能够作为web服务器等实现。此外，作为分散处理方式，也可以采用所谓的云计算基础。

[0063] 对呼叫方110与负责人112之间的通话进行录音得到的声音数据124能够以与用于识别声音数据的索引信息、例如日期和时间、负责人等进行关联、呼叫方110的声音数据与负责人112的声音数据在时间上一致的方式记录到数据库122中。声音数据在图1中例如例示为“···もらつてた(请…)”、“はい(是)”、“ええ(对)”等声音的声音频谱。

[0064] 本发明为了使通话具有特征，而将特定的语句、词组利用其前后的停顿、即无声区间的存在来进行识别，提取用于进行情绪分析的语句。本发明的停顿如用声音数据124的矩形区域400所示那样能够定义为位于声音频谱两侧的在固定的区间没有记录有意义的声音的区间，稍后更详细地记述停顿区间。

[0065] 图2表示本发明的信息处理装置120的功能块200。信息处理装置120经由网络202获取在呼叫方110与负责人112之间进行的通话来作为声音数据(声音频谱)，通过网络适配器204传送到声音数据获取部206。声音数据获取部206将所获取到的声音数据与用于对该声音数据本身附加索引的索引数据一起通过输入输出接口216登记到数据库122中，能够在以后的处理中使用。

[0066] 声音分析部208执行如下等处理：从数据库122读出声音数据的声音频谱，对声音频谱进行特征量提取，对于在声音频谱中检测出的声音数据获取MFCC(Mel频率倒谱系数)以及基本频率f0，并分配与该声音频谱对应的语句，来将声音数据变换为文本信息。此外，所生成的文本信息为了以后进行分析而能够与进行了分析的声音数据相对应地登记到数据库122中。为此，数据库122保存有用于进行日语、英语、法语、汉语等各语言的音拍的基本频率、MFCC等的声音分析的数据作为音频数据，信息处理装置120能够基于获取到的声音数据自动进行文本化、数据化。此外，关于特征量提取的现有技术，例如日本特开
2004-347761号公报等所记载的技术等无论什么样的方法都能够利用。

[0067] 并且，信息处理装置120包括出现频度获取部210、韵律信息获取部212、以及韵律偏差(fluctuation)分析部214。韵律信息获取部212从音频分析部208所获取到的声音数据中提取出前后因停顿而分离的同一语句、词组，对各个语句、词组再次应用音频分析来获取关于要关注的语句的因素持续长度(s)、基本频率(f0)、功率(p)、MFCC(c)，基于语句、词组生成以韵律特征值为要素的向量数据、即韵律信息向量，使语句具有特征，将语句与韵律信息向量对应起来传送到韵律偏差分析部214。

[0068] 出现频度获取部210对于以在声音数据中发现的停顿而形成了片段的语句，将同一语句、词组的出现频度在说明的实施方式中数值化成出现次数。进行数值化得到的出现次数在确定特征语句时使用，因此被发送到韵律偏差分析部214。此外，Mel频率倒谱系数按每个倒频率的维能够获得例如12维的系数，但是在本实施方式中，例如也能够使用特定维的MFCC，还能够在计算偏差度时使用最大的MFCC。

[0069] 韵律偏差分析部214在特定的实施方式中使用来自出现频度获取部210的出现次数和来自韵律信息获取部212的同一语句、词组的各个韵律信息向量，(1)识别出现次数为所设定的阈值以上的语句、词组，(2)计算识别出的该语句、词组的各个韵律信息向量的各要素的方差值，(3)基于计算出的各要素的方差值，将声音数据所包含的出现次数多的语句、词组的韵律的偏差度数值化成离散度，以偏差度的大小为基准，从出现次数多的语句、词组中确定使声音数据中的话题具有特征的特征语句。此外，信息处理装置120也可以如图2所示那样具备对象话题识别部218。

[0070] 在其它实施方式中，对象话题识别部218还能够与声音数据中的由韵律偏差分析部214确定出的特征语句出现的时间同步地提取时间上在前的呼叫方110的说话内容来作为对象话题，获取该对象话题的文本信息，从而能够在信息处理装置120的例如语义分析部(未图示)中进行声音数据的内容分析、评价。此外，在所有的实施方式中，特征语句都是通过音频分析从负责人112的声音数据中获取的。

[0071] 除此之外，信息处理装置120具备用于能够进行信息处理装置120的操作控制的显示器装置、包含键盘、鼠标等的输入输出装置，能够进行各种处理的开始、结束的控制，还能够在显示器装置上进行结果显示。

[0072] 图3表示本发明的用于确定特征语句的信息处理方法的概要性的流程图。图3的处理从步骤S300开始，在步骤S301中从数据库读出声音数据，在步骤S302中从声音数据中识别出呼叫方和负责人的说话部分，将负责人的说话部分设定为分析对象。在步骤S303中进行声音识别处理，作为声音识别结果，输出语句和词组列。同时将语句和词组的说话区域与声音频谱区域进行对应。在步骤S304中，识别出在负责人的说话部分中前后以无声分离的声音频谱区域，对同一语句的出现次数进行计数。

[0073] 在步骤S305中，提取出所出现的语句中的出现次数多的语句并制作高出现语句列表。在提取时，能够使用提取出现次数超过所设定的阈值的语句的处理、将语句按出现次数从大到小的顺序进行排序后提取例如上位第M个(M为正整数)语句的处理，在本发明中没有特别地进行限定。在步骤S306中，从候选列表中提取语句，以构成语句的音拍“xj”为单位再次进行音频分析，生成韵律信息向量。在步骤S307中，针对同一语句计算韵律信息向量的要素的方差值，计算离散度来作为相应要素个数份的方差值的函数，将该离散度用作韵律的偏差度。

[0074] 每个音拍的偏差度B{mora}在本实施方式中具体来说能够使用下述式(1)求出。

[0075]

[0076] ...... 式(1)

[0077] 上述式(1)中，mora是意味着是对于构成当前设为对象的语句的音拍的偏差度的含义的后缀，后缀i 指定韵律信息向量的第i个要素，σi是第i个要素的方差值，λi是用于将第i个要素反映到偏差度中的权重系数，权重系数能够事先进行归一化以满足∑(λi)＝1。

[0078] 另外，语句、词组整体的偏差度B用下述式(2)赋予。

[0079] ......式(2)

[0080] 此外，在上述式(2)中，j是指定构成语句、词组的音拍xj的后缀。另外，在本实施方式中，将在上述式(1)中的偏差度B设为赋予作为方差值的线性函数进行计算的离散度的值进行了说明，但是在本发明中，关于用于赋予偏差度B的离散度，与语句的双关性、是否为感叹词等的语句的属性、要提取的话题的上下文等相对应地使用积和、指数和、线性或非线性多项式等的合适的函数来计算离散度，能够用作偏差度B的标准，关于方差值，能够以与所使用的分布函数相应的形式进行定义。

[0081] 在图3所说明的实施方式中，在步骤S308中判断偏差度是否为所设定的阈值以上，在是阈值以上的情况下(是)，在步骤S309中提取当前设为对象的语句作为特征语句候选，输入到特征语句列表中。另一方面，在步骤S308中偏差度不足阈值的情况下(否)，在步骤S311中检查在高出现语句列表中是否存在下一个语句，在还存在语句的情况下(是)，在步骤S310中从高出现语句列表选择语句，并再次重复进行步骤S306～步骤S309的处理。另一方面，在步骤S311的判断中判断为在接下来的高出现语句列表中不存在下一个语句的情况下(否)，使处理分支到步骤S312，结束特征语句的确定处理。

[0082] 图4是在图3中所说明的处理的、在步骤S303中由信息处理装置执行的声音频谱区域的识别处理的概念图。此外，图4所示的声音频谱是将由图1所示的矩形区域400表示的声音频谱区域放大后的图。图4所示的声音频谱是记录有“はい(是)”和“ええ(对)”作为语句的区域，声音频谱的左手侧对应语句“はい(是)”，右手侧对应语句“ええ(对)”。在图5所示的实施方式中，语句“はい(是)”和“ええ(对)”将其前后识别为停顿(无声)，在本实施方式中，有意义的语句、即不停顿的情形是将超过S/N比的声音频谱在说话时长的整个帧区间持续的情形设为基准。因而，不符合该基准的区域在本实施方式中被识别为停顿，也能够排除尖峰上的噪声的影响。

[0083] 图5表示在本实施方式的步骤S304、步骤S305、以及步骤S309中生成的各种列表的实施方式的图。出现频度获取部210当在分析了声音频谱的区间中识别出同一语句时，累计该语句的出现计数，例如生成计数列表500。计数列表500的左栏是识别出的语句、词组，在右栏以N1～N6等的方式对出现次数进行计数。图5的计数值为了便于说明而设为按N1＞N2＞N3…＞N6的顺序大小进行说明。

[0084] 在步骤S305中，将输入到计数列表500的语句提取出现次数为阈值以上的语句、或者以出现次数进行排序，生成高出现语句列表510、520。此外，高出现语句列表510是通过排序生成的根据实施方式的不同而不同的列表，高出现语句列表520是通过提取阈值以上的语句而生成的根据实施方式的不同而不同的列表。之后，在步骤S309中，根据偏差度B是否为所设定的值以上来从高出现语句列表510、520提取语句、词组，使其与偏差度B1～B3相对应地生成特征语句列表530。

[0085] 此外，在特征语句列表530中，偏差度B1～B3设为按B1＞B2＞B3的顺序的大小进行说明。在本实施方式中，仅使用偏差度最大的特征语句“A”来用于检测对象话题，但是能够对使情绪产生变化的对象话题在时间上附加索引是较为理想的。但是，为了分析更详细的声音数据的上下文，也能够使用输入到特征语句列表530的所有特征语句来对声音数据附加索引。

[0086] 参照图6，例示性地使用语句“はい(是)”说明在本实施方式中生成的韵律信息向量的实施方式。语句“はい(是)”由“は”和“い”两个音拍构成，在本实施方式中，韵律信息向量以音拍为单位生成。作为音拍的音素，促音或长音在本实施方式中被识别为附属于在前的音拍的音素持续时间的差异。韵律信息向量的构成要素设为从声音频谱中获得的、音素持续长度(s)、基本频率(f0)、功率(p)以及MFCC(c)，关于“は”，为了示出是关于音拍“は”的韵律特征向量，而附加后缀“ha”表示。关于音拍“い”，也能够得到具有相同要素的韵律特征向量。

[0087] 在本实施方式中，关于包含在韵律特征向量中的s、f0、p、c出现在声音频谱中的个数的同一语句，计算σ{mora}i(在说明的实施方式中是1≤i≤4)，通过将各要素进行合计，来计算音拍偏差度B{mora}，通过将关于构成语句、词组的音拍的音拍偏差度进行合计，来计算语句的偏差度。

[0088] 根据本实施方式，能够与称为负责人的说话者相应地提取特征性语句，能够有效地提取包含声音识别的识别结果在内仅从文本中是无法获得的、反映出详细的心态变化的特征语句。因此，能够在声音频谱中有效地对对象话题附加索引，该对象话题是对说话者产生了心理影响的话题。

[0089] 图7是将本发明中所确定的特征语句作为声音频谱中的索引来识别对说话者、即在正在说明的实施方式中是负责人产生心理影响的对象话题的处理的概要流程图。图7所示的处理从步骤S700开始，在步骤S701中从负责人的声音数据中确定偏差度最高的语句的时间。在步骤S702中，与该时间同步，将时间上在前的呼叫方的声音数据的特定时间区域或者正在说话的区域识别为对象话题，在步骤S703中识别与相当于对象话题的声音数据对应的文本区域、或者从已经被文本化的文本数据中提取文本区域并进行评价，在步骤S704中结束处理。

[0090] 图7的处理能够将在本实施方式中获得的特征语句用于对声音数据中的对说话者产生心理影响的部分附加索引，另外，无需将声音数据的整个区域设为检索对象就能够高速地且低开销地获取对象部分的信息，由此能够基于通话等的声音数据，更有效地进行与非语言信息、副语言信息相关联的声音分析。另外，关于特定的语句、词组，通过将偏差度以音拍为单位进行数值化，能够将特定的语句、词组的韵律变化与副语言信息进行对应，能够应用于对例如电话会谈、电话会议等实际上没有面对面的远距离的说话者的心理变化进行分析的情绪分析方法以及装置。下面，以具体的实施例更详细地说明本发明。

[0091] [实施例]

[0092] (实施例1)

[0093] 在计算机中安装用于执行本实施方式的方法的程序，作为采样使用通过953个电话线路进行的通话的声音数据，对各个通话数据进行特征语句的分析。通话数据最长设为40分钟左右。在确定特征语句时，在上述式(1)中，λ1＝1、λ2～λ4＝0、即作为特征要素，使用音素持续长度，将出现频度的阈值设为10，提取语句、词组的偏差度B满足B≥6的语句、词组作为特征语句。此外，在声音分析中，将说话长度的一帧设为10ms，计算出MFCC。通过所有呼叫的统计分析，作为语句(词语)，按从大到小的顺序可以得到“はい(是)”(26638)、“ええ(对)”(10407)、“うん(哦)”(7497)、“そうですね(也对)”(2507)。此外，括号内的数值表示出现次数。

[0094] 另外，关于953个声音数据，提取上位6个音素持续长度的变动大的语句(词组)。其结果，按照偏差度的从大到小的顺序，“うん(哦)”是122个采样中偏差度最大的语句，“ええ(对)”是81个采样中偏差度最大的语句，“はい(是)”是76个采样中偏差度最大的语句，“ああ(嗯)”是8个采样中偏差度最大的语句。下面列举偏差度最大的语句，为“そうですね(也对)”(7个采样)、“へえ(啊)”(3个采样)。综上，在通过本实施方式提取出的特征语句中，示出以与将出现在声音数据中的语句(词组)设为总体时的统计出现频度不同的顺序提取语句。在下述表1中统一示出实施例1的结果。

[0095] [表1]

[0096]顺序总体实施例1
1 はい(是) うん(哦)
2 ええ(对) ええ(对)
3 うん(哦) はい(是)
4 そうですね(也对) ああ(嗯)

[0097] (实施例2)

[0098] 为了研究声音数据中的偏差度与特征语句的关联性，而使用实施例1中已说明的程序，并使用大约15分钟的语音呼叫来按照本发明进行分析，计算出偏差度。在下述表2中示出其结果。

[0099] [表2]

[0100]语句(句子) 出现次数偏差度
はい(是) 137 6.495
うん(哦) 113 12.328
ああ(嗯) 39 14.445
へえ(啊) 24 22.918

[0101] 如表2所示，在实施例2中所使用的语音呼叫中，得出如下结果：作为出现频度，语句“はい(是)”最高。然而，与出现频度相独立地，偏差度最大的语句是“へえ(啊)”。反映出特定的非语言信息、副语言信息的语句也根据说话者的不同而不同，反映生成了实施例2所使用的语音呼叫的负责人的个性、对象话题的内容，所使用的采样呼叫中的结果示出以下内容：本发明即使不从声音数据中设定特定的语句，也能够与负责人的个性相对应地提取韵律偏差最大的语句。

[0102] 为了进一步研究韵律变化的内容，图8示出将构成在计算偏差度时使用的语句的音拍的音素持续长度以在声音数据中出现的时刻为横轴、以音拍的音素持续长度为纵轴进行描绘得到的曲线图。在图8中同时记载了语句以及该语句的偏差度。从语句“はい(是)”到“へえ(啊)”，各音拍的持续长度累积条形图的密度是不同的，其对应出现次数的多少。另外，在本实施方式中，关于作为特征语句提取的语句“へえ(啊)”，与其它的语句不同，“へ”、“え”两个音拍中，应该在“え”之后追加长音，由此能够理解产生了与长音“一”对应的音素，获知该追加所产生的长音的长度引起很大不同的情形使偏差度在特征方面增加。

[0103] 根据实施例2的结果，示出本发明的方法能够高精确度地提取特征语句。

[0104] (实施例3)

[0105] 在实施例3中，研究了使用特征语句对声音数据附加索引的情形。在图9中示出如下结果：在实施例2所使用的声音数据中用语句“ええ(对)”和语句“へえ(啊)”对负责人的声音数据附加索引，在该语句之前的15秒钟设为呼叫方的对象话题，提取呼叫方的声音数据。此外，对图9的声音数据910用语句“ええ(对)”附加了时间索引，对声音数据950用语句“へえ(啊)”附加了时间索引。另外，声音数据920、960是呼叫方的数据，声音数据930、970是负责人的数据。

[0106] 如图9所示可知，在使用通过本发明提取的特征语句“へえ(啊)”来附加时间索引的情况下，与特征语句“へえ(啊)”的出现频度少相应地，对应的呼叫方的声音数据的区域显著减少。例如在使用不是特征语句的语句“ええ(对)”来提取对应的对象话题的情况下，需要提取呼叫方的声音数据920中的大约51.6％的信息。另一方面，通过使用由本发明提取的特征语句，仅提取呼叫方的声音数据960的大约13.1％就能够提取所有对象话题。

[0107] 综上，根据本发明，能够从所有声音数据中有效地提取与要关注的非语言信息、副语言信息相关联的话题。

[0108] 图10是将图9所示的矩形框880的区域放大示出的图。如图10所示可知，将发出特征语句的时刻884与说话人的话题882的结束良好地进行对应，通过本发明确定出的特征语句能够良好地对呼叫方的设为对象的话题附加索引。

[0109] 如以上所说明的那样，本发明能够提供如下的信息处理装置、信息处理方法、信息处理系统以及程序：除了表达强烈的愤怒(例如叫嚷着“让社长出来！”的情况)等能够在语句上掌握情绪那样的情况以外，也能够提取虽然在语句上并不明确但特征性地反映出如抑制住了的愤怒、些微的喜悦等非语言信息或副语言信息的特征语句、即能够不依靠说话者的说话特点等而提取认为是对于提取说话者的心态变化最有效的语句(词组)。

[0110] 根据本发明，无需进行声音数据的冗长的整个区域检索，也能够识别在时间上附加了索引的特征语句，对有效的通话分析、没有面对面的说话者的情绪或者心态高效地自动进行分类。

[0111] 本发明的上述功能能够通过C++、Java(注册商标)、Javabeans(注册商标)、Javascript(注册商标)、Perl、Ruby、Python等用对象指定程序语言、SQL等检索专用语言等描述的装置可执行的程序来实现，能够将程序保存到装置可读的记录介质中进行发放或传送后进行发放。

标题	发布/更新时间	阅读量
智能判证预测事件发生的处理系统	2020-09-20	1
一种通话即时原声语音翻译的通话终端及方法	2021-03-03	0
用于计算国家特定费用的计算机系统	2021-07-01	0
一种针对英文专利的信息提取与结构化描述方法	2021-03-09	1
一种用于子话题划分的诱导划分方法	2021-03-09	1
一种处理机信号故障自动定位方法	2021-03-17	1
RETRIEVING/STORING IMAGES ASSOCIATED WITH EVENTS	2022-01-17	0
ELECTRONIC COUPON SYSTEM	2023-07-20	0
LEARNING LANGUAGE MODELS FROM SCRATCH BASED ON CROWD-SOURCED USER TEXT INPUT	2022-03-09	0
語音辨識方法、電子裝置及語音辨識系統	2021-07-11	0

信息处理装置、信息处理方法、信息处理系统以及程序

信息处理装置、信息处理方法、信息处理系统以及程序

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：