首页 / 专利分类库 / 教育;密码术;显示;广告;印鉴 / 演讲提示与辅助演讲的方法、装置和辅助演讲系统

演讲提示与辅助演讲的方法、装置和辅助演讲系统

申请号 CN202311651257.9 申请日 2023-12-04 公开(公告)号 CN117746898A 公开(公告)日 2024-03-22
申请人 北京捷通华声科技股份有限公司; 发明人 周科霖; 李健; 陈明; 武卫东;
摘要 本 申请 提供了一种演讲提示与辅助演讲的方法、装置和辅助演讲系统。该方法包括:获取演讲对象的演讲信息;根据演讲信息确定演讲对象是否卡顿和/或紧张;在演讲对象卡顿和/或紧张的情况下,控制 耳 机播报提示音频;在演讲对象卡顿和/或紧张的情况下,生成虚拟演讲对象,并控制虚拟演讲对象代替演讲对象继续演讲。本方案解决了 现有技术 中演讲提示的效果较差的问题。
权利要求

1.一种演讲提示与辅助演讲的方法,其特征在于,包括:
获取演讲对象的演讲信息,其中,所述演讲信息包括语音信息和/或心率信息;
根据所述演讲信息确定所述演讲对象是否卡顿和/或紧张;
在所述演讲对象卡顿和/或紧张的情况下,控制机播报提示音频,其中,所述提示音频为至少根据预设演讲内容生成的音频,所述演讲对象携带所述耳机;
在所述演讲对象卡顿和/或紧张的情况下,生成虚拟演讲对象,并控制所述虚拟演讲对象代替所述演讲对象继续演讲。
2.根据权利要求1所述的方法,其特征在于,根据所述演讲信息确定所述演讲对象是否卡顿,包括:
将所述语音信息转换为文本信息;
构建文本卡顿分析模型,其中,所述文本卡顿分析模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史文本信息、所述历史文本信息对应的第一历史卡顿分析结果;
将所述文本信息输入至所述文本卡顿分析模型,得到所述文本信息对应的第一卡顿分析结果;
构建音频卡顿分析模型,其中,所述音频卡顿分析模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史语音信息、所述历史语音信息对应的第二历史卡顿分析结果;
将所述语音信息输入至所述音频卡顿分析模型,得到所述语音信息对应的第二卡顿分析结果;
计算所述第一卡顿分析结果和所述第二卡顿分析结果的加权平均值,得到综合卡顿分析结果;
在所述综合卡顿分析结果大于或者等于卡顿阈值的情况下,确定所述演讲对象卡顿;
在所述综合卡顿分析结果小于所述卡顿阈值的情况下,确定所述演讲对象不卡顿。
3.根据权利要求1所述的方法,其特征在于,根据所述演讲信息确定所述演讲对象是否紧张,包括:
构建紧张状态判断模型,其中,所述紧张状态判断模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史心率信息、所述历史心率信息对应的紧张分析结果;
将所述心率信息输入至所述紧张状态判断模型,得到所述心率信息对应的紧张分析结果。
4.根据权利要求1所述的方法,其特征在于,在控制耳机播报提示音频之前,所述方法还包括:
获取目标信号,其中,所述目标信号是激光笔发出的信号,所述演讲对象操作所述激光笔;
在所述目标信号为第一类型的情况下,确定进入第一演讲辅助模式,其中,所述第一演讲辅助模式为控制所述耳机播报所述提示音频的演讲辅助模式;
在所述目标信号为第二类型的情况下,确定进入第二演讲辅助模式,其中,所述第二演讲辅助模式为生成所述虚拟演讲对象,并控制所述虚拟演讲对象代替所述演讲对象继续演讲的演讲辅助模式。
5.根据权利要求1所述的方法,其特征在于,控制耳机播报提示音频,包括:
获取所述预设演讲内容,其中,所述预设演讲内容为演讲开始前预先设置的演讲标准的内容;
获取演讲进程信息,其中,所述演讲进程信息为所述演讲对象当前演讲的阶段;
根据所述预设演讲内容和所述演讲进程信息生成第一提示音频,其中,所述第一提示音频为所述演讲对象还未演讲的部分预设演讲内容;
控制所述耳机播报所述第一提示音频。
6.根据权利要求1所述的方法,其特征在于,生成虚拟演讲对象,并控制所述虚拟演讲对象代替所述演讲对象继续演讲,包括:
获取实时演讲内容,其中,所述实时演讲内容为所述演讲对象已经演讲完的内容;
根据所述预设演讲内容和所述实时演讲内容生成目标演讲文本,其中,所述目标演讲文本与所述预设演讲内容的语义连贯且与所述预设演讲内容的内容通顺;
根据所述目标演讲文本的格生成所述虚拟演讲对象;
控制显示设备至少显示所述目标演讲文本;
根据所述目标演讲文本合成所述虚拟演讲对象的第二提示音频,并控制扬声器播放所述第二提示音频。
7.根据权利要求1至6中任意一项所述的方法,其特征在于,在生成虚拟演讲对象,控制所述虚拟演讲对象代替所述演讲对象继续演讲之后,所述方法还包括:
在目标信号为第三类型的情况下,退出演讲辅助模式,其中,所述目标信号是激光笔发出的信号,所述演讲对象操作所述激光笔,所述演讲辅助模式包括第一演讲辅助模式和/或第二演讲辅助模式。
8.一种演讲提示与辅助演讲的装置,其特征在于,包括:
第一获取单元,用于获取演讲对象的演讲信息,其中,所述演讲信息包括语音信息和/或心率信息;
第一确定单元,用于根据所述演讲信息确定所述演讲对象是否卡顿和/或紧张;
控制单元,用于在所述演讲对象卡顿和/或紧张的情况下,控制耳机播报提示音频,其中,所述提示音频为至少根据预设演讲内容生成的音频,所述演讲对象携带所述耳机;
第一处理单元,用于在所述演讲对象卡顿和/或紧张的情况下,生成虚拟演讲对象,并控制所述虚拟演讲对象代替所述演讲对象继续演讲。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至7中任意一项所述演讲提示与辅助演讲的方法。
10.一种辅助演讲系统,其特征在于,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行权利要求1至7中任意一项所述的演讲提示与辅助演讲的方法。

说明书全文

演讲提示与辅助演讲的方法、装置和辅助演讲系统

技术领域

[0001] 本申请涉及语音处理技术领域,具体而言,涉及一种演讲提示与辅助演讲的方法、装置、计算机可读存储介质和辅助演讲系统。

背景技术

[0002] 公共演讲对于许多人来说都是项具有挑战性的任务,不仅需要清晰表达思想,还需要自信、流利和连贯地传达信息。然而,许多演讲者可能会遇到以下问题:(1)卡壳和紧张:在演讲中,演讲者可能会因为紧张或思维卡壳而导致停顿或表达困难,这可能会降低演讲的效果。(2)忘词和内容丧失:有时演讲者可能会忘记自己要表达的内容,尤其是在演讲时间较长或内容复杂的情况下。(3)自信度问题:一些演讲者可能由于缺乏自信而感到不安,这可能会影响他们的演讲表现。
[0003] 因此,目前演讲提示一般都是通过提示词的方式来给予演讲人提示,但是对于演讲者来说如果遇到上面的问题演讲效果依然不佳,因此目前的演讲提示的效果较差。发明内容
[0004] 本申请的主要目的在于提供一种演讲提示与辅助演讲的方法、装置、计算机可读存储介质和辅助演讲系统,以至少解决现有技术中演讲提示的效果较差的问题。
[0005] 为了实现上述目的,根据本申请的一个方面,提供了一种演讲提示与辅助演讲的方法,包括:获取演讲对象的演讲信息,其中,所述演讲信息包括语音信息和/或心率信息;根据所述演讲信息确定所述演讲对象是否卡顿和/或紧张;在所述演讲对象卡顿和/或紧张的情况下,控制机播报提示音频,其中,所述提示音频为至少根据预设演讲内容生成的音频,所述演讲对象携带所述耳机;在所述演讲对象卡顿和/或紧张的情况下,生成虚拟演讲对象,并控制所述虚拟演讲对象代替所述演讲对象继续演讲。
[0006] 可选地,根据所述演讲信息确定所述演讲对象是否卡顿,包括:将所述语音信息转换为文本信息;构建文本卡顿分析模型,其中,所述文本卡顿分析模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史文本信息、所述历史文本信息对应的第一历史卡顿分析结果;将所述文本信息输入至所述文本卡顿分析模型,得到所述文本信息对应的第一卡顿分析结果;构建音频卡顿分析模型,其中,所述音频卡顿分析模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史语音信息、所述历史语音信息对应的第二历史卡顿分析结果;将所述语音信息输入至所述音频卡顿分析模型,得到所述语音信息对应的第二卡顿分析结果;计算所述第一卡顿分析结果和所述第二卡顿分析结果的加权平均值,得到综合卡顿分析结果;在所述综合卡顿分析结果大于或者等于卡顿阈值的情况下,确定所述演讲对象卡顿;在所述综合卡顿分析结果小于所述卡顿阈值的情况下,确定所述演讲对象不卡顿。
[0007] 可选地,根据所述演讲信息确定所述演讲对象是否紧张,包括:构建紧张状态判断模型,其中,所述紧张状态判断模型是使用多组训练数据训练得到的,所述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史心率信息、所述历史心率信息对应的紧张分析结果;将所述心率信息输入至所述紧张状态判断模型,得到所述心率信息对应的紧张分析结果。
[0008] 可选地,在控制耳机播报提示音频之前,所述方法还包括:获取目标信号,其中,所述目标信号是激光笔发出的信号,所述演讲对象操作所述激光笔;在所述目标信号为第一类型的情况下,确定进入第一演讲辅助模式,其中,所述第一演讲辅助模式为控制所述耳机播报所述提示音频的演讲辅助模式;在所述目标信号为第二类型的情况下,确定进入第二演讲辅助模式,其中,所述第二演讲辅助模式为生成所述虚拟演讲对象,并控制所述虚拟演讲对象代替所述演讲对象继续演讲的演讲辅助模式。
[0009] 可选地,控制耳机播报提示音频,包括:获取所述预设演讲内容,其中,所述预设演讲内容为演讲开始前预先设置的演讲标准的内容;获取演讲进程信息,其中,所述演讲进程信息为所述演讲对象当前演讲的阶段;根据所述预设演讲内容和所述演讲进程信息生成第一提示音频,其中,所述第一提示音频为所述演讲对象还未演讲的部分预设演讲内容;控制所述耳机播报所述第一提示音频。
[0010] 可选地,生成虚拟演讲对象,并控制所述虚拟演讲对象代替所述演讲对象继续演讲,包括:获取实时演讲内容,其中,所述实时演讲内容为所述演讲对象已经演讲完的内容;根据所述预设演讲内容和所述实时演讲内容生成目标演讲文本,其中,所述目标演讲文本与所述预设演讲内容的语义连贯且与所述预设演讲内容的内容通顺;根据所述目标演讲文本的格生成所述虚拟演讲对象;控制显示设备至少显示所述目标演讲文本;根据所述目标演讲文本合成所述虚拟演讲对象的第二提示音频,并控制扬声器播放所述第二提示音频。
[0011] 可选地,在生成虚拟演讲对象,控制所述虚拟演讲对象代替所述演讲对象继续演讲之后,所述方法还包括:在目标信号为第三类型的情况下,退出演讲辅助模式,其中,所述目标信号是激光笔发出的信号,所述演讲对象操作所述激光笔,所述演讲辅助模式包括第一演讲辅助模式和/或第二演讲辅助模式。
[0012] 根据本申请的另一方面,提供了一种演讲提示与辅助演讲的装置,包括:第一获取单元,用于获取演讲对象的演讲信息,其中,所述演讲信息包括语音信息和/或心率信息;第一确定单元,用于根据所述演讲信息确定所述演讲对象是否卡顿和/或紧张;控制单元,用于在所述演讲对象卡顿和/或紧张的情况下,控制耳机播报提示音频,其中,所述提示音频为至少根据预设演讲内容生成的音频,所述演讲对象携带所述耳机;第一处理单元,用于在所述演讲对象卡顿和/或紧张的情况下,生成虚拟演讲对象,并控制所述虚拟演讲对象代替所述演讲对象继续演讲。
[0013] 根据本申请的再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述演讲提示与辅助演讲的方法。
[0014] 根据本申请的又一方面,提供了一种辅助演讲系统,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任意一种所述的演讲提示与辅助演讲的方法。
[0015] 应用本申请的技术方案,通过结合语音识别和生理检测,来确定演讲者的表现,如果演讲者出现卡顿或者紧张时,可以通过语音提示的方式来提示演讲者接下来需要演讲的内容,从而使演讲者更加流利的表达自己的想法,或者直接生成一个虚拟人,然后虚拟人代替演讲人继续演讲,从而帮助演讲者放松改变紧张的状态,因此本方案的演讲提示方案相对于现有技术来说提示的效果或者辅助的效果更好。附图说明
[0016] 构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0017] 图1示出了根据本申请的实施例中提供的一种执行演讲提示与辅助演讲的方法的移动终端的硬件结构框图
[0018] 图2示出了根据本申请的实施例提供的一种演讲提示与辅助演讲的方法的流程示意图;
[0019] 图3示出了另一种演讲提示与辅助演讲的方法的流程示意图;
[0020] 图4示出了根据本申请的实施例提供的一种演讲提示与辅助演讲的装置的结构框图。
[0021] 其中,上述附图包括以下附图标记:
[0022] 102、处理器;104、存储器;106、传输设备;108、输入输出设备。

具体实施方式

[0023] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0024] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0025] 需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0026] 为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
[0027] GPT:"Generative Pre‑trained Transformer",是一种深度学习模型,它使用了大规模的神经网络来处理自然语言理解和生成任务。
[0028] 正如背景技术中所介绍的,现有技术中演讲提示的效果较差,为解决如上的问题,本申请的实施例提供了一种演讲提示与辅助演讲的方法、装置、计算机可读存储介质和辅助演讲系统。
[0029] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
[0030] 本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种演讲提示与辅助演讲的方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
[0031] 存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模,如本发明实施例中的设备信息的显示方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
[0032] 在本实施例中提供了一种运行于移动终端、计算机终端或者类似的运算装置的演讲提示与辅助演讲的方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0033] 图2是根据本申请实施例的一种演讲提示与辅助演讲的方法的流程示意图。如图2所示,该方法包括以下步骤:
[0034] 步骤S201,获取演讲对象的演讲信息,其中,上述演讲信息包括语音信息和/或心率信息;
[0035] 具体地,通过演讲人(即演讲对象)佩戴的麦克风获取演讲人语音音频,通过演讲人佩戴的智能手环获取演讲人的心率信号(即心率信息)。
[0036] 通过语音识别模型检测演讲人的停顿时长,通过智能手环监测演讲人的实时情绪紧张状态,以及通过演讲人手动触发等多种触发方式,触发演讲提示合成音的播放,以及虚拟演讲人合成音频的播放,通过这种对演讲人音频状态、生理状态及自我控制的多维度的触发方式,可以及时的为演讲人提供演讲辅助。
[0037] 步骤S202,根据上述演讲信息确定上述演讲对象是否卡顿和/或紧张;
[0038] 具体地,可以提供多维度的检测手段实时的监测演讲人的演讲状态,包括演讲人语音停顿状态与演讲人生理紧张状态,并基于此监测结果后续自动或手动触发后续演讲辅助功能(包含演讲提示音频播放,“虚拟演讲人”切换等辅助功能)。
[0039] 本申请的方案通过触发两种辅助方式,给演讲人提供提示词之外的多种辅助手段。
[0040] 步骤S203,在上述演讲对象卡顿和/或紧张的情况下,控制耳机播报提示音频,其中,上述提示音频为至少根据预设演讲内容生成的音频,上述演讲对象携带上述耳机;
[0041] 具体地,根据识别到的演讲人语音对应的演讲进度,在演讲人耳机里播放预设的演讲内容的合成提示音频,帮助演讲人快速找回演讲节奏。
[0042] 步骤S204,在上述演讲对象卡顿和/或紧张的情况下,生成虚拟演讲对象,并控制上述虚拟演讲对象代替上述演讲对象继续演讲。
[0043] 具体地,可以通过GPT模型对演讲人已演讲内容进行实时分析,判断其演讲进入到哪一阶段,并结合演讲人预设在该阶段的演讲文稿,实时为演讲人生成后续的演讲内容,并通过演讲人的个性化语音合成模型合成出演讲人自身的音频,从而实现“虚拟演讲人”无缝切换的效果。
[0044] 或者由演讲人主动触发,切换为虚拟演讲人演讲的合成音频,合成音频的内容可以基于GPT对已说的内容综合预设的演讲文本进行整合输出,从而在保障流畅的同时,也能与相关内容衔接上,当演讲人觉得可以再次想起内容或找回演讲节奏时,可以由演讲人再关闭合成音播放,重新由演讲人自己接管演讲。
[0045] 通过本实施例,通过结合语音识别和生理检测,来确定演讲者的表现,如果演讲者出现卡顿或者紧张时,可以通过语音提示的方式来提示演讲者接下来需要演讲的内容,从而使演讲者更加流利的表达自己的想法,或者直接生成一个虚拟人,然后虚拟人代替演讲人继续演讲,从而帮助演讲者放松改变紧张的状态,因此本方案的演讲提示方案相对于现有技术来说提示的效果或者辅助的效果更好。
[0046] 相较于目前方案针仅仅对音频本身对演讲人进行状态的判断,本方案对演讲人的演讲状态的判断方式更加丰富且更加可控,从而让演讲辅助功能的出现时机更加精准。相较于目前方案仅仅通过某些关键词来判断演讲阶段,并给与文本提示等演讲辅助功能,本方案提供GPT模型对演讲人演讲内容进行实时分析,判断演讲所处阶段,并根据现有演讲内容结合在该阶段预设的演讲内容,由GPT模型实时生成后续的演讲内容并提供音频提示或直接切换成“虚拟演讲人”进行音频播报的方式,可以给与演讲人更加宽泛的辅助选择,以及对听众更加无缝无感知的切换,从而保障演讲效果的流畅性。
[0047] 具体实现过程中,根据上述演讲信息确定上述演讲对象是否卡顿,可以通过以下步骤实现:将上述语音信息转换为文本信息;构建文本卡顿分析模型,其中,上述文本卡顿分析模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史文本信息、上述历史文本信息对应的第一历史卡顿分析结果;将上述文本信息输入至上述文本卡顿分析模型,得到上述文本信息对应的第一卡顿分析结果;构建音频卡顿分析模型,其中,上述音频卡顿分析模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史语音信息、上述历史语音信息对应的第二历史卡顿分析结果;将上述语音信息输入至上述音频卡顿分析模型,得到上述语音信息对应的第二卡顿分析结果;计算上述第一卡顿分析结果和上述第二卡顿分析结果的加权平均值,得到综合卡顿分析结果;在上述综合卡顿分析结果大于或者等于卡顿阈值的情况下,确定上述演讲对象卡顿;在上述综合卡顿分析结果小于上述卡顿阈值的情况下,确定上述演讲对象不卡顿。
[0048] 该方案中,可以通过文本卡顿分析模型来确定文本是否存在卡顿,可以通过音频卡顿分析模型来确定音频是否存在卡顿,根据文本卡顿模型输出的结果和音频卡顿分析模块输出的结果来综合判断演讲对象是否卡顿,这样可以通过多参数来进行综合判断,避免了使用单个参数判断造成的准确率较低的问题,从而进一步保证了本方案可以准确地确定演讲对象是否卡顿。
[0049] 具体地,通过文本卡顿分析模型的NLP技术检测文本中的语法错误、不连贯的表达或词汇选择问题,同时检测文本中的断句或短语之间的关系,分析语音表达的连贯性(如过渡词、连接词的使用以及句子之间的逻辑关系),从而判断演讲文本的卡顿与否。
[0050] 具体地,通过音频特征提取模型获取演讲者音频特征,输入“音频卡顿分析模型”,通过将演讲者的语音信号划分成小的音频,并计算一定时长的演讲段落的平均语速(语速=音频帧中的音节数/帧的持续时间),实时监测语速变化,当语速变化超过设定的阈值时,模型可以判定为演讲者可能遇到了卡顿。
[0051] 当然,除了上述的智能模型进行判断,还可以是直接定义一些规则来判断,例如文本卡顿分析的时候,如果存在短句或者上下文逻辑不连贯,或者口词较多则判断为卡顿,例如音频卡顿分析的时候,如果语速较慢或者两端语音相隔时间较长则判断为卡顿。
[0052] 在具体的应用中,卡顿阈值可以是停顿时间超过1秒或者2秒,或者其他的时间,卡顿阈值还可以是文本出现的重复的次数大于5次或者10次,或者其他的条件限定。
[0053] 具体实现过程中,根据上述演讲信息确定上述演讲对象是否紧张,可以通过以下步骤实现:构建紧张状态判断模型,其中,上述紧张状态判断模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史心率信息、上述历史心率信息对应的紧张分析结果;将上述心率信息输入至上述紧张状态判断模型,得到上述心率信息对应的紧张分析结果。
[0054] 该方案中,可以从智能手环上获取到演讲人的心率信息,即心率的变化,心率通常会在紧张或激动的情绪下增加,因此通过分析心率的变化可以推测演讲者是否感到紧张,通过本方案可以进一步准确地确定演讲人是否紧张。
[0055] 具体地,还可以支持设定心率变化的阈值,超过该阈值可以被认为是显著的变化,从而判断为通常状态、紧张状态、过度紧张状态等多种紧张状态等级,
[0056] 通常状态下,人类的心率在60‑100次/分钟之间。当处于紧张状态时,心率会加快,达到100次/分钟以上。过度紧张状态下,心率可能会进一步加快,甚至超过120次/分钟。
[0057] 为了方便演讲对象自己触发演讲辅助,在控制耳机播报提示音频之前,上述方法还包括以下步骤:获取目标信号,其中,上述目标信号是激光笔发出的信号,上述演讲对象操作上述激光笔;在上述目标信号为第一类型的情况下,确定进入第一演讲辅助模式,其中,上述第一演讲辅助模式为控制上述耳机播报上述提示音频的演讲辅助模式;在上述目标信号为第二类型的情况下,确定进入第二演讲辅助模式,其中,上述第二演讲辅助模式为生成上述虚拟演讲对象,并控制上述虚拟演讲对象代替上述演讲对象继续演讲的演讲辅助模式。
[0058] 该方案中,除了自动触发演讲辅助外,还可以由演讲对象自己手持激光笔来手动触发演讲辅助,演讲对象可以手动选择触发哪种辅助演讲模式,从而保证本方案可以更加高效地实现演讲辅助。
[0059] 目前演讲提示的方案一般主要是通过给显示屏幕上显示提示词的方式给予演讲人及时的提示,同时其触发方式主要是基于显示层面的,并没有从多维度的方式进行判断并触发提示或演讲辅助,造成给予提示的时机要么不受控制,要么提示出现的时机不够合理。
[0060] 在一些实施例上,控制耳机播报提示音频,具体可以通过以下步骤实现:获取上述预设演讲内容,其中,上述预设演讲内容为演讲开始前预先设置的演讲标准的内容;获取演讲进程信息,其中,上述演讲进程信息为上述演讲对象当前演讲的阶段;根据上述预设演讲内容和上述演讲进程信息生成第一提示音频,其中,上述第一提示音频为上述演讲对象还未演讲的部分预设演讲内容;控制上述耳机播报上述第一提示音频。
[0061] 该方案中,可以判断出演讲人当前演讲的阶段,选择出对应该阶段的预设演讲内容生成第一提示语音,通过耳机播放给演讲人,从而给予演讲人音频提示。
[0062] 目前方案更多聚焦于给予演讲人本身演讲提示的方式对其进行演讲辅助,并没有提供直接切换为虚拟演讲人的形式,同时对演讲内容的分析还仅限于关键词级别,并没有通过GPT实时分析演讲人演讲内容并结合预设演讲内容生成后续更加合理的演讲内容的方案,造成给出的后续提示可能过于生硬且不一定特别契合演讲人当下的演讲内容。
[0063] 在一些实施例上,生成虚拟演讲对象,并控制上述虚拟演讲对象代替上述演讲对象继续演讲,具体可以通过以下步骤实现:获取实时演讲内容,其中,上述实时演讲内容为上述演讲对象已经演讲完的内容;根据上述预设演讲内容和上述实时演讲内容生成目标演讲文本,其中,上述目标演讲文本与上述预设演讲内容的语义连贯且与上述预设演讲内容的内容通顺;根据上述目标演讲文本的风格生成上述虚拟演讲对象;控制显示设备至少显示上述目标演讲文本;根据上述目标演讲文本合成上述虚拟演讲对象的第二提示音频,并控制扬声器播放上述第二提示音频。
[0064] 该方案中,可以将实时演讲内容与预设的演讲内容进行结合,生成任务,从而实时生成该演讲阶段前后逻辑连贯且内容通顺的后续的目标演讲文本,根据目标演讲文本的演讲风格合成虚拟演讲对象,由虚拟演讲对象演讲演,并且由扬声器直接播放给演讲听众,当然,为了避免出现演讲对象口型对不上的问题,还可以在显示设备上显示目标演讲文本,以提示演讲人,通过本方案可以进一步解决现有技术中演讲提示的效果较差的问题。
[0065] 在一些实施例上,在生成虚拟演讲对象,控制上述虚拟演讲对象代替上述演讲对象继续演讲之后,上述方法还包括以下步骤:在目标信号为第三类型的情况下,退出演讲辅助模式,其中,上述目标信号是激光笔发出的信号,上述演讲对象操作上述激光笔,上述演讲辅助模式包括第一演讲辅助模式和/或第二演讲辅助模式。
[0066] 该方案中,如果演讲人觉得自己可以想起内容或者找回演讲节奏时,可以操作激光笔,选择退出演讲辅助模式,这个时候可以重新由演讲人自己接管演讲,从而保证了可以在演讲人不卡顿或者恢复自信的时候继续演讲。
[0067] 具体地,本方案为了帮助演讲者克服这些障碍,提高他们的演讲技巧和自信度。通过结合语音识别与生理监测技术,可以实时监测演讲者的演讲表现,当出现卡壳、长时间停顿或演讲人过于紧张时,自动或演讲人手动触发辅助机制为演讲人提供帮助,使演讲者更流利地表达自己的想法。同时,通过整合GPT技术,分析演讲人已演讲内容,并结合预设的此阶段的演讲内容,系统实时自动生成后续演讲文本内容并实时合成演讲人的语音音频,这些生成的内容可以与演讲者已经说过的内容保持一致,从而帮助他们重新获得信心并继续演讲。
[0068] 为了使得本领域技术人员能够更加清楚地了解本申请的技术方案,以下将结合具体的实施例对本申请的演讲提示与辅助演讲的方法的实现过程进行详细说明。
[0069] 本实施例涉及一种具体的演讲提示与辅助演讲的方法,如图3所示,包括如下步骤:
[0070] 第一步、通过演讲人佩戴的麦克风获取演讲人语音音频,通过演讲人佩戴的智能手环获取演讲人的心率信号,通过演讲人手持的演讲激光笔获取演讲人主动触发演讲辅助信号,通过将此三个维度的信息送入“演讲辅助综合控制模块”进行统筹处理;
[0071] 第二步、通过语音识别模型对演讲人语音音频进行语音转写为实时的演讲文本,并将其输入“文本卡顿分析模型”,通过该模型的NLP技术检测文本中的语法错误、不连贯的表达或词汇选择问题,同时检测文本中的断句或短语之间的关系,分析语音表达的连贯性(如过渡词、连接词的使用以及句子之间的逻辑关系),从而判断演讲文本的卡顿与否,并将判断结果输入“演讲卡顿状态分析模型”;同步的,通过音频特征提取模型获取演讲者音频特征,输入“音频卡顿分析模型”,通过将演讲者的语音信号划分成小的音频帧,并计算一定时长的演讲段落的平均语速(语速=音频帧中的音节数/帧的持续时间),实时监测语速变化,当语速变化超过设定的阈值时,模型可以判定为演讲者可能遇到了卡顿,并将卡顿判断结果输入“演讲卡顿状态分析模型”。最终由“演讲卡顿状态分析模型”根据“文本卡顿分析模型”与“音频卡顿分析模型”的判断结果进行综合分析,最终输出演讲人演讲卡顿判断结果给“演讲辅助控制判断模块”;
[0072] 语音识别模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史语音信息、上述历史语音信息对应的文本转换结果;
[0073] 演讲卡顿状态分析模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的文本卡顿分析结果、音频卡顿分析结果、文本卡顿分析结果和音频卡顿分析结果对应的综合卡顿分析结果;
[0074] 第三步、从智能手环获取到演讲人实时的心率信号,输入“紧张状态判断模型”,心率通常会在紧张或激动的情绪下增加,因此通过分析心率的变化可以推测演讲者是否感到紧张,同时可支持设定心率变化的阈值,超过该阈值可以被认为是显著的变化,从而判断为通常状态、紧张状态、过度紧张状态等多种紧张状态等级,最终输出演讲人紧张状态判断结果给“演讲辅助控制判断模块”;
[0075] 第四步、支持演讲人通过手持的演讲激光笔的按钮,主动的选择是否触发演讲辅助,以及触发哪一类型的辅助模式;
[0076] 第五步、由“演讲辅助控制判断模块”根据步骤二、三、四的输出结果作为输入,并进行综合判断,确认是否触发演讲辅助,以及触发哪一类辅助模式,其中第四步手动触发的判断优先级最高,其次通过设定判断阈值:(1)当演讲卡顿得分与紧张状态得分加权分值在阈值1(第一种阈值类型,0.7‑0.8)以内时,不触发演讲辅助;(2)当演讲卡顿得分与紧张状态得分加权分值在阈值2(第二种阈值类型,0.8‑1)以内时,触发演讲辅助模式1;当演讲卡顿得分与紧张状态得分加权分值在阈值3(第三种阈值类型,1)以内时,触发演讲辅助模式2;
[0077] 第六步、将触发的演讲辅助模式类型与实时演讲内容文本输入“演讲辅助模块”,由GPT模型1执行演讲内容分析任务,实时判断其演讲进入到哪一阶段;
[0078] 第七步、当触发辅助模式1时,根据GPT模型1所判断出的演讲阶段,选择出对应该阶段的“预设演讲内容合成音频”,并通过耳机播放给演讲人,从而给予演讲人音频提示;
[0079] 第八步、当触发辅助模式2时,根据GPT模型1所判断出的演讲阶段,将实时演讲内容文本结合预设的该演讲阶段的演讲内容文本,由GPT模型2执行后续演讲内容生成任务,从而实时生成该阶段前后逻辑连贯且内容通顺的后续演讲内容文本,并将该文本输入“演讲人个性语音合成模型”从而合成出“虚拟演讲人”的演讲音频并由扬声器直接播放给演讲听众;
[0080] 演讲人个性语音合成模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的演讲文本、演讲风格、演讲语音、演讲文本和演讲风格和演讲语音对应的虚拟演讲人;
[0081] 第九步、当演讲人觉得可以再次想起内容或找回演讲节奏时,可以由演讲人再关闭合成音播放,重新由演讲人自己接管演讲。
[0082] 本申请实施例还提供了一种演讲提示与辅助演讲的装置,需要说明的是,本申请实施例的演讲提示与辅助演讲的装置可以用于执行本申请实施例所提供的用于演讲提示与辅助演讲的方法。该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0083] 以下对本申请实施例提供的演讲提示与辅助演讲的装置进行介绍。
[0084] 图4是根据本申请实施例的一种演讲提示与辅助演讲的装置的结构框图。如图4所示,该装置包括:
[0085] 第一获取单元10,用于获取演讲对象的演讲信息,其中,上述演讲信息包括语音信息和/或心率信息;
[0086] 具体地,通过演讲人(即演讲对象)佩戴的麦克风获取演讲人语音音频,通过演讲人佩戴的智能手环获取演讲人的心率信号(即心率信息)。
[0087] 通过语音识别模型检测演讲人的停顿时长,通过智能手环监测演讲人的实时情绪紧张状态,以及通过演讲人手动触发等多种触发方式,触发演讲提示合成音的播放,以及虚拟演讲人合成音频的播放,通过这种对演讲人音频状态、生理状态及自我控制的多维度的触发方式,可以及时的为演讲人提供演讲辅助。
[0088] 第一确定单元20,用于根据上述演讲信息确定上述演讲对象是否卡顿和/或紧张;
[0089] 具体地,可以提供多维度的检测手段实时的监测演讲人的演讲状态,包括演讲人语音停顿状态与演讲人生理紧张状态,并基于此监测结果后续自动或手动触发后续演讲辅助功能(包含演讲提示音频播放,“虚拟演讲人”切换等辅助功能)。
[0090] 本申请的方案通过触发两种辅助方式,给演讲人提供提示词之外的多种辅助手段。
[0091] 控制单元30,用于在上述演讲对象卡顿和/或紧张的情况下,控制耳机播报提示音频,其中,上述提示音频为至少根据预设演讲内容生成的音频,上述演讲对象携带上述耳机;
[0092] 具体地,根据识别到的演讲人语音对应的演讲进度,在演讲人耳机里播放预设的演讲内容的合成提示音频,帮助演讲人快速找回演讲节奏。
[0093] 第一处理单元40,用于在上述演讲对象卡顿和/或紧张的情况下,生成虚拟演讲对象,并控制上述虚拟演讲对象代替上述演讲对象继续演讲。
[0094] 具体地,可以通过GPT模型对演讲人已演讲内容进行实时分析,判断其演讲进入到哪一阶段,并结合演讲人预设在该阶段的演讲文稿,实时为演讲人生成后续的演讲内容,并通过演讲人的个性化语音合成模型合成出演讲人自身的音频,从而实现“虚拟演讲人”无缝切换的效果。
[0095] 或者由演讲人主动触发,切换为虚拟演讲人演讲的合成音频,合成音频的内容可以基于GPT对已说的内容综合预设的演讲文本进行整合输出,从而在保障流畅的同时,也能与相关内容衔接上,当演讲人觉得可以再次想起内容或找回演讲节奏时,可以由演讲人再关闭合成音播放,重新由演讲人自己接管演讲。
[0096] 通过本实施例,通过结合语音识别和生理检测,来确定演讲者的表现,如果演讲者出现卡顿或者紧张时,可以通过语音提示的方式来提示演讲者接下来需要演讲的内容,从而使演讲者更加流利的表达自己的想法,或者直接生成一个虚拟人,然后虚拟人代替演讲人继续演讲,从而帮助演讲者放松改变紧张的状态,因此本方案的演讲提示方案相对于现有技术来说提示的效果或者辅助的效果更好。
[0097] 相较于目前方案针仅仅对音频本身对演讲人进行状态的判断,本方案对演讲人的演讲状态的判断方式更加丰富且更加可控,从而让演讲辅助功能的出现时机更加精准。相较于目前方案仅仅通过某些关键词来判断演讲阶段,并给与文本提示等演讲辅助功能,本方案提供GPT模型对演讲人演讲内容进行实时分析,判断演讲所处阶段,并根据现有演讲内容结合在该阶段预设的演讲内容,由GPT模型实时生成后续的演讲内容并提供音频提示或直接切换成“虚拟演讲人”进行音频播报的方式,可以给与演讲人更加宽泛的辅助选择,以及对听众更加无缝无感知的切换,从而保障演讲效果的流畅性。
[0098] 具体实现过程中,第一确定单元包括转换模块、第一构建模块、第一处理模块、第二构建模块、第二处理模块、计算模块、第一确定模块和第二确定模块,转换模块用于将上述语音信息转换为文本信息;第一构建模块用于构建文本卡顿分析模型,其中,上述文本卡顿分析模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史文本信息、上述历史文本信息对应的第一历史卡顿分析结果;第一处理模块用于将上述文本信息输入至上述文本卡顿分析模型,得到上述文本信息对应的第一卡顿分析结果;第二构建模块用于构建音频卡顿分析模型,其中,上述音频卡顿分析模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史语音信息、上述历史语音信息对应的第二历史卡顿分析结果;第二处理模块用于将上述语音信息输入至上述音频卡顿分析模型,得到上述语音信息对应的第二卡顿分析结果;计算模块用于计算上述第一卡顿分析结果和上述第二卡顿分析结果的加权平均值,得到综合卡顿分析结果;第一确定模块用于在上述综合卡顿分析结果大于或者等于卡顿阈值的情况下,确定上述演讲对象卡顿;第二确定模块用于在上述综合卡顿分析结果小于上述卡顿阈值的情况下,确定上述演讲对象不卡顿。
[0099] 该方案中,可以通过文本卡顿分析模型来确定文本是否存在卡顿,可以通过音频卡顿分析模型来确定音频是否存在卡顿,根据文本卡顿模型输出的结果和音频卡顿分析模块输出的结果来综合判断演讲对象是否卡顿,这样可以通过多参数来进行综合判断,避免了使用单个参数判断造成的准确率较低的问题,从而进一步保证了本方案可以准确地确定演讲对象是否卡顿。
[0100] 具体地,通过文本卡顿分析模型的NLP技术检测文本中的语法错误、不连贯的表达或词汇选择问题,同时检测文本中的断句或短语之间的关系,分析语音表达的连贯性(如过渡词、连接词的使用以及句子之间的逻辑关系),从而判断演讲文本的卡顿与否。
[0101] 具体地,通过音频特征提取模型获取演讲者音频特征,输入“音频卡顿分析模型”,通过将演讲者的语音信号划分成小的音频帧,并计算一定时长的演讲段落的平均语速(语速=音频帧中的音节数/帧的持续时间),实时监测语速变化,当语速变化超过设定的阈值时,模型可以判定为演讲者可能遇到了卡顿。
[0102] 当然,除了上述的智能模型进行判断,还可以是直接定义一些规则来判断,例如文本卡顿分析的时候,如果存在短句或者上下文逻辑不连贯,或者口水词较多则判断为卡顿,例如音频卡顿分析的时候,如果语速较慢或者两端语音相隔时间较长则判断为卡顿。
[0103] 在具体的应用中,卡顿阈值可以是停顿时间超过1秒或者2秒,或者其他的时间,卡顿阈值还可以是文本出现的重复的次数大于5次或者10次,或者其他的条件限定。
[0104] 具体实现过程中,第一确定单元包括第三构建模块和第三处理模块,第三构建模块用于构建紧张状态判断模型,其中,上述紧张状态判断模型是使用多组训练数据训练得到的,上述多组训练数据中的每一组训练数据均包括历史时间段内获取的历史心率信息、上述历史心率信息对应的紧张分析结果;第三处理模块用于将上述心率信息输入至上述紧张状态判断模型,得到上述心率信息对应的紧张分析结果。
[0105] 该方案中,可以从智能手环上获取到演讲人的心率信息,即心率的变化,心率通常会在紧张或激动的情绪下增加,因此通过分析心率的变化可以推测演讲者是否感到紧张,通过本方案可以进一步准确地确定演讲人是否紧张。
[0106] 具体地,还可以支持设定心率变化的阈值,超过该阈值可以被认为是显著的变化,从而判断为通常状态、紧张状态、过度紧张状态等多种紧张状态等级,
[0107] 通常状态下,人类的心率在60‑100次/分钟之间。当处于紧张状态时,心率会加快,达到100次/分钟以上。过度紧张状态下,心率可能会进一步加快,甚至超过120次/分钟。
[0108] 为了方便演讲对象自己触发演讲辅助,上述装置还包括第二获取单元、第二确定单元和第三确定单元,第二获取单元用于在控制耳机播报提示音频之前,获取目标信号,其中,上述目标信号是激光笔发出的信号,上述演讲对象操作上述激光笔;第二确定单元用于在上述目标信号为第一类型的情况下,确定进入第一演讲辅助模式,其中,上述第一演讲辅助模式为控制上述耳机播报上述提示音频的演讲辅助模式;第三确定单元用于在上述目标信号为第二类型的情况下,确定进入第二演讲辅助模式,其中,上述第二演讲辅助模式为生成上述虚拟演讲对象,并控制上述虚拟演讲对象代替上述演讲对象继续演讲的演讲辅助模式。
[0109] 该方案中,除了自动触发演讲辅助外,还可以由演讲对象自己手持激光笔来手动触发演讲辅助,演讲对象可以手动选择触发哪种辅助演讲模式,从而保证本方案可以更加高效地实现演讲辅助。
[0110] 目前演讲提示的方案一般主要是通过给显示屏幕上显示提示词的方式给予演讲人及时的提示,同时其触发方式主要是基于显示层面的,并没有从多维度的方式进行判断并触发提示或演讲辅助,造成给予提示的时机要么不受控制,要么提示出现的时机不够合理。
[0111] 在一些实施例上,控制单元包括第一获取模块、第二获取模块、第一生成模块和第一控制模块,第一获取模块用于获取上述预设演讲内容,其中,上述预设演讲内容为演讲开始前预先设置的演讲标准的内容;第二获取模块用于获取演讲进程信息,其中,上述演讲进程信息为上述演讲对象当前演讲的阶段;第一生成模块用于根据上述预设演讲内容和上述演讲进程信息生成第一提示音频,其中,上述第一提示音频为上述演讲对象还未演讲的部分预设演讲内容;第一控制模块用于控制上述耳机播报上述第一提示音频。
[0112] 该方案中,可以判断出演讲人当前演讲的阶段,选择出对应该阶段的预设演讲内容生成第一提示语音,通过耳机播放给演讲人,从而给予演讲人音频提示。
[0113] 目前方案更多聚焦于给予演讲人本身演讲提示的方式对其进行演讲辅助,并没有提供直接切换为虚拟演讲人的形式,同时对演讲内容的分析还仅限于关键词级别,并没有通过GPT实时分析演讲人演讲内容并结合预设演讲内容生成后续更加合理的演讲内容的方案,造成给出的后续提示可能过于生硬且不一定特别契合演讲人当下的演讲内容。
[0114] 在一些实施例上,第一处理单元包括第三获取模块、第二生成模块、第三生成模块、第二控制模块和第四处理模块,第三获取模块用于获取实时演讲内容,其中,上述实时演讲内容为上述演讲对象已经演讲完的内容;第二生成模块用于根据上述预设演讲内容和上述实时演讲内容生成目标演讲文本,其中,上述目标演讲文本与上述预设演讲内容的语义连贯且与上述预设演讲内容的内容通顺;第三生成模块用于根据上述目标演讲文本的风格生成上述虚拟演讲对象;第二控制模块用于控制显示设备至少显示上述目标演讲文本;第四处理模块用于根据上述目标演讲文本合成上述虚拟演讲对象的第二提示音频,并控制扬声器播放上述第二提示音频。
[0115] 该方案中,可以将实时演讲内容与预设的演讲内容进行结合,生成任务,从而实时生成该演讲阶段前后逻辑连贯且内容通顺的后续的目标演讲文本,根据目标演讲文本的演讲风格合成虚拟演讲对象,由虚拟演讲对象演讲演,并且由扬声器直接播放给演讲听众,当然,为了避免出现演讲对象口型对不上的问题,还可以在显示设备上显示目标演讲文本,以提示演讲人,通过本方案可以进一步解决现有技术中演讲提示的效果较差的问题。
[0116] 在一些实施例上,上述装置还包括第二处理单元,第二处理单元用于在生成虚拟演讲对象,控制上述虚拟演讲对象代替上述演讲对象继续演讲之后,在目标信号为第三类型的情况下,退出演讲辅助模式,其中,上述目标信号是激光笔发出的信号,上述演讲对象操作上述激光笔,上述演讲辅助模式包括第一演讲辅助模式和/或第二演讲辅助模式。
[0117] 该方案中,如果演讲人觉得自己可以想起内容或者找回演讲节奏时,可以操作激光笔,选择退出演讲辅助模式,这个时候可以重新由演讲人自己接管演讲,从而保证了可以在演讲人不卡顿或者恢复自信的时候继续演讲。
[0118] 具体地,本方案为了帮助演讲者克服这些障碍,提高他们的演讲技巧和自信度。通过结合语音识别与生理监测技术,可以实时监测演讲者的演讲表现,当出现卡壳、长时间停顿或演讲人过于紧张时,自动或演讲人手动触发辅助机制为演讲人提供帮助,使演讲者更流利地表达自己的想法。同时,通过整合GPT技术,分析演讲人已演讲内容,并结合预设的此阶段的演讲内容,系统实时自动生成后续演讲文本内容并实时合成演讲人的语音音频,这些生成的内容可以与演讲者已经说过的内容保持一致,从而帮助他们重新获得信心并继续演讲。
[0119] 上述演讲提示与辅助演讲的装置包括处理器和存储器,上述第一获取单元、第一确定单元、控制单元和第一处理单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
[0120] 处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决现有技术中演讲提示的效果较差的问题。
[0121] 存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
[0122] 本发明实施例提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,在上述程序运行时控制上述计算机可读存储介质所在设备执行上述演讲提示与辅助演讲的方法。
[0123] 具体地,演讲提示与辅助演讲的方法包括:
[0124] 步骤S201,获取演讲对象的演讲信息,其中,上述演讲信息包括语音信息和/或心率信息;
[0125] 步骤S202,根据上述演讲信息确定上述演讲对象是否卡顿和/或紧张;
[0126] 步骤S203,在上述演讲对象卡顿和/或紧张的情况下,控制耳机播报提示音频,其中,上述提示音频为至少根据预设演讲内容生成的音频,上述演讲对象携带上述耳机;
[0127] 步骤S204,在上述演讲对象卡顿和/或紧张的情况下,生成虚拟演讲对象,并控制上述虚拟演讲对象代替上述演讲对象继续演讲。
[0128] 本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述演讲提示与辅助演讲的方法。
[0129] 具体地,演讲提示与辅助演讲的方法包括:
[0130] 步骤S201,获取演讲对象的演讲信息,其中,上述演讲信息包括语音信息和/或心率信息;
[0131] 步骤S202,根据上述演讲信息确定上述演讲对象是否卡顿和/或紧张;
[0132] 步骤S203,在上述演讲对象卡顿和/或紧张的情况下,控制耳机播报提示音频,其中,上述提示音频为至少根据预设演讲内容生成的音频,上述演讲对象携带上述耳机;
[0133] 步骤S204,在上述演讲对象卡顿和/或紧张的情况下,生成虚拟演讲对象,并控制上述虚拟演讲对象代替上述演讲对象继续演讲。
[0134] 本申请还提供了一种辅助演讲系统,包括一个或多个处理器,存储器,以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置为由上述一个或多个处理器执行,上述一个或多个程序包括用于执行任意一种上述的演讲提示与辅助演讲的方法。
[0135] 具体地,演讲提示与辅助演讲的方法包括:
[0136] 步骤S201,获取演讲对象的演讲信息,其中,上述演讲信息包括语音信息和/或心率信息;
[0137] 步骤S202,根据上述演讲信息确定上述演讲对象是否卡顿和/或紧张;
[0138] 步骤S203,在上述演讲对象卡顿和/或紧张的情况下,控制耳机播报提示音频,其中,上述提示音频为至少根据预设演讲内容生成的音频,上述演讲对象携带上述耳机;
[0139] 步骤S204,在上述演讲对象卡顿和/或紧张的情况下,生成虚拟演讲对象,并控制上述虚拟演讲对象代替上述演讲对象继续演讲。
[0140] 本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:
[0141] 步骤S201,获取演讲对象的演讲信息,其中,上述演讲信息包括语音信息和/或心率信息;
[0142] 步骤S202,根据上述演讲信息确定上述演讲对象是否卡顿和/或紧张;
[0143] 步骤S203,在上述演讲对象卡顿和/或紧张的情况下,控制耳机播报提示音频,其中,上述提示音频为至少根据预设演讲内容生成的音频,上述演讲对象携带上述耳机;
[0144] 步骤S204,在上述演讲对象卡顿和/或紧张的情况下,生成虚拟演讲对象,并控制上述虚拟演讲对象代替上述演讲对象继续演讲。
[0145] 本文中的设备可以是服务器、PC、PAD、手机等。
[0146] 本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:
[0147] 步骤S201,获取演讲对象的演讲信息,其中,上述演讲信息包括语音信息和/或心率信息;
[0148] 步骤S202,根据上述演讲信息确定上述演讲对象是否卡顿和/或紧张;
[0149] 步骤S203,在上述演讲对象卡顿和/或紧张的情况下,控制耳机播报提示音频,其中,上述提示音频为至少根据预设演讲内容生成的音频,上述演讲对象携带上述耳机;
[0150] 步骤S204,在上述演讲对象卡顿和/或紧张的情况下,生成虚拟演讲对象,并控制上述虚拟演讲对象代替上述演讲对象继续演讲。
[0151] 显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0152] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。
[0153] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0154] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0155] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0156] 在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0157] 存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
[0158] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0159] 还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0160] 从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
[0161] 1)、本申请的演讲提示与辅助演讲的方法,通过结合语音识别和生理检测,来确定演讲者的表现,如果演讲者出现卡顿或者紧张时,可以通过语音提示的方式来提示演讲者接下来需要演讲的内容,从而使演讲者更加流利的表达自己的想法,或者直接生成一个虚拟人,然后虚拟人代替演讲人继续演讲,从而帮助演讲者放松改变紧张的状态,因此本方案的演讲提示方案相对于现有技术来说提示的效果或者辅助的效果更好。
[0162] 2)、本申请的演讲提示与辅助演讲的装置,通过结合语音识别和生理检测,来确定演讲者的表现,如果演讲者出现卡顿或者紧张时,可以通过语音提示的方式来提示演讲者接下来需要演讲的内容,从而使演讲者更加流利的表达自己的想法,或者直接生成一个虚拟人,然后虚拟人代替演讲人继续演讲,从而帮助演讲者放松改变紧张的状态,因此本方案的演讲提示方案相对于现有技术来说提示的效果或者辅助的效果更好。
[0163] 以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
QQ群二维码
意见反馈