首页 / 专利库 / 信号处理 / 信号处理 / 音频信号处理 / 一种基于图像识别和音频识别的游戏辅助系统

一种基于图像识别和音频识别的游戏辅助系统

阅读:0发布:2020-06-02

专利汇可以提供一种基于图像识别和音频识别的游戏辅助系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 图像识别 和音频识别的游戏辅助系统,包括游戏 图像采集 预处理模 块 、游戏声音采集预处理模块、数字图像识别模块、数字音频识别模块以及识别结果提示模块,这五大模块是按照处理任务的逻辑功能进行划分,共同组成一个应用程序,各个模块间的数据传输和 信号 传递都是通过 进程 内通信技术完成,非常高效。因此,本发明系统能够准确识别出远处潜伏的敌人和交通工具以及发出枪声的方位,并实时在游戏屏幕上以醒目的 颜色 给出提示图标;此外,还能通过对 电子 罗盘和小地图的识别,给出玩家进入安全区的行进指示,通过这些辅助提示能增加普通初级玩家在游戏中的生存时间,提升游戏体验感。,下面是一种基于图像识别和音频识别的游戏辅助系统专利的具体信息内容。

1.一种基于图像识别和音频识别的游戏辅助系统,其特征在于:包括游戏图像采集预处理模、游戏声音采集预处理模块、数字图像识别模块、数字音频识别模块以及识别结果提示模块;其中:
所述游戏图像采集预处理模块用于对游戏视频图像进行实时抓取并进行预处理;
所述游戏声音采集预处理模块用于对游戏多声道声音进行实时抓取并进行预处理;
所述数字图像识别模块用于识别出游戏视频图像中的电子罗盘度、小地图中玩家坐标以及人物和交通工具位置
所述数字音频识别模块采用音频离线分析系统给出的目标信号频谱特征,对各个声道的音频数据进行频域分析比对,判断哪个声道中包含枪声信息;
所述识别结果提示模块用于将电子罗盘角度、小地图中玩家坐标、人物和交通工具位置以及枪声出现的方位在游戏画面上对应的位置醒目标注出来,并给出语音报警,从而达到及时提醒玩家注意的目的。
2.根据权利要求1所述的游戏辅助系统,其特征在于:所述游戏图像采集预处理模块先将连续的游戏视频转换成离散的数字图像,对于在固定位置展示的内容,直接截取图像中对应区域的图像块传递给数字图像识别模块进行识别处理;对于不在固定位置出现的目标,以滑动窗口的形式对采集到的图像进行裁剪,只截取图像中上部分,然后对截取后的图像进行等比缩放,并且记录每一的前后顺序,待数字图像识别模块调用进行分析。
3.根据权利要求1所述的游戏辅助系统,其特征在于:所述游戏声音采集预处理模块将连续的声音按照各自的声道转换成分段定时长的数字音频包,并标记各音频包所属的声道,然后传递给数字音频识别模块进行下一步处理。
4.根据权利要求1所述的游戏辅助系统,其特征在于:所述数字图像识别模块对于电子罗盘角度的识别,采用两个卷积神经网络辅之以一些图像预处理方法实现;对于小地图中玩家坐标的识别,则直接采用图像处理方法实现;对于人物和交通工具的识别,采用通过机器学习离线训练得到的模型进行处理识别,该模型具有目标检测和目标识别两部分功能,即对游戏图像采集预处理模块输入的游戏视频图像,先检测出感兴趣物体的位置,然后对该物体进行识别,判断具体是哪种类型的目标物体。
5.根据权利要求4所述的游戏辅助系统,其特征在于:所述模型为基于深度学习视觉算法YOLOv2的全卷积神经网络模型,该网络模型具有上采样层和金字塔结构,上采样层用于提高小尺寸目标的识别正确率和召回率;金字塔结构用于将浅层的信息输入到深层网络,结合浅层的空间信息和深层的语义信息,配合上采样层进一步提高目标识别的正确率。
6.根据权利要求4所述的游戏辅助系统,其特征在于:所述数字图像识别模块利用连续图像序列前后帧之间的关联信息,对单张图像的目标检测和识别过程进行有效辅助,进一步提高识别的正确率;同时,由于游戏图像采集预处理模块对输入的图像经过裁剪和缩放处理,故数字图像识别模块在识别到目标物后需进行坐标系转换,计算出目标物在游戏原始图像中的位置坐标,然后交由识别结果提示模块进行下一步处理,并将目标物的位置坐标反馈给游戏图像采集预处理模块,便于进行内部性能优化和效率提升。
7.根据权利要求1所述的游戏辅助系统,其特征在于:当在多个声道同时都检测出枪声后,所述数字音频识别模块结合各个声道在时域空间中的音量振幅进行分析,把检测到枪声的各个声道的时域振幅作为不同的枪声分量,根据矢量的特性,最终计算出枪声在立体空间中的来源方位,然后传递给识别结果提示模块进行下一步处理。
8.根据权利要求4所述的游戏辅助系统,其特征在于:所述数字图像识别模块在对目标进行检测及识别时会借助到图像离线训练系统,该系统基于机器学习中的深度学习技术,通过对大量样本的学习训练,得到一个可以检测并识别出目标物体的AI算法模型,即首先对游戏进行图像采集并制定严格的标注规则,在训练过程中AI算法模型中的参数会根据所学习的数据分布,在反向传递算法的作用下优化模型参数,逼近该数据分布下的全局最优或者局部最优;在目标检测方面,则事先给出一定大小、比例的锚点,结合全卷积结构图像区域一一对应的特点,对全图进行遍历,同时将标注目标的位置记录下来,然后以交并比作为度量,用kmean++算法对标注框进行聚类,得到所有标注框中最具代表性的一些框作为锚点,最后使用GPU来对AI算法模型进行迭代训练,直到模型收敛为止。
9.根据权利要求1所述的游戏辅助系统,其特征在于:所述音频离线分析系统基于频域分析技术,通过对事先采集到的多种枪声音频样本进行频谱分析,获取目标样本的频域特征,提供给数字音频识别模块进行频谱比对操作,数字音频识别模块采用快速傅立叶变换音频信号进行时域到频域的转换,即将事先采集到的枪声信号进行傅立叶变换,观察它们的频域特征,若发现在某些固定频段各种枪声的幅值相对较大,则数字音频识别模块以这些频段为参考区间,比对它们的幅值是否超过了预设的阈值,若是则判定为枪声。

说明书全文

一种基于图像识别和音频识别的游戏辅助系统

技术领域

[0001] 本发明属于电子游戏辅助技术领域,具体涉及一种基于图像识别和音频识别的游戏辅助系统。

背景技术

[0002] 电子游戏(Electronic Games)又称视频游戏(Video Games)或者电玩游戏(简称电玩),是指所有依托于电子设备平台而运行的交互游戏。完善的电子游戏在20世纪末出现,改变了人类进行游戏的行为方式和对游戏一词的定义,属于一种随科技发展而诞生的文化活动。电子游戏也可代指“电子游戏软件”,电子游戏其实也是一艺术,融合了美术、音乐、电影、AI、计算机技术等等方面,有着很强的文化承载与感染力,同时具有相对较低的体验门槛,就算那些难以欣赏画作、音乐、书籍,想象力极为匮乏的人,通常也能在一款游戏中发现充足的乐趣,这一点上游戏与影视有着异曲同工之妙,非常亲民,但是代入感上游戏要更强一些。电子游戏的诞生让人类的生活更丰富,从而促进全球人类社会的进步,并且丰富了人类的精神世界和物质世界,让人类的生活更快乐。
[0003] 但是当前也有不少非常热门的游戏有一定的上手门槛,比如《绝地求生》,不少打算偶尔放松娱乐一下的用户在玩这些游戏时由于不能较快的发现敌人而很快就会被动结束游戏,这就阻挡了大量初级普通玩家及部分视觉和听觉辨别能力偏弱的玩家获得这种游戏的乐趣和满足感。游戏辅助工具的出现,可以帮助这些游戏中的弱势群体,也体验到不同类型游戏的乐趣。
[0004] 近几年,借助计算机硬件性能的飞速提升,以深度学习为代表的机器学习算法机器视觉语音识别等领域取得了极大的成功,识别准确性大幅提升,使人工智能再次受到学术界和产业界的广泛关注。Alphago、视频识别、指纹解、图片识别、语音转文字等一系列事件,使我们深刻的感受到人工智能在改变我们的工作方式和认知。一百多年前,电改变了生产、交通和农业等产业,而今天,人工智能也像电一样将改变传统产业。
[0005] 人脸识别和图片识别是人工智能视觉与图像领域中的两大热门应用。识别物体是图片分类的另一个比较常见的应用,例如一个简单的手机识别模型,我们首先要给计算机定义模型,然后准备大量手机的照片去训练这个模型,让计算机能识别出来,输一张图片的时候能识别出图片是不是手机。正常情况下计算机模型能识别得比较准确,但是当我们输入了一些有遮挡、形态多变或者度多变、光照不易的图片时,之前我们建立的模型就识别不出来了,这就是计算机视觉在应用中存在的难点问题。机器学习的本质其实就是为了找到一个函数,让这个函数在不同领域发挥不同的作用,像语音识别领域,这个函数会把一段语音识别成一段文字;图像识别的领域,这个函数会把一个图像映射到一个分类。
[0006] 随着机器学习技术的发展和成熟,为通过对游戏图像和声音的识别提供了良好的基础,使实现相应的辅助工具软件成为可能。

发明内容

[0007] 鉴于上述,本发明提供了一种基于图像识别和音频识别的游戏辅助系统,即针对第一人称探险射击类游戏基于机器学习实现图像和声音识别的辅助工具软件,能够准确识别出远处潜伏的敌人和交通工具以及发出枪声的方位,并实时在游戏屏幕上以醒目的颜色给出提示图标,此外还能通过对电子罗盘和小地图的识别,给出玩家进入安全区的行进指示,通过这些辅助提示能增加普通初级玩家在游戏中的生存时间,提升游戏体验感。
[0008] 一种基于图像识别和音频识别的游戏辅助系统,包括游戏图像采集预处理模、游戏声音采集预处理模块、数字图像识别模块、数字音频识别模块以及识别结果提示模块;其中:
[0009] 所述游戏图像采集预处理模块用于对游戏视频图像进行实时抓取并进行预处理;
[0010] 所述游戏声音采集预处理模块用于对游戏多声道(如立体声、5.1声道等)声音进行实时抓取并进行预处理;
[0011] 所述数字图像识别模块用于识别出游戏视频图像中的电子罗盘角度、小地图中玩家坐标以及人物和交通工具位置
[0012] 所述数字音频识别模块采用音频离线分析系统给出的目标信号频谱特征,对各个声道的音频数据进行频域分析比对,判断哪个声道中包含枪声信息;
[0013] 所述识别结果提示模块用于将电子罗盘角度、小地图中玩家坐标、人物和交通工具位置以及枪声出现的方位在游戏画面上对应的位置醒目标注出来,并给出语音报警,从而达到及时提醒玩家注意的目的。
[0014] 为了避免对游戏流畅度产生影响,辅助工具的计算处理需要最大限度降低对机器显卡GPU资源的占用和消耗;优选地,所述游戏图像采集预处理模块先将连续的游戏视频转换成离散的数字图像,对于在固定位置展示的内容(如电子罗盘、小地图等),直接截取图像中对应区域的图像块传递给数字图像识别模块进行识别处理;对于不在固定位置出现的目标(如人物、交通工具等),以滑动窗口的形式对采集到的图像进行裁剪,只截取图像中上部分,然后对截取后的图像进行等比缩放,并且记录每一的前后顺序,待数字图像识别模块调用进行分析。这样的裁剪方式可以在尽可能少的资源消耗下,尽可能多的覆盖到玩家出现的区域。
[0015] 进一步地,所述游戏声音采集预处理模块将连续的声音按照各自的声道转换成分段定时长的数字音频包,并标记各音频包所属的声道,然后传递给数字音频识别模块进行下一步处理。
[0016] 进一步地,所述数字图像识别模块对于电子罗盘角度的识别,采用两个卷积神经网络辅之以一些图像预处理方法实现;对于小地图中玩家坐标的识别,则直接采用图像处理方法实现;对于人物和交通工具的识别,采用通过机器学习离线训练得到的模型进行处理识别,该模型具有目标检测和目标识别两部分功能,即对游戏图像采集预处理模块输入的游戏视频图像,先检测出感兴趣物体(如人物、交通工具等)的位置,然后对该物体进行识别,判断具体是哪种类型的目标物体。
[0017] 进一步地,所述模型为基于深度学习视觉算法YOLOv2(You Only Look Once2)的全卷积神经网络模型,该网络模型具有上采样层和金字塔结构,上采样层用于提高小尺寸目标的识别正确率和召回率;金字塔结构用于将浅层的信息输入到深层网络,结合浅层的空间信息和深层的语义信息,配合上采样层进一步提高目标识别的正确率。
[0018] 进一步地,所述数字图像识别模块利用连续图像序列前后帧之间的关联信息(如人物的运动速度、交通工具的行驶速度等),对单张图像的目标检测和识别过程进行有效辅助,进一步提高识别的正确率;同时,由于游戏图像采集预处理模块对输入的图像经过裁剪和缩放处理,故数字图像识别模块在识别到目标物后需进行坐标系转换,计算出目标物在游戏原始图像中的位置坐标,然后交由识别结果提示模块进行下一步处理,并将目标物的位置坐标反馈给游戏图像采集预处理模块,便于进行内部性能优化和效率提升。
[0019] 进一步地,当在多个声道同时都检测出枪声后,所述数字音频识别模块结合各个声道在时域空间中的音量振幅进行分析,把检测到枪声的各个声道的时域振幅作为不同的枪声分量,根据矢量的特性,最终计算出枪声在立体空间中的来源方位,然后传递给识别结果提示模块进行下一步处理。
[0020] 进一步地,所述数字图像识别模块在对目标进行检测及识别时会借助到图像离线训练系统,该系统基于机器学习中的深度学习技术,通过对大量样本的学习训练,得到一个可以检测并识别出目标物体的AI算法模型,即首先对游戏进行图像采集并制定严格的标注规则,在训练过程中AI算法模型中的参数会根据所学习的数据分布,在反向传递算法的作用下优化模型参数,逼近该数据分布下的全局最优或者局部最优;在目标检测方面,则事先给出一定大小、比例的锚点,结合全卷积结构图像区域一一对应的特点,对全图进行遍历,同时将标注目标的位置记录下来,然后以交并比作为度量,用kmean++算法对标注框进行聚类,得到所有标注框中最具代表性的一些框作为锚点,最后使用GPU来对AI算法模型进行迭代训练,直到模型收敛为止。
[0021] 进一步地,所述音频离线分析系统基于频域分析技术,通过对事先采集到的多种枪声音频样本进行频谱分析,获取目标样本的频域特征,提供给数字音频识别模块进行频谱比对操作,数字音频识别模块采用快速傅立叶变换音频信号进行时域到频域的转换,即将事先采集到的枪声信号进行傅立叶变换,观察它们的频域特征,若发现在某些固定频段各种枪声的幅值相对较大,则数字音频识别模块以这些频段为参考区间,比对它们的幅值是否超过了预设的阈值,若是则判定为枪声。
[0022] 基于上述技术方案,本发明具有以下有益技术效果:
[0023] 1.本发明通过图像识别技术识别出游戏中不显眼的人物、交通工具等目标,能快速帮助玩家发现敌方人员,及时作出应对措施。
[0024] 2.本发明通过图像识别技术识别出游戏中电子罗盘角度和小地图位置,能帮助玩家高效的向安全区域行进。
[0025] 3.本发明通过声音识别技术识别出游戏多通道立体声中枪声的方位,能快速帮助玩家确定敌人的位置,及时作出应对措施。
[0026] 4.本发明通过图像识别和声音识别技术提供游戏辅助功能,不需要将程序及代码注入游戏程序,不会破坏游戏的稳定性,不会篡改游戏数据。
[0027] 5.本发明的功能不依赖代码注入技术,因此可以避免被杀毒软件等拦截的尴尬。附图说明
[0028] 图1为本发明游戏辅助系统的组成示意图。
[0029] 图2为本发明游戏辅助系统中图像裁剪方案示意图。
[0030] 图3为本发明游戏辅助系统的工作流程示意图。

具体实施方式

[0031] 为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
[0032] 本发明游戏辅助工具是针对第一人称探险射击类游戏基于机器学习实现图像和声音识别的辅助工具软件,是一款Windows平台的单机软件,需要和游戏客户端软件安装在一台机器上,其内部结构组成如图1所示,包括游戏图像采集预处理模块、游戏声音采集预处理模块、数字图像识别模块、数字音频识别模块、识别结果提示模块,五大模块是按照处理任务的逻辑功能进行划分,共同组成一个应用程序,因此各个模块间的数据传输和信号传递都是通过进程内通信技术完成,非常高效,相互之间的工作流程如图3所示。
[0033] 此外,辅助工具软件在程序开发调试阶段,需要图像离线训练系统为其提供一个图像目标对象识别的算法模型,需要声音离线分析系统为其提供声音识别比对的目标声音频谱特征信息。在完成辅助工具软件的开发工作后,图像识别算法模型和声音频谱特征信息就已分别集成到辅助工具软件的数字图像识别模块和数字音频识别模块中。因此,图像离线训练系统和声音离线分析系统是两个独立的软件程序,均运行在Linux系统上,并且不需要和辅助工具软件程序一起发布给游戏玩家。对外发布的辅助工具软件需要安装在游戏玩家的电脑上,并在玩家开始游戏之前启动辅助工具软件程序,因为主流热门的游戏都是在Windows系统上运行的,因此,辅助工具软件也是针对Windows平台开发,只能运行在Windows7及之后发布的Windows系统上。
[0034] 游戏图像采集预处理模块主要通过Windows的DirectX系统API实时获取游戏屏幕图像,图像格式为RGB24。由于目前游戏画面的主流尺寸都比较大,对整幅图像进行识别处理需要消耗的计算资源较多,耗时也比较长。所以为了提升后期对图像中目标对象识别的效率,降低对系统CPU和GPU资源的占用,保证游戏的流畅运行,需要对抓取到的游戏图像进行裁剪,只对特定的图像区域进行识别。对于电子罗盘和小地图,因其位置相对固定,所以直接截取所在区域的图像块即可作为待识别子图像;对于人物和交通工具等显示大小和出现位置都不固定的目标,其待识别子图像的裁剪依据为:屏幕最上方是距离遥远的区域,物体都非常小,在图像上只能表现为一些小点,无论人眼还是程序算法都无法区分是什么目标物体,即便是敌人,这样的距离对当前玩家也构不成威胁;屏幕最下方为游戏中当前玩家自己身边区域,如果有敌人玩家不可能看不到,所以也不需要进行图像识别。因此得到具体的裁剪区域及位置情况如图2所示,假设A帧和B帧分别为连续的两幅游戏屏幕截图,a帧和b帧所示区域是实际通过裁剪截取的有效区域,把有效区域图像经过等比例缩小40%~50%处理后会输送给图像识别模块进行目标检测和识别。在没有检测到图像中有目标物的阶段,有效区域的裁剪规则是按照图2中A帧和B帧所示的大致位置交替进行的。当接收到图像识别模块反馈的检测到目标位置后,有效区域的选取规则会发生变化,会以目标物为中心,按照之前的有效区域大小进行图像裁剪。核心的逻辑就是从时间轴看,截取的有效区域会跟踪目标物移动。
[0035] 游戏声音采集预处理模块主要通过Windows的DirectX系统API实时获取游戏多个声道的PCM数据,然后每个声道都按照0.5秒的持续时长把连续的PCM数据进行分段处理,最后将这些分段后的PCM数据包按照时间先后顺序逐个输送给数字音频识别模块进行枪声检测。
[0036] 数字图像识别模块主要包括三个子逻辑模块,分别对应游戏中的电子罗盘角度识别、小地图玩家坐标识别、人物和交通工具的识别。其中,对电子罗盘角度的识别就是对数字的识别,由于单个数字的识别正确率要高于序列识别的正确率,且消耗算力更少,此处采用单个数字的识别;在识别之前,我们需要将电子罗盘中的数字裁剪出来,游戏中电子罗盘的刻度为5度,故罗盘位数可能为一位、两位或三位,共三种情况。对于固定位数的罗盘角度,我们可事先设定好裁剪位置,因此在裁剪前需要先判断罗盘的位数。此处我们采用另一个卷积神经网络来识别罗盘位数。如上所述,电子罗盘识别分为三步:1.识别罗盘位数;2.根据位数裁剪出单个数字;3.识别单个数字。对于小地图玩家坐标的识别,即识别小地图中的标线,一级标线将整个地图划分为8×8的网格,而每一个网格又被二级标线划分为10×10的小网格;由于玩家的坐标一直处于小地图正中央,只需要识别距离玩家最近的是什么标线,就可以得到玩家的位置。
[0037] 首先我们将图像分别在平方向和竖直方向进行正则化,然后对正则化后的图像进行二值化,将连续长度超过小地图宽度2/3的识别为标线,识别到标线之后根据标线的位置裁剪标线的编号,标线的编号固定为两位,第一位为字母,第二位为数字,将两位分别裁减下来,用卷积神经网络进行识别。由上所述,小地图玩家坐标识别分为三步:1.标线位置识别;2.标线编号裁剪;3.单个字母和数字的识别。对于近两年靡全球的《绝地求生》这类探险射击游戏,游戏中有一个附加的生存规则,即在游戏场景中有一个安全活动区域的概念,随着游戏的进行,安全区会逐步缩小,玩家需要留在安全区域内才能生存下来,游戏中通过在小地图中用虚线标识来提示玩家如何去往安全区。因此,本发明游戏辅助工具在识别到小地图中的安全区域指示线之后,再结合玩家当前的罗盘角度值,就可以通过识别结果提示模块给出玩家行进提示信息,例如直行、左转、右转,这对于方向感不强的玩家以及不太擅长看懂地图的玩家帮助很大。
[0038] 对于游戏中人物和交通工具的识别,由于目标出现位置不固定,且目标形态具有多样性的特点,本发明主要采用通过机器学习离线训练得到的算法模型对目标图像进行处理识别,该模型主要具有两个功能:目标检测、目标识别。即对图像采集预处理模块输入的游戏画面,先检测出我们可能感兴趣的物体(人物、交通工具等)的位置,然后对该物体进行识别,判断具体是哪种类型的目标物体。该模型的实现是基于深度学习视觉算法YOLOv2(You Only Look Once2)的全卷积神经网络的结构,该网络结构最大的特点就是计算资源占用极少,可以在绝大多数情况下对图像进行实时处理,但在正确率和召回率上有待提升。于是我们在该网络结构的基础上增加了网络上采样层和金字塔结构,上采样层可以提高小尺寸目标的识别正确率和召回率;金字塔结构是将浅层的信息输入到深层网络,结合浅层的空间信息和深层的语义信息,配合上采样层可以进一步提高目标识别的正确率;由于对YOLOv2的全卷积神经网络增加了网络上采样层和金字塔结构,改进后的模型对小物体有更好的识别能力,且消耗更少的计算资源,将小目标识别的正确率提高了10个百分点,将召回率提高了20个百分点。
[0039] 上述是该系统对单幅图像中人物等的识别方法及过程,由于从一个游戏中截取出来的是一个时间轴上连续的图像序列,图像的前后帧之间在时间上是存在关联信息(例如人物的运动速度、交通工具的行驶速度等),因此充分利用被识别目标物体在图像前后帧中的位置及尺寸关系可进一步排除全卷积神经网络的个别错误识别,提高整体的识别正确率。例如,我们在t时刻识别到一个玩家,尺寸较小,此时我方玩家保持静止,若t+1时刻该玩家突然发生了很大位移,明显超出人物跑步的速度,则认为全卷积神经网络将将交通工具错误识别为敌方玩家。与此类似,该图像识别模块中还将游戏本身自带的其它特征如玩家人物长宽比等因素作为辅助判断条件,进一步提升人物和交通工具的识别正确率。此外,由于此前输入的图像经过裁剪和缩放处理,所以在识别到目标物后,需要进行坐标系转换,计算出目标在游戏原始图像中的位置坐标,然后交由识别结果提示模块进行下一步处理,同时还需要将识别出的目标坐标反馈给游戏图像采集预处理模块,便于进行内部性能优化和效率提升。
[0040] 数字音频识别模块主要采用声音离线分析系统提供的声音频谱特征比对方案进行识别,处理过程的计算量不大,因此消耗的算力很小;由于游戏中声音的种类本身就不是特别丰富,因此这种识别方案对枪声的识别正确率很高。在这种情况下,从游戏中发出枪声到被辅助工具识别并提示出来的整个过程的实时性就成为关键点,如果识别结果在时间上滞后太多,对玩家就起不到辅助的作用。数字音频识别需要对一段时长的声音数据进行处理,但识别过程中的频域转换和频谱比对的计算速度非常快,所以延迟主要产生在声音样本的采集阶段。如前所述,声音采集模块会对采集的声音数据按固定时长进行分段打包,然后传递给音频识别模块,每个声音数据包的数据时长就成为枪声提示的滞后时间。根据前期的统计分析验证,要将枪声以较高的正确率识别出来,至少需要包含半个周期的枪声波形;根据样本统计值发现,枪声波形一般在1秒左右,因此我们选择0.5秒作为声音采集的分隔周期,这即保证了识别的正确率,又在实时性上能达到辅助玩家目的。
[0041] 识别结果提示模块主要通过Windows系统的透明窗口技术,在游戏屏幕的上层创建一个透明窗口,把从数字图像识别模块输入的敌人等的位置坐标和从数字音频识别模块输入的枪声方位在透明窗口中的相应位置用醒目的图标以闪烁的方式展现出来,同时播放事先录制好的语音提示,以帮助普通玩家尽早发现敌人及其方位。
[0042] 图像离线训练系统主要为游戏中电子罗盘识别、小地图位置识别以及人物和交通工具识别提供具体识别算法和模型,其主要基于机器学习中的深度学习技术,通过对大量样本的学习训练,得到一个可以检测并识别出目标物体的AI算法模型。现阶段的AI算法都是对某一个数据分布进行学习,在训练过程中,算法模型中的参数会根据所学习的数据分布,在反向传递算法的作用下,优化模型参数,逼近该数据分布下的全局最优或者局部最优。由此可知,算法模型在实际应用时的效果,取决于训练时所学习的数据分布是否和实际应用场景相符合;因此,首先需要对游戏进行图像采集,并且制定严格的标注规则,这有助于模型更好的收敛,并且在应用时具有更好的效果。上述提到的反向传递算法基于梯度下降原理,为了更快的收敛并且避免某些局部最优,本实例采用adam优化器,该优化器集成了动量和参数差异化更新。此外,目标检测某种意义上来讲是一种选择性遍历,即需要事先给出一定大小、比例的锚点,结合全卷积结构图像区域一一对应的特点,对全图进行遍历,故锚点的大小、比例对目标检测的效果有很大影响,我们将标注目标的位置记录下来,然后以交并比作为度量,用kmean++算法对标注框进行聚类,得到所有标注框中最具代表性的一些框作为锚点;之后,使用GPU来对模型进行迭代训练,直到模型收敛为止。对于电子罗盘识别,需要采集一定数量不同位数的罗盘角度图片样本,将其分为三个类别;然后将罗盘中的数字切割出来,将其按照数字0~9分为十个类别;对于小地图位置识别,从小地图采集样本中截取具体编号的字母和数字,将其分为26个类别,包括16个字母和10个数字。对于前述的三个识别任务,本发明中都采用卷积神经网络加上Softmax分类器,以交叉熵为损失函数,在GPU上进行训练,当损失函数收敛之后保存网络权重,供识别时加载使用。对于游戏中人物和交通工具的目标检测、识别模型,主要通过将标注好的图像送入神经网络,基于梯度下降法训练得到权重数据;在后续识别处理过程中,直接加载权重数据便可检测并识别图中的目标物体。由于单个GPU计算能力、显存大小有限,我们采用多GPU并行训练,这不仅加快了训练速度,并且提高了每个批次的大小,使得我们的训练过程产生的振荡大大减小。当模型大致收敛时,需要人工手动对模型参数进行微调继续训练,已达到更好的效果。
[0043] 音频离线分析系统主要基于频域分析技术,通过对事先采集到的多种枪声音频样本进行频谱分析,获取目标样本的频域特征,提供给辅助工具软件进行频谱比对操作。由于当下对游戏质量的要求越来越高,为了营造游戏氛围,大部分射击游戏中的枪声都是录制下来的真实枪声,不同于人的声音,枪声的频率很高,这对人感知产生了很大的阻碍,并且游戏为了近一步模拟真实场景,会产生子弹打到地面上的声音。因此枪声和子弹声一前一后紧密相连,间隔时间极短,并且子弹触碰墙体、地面等的声音来源方向可能与射击方向不同,这进一步加大了玩家判断枪声来源的困难。当观察、分析采集到的枪声样本波形图,很难发现它们与其它声音在形状上有何明显的区别,因为声音信号的特征不在于时域而在于频域。因此,数字音频识别模块用快速傅立叶变换(Fast Fourier Transform-FFT)对声音信号进行时域到频域的转换,快速傅立叶变换是傅立叶变换的一个变种,特点是运算速度十分快,时间复杂度log(n)小,占用计算资源极少,所以完全能达到游戏中实时反馈的需求。由于枪声的频率很高,其它声音的频域都要低的多,这就成了一个明显的区分因素,将事先采集到的枪声信号进行傅立叶变换,观察它们的频域特征,发现在某些固定频段,各种枪声的幅值都很大;因此,在数字音频识别模块中以这些频段为参考区间,比对它们的幅值是否超过了我们事先设定的阈值,以此判断是否为枪声。
[0044] 上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈