进行Savitzky-Golay平滑滤波[2]来消除外带干扰,如图4所示,以便通过滤波平滑已得到的波形信号。对于原始的Savitzky-Golay滤波器,n是非负整数,并且n
[0045]
[0046] 其中pn(i)是一个n次多项式函数,用于拟合给定信号,i=1,2,…,I是滤波窗口中第i个点的位置,ak是多项式函数的第k个系数,x[n]表示采样点信号的样本序列。利用Savitzky-Golay方法进行滤波可以消除
直流分量和高频干扰,可以提高信号变化的平滑性,并降低噪声的干扰。
[0047] 步骤2)中,基于静音阈值滤波器的检测方法,其具体算法如下:
[0048] 针对于连续活动的数据,我们采用基于静音阈值分割的检测方法进行分割活动。我们大致分为三个步骤,G函数检测实现对活动信号每个时刻信息度量值的表示;阈值比较来通过G函数值与活动信号总体的平均值进行比较,检测每个标签发生语音活动状态的时间窗口;状态分割处理通过对每个标签进行投票选举和评级的策略,确定最终实现分割的时间点,统一活动的时间序列分割。
[0049] 首先我们使用滑动窗口分别检测四个标签的活动,通过G函数描述出整个连续活动中每个时刻的信息度量值,并计算出整个连续活动信号的绝对平均值作为阈值,然后与单个时刻的G值相比较,通过与动态计算的阈值相比较,来确定用户是否在滑动时间窗口进行语音活动以实现检测,之后我们得到四个标签检测的活动状态。为了统一活动状态点的分割处理,我们采用对四个标签的发音时间序列进行投票选举策略,最后我们选取评级级别最高的标签时间序列进行分割处理。
[0050] 1)G函数检测:我们提出一种基于静音阈值分割的检测方法,在一段连续口型活动中分割出单个活动的时间序列段。为了通过G函数表示活动信号的信息度量值,我们分别定义了幅度测量和
频率测量两个窗口与信号一起移动,由连续信号样本的差值之和估计的频率度量与幅度值的组合定义如下:
[0051]
[0052]
[0053] 其中L和xk分别表示滑动窗口长度和信号第k个相位值,Ai、Fi分别代表第i个窗口的振幅和频率值。根据RFID
采样频率的统计,每个标签每秒采样大约100次。每个口型活动的动作大约在1秒左右,为了保证截取时间不丢失数据,将L设为50来作为我们的参数值。接着,我们的G函数[3]中加入A1和F1两个系数来表示,定义如下:
[0054] Gi=A1|Ai+1-Ai|+F1|Fi+1-Fi|
[0055] 其中i代表窗口的数量编号,Gi表示第i个窗口的函数值。G函数中的局部值高于之前定义的阈值(之前定义的G分布的平均值),表示每个段的边界。A1和F1是在各种应用中发生变化的恒定系数。
[0056] 2)阈值比较:通过频率量度和幅度值来计算整个活动中每个时刻的连续信号样本的差值之和。接下来,采用滑动窗口对发音活动运用标志位S进行标记。如果在一段滑动窗口内所有的局部值都小于之前定义的阈值(此处阈值被设置为G函数分布中的平均值),则将其定义为静音段活动;然后通过状态位S(如图5所示,图中酒红色表示状态位S=1,意为用户发音状态)可以确定用户是否正在滑动的时间段内进行发音活动。
[0057] 3)状态分割处理:由此我们可以得到四个标签分别对应的发音时间段序列。为了统一活动的分割时间序列和提高我们分割算法的准确性,我们采取对四个标签的发音时间序列进行评级,针对每个标签的单个发音时间段,我们观察另外三个标签的状态位S值对其进行投票(如果状态位S=1,则认同此标签发音时间段有效并进行投票,这样则排除个别标签活动检测的异常发音时间段(静音段多插和发音段少漏检测)),如果获得其余标签一半的投票,则对此标签的级别加1。接着,对每个标签进行评级操作,最后我们选取评级级别最高的标签时间序列作为我们的分割点。之后,如图6所示,我们就可以得到分割后的单个活动的时间段数据。
[0058] 步骤3)中,利用统计特征提取得到单个活动信号整体的抽象形态模型,其具体统计特征包括:
[0059] 基于特征统计的方法进行特征提取,首先对已检测的多个活动进行统计特征的分析,最后选出11个特征来刻画这个抽象形态模型。这些统计值在用数理统计的方法研究总体分布,所关心的实际上并非组成总体的各个个体本身,而主要是考察与它们相联系的某个特征。下面是统计值对总体分布不同趋势的反映:
[0060] 1)分布的集中趋势,反映各数据(众数、中位数、分位数、均值)向其中心值靠拢或聚集的程度;
[0061] 2)分布的离散程度,反映各数据(最大值、最小值、方差和标准差、离散系数)远离中心值的趋势;
[0062] 3)分布的形状,反映数据(偏态及其测度)分布的偏斜方向和程度的度量;
[0063] 步骤3)中,通过小波变换提取得到单个活动信号的具体细节特征,其具体实现过程包括:
[0064] 由步骤2)分割得到的多个活动信号存在数据维度大小不同,但是在提取细节特征时使用的小波变换方法要求单个活动信号的数据维度相同,所以在提取细节特征这个部分,我们先后通过对单个活动信号进行数据插值处理和小波变换处理两步来完成特征提取。
[0065] 1)数据插值处理:由于impinj阅读器对无源标签的读取是采用的轮询响应,每个标签都不是在同一时刻采集到的相位数据,另外还伴随着个别标签偶尔出现漏读的情况,所以会出现标签数据维度不同。另外,分割后的多个活动信号存在维度大小不同,也影响着小波变换对单个活动信号提取具体细节特征的处理。所以我们提出了一种有效的解决方法,采取的是基于三次埃尔米特(Hermite)插值方法来处理数据不对齐的问题,该方法的好处就是能够很大程度上保留单调性与数据的外形。埃尔米特插值法的基本思想就是使插值多项式与被插函数在插值基点处的导数也相同,三次埃米尔特插值多项式可以表示为:
[0066]
[0067] 其中i的取值范围为[1,4],表示1到4号标签;k和k+1分别表示相邻的两个数据点;x表示我们要插值
模版的时间点,H3(x)则表示插值点计算出的相位值。这样既保证了每个标签插值后的数据维度相同,也保证了每个标签对应的是统一时刻的数据,同时也很大程度上丰富了我们的数据采样频次。
[0068] 2)小波变换特征:小波变换常常也被称作为小波分解。我们对获取的嘴部运动轮廓进行离散小波分解,作为基于嘴部读取的细粒度
分析学习。小波分解的意义就在于能够在不同尺度上对信号进行分解,而且对不同尺度的选择可以根据不同的目标来确定。离散小波分解在一定程度上还起到了滤波作用,可以更加清楚的展现每个动作对应的
子载波变化的局部特征。
[0069] 离散小波包分解基于众所周知的
离散小波变换(DWT),其中离散信号f[n]可以通过扩展函数(
基础)的组合来表示。
[0070]
[0071] 其中f[n]表示在[0,M-1]中定义的原始离散信号,包括总共M个点。 和ψj,k[n]都是[0,M-1]中定义的离散函数,称为小波基。通常,为了方便获得小波系数,选择基集和 是
正交的在分解过程中,这意味着:
[0072]
[0073] 在离散小波分解中,在分解过程中,初始步骤将原始信号分解为近似系数(即Wφ[j0,k])和细节系数(即Wψ[j,k])两部分。之后,采用与初始步骤相同的策略,将近似系数和细节系数分别递归地分解成两个新的部分。
[0074] 小波变换的有效性依赖于选择合适的小波基。我们应用类可分性函数来
鉴别最大化离散小波包的分解能力,将这种方法用于以下族中的所有可能的小波:Daubechies,Coiflets,Symlets,并分别得到它们的类可分性。如表1所示,基于它们的分类性能,我们选择阶数为4的Daubechies小波滤波器。
[0075] 表1小波分解交叉验证结果
[0076]
[0077] 我们使用了小波分析对分割后的单个活动信号数据进行提取小波变化低频部分以及4级分解的近似系数,采用小波变换的方法选取降维后的数据,得到最后的小波特征向量。如图7所示,我们展示了原始数据和3层小波变换低频部分分解的形态比较,通过观察发现,小波变换一层到三层的递归分解,虽然横坐标和纵坐标尺度大小发生了改变,但是依然保留着原始数据形态轮廓的细节特征。基于这点,我们得到的小波特征向量,可以很好的细分不同口型活动的具体细节特征差异。
[0078] 步骤4)具体实现过程包括:
[0079] 我们采用
监督学习下的
决策树学习进行分类,利用上述提取的特征选用随机森林算法[5]构建(构建过程为现有技术,随机森林分类器模型的构建过程不是难点,提取特征的方法影响构建分类器的好坏,这里更重要的是体现了通过我们提取特征的方法可以训练出好的分类器,拥有好的识别效果)分类器模型,进行口型识别训练和识别,最后建立了快速有效的口型活动识别模型。
[0080] (1)所需硬件设备
[0081] 我们系统中所使用的硬件如下:Impinj Speedway读写器、圆极化Laird S9028PCR天线和内置Monza4芯片的AZ-9629型号无源标签。阅读器可以扩展配置四个定向天线,通过天线来发射和接收无线
电信号。当读写器接通电源后,无源标签可以接收到与读写器相连天线发射的
电磁波,从
磁场中获得工作所需的
能量,并通过反射信号与读写器进行通信。如图9所示,RFID设备主要由读写器和天线组成,我们的PC机通过网线与读写器自身的Ethernet端口相连,可以获取到每个天线采集单个用户的嘴部轮廓信息。
[0082] (2)所需软件设备
[0083] 我们的系统是基于Java的开发环境,在eclipse软件中导入OctaneSDKJava-1.24.1.0的jar包,利用Impinj产品提供的高度集成的环境编写控制读写器功能代码。我们口型活动识别所需采集的信息包括标签的EPC、时间戳和相位等主要信息。然后将采集的信息通过Matlab应用程序对其进行预处理和数据分析,最终我们将提取出来的特征矩阵运用机器学习算法进行训练和测试。
[0084] (3)数据采集
[0085] 如图9中,我们可以看到RFID无源标签贴在的轻便的透明面罩上,设置天线和面罩的距离为0.8m。我们采用4个标签放在嘴部轮廓主要发音部位所对应的面罩位置上。RFID读写器通过天线向用户的嘴部发送电磁波信号,然后天线接收并提取来自嘴部微动作的后向散射信号,完成数据的采集工作。
[0086] 本发明介绍的是一种基于无源RFID的口型活动识别系统的设计,我们的系统是第一个利用RFID设备通过背散射信号进行口型活动识别的,它可以帮助残疾人士进行简短的语言交流或简单的命令操作。我们通过单个口型动作而引起的嘴部多路径效应,捕捉嘴巴不同部位的微动信号进行分析,利用统计特征和小波分解降维相结合的方法提取有效的特征,最后使用机器学习中随机森林算法建立训练模型进行识别分类。我们大量的实验表明,我们可以在不少于10个中英文单词的情况下,我们提出的方法对口型活动可以达到高达95%以上的分割准确率和平均93%以上的识别准确率。值得注意的是,我们利用机器学习的方法大大提升识别速度,为口型识别领域提供了有效可行的方法。
[0087] 参考文献:
[0088] [1]Zuo,Chao,et al."Temporal phase unwrapping algorithms for fringe projection profilometry:A comparative review."Optics and Lasers in Engineering 85(2016):84-103.
[0089] [2]Schafer,Ronald W."What is a Savitzky-Golay filter?[lecture notes]."IEEE Signal processing magazine 28.4(2011):111-117.
[0090] [3]Azami,Hamed,Karim Mohammadi,and Behzad Bozorgtabar."An improved signal segmentation using moving average and Savitzky-Golay filter."Journal of Signal and Information Processing 3.01(2012):39.
[0091] [4]Amin,Hafeez Ullah,et al."Feature extraction and classification for EEG signals using wavelet transform and machine learning techniques."Australasian physical &engineering sciences in medicine 38.1(2015):139-149.[0092] [5]Narudin,Fairuz Amalina,et al."Evaluation of machine learning classifiers for mobile malware detection."Soft Computing 20.1(2016):343-357.[0093] [6]Amodei,Dario,et al."Deep speech 2:End-to-end speech recognition in english and mandarin."International conference on machine learning.2016.[0094] [7]Rauf,Sadaf Abdul,et al."Urdu Language Learning Aid based on Lip Syncing and Sign Language for Hearing Impaired Children."International Journal of Computer Science and Information Security 14.12(2016):478.[0095] [8]Ju,Jin Sun,Yunhee Shin,and Eun Yi Kim."Intelligent wheelchair(IW)interface using face and mouth recognition."Proceedings of the 14th international conference on Intelligent user interfaces.ACM,2009.[0096] [9]Joseph,Robert M.,and James Tanaka."Holistic and part-based face recognition in children with autism."Journal of Child Psychology and Psychiatry 44.4(2003):529-542.
[0097] [10]Calvo,Manuel G.,Andrés Fernández-Martín,and Lauri Nummenmaa."Facial expression recognition in peripheral versus central vision:Role of the eyes and the mouth."Psychological research 78.2(2014):180-195.
[0098] [11]Cannan,James,and Huosheng Hu."Human-machine interaction(hmi):A survey."University of Essex(2011).
[0099] [12]Chen,Wenqiang,et al."ViType:A Cost Efficient On-Body Typing System through Vibration."2018 15th Annual IEEE International Conference on Sensing,Communication,and Networking(SECON).IEEE,2018.
[0100] [13]Yasui,Yuki,et al."Multimodal speech recognition using mouth images from depth camera."2017 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA ASC).IEEE,2017.[0101] [14]Wang,Guanhua,et al."We can hear you with wi-fi!."IEEE Transactions on Mobile Computing 15.11(2016):2907-2920.
[0102] [15]Yang,Lei,et al."Making sense of mechanical vibration period with sub-millisecond accuracy using backscatter signals."Proceedings of the 22nd Annual International Conference on Mobile Computing and Networking.ACM,2016.