多用户运动手势控制方法、装置、智能音箱和介质
技术领域
本发明涉及人机交互
技术领域
,特别是涉及一种多用户运动手势控制方法、装置、智能音箱和介质。背景技术
智能音箱与用户之间的交互多采用语音控制,这种交互方式更加适合精确控制或智能语音聊天应用。但许多场景下,用户希望用非语音的方式控制智能音箱。比如,有语言障碍的用户,或者在被要求安静无声的场景下,以及用户需要快速传达一些常用的简洁控制指令等等场景。
已有一些研究工作提出利用类似声纳雷达的超声定位技术来实现运动手势控制手机,但目前还没有关于多名用户通过运动手势控制智能音箱的成熟解决方案。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种多用户运动手势控制方法、装置、智能音箱和介质,以解决现有技术中存在的至少一个问题。
为实现上述目的及其他相关目的,本申请提供一种多用户运动手势控制方法,应用于智能音响,该智能音响包括用于发射超声信号的扬声器阵列和用于采集反射信号的麦克风阵列;所述方法包括:获取由扬声器阵列发射的超声信号经一或多名用户运动手势反射而回并由麦克风阵列采集到的反射信号;依据所述超声信号与预处理后的反射信号,利用反射信号定位模型与稀疏恢复算法来确定反射源位置及反射强度,以供得到对应一或多名用户运动手势的定位结果;其中,基于宽频字典的稀疏恢复算法以适用于任意形状与间距的麦克风阵列;和/ 或,基于速度感知字典的稀疏恢复算法以适用于任意速度下的用户运动手势;根据所述定位结果提取对应一或多名用户的手势轨迹,据以响应不同手势轨迹对应预设的指令。
于本申请的一实施例中,对所述反射信号进行预处理以消除自干扰和静态反射,并得到包含有限数量的运动手势的反射信号。
于本申请的一实施例中,所述基于宽频字典的稀疏恢复算法以适用于任意形状与间距的麦克风阵列,包括:利用正交频分复用将超声信号设置为具有K个子载波的宽频信号,以构建宽频字典;根据反射信号的稀疏性在不同子载波各自所对应的字典之间是相同的特性,当所发射的超声信号设置为具有K个频率分量的宽频信号时,利用包含K个分别对应K个频率分量的子字典的宽频字典,分别对每个频率分量进行稀疏恢复定位;将每个频率分量的定位结果交叠,将K个频率分量的混叠定位结果的共同交集作为定位结果,以供可在任意形状的麦克风阵列上解决因空间采样率不足而导致的定位结果空间混叠问题,从而适用于任意形状与间距的麦克风阵列。
于本申请的一实施例中,所述基于速度感知字典的稀疏恢复算法以适用于任意速度下的用户运动手势,包括:根据各子载波在不同速度下因多普勒效应造成的频率偏移情况,基于宽频字典构建与速度匹配的速度感知字典;利用各个速度下对应的字典分别进行稀疏恢复定位,将具有最大反射强度的定位结果对应字典的速度作为对运动速度的估计,并将该定位结果作为最终定位结果,可以解决因多普勒效应而导致的定位误差问题,以适用于任意速度下的用户运动手势。
于本申请的一实施例中,所述反射信号定位模型,包括:A= [a(d1,θ1),…,a(dD,θD)];其中,X为麦克风阵列采集的反射信号;S为扬声器阵列发射的超声信号;为噪声信号;A为用于表达发射情况的制导矩阵;a(dD,θD)表示反射源位置D的制导向量;dD,θD分别表示第D个反射源位置相对智能音箱的距离和角度。
于本申请的一实施例中,所述利用反射信号定位模型与稀疏恢复算法来确定反射源位置及反射强度,包括:将所述制导矩阵A扩展为具有N个维度的超完备矩阵A′:A′= [a(d1,θ1),a(d2,θ2),…,a(dN,θN)];其中,N>>D;a(dN,θN)表示相对智能音箱距离dN和角度θN处一个可能的反射源位置;相应地,将超声信号向量S扩展为一个N维的稀疏向量S′: S′=[0,0,…s1,0,…s2…si…sD…0]T;其中,如果在a(dN,θN)处真实存在一个反射信号,则S′中相应的系数为si,否则为0;由此所述反射信号定位模型变为:此时,根据超声信号s0(t)是预知的,进一步将s0(t)合并到A′中得到:其中,Dic是一个预先计算的超完备矩阵,称为字典,其内每个元素veci存储着从每个位置(dN,θN)反射回来的延迟信号: Dic=[vec(d1,θ1,t),…,vec(dN,θN,t)];C是一个稀疏向量,表示来自对应位置的反射信号强度,C=[0,0,…c1,0,…c2…ci…cD…0]T;当有效反射的数目D远小于字典Dic的维数N时,可找到一最稀疏的向量C表示组成反射信号向量X的反射信号在字典Dic中的分布情况:min||C||0s.t.||X-Dic·C||2≤ε;其中,||C||0表示向量C的0范数,即向量C中非零元素的个数;s.t.表示满足后者的约束条件;||X-Dic·C||2表示反射信号向量X与Dic·C之间的2范数;ε为一个接近0的极小数;求解出向量C后,可从向量C中非零元素ci的位置获得相对应的反射源位置,同时从非零元素ci的数值中得到反射强度。
于本申请的一实施例中,所述基于宽频字典的稀疏恢复算法包括:利用正交频分复用将超声信号设置为具有K个子载波的宽频信号,对于每个子载波fk都有各自的字典Dick,根据 Dick构建宽频字典wDic:根据子载波一起被共同发射与反射,反射信号的稀疏性在不同子载波的字典之间是相同的特性:Ck=Cl for k≠l;即k≠l时Ck=Cl;此时,求解多字典联合优化问题等价如下:min||Ck||0for k=1,2…K;s.t.||Xk-Dick·Ck||2≤εand Ck=Cl for k≠l;利用k≠l时Ck=Cl的重要约束,将上述多字典联合优化转换为单一字典优化;其中,将Xk竖直排列为:X=[X1,X2...XK]T;宽频字典wDic同样由Dick竖直排列而来:wDic=[Dic1,Dic2...Dick]T;相对应的稀疏向量wC则为:wC=C1=C2=…=CK;于是便有:基于以上宽频字典wDic求解稀疏向量wC近似等价于分别对每个子载波进行稀疏恢复定位,并将每个子载波的定位结果取共同交集的定位结果;求解出向量wC后,可从向量wC中非零元素的位置获得相对应的反射源位置,同时从非零元素的数值中得到反射强度。
于本申请的一实施例中,所述基于速度感知字典的稀疏恢复算法包括:对于每个子载波fk,采用sd(k,vi)表示速度vi下的子载波信号,此时与速度vi匹配的子载波fk的对应字典应为:将不同速度下对应的字典集合在一起,构建速度感知字典vDick:速度感知字典相当于将二维字典(d,θ)扩展为三维字典(d,θ,v),此时相对应的稀疏向量为vCk= [0,0,…c1,0,…ci…0]T,向量维度从N维变为N×M维;此时,对于每个子载波都有:基于速度感知字典vDick求解稀疏向量vCk的过程等价于利用各个速度下对应的字典分别进行稀疏恢复定位;将具有最大反射强度的定位结果对应字典的速度作为对用户手势运动速度的估计,并将该定位结果作为最终定位结果;求解出vCk后,可从其中非零元素的位置获得相对应的反射源位置和速度,同时从非零元素的数值中得到反射强度。
为实现上述目的及其他相关目的,本申请提供一种多用户运动手势控制装置,应用于智能音响,该智能音响包括用于发射超声信号的扬声器阵列和用于采集反射信号的麦克风阵列;所述装置包括:获取模块,用于获取由扬声器阵列发射的超声信号经一或多名用户运动手势反射而回并由麦克风阵列采集到的反射信号;处理模块,用于依据所述超声信号与预处理后的反射信号,利用反射信号定位模型与稀疏恢复算法来确定反射源位置及反射强度,以供得到对应一或多名用户运动手势的定位结果;其中,基于宽频字典的稀疏恢复算法以适用于任意形状与间距的麦克风阵列;和/或,基于速度感知字典的稀疏恢复算法以适用于任意速度下的用户运动手势;根据所述定位结果提取对应一或多名用户的手势轨迹,据以响应不同手势轨迹对应预设的指令。
为实现上述目的及其他相关目的,本申请提供一种智能音响,所述设备包括:微处理器,其存储计算机指令,运行计算机指令实现如上所述的方法;可发射超声信号的扬声器阵列;可采集反射信号的麦克风阵列。
为实现上述目的及其他相关目的,本申请提供一种计算机可读存储介质,存储有计算机指令,所述计算机指令被运行时执行如上所述的方法。
综上所述,本申请的一种多用户运动手势控制方法、装置、智能音箱和介质,通过获取由扬声器阵列发射的超声信号经一或多名用户运动手势反射而回并由麦克风阵列采集到的反射信号;依据所述超声信号与预处理后的反射信号,利用反射信号定位模型与稀疏恢复算法来确定反射源位置及反射强度,以供得到对应一或多名用户运动手势的定位结果;其中,基于宽频字典的稀疏恢复算法以适用于任意形状与间距的麦克风阵列;和/或,基于速度感知字典的稀疏恢复算法以适用于任意速度下的用户运动手势;根据所述定位结果提取对应一或多名用户的手势轨迹,据以响应不同手势轨迹对应预设的指令。
具有以下有益效果:
本申请能够在无额外硬件要求,也不影响智能音箱语音控制功能的情况下,实现了多用户运动手势控制,为智能音箱在语音控制交互方式的基础上,增添了一种新的交互方式,可以广泛应用于无声控制、多用户控制等场景;并且本申请所提出的一种基于宽频信号和速度感知字典的稀疏恢复定位算法,可以不受反射信号相干性影响地定位多名用户,并且可以适用于任意形状与间距的麦克风阵列,以及任意速度下的用户运动手势。
附图说明
图1显示为本申请于一实施例中智能音箱的场景示意图。
图2显示为本申请于一实施例中多用户运动手势控制方法的流程示意图。
图3显示为本申请于一实施例中麦克风坐标系的模型示意图。
图4显示为本申请于一实施例中匹配追踪(MP)求解器算法的操作示意图。
图5A-5C显示为本申请于一实施例中字典Dic中包含角度与距离的元素vec对应的投影示意图。
图5D显示为本申请于一实施例中累计多个反射定位点得到的运动手势轨迹的模型示意图。
图6A显示为本申请于一实施例中反射定位的距离结果的测量示意图。
图6B显示为本申请于一实施例中反射定位的角度结果的测量示意图。
图6C显示为本申请于一实施例中采用静态字典下的定位和追踪效果的波形示意图。
图6D显示为本申请于一实施例中采用速度感知字典下的定位和追踪效果的波形示意图。
图7A-7D分别显示为本申请于一实施例中用户分别为1、2、3和4名情况下的追踪效果示意图。
图8显示为本申请于一实施例中多用户运动手势控制装置的模块示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,虽然图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,但其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在通篇说明书中,当说某部分与另一部分“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部分“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素,排除在外,而是意味着可以还包括其它构成要素。
其中提到的第一、第二及第三等术语是为了说明多样的部分、成分、区域、层及/或段而使用的,但并非限定于此。这些术语只用于把某部分、成分、区域、层或段区别于其它部分、成分、区域、层或段。因此,以下叙述的第一部分、成分、区域、层或段在不超出本申请范围的范围内,可以言及到第二部分、成分、区域、层或段。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
如图1所示,展示为本申请于一实施例中智能音箱的结构示意图。如图所示,所述智能音箱100的由三个组件组成:多个扬声器组成的扬声器阵列110,多个麦克风组成的麦克风阵列120和微处理器130;其中,扬声器阵列110可发射超声信号,麦克风阵列120可采集反射信号。
理论上说,扬声器往下低频延伸可能做得不好,但往上高频(超声波)却很容易做上去。人类的听觉范围在20-20000HZ之间,20HZ以下的叫做次声,20000HZ以上的叫做超声,而很多耳机标注的频响范围超过这个值。因此,现有智能音响的扬声器便可发射超声信号,相应地,麦克风阵列也可用于采集反射而回的超声信号。
需要说明的是,所述微处理器130可包含处理器和存储器,处理器会按照如图2所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器中,并由处理器来运行存储在存储器801中的应用程序,从而实现如图2所述的方法。
于多个实施例中,所述存储器可以包括随机存取存储器(Random Access Memory,简称 RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。所述存储器存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
所述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processing,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明的基本原理与声纳雷达类似,通过扬声器阵列110发射超声信号,经过用户的手势反射后,麦克风阵列120采集反射信号,最后由微处理器130进行信号定位和轨迹提取。
本发明所提出的一种针对商业智能音箱100的多用户运动手势控制方法,可在不影响智能音箱100语音控制的前提下,增加了手势控制功能。其原理是基于智能音箱100像声纳雷达一样发射超声信号并分析反射回来的超声信号,从而识别来自多个用户的手势控制指令。
需要说明的是,为了在商业智能音箱100的麦克风阵列120上实现多用户手势控制功能,本发明需要解决如下三个方面的技术问题:
1)第一个技术问题是如何在麦克风阵列120上设计一种合适的定位算法,在反射信号都是相干信号的情况下,仍然能完成多人定位。
2)第二个问题是如何在任意形状和间距的麦克风阵列120上完成多人定位。智能音箱100 的麦克风阵列120原本被设计用于处理人声频段,所以间距通常为5厘米至10厘米左右。这种阵列间距对超声信号的空间采样率远远不足,将会导致空间混叠问题。而且智能音箱100 的麦克风阵列120可以有任意的形状,如市面上常见的均匀线形阵列和均匀环形阵列等等。所以,本发明需能在任意形状的麦克风阵列上解决因空间采样率不足而导致的定位结果空间混叠问题,从而适用于任意形状与间距的麦克风阵列。
3)由于声音传播速度较低,用户运动手势速度带来的多普勒效应对超声信号有明显的频率偏移问题。当手势快速运动时,多普勒效应带来的频率偏移问题将会导致严重的定位误差。所以,第三个技术问题是如何解决多普勒效应带来的定位误差问题,以适用于任意速度下的用户运动手势。
近年来利用超声波信号实现运动手势交互的方式。现有的工作大多是在手机上实现超声波定位[1][2],多采用距离测量和三角定位的方式,距离受限且无法实现多人同时交互。[3] 实现了多用户手势控制,但是其需要依靠机器学习训练的模式,且只能适用于其自制的一款非均匀线形阵列,无法适用于任意形状和间距的阵列以及任意手势运动速度。还有一些在射频信号上的定位追踪系统[4][5],也都同样无法应用于任意形状和间距的阵列以及任意手势运动速度;信号定位算法。传统的MUSIC[6][7]最为广泛应用,近年来,基于稀疏恢复思想的定位算法逐渐兴起[8][9]。
为解决上述问题,本申请提出了一种基于宽频字典和速度感知字典的稀疏恢复定位算法的多用户运动手势控制方法,首先对麦克风阵列采集到的反射信号,进行预处理,以消除自干扰和静态反射。与此同时,构建基于宽频信号且具有速度感知功能的字典提供给稀疏恢复定位算法,用于克服空间混叠问题和多普勒效应问题,以适用于任意形状和间距的麦克风阵列以及任意手势运动速度,完成对多名用户手势反射的定位。最后,在定位结果之上提取用户的手势轨迹。
本发明所提出的一种基于宽频字典和速度感知字典的稀疏恢复定位算法,可以不受反射信号相干性影响地定位多名用户,并且可以解决麦克风阵列空间采样率不足导致的空间混叠问题,以及多普勒效应导致的定位误差问题;同时,通过定位多名用户手势的位置,进而组成运动轨迹,可使得智能音箱100能够识别多名用户的运动手势;另外,本发明可以直接应用于市场上具有均匀环形麦克风阵列120的智能音箱100。在不影响其原本的语音交互功能的前提下,为其添加多人用户运动手势控制功能。可以广泛应用于无声控制、多用户控制等场景。
如图2所示,展示为本申请一实施例中的多用户运动手势控制方法的流程示意图。所述方法应用于如图1所示的智能音响,该智能音响包括用于发射超声信号的扬声器阵列和用于采集反射信号的麦克风阵列。如图2所示,所述方法包括:
步骤S210:获取由扬声器阵列发射的超声信号经一或多名用户运动手势反射而回并由麦克风阵列采集到的反射信号。
简单来说,基于如图1的应用场景,智能音响的扬声器阵列发射超声信号,多名用户如果此时产生运动手势,那么会将部分超声信号反射,并由麦克风阵列采集到该反射信号。
步骤S220:依据所述超声信号与预处理后的反射信号,利用反射信号定位模型与稀疏恢复算法来确定反射源位置及反射强度,以供得到对应一或多名用户运动手势的定位结果;其中,基于宽频字典的稀疏恢复算法以适用于任意形状与间距的麦克风阵列;和/或,基于速度感知字典的稀疏恢复算法以适用于任意速度下的用户运动手势。
于本申请一实施例中,对所述反射信号进行预处理以消除自干扰和静态反射,并得到包含有限数量的运动手势的反射信号。
需要说明的是,由于环境中包含干扰信号和静态反射信号,因此首先对获取的反射信号进行预处理,以消除自干扰和静态反射,其中预处理方式可采用常见的信号预处理方式,并申请并不限定。关键的是得到包含有限数量的手势运动所反射的信号。基于此,通过后续的稀疏恢复算法可将信号定位问题转化为从麦克风阵列的整体信号中恢复出最稀疏的反射信号成份的稀疏恢复问题,进而有助于解决反射信号定位问题。
首先,本发明第一个需要解决的是反射信号定位问题。如下实施例,可以便于了解了解反射信号定位问题的数学模型表示。
麦克风阵列上不同的麦克风接收到的信号是不同延迟情况的反射信号,这些信号可以通过反射源位置(即用户运动的手)相对于麦克风阵列的距离和角度进行参数表示。假设智能音箱的麦克风阵列配备L个麦克风,发生的超声信号为s0(t),存在D个反射回来的信号。第 i个反射源位置位于相对智能音箱距离di和角度θi处。反射回到第k号麦克风的反射信号xk(t) 为:
其中,式中fi(·)表示由第i个反射源位置造成的延迟和衰减影响。
那么,整个麦克风阵列采集的反射信号向量为:
X=[x0(t),x1(t),...,xL-1(t)]T;
信号定位算法的目标便是从麦克风阵列采集的反射信号向量X中,估计出反射源位置的位置参数[(di,θi),i=1,2,…,D]。需说明的是,在本申请的反射信号定位模型中,超声信号与反射信号都可看作以向量的形式存在。
举例来说,如图3所示的麦克风坐标系的模型示意图,给定一个半径为R并拥有L个麦克风,间距为l的均匀环形麦克风阵列。其中,第0号麦克风处于坐标系的x轴上,坐标原点被视为参考点ref。因此,x轴与第k号麦克风之间的角度为:
则第k号麦克风的坐标为:
为了清楚起见,首先本申请将介绍只存在单个反射信号时的定位模型,然后再介绍存在多个反射信号时的定位模型。
只存在单个反射时,假设反射信号来自于相对参考点ref距离为di和角度θi处,那么反射回ref处的相位为:
其中,vs表示声速,f表示发射的超声信号s0(t)的频率。根据均匀环形麦克风阵列的几何结构,第k号麦克风和ref之间的相位偏差可以用角度θi表示为:
其中,Δdk表示第k号麦克风和ref之间的路径差,可以直观地用图3中的粗虚线表示。因此,反射到第k号麦克风处的反射信号相位为:
φk(di,θi)=φref+Δφk;
所以,对于一个来自(di,θi)的反射源位置i,麦克风阵列采集的反射信号X可表示为:
其中,a(di,θi)表示反射源位置i的制导向量,常数ci表示反射源位置i的衰减因子。
存在多个反射时,将公式1推广到存在D个反射源位置的场景,此时麦克风阵列信号X为:
进一步地,本申请定义用于表达发射情况的制导矩阵为:
A=[a(d1,θ1),…,a(dD,θD)];
其中,a(dD,θD)表示反射源位置D的制导向量;dD,θD分别表示第D个反射源位置相对智能音箱的距离和角度。
同时,将信号衰减因子和超声信号s0结合在一起:
S=[c1,…,cD]Ts0(t)=[s1(t),…,sD(t)]T;
再进一步考虑噪声最终麦克风阵列采集的反射信号与扬声器阵列发射的超声信号之间的关系为:
多反射信号定位问题,便是要根据已知的此时麦克风阵列采集的反射信号X和扬声器阵列发射的超声信号S,求解公式2中的制导矩阵A。根据A中的(dD,θD),便可以知道反射源位置所处的方位。
简单来说,麦克风阵列采集的反射信号X,等于扬声器阵列发射的超声信号S,经过A(蕴含反射情况)反射延迟变换,再加上噪声信号所得到。
于本申请中,为解决反射信号定位问题,本发明使用稀疏恢复定位算法解决反射信号定位问题,即使用稀疏恢复算法求解公式2。
总的来说,稀疏恢复定位算法的出发点是:由于环境中的静态反射信号可以被信号干扰消除技术所清除,麦克风阵列收到的反射信号在干扰消除后,主要包含的是有限数量的手势运动所反射的信号。因此,可以将信号定位问题转化为从麦克风阵列的整体信号中恢复出最稀疏的反射信号成份的稀疏恢复问题。具体技术细节上,稀疏恢复定位算法的步骤为:
首先,本申请将公式2中的制导矩阵A扩展为具有N(N>>D)个维度的超完备矩阵A′:
A′=[a(d1,θ1),a(d2,θ2),…,a(dN,θN)];
其中,a(dN,θN)表示相对ref距离dN和角度θN处的一个可能的反射源位置。
相应地,扬声器阵列发射的超声信号S也相应地扩展为一个N维的稀疏向量S′:
S′=[0,0,…s1,0,…s2…si…sD…0]T
其中,如果在一反射源位置a(dN,θN)处真实存在一个反射信号,则相应的系数为si,否则为0。
由此,所述反射信号定位模型变为:
其中,由于本申请的应用场景是主动式的超声定位,扬声器阵列所发射的超声信号s0(t)是可以预先知道的,所以进一步将s0(t)合并到A′中得到:
其中,Dic为一个预先计算的超完备矩阵,称为字典,每个元素veci,存储着从每个位置 (dN,θN)反射回来的延迟信号:
Dic=[vec(d1,θ1,t),…,vec(dN,θN,t)];
与稀疏向量S′类似,C也是一个稀疏向量,表示来自对应位置的反射信号强度:
C=[0,0,…c1,0,…c2…ci…cD…0]T;
当有效反射的数目D远小于字典的维数N时,信号定位问题可以被转化为稀疏恢复问题,即找到一个最稀疏的向量C来表示组成麦克风阵列信号向量X的反射信号在字典中的分布情况:
min||C||0s.t.||X-Dic·C||2≤ε;(公式3)
其中,||C||0表示向量C的0范数,即向量C中非零元素的个数;s.t.表示满足后者的约束条件;||X-Dic·C||2表示反射信号向量X与Dic·C之间的2范数;ε为一个接近0的极小数。具体来说,公式3表达的是:在满足X与Dic·C之间2范数(体现两者之间的差别)尽可能小的条件下(也即X约等于Dic·C的条件下),找到让C的0范数最小的C。其中,变量是C,目标是希望C满足Dic·C约等于X的条件的同时,找到向非零元素个数最小的量C。
当求解出向量C后,本申请可以从非零元素ci的位置导出反射源位置的位置同时非零元素ci的数值中得到反射强度。其中,Posn是n个postion(位置)的意思,n非零元素ci在向量C中的位置,可以转换成现实世界中反射定位位置Posn。
于本申请实施例中,可以通过求解器来求解向量C。优选地,采用匹配追踪(MP)求解器来求解稀疏恢复定位算法的优化公式3。匹配追踪求解器是一种贪心类型的迭代求解器。匹配追踪求解器迭代地从字典Dic中找到一个与X具有最大投影的向量,然后从信号X中减去此向量,直到迭代次数达到阈值。具体地,如图4所述展示为所述匹配追踪(MP)求解器的操作示意图。
本发明着重要解决的第二个问题是如何在任意形状和间距的麦克风阵列上完成多人定位。由于大多数商业智能音箱的设计用途工作于低频人声频段,而基于超声信号的手势追踪系统工作于超声频段(17kHz-23kHz)以减少对用户的干扰。所以,对于频率为f的窄带超声信号,商业智能音箱上的麦克风阵列间距(5cm-10cm)通常远大于超声波长(1.5cm-2cm)的一半。麦克风阵列在超声频段下空间采样率远远不够,进而导致了稀疏恢复定位算法出现空间混叠问题。而且智能音箱的麦克风阵列可以有任意的形状,如市面上常见的均匀线形阵列和均匀环形阵列等等。所以,本发明需要能在任意形状的麦克风阵列上解决因空间采样率不足而导致的定位结果空间混叠问题,从而适用于任意形状与间距的麦克风阵列。
当麦克风阵列间距R大于频率为f的窄带超声信号的波长一半时:
对于某一个来自距离d和角度θ的反射源位置,其到第k号麦克风处的相对信号相位为φk(d,θ)。然而,此时存在多个不同于θ的角度参数θ1,θ2...θn能够产生类似的相位值:
φk(d,θ)≈φk(d,θ1)+2k1π≈φk(d,θ2)+2k2π≈…≈φk(d,θn)+2knπ;
这意味着,字典Dic中有多个类似的向量满足:
vec(d,θ)≈vec(d,θ1)≈vec(d,θ2)≈…≈vec(d,θn);
这种混叠问题同样存在于距离域中:
vec(d,θ)≈vec(d1,θ)≈vec(d2,θ)≈…≈vec(dm,θ);
本申请用一个具体的例子直观地说明空间混叠问题。假设,存在一个麦克风间距R=5cm,麦克风数量L=6的均匀环形麦克风阵列,所发射窄带超声信号的频率f=17kHz,空间中存在一个来自(d,θ)=(150cm,30°)处的反射源位置。采用匹配追踪求解器为稀疏恢复定位算法计算字典Dic中所有vec(d,θ)的投影。在每次迭代中,匹配追踪求解器将选择投影最大的 vec(di,θi)作为估计位置。
最终,匹配追踪求解器所计算的字典Dic中所有存储着距离和角度的元素vec(d,θ)对应的投影如图5A所示。可以看到,在投影结果中,无论是距离方向,还是角度方向上,都存在严重的空间混叠问题,无法看出(150cm,30°)处才应该是投影最大的位置。
所以,当商业智能音箱的麦克风阵列间距远大于所发射窄带信号的波长一半时,空间采样率的不足会导致稀疏恢复定位算法出现空间混叠问题。于本申请中,本发明对稀疏恢复定位算法做出改良,使用基于宽频字典的稀疏恢复定位算法解决空间混叠问题,以适用于任意形状与间距的麦克风阵列。
于本申请一实施例中,所述基于宽频字典的稀疏恢复算法以适用于任意形状与间距的麦克风阵列,包括:
A、利用正交频分复将超声信号设置为具有K个子载波的宽频信号,以构建宽频字典;
B、根据反射信号的稀疏性在不同子载波各自所对应的字典之间是相同的特性,当所发射的超声信号设置为具有K个频率分量的宽频信号时,利用包含K个分别对应K个频率分量的子字典的宽频字典,分别对每个频率分量进行稀疏恢复定位;
C、将每个频率分量的定位结果交叠,将K个频率分量的混叠定位结果的共同交集作为定位结果,可以在任意形状的麦克风阵列上解决因空间采样率不足而导致的定位结果空间混叠问题,从而适用于任意形状与间距的麦克风阵列。
具体来说,本申请提出了利用宽频信号的频率特性消除空间混叠。即本申请的方法基于一个重要发现:同一个麦克风阵列,在不同频率的超声信号的情况下,出现的空间混叠的位置各不相同,但却又同时包含正确的反射源位置信号位置。
那么,当所发射的信号并不是某单一窄带超声波信号,而是具有K个频率分量f1,f2...fK和相应字典Dic1,Dic2...DicK的宽频超声信号时,将每个频率分量的定位结果交叠在一起后,作为K个频率分量的混叠情况唯一共同交集的正确结果会被突出增强,从而与其他混叠结果区别开来。
本发明的基于宽频字典的稀疏恢复定位算法的步骤如下:
首先,本申请利用正交频分复用(OFDM)产生一个具有K个子载波的宽频信号,对于每个子载波fk都有各自的字典Dick,根据Dick构建宽频字典wDic:
由于在本申请的应用场景中,子载波一起被共同发射与反射,反射信号的稀疏性在不同子载波的字典之间是相同的,即:
Ck=Cl for k≠l;
即k≠l时Ck=Cl,其中,k和l表示不同子载波编号;该表达式是指,他们的子载波不同,但是他们的反射信号稀疏向量Ck和Cl之间是相同的。
此时,求解多字典联合优化问题等价如下:
min||Ck||0for k=1,2…K
s.t.||Xk-Dick·Ck||2≤εand Ck=Cl for k≠l;
其表达的是:在满足每个子载波Xk与Dick·Ck之间2范数(体现两者之间的差别)尽可能小,以及不同子载波之间稀疏性Ck和Cl之间相同的条件下,同时对每个子载波找到让向量 Ck的0范数最小的Ck。
接下来,本申请利用k≠l时Ck=Cl这个重要约束,将上述多字典联合优化问题转换为单一字典优化问题。具体来说,将Xk竖直排列为:
X=[X1,X2...XK]T;
其中,宽频字典wDic同样由Dick竖直排列而来:
wDic=[Dic1,Dic2...Dick]T;
相对应的稀疏向量wC则为:
wC=C1=C2=…=CK;
这样便有:
基于以上宽频字典wDic利用匹配追踪求解器求解稀疏向量wC近似等价于分别对每个子载波进行稀疏恢复定位,并将每个子载波的定位结果取共同交集的定位结果。
求解出向量wC后,可从向量wC中非零元素的位置获得相对应的反射源位置,同时从非零元素的数值中得到反射强度。
如图5B所示,本申请采用和图5A中相同的场景来直观地展示本发明基于宽频字典的稀疏恢复定位算法的效果。本申请首先测试利用正交频分复用(OFDM)产生的宽频信号中的10 个子载波,带宽为17kHz-17.5kHz的效果。与图5A的单频信号效果相比,图5B中投影结果距离维度上的混叠现象明显减少。然后,本申请测试带宽为17kHz-23kHz的120个子载波的效果。如图5C所示,投影结果中的混叠现象基本消失,正确真实值(150cm,30°)位置可以被匹配追踪求解器有效识别。
最后,多次运行上述定位算法,累计多个反射定位点后可以得到图5D所示的运动手势轨迹。从图中可以看到两名用户的手势轨迹为一个三角形和圆形。
还需说明的是,由于声音传播速度较低,用户运动手势速度带来的多普勒效应对超声信号有明显的频率偏移问题。当手势快速运动时,例如在语音交互式游戏中挥动手掌,反射信号的频率将会发生偏移。这将降低手势追踪的性能,因为智能音箱接收到的信号已不再是其所发射信号的延迟版本。因此,本申请着重解决的第三个问题是多普勒效应问题,以适用于任意速度下的用户运动手势。
具体来说,假设正交频分复用(OFDM)产生的元信号的原始频域序列是:
[s(k),k=0,1…N-1];
那么发射的正交频分复用(OFDM)产生的元信号时域序列为:
由于多普勒效应,真实的时域序列变为:
其中,ε是归一化的频率偏移,即频率偏移除以子载波间隔。相应的频域序列是:
在没有多普勒效应的理想情况下,对于每个子载波,智能音箱接收到的信号与发射信号之间的关系为:
然而在实际中,智能音箱接收到的信号情况是:
给定运动速度v,频率为fi的超声信号的频率偏移将为:
所以,当用户的手在运动时,ε≠0,因此sd(k)≠s(k)。进而,sd(k)和s(k)之间的差异,即实际反射信号模型与理想模型之间的差异会随着运动速度的增大而越来越大。
在这里,本申请利用一个示例来说明多普勒效应的影响。假设一个反射源位置位于(80cm, 150°)处,瞬时速度从-200cm/s到200cm/s不等,其中正速度表示靠近,负速度表示远离。对于不同瞬时速度的情况,本申请仍然统一采用理想静止速度下生成的字典Dick来提供给匹配追踪求解器。这等价于本申请对多普勒效应不做任何处理。
最终,反射定位的结果会如图6A和6B所示。图6A为距离测量结果,图6B为角度测量结果。随着速度的增加,距离测量结果会变得越来越分散,严重偏离真实参考值。在角度测量结果中也同样观察到性能下降:随着速度的增加,真实角度参考值上的定位强度变得越来越弱。
此外,一个两名用户情况下的实际使用场景可以更直观展示多普勒效应对定位结果的影响。具体设置为:其中一名用户以大约10cm/s的平均速度做手势运动,而另外一名用户以大约40cm/s的平均速度做手势运动。此时,采用理想静止速度下生成的字典Dick来提供给匹配追踪求解器。这代表着对多普勒效应不做任何处理地定位追踪这两名用户的手势运动。
最终,采用静态字典下的定位和追踪效果如图6C所示。可以看到,对于运动速度更快的手势,定位和追踪效果很差:如果对多普勒效应不做处理,仅仅照常使用静止速度下的字典,则运动速度更快的手势的距离测量值通常会严重偏离正确结果。而且由于信号强度降低,手势的距离和角度的测量也经常中断丢失。
所以,为了能在用户手势运动速度较快时,仍然能正确定位追踪,本发明需要解决多普勒效应问题,以适用于任意速度下的用户运动手势。于本申请中,本发明在上述基于宽频字典的稀疏恢复定位算法基础上,进一步构建具有速度感知功能的字典,提出了基于速度感知字典的稀疏恢复定位算法。
基于以上分析,在实际使用场景中,当用户手势运动较快时,多普勒效应的影响已经不可忽视,会严重影响到反射定位与轨迹提取。在多普勒效应明显的场景下,提供给匹配追踪求解器的字典Dick不应该仍然是静态字典,而是应该相应地适应手势的动态性,以减少定位误差。
为此,本申请提出基于速度感知字典的稀疏恢复定位算法,以解决多普勒效应问题。基于速度感知字典的稀疏恢复定位算法,以上述基于宽频信号的稀疏恢复定位算法为基础,差别之处在于将字典拓展为三维,其余部分没有差别。
于本申请一实施例中,所述基于速度感知字典的稀疏恢复算法以适用于任意速度下的用户运动手势,包括:
A、根据各子载波在不同速度下因多普勒效应造成的频率偏移情况,基于宽频字典构建与速度匹配的速度感知字典;
B、利用各个速度下对应的字典分别进行稀疏恢复定位,与用户手势运动速度相匹配的字典的定位结果无定位误差且反射强度最大。将具有最大反射强度的字典的定位结果作为整个速度感知字典最终的定位结果,可以解决因多普勒效应而导致的定位误差问题,以适用于任意速度下的用户运动手势。
具体来说,对于每个子载波fk,本申请采用sd(k,vi)表示速度vi下的子载波信号,此时与速度vi匹配的子载波fk的对应字典应为:
将不同速度下对应的字典集合在一起,构建速度感知字典vDick:
速度感知字典相当于将二维字典(d,θ)扩展为三维字典(d,θ,v),此时相对应的稀疏向量为vCk=[0,0,…c1,0,…ci…0]T,向量维度从N维变为N×M维;
此时,对于每个子载波都有:
最终,本申请同样地,利用匹配追踪求解器在速度感知字典vDick的基础上求解稀疏向量 vCk。这一过程等价于利用各个速度下对应的字典分别进行稀疏恢复定位,然后将具有最大反射强度的定位结果对应字典的速度作为对用户手势运动速度的估计,并将该定位结果作为最终定位结果。求解出vCk后,可从其中非零元素的位置获得相对应的反射源位置和速度,同时从非零元素的数值中得到反射强度。
如图6D所示,对比图6C,在速度感知字典的帮助下,距离和角度上的结果以及在此基础上提取的手势轨迹都具有了更好的精度和连续性。
步骤S230:根据所述定位结果提取对应一或多名用户的手势轨迹,据以响应不同手势轨迹对应预设的指令。
于多个实施例中,所述手势可包括:如上下左右以及左上、左下、右上、右下等不同方向的滑动,或者如三角形、圆形的轨迹,或者多个方向的组合,如V型等。这些手势轨迹可预先设置对应的指令,例如,右上的手势轨迹对应音量的增加,右下的手势轨迹对应音量的减少,向右的手机轨迹对应频道或歌曲的切换,圆形手势对应设置或开关机等等。
本申请在得到到定位结果后,可提取对应一或多名用户的手势轨迹,根据手势轨迹找到对应的指令,进而相应该指令。
以下通过具体的实例来说明本申请的实施方式。由于商业智能音箱的微处理器开发版并不开源。为此,本发明先用硬件构造了一个和商业智能音箱具有同样结构的原型,然后在原型上实现本发明提出的定位算法,并测试实施例识别一至四名用户的手势运动轨迹。
本申请以一个无任何修改的商业智能音箱为原型设备,如微处理器,扬声器阵列,和麦克风阵列所构成的智能音箱原型上,其原型结构与市场上的大多数商业智能音箱十分相似,都具有扬声器阵列带来的360°的播放音效以及均匀环形麦克风阵列带来的360°拾音能力。
具体来说,本申请采用Raspberry Pi 3开发板作为智能音箱原型的微处理器,使用四个 Edifier M1250扬声器发射OFDM宽频超声信号,所采用的均匀环形麦克风阵列为ReSpeaker 6-Mic均匀环形麦克风阵列,麦克风间距为4.7cm。原型的微处理器,扬声器阵列,和麦克风阵列之间,使用配备AUX接口的音频线连接。
本发明在原型设备上重复发射并接收超声宽频OFDM元信号,在每个OFDM元信号内做信号定位。具体的参数设置为OFDM元信号有6kHz的带宽,从17kHz到23kHz。每个元信号在48kHz采样率下有960个时域采样点,即每个元信号持续时长为20ms。
本实施例要求一至四名用户对着实现了本发明所述的定位算法的智能音箱原型自然坐下,距离为1米,各个用户之间间隔30度。然后根据桌上预定义的模板用手掌画出不同的形状模板形状,包括三角形和圆形这种简单图形,以及如大写英文字母和阿拉伯数字等更复杂的形状。用户的手势运动必须遵循模板的大小和形状,这些预先已知位置的模板轨迹将被用作定位准确度参考值。从定位算法输出的位置到预定义模板轨迹的最短欧氏距离,被视为定位误差。
从图7A-7D中可以直观地看到本发明用户分别为1、2、3和4名的不同情况下的追踪效果,直线分别表示正确预先已知的模板轨迹参考值,和本发明输出的稀疏追踪得到的手势轨迹。
需要说明,由于颜色限制无法直观体现两种直线的区别,但如图7C和7D中仍可体现出两种直线的区别,而图7A和7B中两种直线由于重叠严重无法看出区别。但不可否认的是,即使是用户人数在4名时,二者的误差程度仍然是可接受的范围内,并且计算的手势轨迹基本符合了模板轨迹。本发明所述方法得到的手势轨迹与预先已知的模板轨迹参考值,随着同时参与的用户人数的增加,误差有所增加;其中,1、2、3和4名用户情况下的平均定位误差分别为0.82cm、1.09cm、1.90cm和2.66cm。
综上所述,本申请所提出的一种应用于智能音响的多用户运动手势控制方法,能够在无额外硬件要求,也不影响智能音箱语音控制功能的情况下,实现了多用户运动手势控制,为智能音箱在语音控制交互方式的基础上,增添了一种新的交互方式,可以广泛应用于无声控制、多用户控制等场景;并且本申请所提出的一种基于宽频字典和速度感知字典的稀疏恢复定位算法,可以不受反射信号相干性影响地定位多名用户,并且可以解决麦克风阵列空间采样率不足导致的空间混叠问题,从而可适用于任意形状与间距的麦克风阵列,以及解决了多普勒效应导致的定位误差问题,从而可以适用于任意速度下的用户运动手势。
如图8所示,展示为本申请于一实施例中的多用户运动手势控制装置的模块示意图。所述装置应用于如图1所示的智能音响,该智能音响包括用于发射超声信号的扬声器阵列和用于采集反射信号的麦克风阵列。如图所示,所述装置800包括:
获取模块801,用于获取由扬声器阵列发射的超声信号经一或多名用户运动手势反射而回并由麦克风阵列采集到的反射信号;
处理模块802,用于对所述反射信号进行预处理以消除自干扰和静态反射,得到包含有限数量运动手势的反射信号;依据所述超声信号与预处理的反射信号,利用反射信号定位模型与稀疏恢复算法来定位反射源位置并得到反射强度,以得到对应一或多名用户运动手势的定位结果;其中,基于宽频字典的稀疏恢复算法以适用于任意形状与间距的麦克风阵列;和/ 或,基于速度感知字典的稀疏恢复算法以适用于任意速度下的用户运动手势;根据所述定位结果提取对应一或多名用户的手势轨迹,据以响应不同手势轨迹对应预设的指令。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请所述方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
还需要说明的是,应理解以上装置800的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块802可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上处理模块802的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC);或,一个或多个微处理器(digital signal processor,简称DSP);或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等;再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器;再如,这些模块可以集成在一起,以片上系统 (system-on-a-chip,简称SOC)的形式实现。
于本申请的一实施例中,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图2所述的方法。
在任何可能的技术细节结合层面,本申请可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子 (非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/ 或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
综上所述,本申请提供的一种多用户运动手势控制方法、装置、智能音箱和介质,本申请能够在无额外硬件要求,也不影响智能音箱语音控制功能的情况下,实现了多用户运动手势控制,为智能音箱在语音控制交互方式的基础上,增添了一种新的交互方式,可以广泛应用于无声控制、多用户控制等场景;并且本申请所提出的一种基于宽频信号和速度感知字典的稀疏恢复定位算法,可以不受反射信号相干性影响地定位多名用户,并且可以解决麦克风阵列空间采样率不足导致的空间混叠问题,从而可适用于任意形状与间距的麦克风阵列,以及解决了多普勒效应导致的定位误差问题,从而可以适用于任意速度下的用户运动手势。
本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
参考文献:
[1]Wei Wang,Alex X.Liu,and Sun Ke.Device-Free Gesture Tracking UsingAcoustic Signals. MobiCom,2016.
[2]RajalakshmiNandakumar,VikramIyer,Desney Tan,andShyamnathGollakota.FingerIO: Using Active Sonar for Fine-Grained FingerTracking.CHI,2016.
[3]Wenguang Mao,Mei Wang,Wei Sun,Lili Qiu,Swadhin Pradhan,Yi-ChaoChen. RNN-Based Room Scale Hand Motion Tracking.MobiCom,2019.
[4]FadelAdib,Zachary Kabelac,Dina Katabi,and Robert C.Miller.3DTracking via Body Radio Reflections.NSDI,2014.
[5]ManikantaKotaru,Kiran Joshi,Dinesh Bharadia,andSachinKatti.Spotfi:Decimeter level localization using WiFi.SIGCOMM,2015.
[6]RALPH O.SCHMIDT.Multiple Emitter Location and Signal ParameterEstimation.IEEE, 1986.
[7]F.Belfiori,W.van Rossum,and P.Hoogeboom,“Application of 2dmusicalgorithm to range-azimuth fmcw radar data,”IEEE EuropeanRadar Conference2012.
[8]MALLAT,S.,AND ZHANG,Z.Matching Pursuit With Time-FrequencyDictionaries. IEEE Transactions on Signal Processing 41(1993),3397–3415.
[9]D.Malioutov,M.C,etin,and A.S.Willsky,“A Sparse SignalReconstruction Perspective for Source Localization With Sensor Arrays,”IEEETransactions on Signal Processing,vol.53,no. 8,pp.3010–3022,2005。