人民网
人民网>>传媒>>人民网奖学金>>哈尔滨工业大学>>哈工大2018

面向虚拟现实的三维多普勒雷达阵列手势识别方法研究

张桂源
2019年01月15日16:00 | 来源:人民网研究院
小字号

摘要:随着虚拟现实逐渐流行,出现了新的交互需求,传统的交互方式并不能很好的在这一场景应用,因此在空间中的手势识别方案被视为虚拟现实的理想交互方式。本文提出基于三维雷达阵列识别在消费电子控制场景中经常使用的10个人手手势。该雷达阵列由三个相互垂直安装的24 GHz K波段多普勒连续波微型I / Q(同相和正交)收发器传感器组成。从六个通道的I / Q信号中提取幅度和相位特征以进行时间和频谱分析。我们使用卷积神经网络来实现识别。利用以频谱为输入的双层CNN(卷积神经网络)分类器进行识别。最后,论文对实验进行了论证,并分别对雷达阵列的性能进行了分析。结果表明,该系统可以达到高于92%的高识别准确率。

关键词:手势识别,雷达阵列,多普勒效应,卷积神经网络。

1.介绍

为了便于未来的HCI(人机交互),手势识别最近成为一个热门的研究课题,它旨在将基于视觉图像手势解释为数字信息传输给计算机[1]。摄像机和其他成像传感器提供了直接捕获手势的简单解决方案,因为图像最容易被人类视觉神经元系统识别。然而,视觉图像对计算机的解释是不同的。图像从多维数字数组转换为一些不同的特征,以便使计算机识别姿势的含义。该过程可能导致对计算资源的需求增加,并且需要有效的算法来解释视觉图像。此外,照明也是影响该方法有效性的关键因素。同时,可穿戴的传感器也是一种流行的实时手势识别的解决方案[2]。然而,该解决方案需要牢固地佩戴在手上的传感器,例如戴着一副手套。手的不适和不灵活是阻碍这种方法在日常生活中广泛传播的主要因素。在当今计算机技术发展的时代,微波工程已经成为手势识别的一种新兴的解决方案。同时,如今模拟和数字硬件的加速发展使得能够以低成本开发毫米波段电路,从而使雷达成为用于手势识别的传感器更具吸引力。2016年,谷歌发布了Soli项目,该项目使用60GHz FMCW(调频连续波)雷达来实现识别[3]。然而,该系统在很大程度上依赖于定制雷达芯片,该芯片仍处于早期开发阶段[4]。与Soli不同,本文旨在找到使用可获得的商业雷达传感器来实现非接触式手势识别的经济解决方案。本文的结构如下:在下一节讨论手势识别的发展。然后介绍了手部动力学模型,目标手势和雷达阵列结构。此外,本文还规定了基带I / Q(同相和正交)信号的处理,并通过实验使用决策树和CNN(卷积神经网络)评估识别性能。最后,本文最后总结了这种丢失成本解决方案在未来应用中的建议。

2.先进的基于雷达的手势识别系统

使用雷达技术实现手势识别的概念受到使用扬声器和麦克风识别不同手势的尝试的启发[5]。但由于声波的测距分辨率有限,因此不再采用这种方法。CW(连续波)雷达具有结构简单,灵敏度高,频谱占用窄等特点,能够根据多普勒效应比较雷达发射器和接收器之间电磁波的频移,从而检测目标移动速度。通过调制频率,连续波雷达可以测量目标到天线的距离。使得能够得知雷达天线主波束径向上的目标位置。最近,基于雷达的传感的大量工作已经证明了使用毫米连续波雷达的实时或近实时高分辨率成像的能力[6]。此外,Molchanov和他的团队通过使用25 GHz FMCW单脉冲雷达探测手势识别,其范围分辨率为3.75 cm,用于智能驾驶辅助[7]。参考文献[8]介绍了一种使用77 GHz FMCW雷达系统和隐马尔可夫模型进行分类的手势识别系统。在构建速度 - 能量矢量之前执行距离选通,该系统能够实现手势分类,同时消除可能破坏手势识别任务的其他目标所贡献的能量。此外,参考文献 [9]演示了一种自动分类系统,该系统使用60.5 GHz雷达发送一系列线性调频信号,带宽为7 GHz。该分类系统允许同时高分辨率测量8种人手和身体姿势的距离和径向速度,准确率高达95%。此外,[10]中描述了一个带有片上天线的完全集成的94 GHz脉冲雷达收发器,可以在便携式设备上检测手指的移动并实现实时手势检测等应用。此外,手势识别中最令人印象深刻的成就发布于2016年Google I / O大会Google展示了Soli项目的成就,该项目可以通过应用机器学习和处理时间信号来区分复杂的手指运动和手形变化[3] [11]。目前使用毫米波雷达进行手势识别的研究主要是利用雷达信号处理来寻找分类特征。典型的方法从设计调频波形开始。雷达发射调频电磁波,天线波束内的目标散射该能量,一部分被反射回雷达天线。可以使用二维FFT(快速傅立叶变换)将反射信号变换到频域。发射的电磁波的频率调制将使得能够生成包含目标属性的距离 - 多普勒图,例如位置和运动速度。CFAR(恒虚警率)检测经常用于信号处理,以减少噪声干扰。然而,这些手势方法高度依赖于雷达设备的性能。频率调制增加了雷达设计复杂性和硬件成本。例如,Soli项目的大多数成就都在Alpha开发者计划的框架内,这是一个由Google建立的封闭社区。在这个环境下,开发者会收到Google的开发板和软件来进行应用和开发。

为了打破这种局面,本文提出了一种利用CW雷达的低成本开放式雷达机制。仅使用径向速度信息,因此上述信号处理策略不适用。然而,这并非不可取,因为不包括位置信息将大大降低硬件成本。从这一点来看,有必要探讨如何在这种约束下实现手势识别。

3.手势模型

手势是人类手指,手掌,手腕和前臂的自然物理运动,旨在将有意义的信息从大脑传递给其他人。根据[12]中的模型,人手被建模为具有27个DoF(自由度)的系统。所有五个手指共有21个DoF,可以进行手掌或手指动作。其余六个DoF来自手腕的旋转和平移运动,每个都有3个DoF。在如何控制现代消费电子如手机和平板电脑产品等方面,用户总是喜欢根据他们的私人习惯去选择方便和舒适的手势。大多数人都捏着笔记本电脑的触摸板来放大或缩小屏幕。此外,Apple IPads屏幕上的四指滑动可以通过手指的屈曲和伸展以及手腕和有时前臂的平面内运动来帮助切换多任务。Fink和Wang用图像和毫米波雷达测试了HCI对不同类型手势的识别。参考[9]和[11]中的先前工作,我们还使用图1中所示的手势作为目标手势。本研究中的10个手势包括六个手部动作:(a)手由上到下,(b)手由下到上,(c)手推动,(d)手拉动,(e)手从左到右移动,(f)手从右到左移动;以及两个手掌动作:(g)手掌开放,(h)手掌紧握;和两个手指动作:(i)捏在一起,(j)分离。在图1中,每个子图的左侧部分是起始手势的状态,右侧部分是结束手势的状态。

手部运动频率主要分布在100Hz以下,而其他运动具有高达200Hz的更宽频率分布。与这些手部动作相反,手指运动在所有频谱上显示从0到100Hz的较小峰值,因为手指具有比整个手部更小的雷达横截面。该解释还可以解释先前讨论的时间信号幅度差异。

6.基于CNN的手势动作识别

目前,CNN被认为是模式识别中的一种高效分类算法[14]。在分类中,它避免了复杂的预处理,直接利用原始数据作为输入,并凭借其独特的网络结构有效地降低了神经网络的复杂性。尽管CNN具有高度的计算成本,但它在识别鲁棒性方面优于决策树。为此,我们提出了两个卷积层的CNN来实现分类。所提出的CNN的整个结构如图4所示。CNN的输入是400×6矩阵,其行表示阵列中三个雷达的所有I / Q信号的频谱幅度。网络由两个连续的卷积层组成,而每个层连续实现卷积,然后实现最大池化操作。在图4中,卷积层中的每个数据不包含来自前一层的所有信息,它们仅连接到总数据的一小部分。

大多数CNN也遵循多卷积内核策略。在卷积层中使用一个内核可以提取一个特征。因此,通过实现多个卷积核可以同时提取更多特征。在所提出的卷积层中,我们将训练的内核的大小设置为5×5,并且对于第一卷积层同时使用32个内核核心,而池化层的大小是1×2。对于第二卷积层,内核核心数量减少到2.内核核心的大小仍然是5×5.两个卷积层搜索器共有64种类型的功能。在每个池化层之后,数据大小缩小到前一层大小的一半,并且由于1×2大小的最大池化功能,只有两个邻居数据中的较大的一个可以被传送到下一层。在两个卷积层之后,需要一个矢量大小为1024的全连接层来将所有局部特征组合在一起。在完全连接层之后,利用Softmax模型给目标手势一个概率结果。Softmax输出层有5个手势类,每个手势类代表相反运动方向上的一对手势,例如,分离和捏在一起。为了实现分类,我们还在Softmax函数之后提出了一个新层。添加该层以比较I / Q信号相位差。该CNN的训练过程最初将所有模型参数设置为随机值,除了初始化为零的偏差。在训练过程中,CNN的参数随着信号的处理而发生变化,误差可以通过最终Softmax层的交叉熵成本函数的平均值来评估,旨在实现正确分类的最大概率[15]。最后,当优化成本函数并且准确率变得稳定时,训练过程结束,网络参数不变。

7.实验和结果分析

为了验证雷达阵列的有效性和效率,根据图2中的配置实现了原型系统。时间信号的每个样本以每通道5KHz的速率收集5000个点。实时采样软件是在LabVIEW中设计的。收集每个目标手势200个样本和标签由雷达阵列。在本文中所有测试都是在交叉球体中心的手位置进行的。然后,邀请了四名具有不同性别和年龄的志愿者参与实验并重复他们的常规目标手势。每个目标手势被采样100次。最后,每个目标手势都有一个未标记的集合,里面有400个样本。该实验使用2000个训练样本和4000个测试样本来评估识别性能。

使用CNN分类器,所有六个手部动作都被识别,平均准确率高于99%。识别捏合和分开的准确度分别为96.25%和95.75%,CNN分类器正确率高的原因是可以根据其自适应机制自动修改神经网络参数。

与此同时,结果也与[9]和[11]中的工作进行了对比。基于1NN分类器和Linear polynomial分类器,在[9]中,测试了图1中的目标手势(a) - (d)和(f)。1NN分类器的平均分类率为95.83%,与我们的结果相似。但Linear polynomial分类器的平均正确率仅为82.50%。在[11]中,作者利用Soli开发板去测试了11个手势,几乎覆盖了本文中的所有目标手势。但不同之处在于,他们在往返行程中测试了手势,并相应地将如手向上和向下到一个类别。所以我们只比较了相应聚合类的准确率。在[11]的所有方法中,EtE CV-ses Avg的平均准确率高达94.15%,但其他方法如CNN Deep和RNN的准确率低于80%,尤其是手指和手掌动作识别。比较表明,我们的雷达阵列的准确率接近1NN分类器和EtE CV-ses Avg的正确率,并且远高于[9]和[11]中的其他方法。因此,即使手势很小,三维雷达阵列也能够提供手势的直接描述。更重要的是,使用易于采购的商用雷达传感器就可以实现上述正确率。

8.结论

本文提出了一种利用雷达阵列实现非接触式手势识别的解决方案。手势识别可与正在流行的虚拟现实设备相结合,从而提供更好的用户体验。与传统方法不同,该雷达阵列利用三个24GHz连续波雷达来感测由10个典型手势运动散射的电磁能量,并从I / Q信号中提取幅度和相位特征。本文在识别中使用了CNN。利用两个卷积层网络,Softmax层和输出层构建网络。这个实验使用2000组训练和4000个测试数据去评估识别表现。该系统实现了高达94%的平均识别准确率,尤其是在识别手指运动时。通过与其他人的工作进行比较,这种三维连续波雷达阵列是手势识别的另一种具有高准确率的解决方案。 

(责编:尹峥、赵光霞)

分享让更多人看到

传媒推荐
  • @媒体人,新闻报道别任性
  • 网站运营者 这些"红线"不能踩!
  • 一图纵览中国网络视听行业
返回顶部