基于多运动传感器行为、使用门控双塔transformer融合网络的智能手机连续认证

文章信息

论文题目：Multi-motion sensor behavior based continuous authentication on smartphones using gated two-tower transformer fusion networks

期刊（会议）：Computers & Security

时间：2024

级别：CCF B

文章链接：https://www.sciencedirect.com/science/article/pii/S0167404823006089

引言

确认当前用户的身份对于提供智能手机安全具有重要意义。为了确保操作智能手机的用户的合法性，智能手机提供了许多明确的身份验证机制，例如密码、图形模式、指纹、面部识别等。然而，用户的积极参与（例如，冗长的密码或面部识别所需的特定身体姿势）在一定程度上会导致用户体验下降，并使智能手机的使用过程复杂化。因此，在确保智能手机安全的同时，在没有用户积极参与的情况下验证用户身份，以取代或补充现有的登录过程，提高用户体验，是有意义的。

基于行为生物特征的连续认证为智能手机安全保护提供了一种有前途的方法，该方法在与智能手机的交互过程中的某个时间点（例如，固定时间间隔、屏幕触摸）隐式认证用户的身份。在各种基于行为生物识别技术的解决方案中，运动动力学生物识别技术得到了广泛的研究，该技术采用不同类型的内置运动传感器的测量值作为生物特征，并在日常使用中无缝集成到智能手机会话中。与其他行为生物特征识别（例如，触摸行为生物特征、击键动力学等）相比，运动动力学生物特征识别不依赖于智能手机的主动使用，也不需要额外的要求来获取生物特征数据。

对于基于多运动传感器生物特征的认证方法，它们通常依赖于数据驱动方法来学习运动传感器信号和用户身份之间的复杂关系，其中特征提取是准确认证的关键步骤。得益于深度学习技术在各个领域的显著进步，许多研究人员提出将深度学习方法用于用户认证，这可以节省劳动密集型和耗时的特征探索过程。不幸的是，上述方法仍然受到以下两个限制。

（i）没有意识到跨通道信息。以前，有几种方法提出将多运动传感器数据的一段视为图像，并将二维CNN核应用于基于CNN的方法中，以从多个通道中提取运动动力学的特征。然而，与两个维度语义相同的图像不同，二维多运动传感器数据的语义（即时间维度和通道维度）不同。因此，CNN简单地将来自两个维度的数据平等看待将输出不准确的运动动力学特征，从而影响用户认证的性能。

（ii）忽略沿信道维度提取的时间特征（信道上的时间）。为了提取运动动力学的特征，一些研究将多运动传感器数据视为时间序列，并开发基于深度学习的序列模型（例如RNN和LSTM）来捕获沿时间维的信道特征（信道超时）。不幸的是，它们忽略了不同通道之间的时间特征（通道上的时间）。由于智能手机使用的复杂性，智能手机的运动信号在不同的操作场景下（例如，坐着和躺着）可能会有所不同。已经证明，通过从多个传感器数据测量的运动状态可以有效地揭示操作场景，即，通道之间的时间特征对不同操作场景中的变化更敏感。因此，有必要联合考虑运动传感器的多个通道之间的相关性信息，以捕获受操作场景影响的时间特征。

为了解决上述问题，我们使用智能手机上四个运动传感器（加速计、陀螺仪、磁强计和方向）的测量值开发了一个基于双塔神经网络的连续认证框架TNNAuth，该框架允许在登录智能手机后的整个使用会话中以非侵入性和透明的方式认证用户。如图1所示，TNNAuth包括两个阶段，即离线注册阶段（数据访问和预处理、特征提取和分类模型训练）和在线认证阶段（分类模型测试和在线认证）。在离线注册阶段，数据访问模块首先在智能手机使用会话期间收集运动行为数据。然后，数据预处理模块对运动传感器数据进行一系列预处理操作，并将数据处理为时间流和信道流，这些将被视为以下模块的输入。接下来，为了提取运动动态模式的判别特征，我们提出了一种门控双塔transformer融合网络GTTF。最后，利用学习的GTTF特征提取模型，利用单类支持向量机（OC-SVM）训练分类器进行身份验证。在在线认证阶段，基于训练的GTTF模型，TNNAuth连续监测新采样的运动传感器数据，预处理数据，提取特征，并执行在线连续认证来验证用户身份。

TNNAuth概述

在本研究中，我们使用来自用户智能手机的多运动传感器数据来捕获智能手机的运动动态模式，以进行用户认证。在本节中，我们将介绍我们建议的身份验证框架TNNAuth的概述。图1展示了TNNAuth的体系结构，它由两个阶段组成，即离线注册阶段和在线身份验证阶段。

离线注册

在离线注册阶段，我们使用多传感器数据训练GTTF特征提取和OC-SVM认证模型。

**多运动传感器数据采集。**数据访问模块收集智能手机上的四个内置运动传感器（加速计、陀螺仪、磁强计和方向）。

**基于GTTF的特征提取。**为了实现更准确的多传感器行为剖析，我们开发了一种基于GTTF的特征提取模型，该模型由用于捕获微动特征的多通道1D CNN模块、用于捕获双塔宏观特征的transformer 网络和用于双塔特征融合的基于门控的特征融合网络组成。一旦训练，GTTF模型将被固定，并用于在线阶段的特征提取。

**基于OC-SVM的身份验证模型。**给定融合的双塔特征，认证模块基于来自合法用户的多运动数据训练单类SVM（OC-SVM）分类模型。

在线身份验证

当用户点亮智能手机屏幕时，运动传感器数据被连续收集并馈送到数据缓冲器中。一旦缓冲区已满，整个缓冲区中的运动传感器数据将随后输入数据预处理、GTTF网络和OC-SVM认证模型，以生成认证分数来识别智能手机用户的合法性。如果分数大于阈值，则用户可以继续使用智能手机；否则，智能手机需要进一步的身份确认（例如密码、人脸识别等）。请注意，缓冲区大小保持固定，即当生成运动传感器的新样本并将其添加到缓冲区时，将删除缓冲区中的初始样本。

多运动传感器数据采集与预处理

从多个运动传感器获得的数据可以用于检测智能手机与用户交互期间单个用户的运动行为模式。本节分别介绍TNNAuth的数据采集和预处理方法的详细信息。

多运动传感器数据采集

为了获得运动传感器数据，我们开发了一个移动应用程序，从操作系统提供的应用程序编程接口（API）中收集四种类型的运动传感器的数据，并在后台进程中在智能手机上运行它。当智能手机的屏幕打开时，应用程序开始收集传感器数据，当屏幕关闭时停止收集。

智能手机上四个运动传感器在一段时间内的原始运动传感器测量可以由一组时间序列$ x_{Ac},y_{Ac},z_{Ac},x_{Gy},y_{Gy},z_{Gy},x_{Ma},y_{Ma},z_{Ma},x_{Or},y_{Or},z_{Or} $表示，其中x、y和z表示运动传感器的三轴传感器测量，Ac、Gy、Ma、Or表示加速计、陀螺仪、磁强计和方向。

数据标准化

由于运动传感器的数据具有不同的尺度，因此我们首先通过执行数据标准化来将传感器数据重新缩放到相同的尺度。例如，假设有一个从加速计的x轴开始的测量序列。我们通过公式（1）将标准化到[0,1]区间：

$ x_{A c}^{i{\prime}}=\frac{x_{A c}^{i}-\mu} {\sigma} $

其中，$ x_{Ac}^i $是加速度传感器 x 轴的测量值。$ \mu $和$ \sigma $是信道的平均值和标准偏差，$ x_{Ac}^{i’} $是归一化测量。

数据分段

考虑到认证场景的及时性，认证模型需要基于短时间的数据生成认证结果。为此，进一步处理运动传感器数据并以段的形式划分。段S被定义为一段时间内的一系列传感器测量。这样，我们的目标是学习由$ \theta $参数化的非线性函数$ f_{\theta}(S) $，该函数确定段S是否属于合法用户。

具体地，为了分割原始运动传感器数据，我们在每个通道上应用具有固定长度$ l_S $的滑动窗口来生成一系列重叠段$ {S_{i}^{*} }_{i=1}^{S} $，其中 S 表示段的数量， * 表示每个运动传感器的三个通道中的一个。步长为$ \Delta S $。当$ \Delta S $的设置大于或等于$ l_S $时，生成的段不重叠；否则，段重叠。

GTTF

在本节中，我们描述了所提出的GTTF网络的数据处理、网络设计和训练过程的细节。

GTTF的双流输入数据处理

为了以更细粒度的方式研究段中的微观运动动力学模式，我们将每个段划分为一系列不重叠的子段。具体来说，我们通过在每个片段上移动大小为$ l_S $的固定大小窗口，将每个片段划分为几个较小的子片段。每个步骤的窗口移动距离也设置为$ l_S $，以确保子段不重叠。这样，一个段可以表示为$ S={s^{j} }_{j=1}^{T} $，其中T表示段中的子段数量。

另一方面，GTTF需要时间流和通道流数据作为输入。为此，我们将相同移动步长的不同通道的子段组合在一起，获得维数为$ T\times C $的时间流输入。然后，通过转置操作（维度为$ C\times T $）从时间流数据中生成通道流。

GTTF的网络设计

为了更准确地描述智能手机的运动行为模式，我们提出了一种门控双塔transformer融合网络GTTF，以从收集的多运动传感器数据中提取跨通道时间和跨时间通道特征。我们的GTTF模型的架构如图2所示。GTTF自下而上接收时间和信道流数据作为输入，并通过设计基于多通道1D CNN的微观特征提取和基于transformer的宏观特征提取模型，从两个流数据中提取微观和宏观特征。然后，通过门控特征融合方法聚合两个流的特征。下面，我们分别描述GTTF中的三个核心模块。

基于多通道1D-CNN的微特征提取

考虑到运动传感器的高频采样率，每个子段可能包含多个采样点，使得很难有效地捕获时间序列模型中的特征提取模型。受一维卷积神经网络（1D-CNN）在识别时间序列数据中的简单模式方面的最新进展的启发，我们通过使用1D-CNN生成子段的嵌入$ {\boldsymbol{s}{i}^{*} }{i=1}^{T} $来对每个通道中的子段$ {s_{i}^{*} }_{i=1}^{T} $执行独立的卷积运算。在这里，我们使用粗体来表示1D-CNN模型之后的子段表示。

图3描述了用于处理和学习每个子段的代表性特征的1D-CNN模型的定制架构，由1D卷积和池化层的堆栈组成，以提高降噪能力并捕获子段中的局部复杂模式。请注意，我们可以通过使用基本卷积和池化操作的组合来设计各种1D CNN架构。一维CNN模型的输入是一个子段，输出是子段的表示。

在每个卷积层中，卷积层定义具有不同核大小的特征滤波器。考虑到只有一个滤波器将允许神经网络学习单个特征，这可能是不够的，我们在卷积层中定义了128个滤波器。以步长2执行卷积运算。由于我们的输入数据是向量形式，对于每个输入数据，滑动窗口仅向右移动。在每个输入向量上总共使用128个滤波器来生成特征。

在每个卷积操作之后，我们还执行池化操作，通过对向量进行下采样来捕获不同空间尺度的特征，这降低了输出的复杂性，并防止数据过拟合。在我们的实现中，对于每个特征向量，我们采用最大池化操作来选择最大的特征值。

通过交替地应用上述卷积和池化操作，1D CNN模型将输入子段转换为嵌入的表示向量。

transformer_130">基于transformer的宏特征提取模型

为了从时间和信道流中提取信道随时间变化的特征和时间随信道变化的特征，我们开发了一种基于transformer的宏特征提取模型TIS。Transformer是一种基于自注意机制的神经网络模型。它不需要循环或卷积结构，因此可以并行化计算，提高训练和推理的速度。此外，转换器可以捕获序列中任意两个位置之间的依赖关系，而LSTM只能捕获有限的上下文信息。

图2描述了我们提出的TIS模型的架构，该模型由左时间塔和右信道塔组成。具体地，为了对每个一维传感器数据上的时间动态运动信息进行编码，时间塔设计了L个transformer编码器的堆栈，以计算子分段之间的成对注意权重。同时，通道塔由L个transformer编码器组成，通过计算不同通道之间的注意力权重来提取运动传感器数据的不同通道之间隐藏的相关性。考虑到不同运动传感器的通道顺序没有相对相关性，在本工作中，我们仅在时间塔的开头添加了位置编码模块。

具体来说，如图2中的蓝色和红色方框所示，典型的transformer层包含两个子层，即多头自注意力和前馈网络。此外，在每个子层之后，我们采用残差连接，然后进行层归一化来产生输出表示。

门控特征融合

使用提取的通道随时间和时间随通道变化特征，最好存储来自两个塔的身份信息。由于选通机制已被证明是学习关系和重新加权输入重要性的强大技术，因此我们提出了一种称为GFF的选通特征融合模型，该模型接收时间流和通道流的特征，并学习每个塔的权重以将它们聚合为固定长度的向量。

具体地，如下式所示，在计算每个塔的特征之后，我们通过级联操作，然后是线性层，将两个特征$ \boldsymbol{H}{t} $和$ \boldsymbol{H}{c} $聚合为组合向量$ \hat{\boldsymbol{H}} $。

$ \hat{\boldsymbol{H}}=\boldsymbol{W} \cdot\mathrm{C A T} ( \boldsymbol{H}{t}, \boldsymbol{H}{c} )+\boldsymbol{b} $

然后馈送到softmax函数中，以计算选通权重和，这表示时间塔和通道塔的特征重要性。

$ \boldsymbol{W}{t}, \boldsymbol{W}{c}=\mathrm{S o f t m a x} ( \boldsymbol{\hat{H}} ) $

最后，将每个门控权重与相应的塔的特征相乘，以生成最终特征H。

$ \boldsymbol{H}=\mathrm{C A T} ( \boldsymbol{H}{t} \cdot\boldsymbol{W}{t}, \boldsymbol{H}{c} \cdot\boldsymbol{W}{c} ) $

GTTF的训练

我们使用反向传播以完全监督的方式整体训练GTTF网络。给定一组用户的训练样本，我们使用Adam优化器优化模型，以最小化损失函数。二元交叉熵损失函数BCE用于计算GTTF模型预测和真实标签之间的损失。

基于OC-SVM的身份验证

给定来自合法用户的一组运动数据段的特征，TNNAuth利用单类支持向量机（OC-SVM）作为用户身份验证的分类器，其中只需要来自合法用户中的正数据。OC-SVM模型寻找一个最小超平面来封装正样本数据的融合特征，并在在线认证过程中使用该超平面进行用户认证。超平面内的样本被认为是正的。

具体地，在注册阶段，OC-SVM从训练数据（数据段的嵌入向量）中学习合法用户的形象。在在线认证阶段，TNNAuth基于训练的GTTF和OC-SVM模型，连续监测新采样的运动传感器数据，预处理数据，提取特征，并执行连续认证以验证用户身份。

评估

实验设置

我们给出了评估过程的实验设置，包括评估数据集、性能指标、评估方案、基线和实现细节。

评估数据集

为了评估TNNAuth的身份验证准确性，我们招募了100名志愿者（71名男性和29名女性），并要求他们像往常一样在日常生活中使用提供的智能手机。同时，我们开发的移动应用程序记录来自四个运动传感器（加速计、陀螺仪、磁强计和方向）的测量值。在整个使用会话中，采样率设置为50Hz。

性能指标

我们使用以下评估指标来评估身份验证性能。

错误接受率（False Acceptance Rate, FAR）。FAR定义为错误接受的非法样本数量与所有非法测试样本数量的比率。较高的FAR表示入侵者样本的高错误分离率。
错误拒绝率（False Rejection Rate, FRR）。FRR定义为错误拒绝的有效样本数量与所有有效测试样本数量之间的比率。较高的FRR表示对合法用户的样本的识别较差。
相等错误率（Equal Error Rate, EER）。EER是通过改变预测得分的阈值，错误接受率（FAR）等于错误拒绝率（FRR）值的值。

评估方案

我们使用100名受试者的运动传感器数据来评估TNNAuth的性能。TNNAuth在一段时间内从每个受试者随机采样多个运动传感器数据作为评估数据集。依次为每个受试者重复评估过程。前70%的运动数据用于模型训练，10%用于模型验证，其余20%用于模型测试。在训练、验证和测试阶段，我们保持正分段和负分段的数量相同。

根据这些数据，评估过程如下：

Step 1：我们通过使用来自合法用户和冒名顶替者的前80%数据的第一个片段来学习GTTF模型（70%用于训练，10%用于验证）。
Step 2：我们将训练的GTTF固定为特征提取模型，使用来自合法用户的前80%数据段的嵌入向量来训练用于用户身份验证的OC-SVM模型。
Step 3：利用剩余20%阳性数据的片段构建阳性测试数据集，测试OC-SVM模型对合法主体的识别能力。
Step 4：我们从99名受试者剩余20%的测试数据构建的组合数据集中随机抽取片段，构建阴性测试数据集，并测试识别冒名顶替者的能力。

消融实验

GTTF模型由几个不同的模块（例如，多通道1D-CNN、transformer、门控融合网络）组成，这些模块影响整体认证性能。在本节中，我们进行了一系列实验，以测量这些模块对身份验证性能的影响。在每个实验中，我们移除或更换探索的模块，并保持其余模块固定，以更好地理解特定模块的有效性。

多通道1D-CNN的有效性、基于transformer的宏特征提取模型的有效性、门控特征融合方法的有效性分别如接下来的三张图所示。

与以往研究的比较

在这个实验中，我们评估了TNNAuth在认证准确性方面的有效性。为了测试不同传感器数据对描述运动行为模式的贡献，我们使用收集的数据集构建了五个包含不同传感器数据组合的数据集，如下所示。

Ac：Ac数据集包含来自加速计的运动传感器数据。
AcGy：AcGy数据集包含来自加速度计和陀螺仪的运动传感器数据。
AcGyMa：AcGyMa数据集包含来自加速度计、陀螺仪和磁强计的运动传感器数据。
AcGyOr：AcGyOr数据集包含来自加速计、陀螺仪和方向的运动传感器数据。
AcGyMaOr：AcGyMaOr数据集包含来自加速计、陀螺仪、磁强计和定向仪的数据。

我们将TNNAuth与五个数据集上的其他五个基线进行了比较。表3描述了不同身份验证方法的结果，我们有以下观察结果。

不同操作场景下的精度

为了在更细粒度的级别上研究我们方法的鲁棒性，我们进一步研究了TNNAuth在四种典型操作场景（即躺下、坐着、站着、行走）下的连续身份验证性能，这四种操作场景大致涵盖了用户日常使用智能手机时的身体姿势。考虑到本研究的数据收集过程是在自由环境中进行的，因此在数据生成过程中很难获得用户操作场景的基本真相。为此，我们使用研究（Chevalier，2016）中提出的训练模型，根据来自加速计和陀螺仪数据的传感器数据，在使用智能手机时识别操作场景。

从表4中的结果来看，我们有以下观察结果。首先，我们发现在静态智能手机操作场景（例如，躺着、站着、坐着）中，智能手机认证性能可以更好。这可能是因为我们提出的通道塔可以准确捕获和区分不同操作场景中身体姿势引起的传感器值差异，从而提高身份认证性能。此外，静态智能手机操作场景通常发生在安静的房间中，并且不太可能受到环境噪声的影响（例如，细微的声音）。其次，由于智能手机通常由手上的用户使用，因此在动态漫游场景中的身份验证性能较低。因此，高频行走运动信号与低频触摸手势引起的运动状态变化交织在一起，使得模型难以区分。

总结

TNNAuth通过在与智能手机交互时挖掘运动动力学行为模式，提供了一种不引人注目的安全连续身份验证。通过设计双塔GTTF网络结构，TNNAuth可以更细粒度地描述用户的运动行为模式，并提供最低的认证错误率。根据对不同类型运动传感器的贡献和对不同操作场景的灵敏度，进行了实验以探索系统鲁棒性。此外，通过在真实场景中进行部署测试，TNNAuth还可以为用户提供快速、低开销的推理。