行为识别综述
目前行为识别领域的最佳模型还没有一个统一的标准。不同的数据集和任务需要不同的模型来进行处理,而且不同的模型都有其优缺点。以下列出一些在行为识别领域中常用的模型:
二维卷积神经网络(2D CNN):在提取空间特征方面效果较好,可以通过堆叠多层卷积层和池化层来提取图像的局部和全局特征。
三维卷积神经网络(3D CNN):在提取时序特征方面效果较好,可以同时提取视频的时空特征。
长短时记忆网络(LSTM):能够较好地处理时间序列数据,具有较强的时序建模能力。
时空注意力网络(ST-ResNet):能够同时考虑时间和空间信息,并利用注意力机制来加强模型的建模能力。
双流卷积神经网络(Two-Stream CNN):将空间和时间信息分别输入两个独立的卷积神经网络中,然后将两个网络的结果进行结合,能够有效地提高行为识别的精度。
mmaction2综述
mmaction2中行为识别效果最好的方法因任务而异,不同的任务可能需要不同的模型。但是,一些经典的模型在多个任务中都取得了不错的效果,比如:
SlowFast:一种两路网络结构,可以同时捕捉动作的快速和慢速部分,适用于需要考虑动作速度的任务,如Kinetics-400。
TSM:利用时间维度上的多尺度特征来提高模型的表现,适用于需要考虑动作时间尺度的任务,如Something-Something V1。
I3D:一种基于2D卷积和3D卷积的混合模型,适用于各种类型的任务,如Kinetics-400、UCF101、HMDB51等。
当然,这些模型的表现也会受到数据集、超参数等因素的影响,需要在具体任务中进行实验和调整。
mmaction2读写识别
要识别reading和writing这样的细粒度动作,可以使用基于二分类的模型,比如TSM。TSM模型可以捕捉到时间维度上的多尺度特征,适用于需要考虑动作时间尺度的任务。在mmaction2中,可以通过修改配置文件中的backbone来选择TSM模型,例如在TSM模型中,可以选择使用ResNet50或ResNet101作为backbone。此外,还需要注意数据集的选择,建议使用专门针对细粒度动作识别的数据集,如FineGym或Gym88等。
mmaction2站立识别
要识别sit和stand这样的基础动作,可以使用一些比较简单的模型,如C3D、I3D等。这些模型已经经过了大量的训练和实践,已经在各种行为识别任务中获得了良好的效果。在mmaction2中,可以通过修改配置文件中的backbone来选择相应的模型,例如在I3D模型中,可以选择使用Inception-v1或BN-Inception作为backbone。此外,还需要注意数据集的选择,建议使用专门针对基础动作识别的数据集,如NTU RGB+D、Kinetics等。