动作识别
动作识别
1.介绍
动作识别对视频帧序列中发生的活动、行为或手势进行分类。DNN通常使用具有添加的时间维度的图像分类主干。例如,基于ResNet18的预训练模型使用16帧的窗口。也可以跳过帧来延长模型对动作进行分类的时间窗口。
actionNet模型对象一次接收一个视频帧,将它们作为模型的输入进行缓冲,并以最高置信度输出类。actionNet可以从Python和C++中使用。作为使用actionNet类的示例,镜像有C++和Python的示例程序。
运行示例请确保您的终端位于aarch64/bin目录中:
cd jetson-inference/build/aarch64/bin
要在实时摄像机流或视频上运行动作识别,
# C++
$ ./actionnet /dev/video0 # V4L2 camera input, display output (default)
$ ./actionnet input.mp4 output.mp4 # video file input/output (mp4, mkv, avi, flv)
# Python
$ ./actionnet.py /dev/video0 # V4L2 camera input, display output (default)
$ ./actionnet.py input.mp4 output.mp4 # video file input/output (mp4, mkv, avi, flv)
默认情况下,模型将每隔一帧处理一次,以延长对操作进行分类的时间窗口。
以下是可用的预先训练的动作识别模型,以及用于加载它们的actionnet的相关--network参数
默认值为resnet18。这些模型是在Kinetics 700和Moments in Time数据集上训练的(类别标签列表请参见此处)。