动作识别

2023-07-25 admin

动作识别对视频帧序列中发生的活动、行为或手势进行分类。DNN通常使用具有添加的时间维度的图像分类主干。例如，基于ResNet18的预训练模型使用16帧的窗口。也可以跳过帧来延长模型对动作进行分类的时间窗口。

actionNet模型对象一次接收一个视频帧，将它们作为模型的输入进行缓冲，并以最高置信度输出类。actionNet可以从Python和C++中使用。作为使用actionNet类的示例，镜像有C++和Python的示例程序。

运行示例请确保您的终端位于aarch64/bin目录中：

cd jetson-inference/build/aarch64/bin

要在实时摄像机流或视频上运行动作识别，

# C++

$ ./actionnet /dev/video0 # V4L2 camera input, display output (default)

$ ./actionnet input.mp4 output.mp4 # video file input/output (mp4, mkv, avi, flv)

# Python

$ ./actionnet.py /dev/video0 # V4L2 camera input, display output (default)

$ ./actionnet.py input.mp4 output.mp4 # video file input/output (mp4, mkv, avi, flv)

默认情况下，模型将每隔一帧处理一次，以延长对操作进行分类的时间窗口。

以下是可用的预先训练的动作识别模型，以及用于加载它们的actionnet的相关--network参数

默认值为resnet18。这些模型是在Kinetics 700和Moments in Time数据集上训练的（类别标签列表请参见此处）。