1. 熟悉数据框架
我们假设 AVA 数据集放置在 data/ava 中,结构如下。
ava
|_ frames
| |_ [video name 0]
| | |_ [video name 0]_000001.jpg
| | |_ [video name 0]_000002.jpg
| | |_ ...
| |_ [video name 1]
| |_ [video name 1]_000001.jpg
| |_ [video name 1]_000002.jpg
| |_ ...
|_ frame_lists
| |_ train.csv
| |_ val.csv
|_ annotations
|_ [official AVA annotation files]
|_ ava_train_predicted_boxes.csv
|_ ava_val_predicted_boxes.csv
您可以通过以下步骤或通过创建数据的符号链接 来准备此结构。
2. 下载数据集
cd dataset_tools/ava
./download_videos.sh
DATA_DIR="../../data/ava/videos"
if [[ ! -d "${DATA_DIR}" ]]; then
echo "${DATA_DIR} doesn't exist. Creating it.";
mkdir -p ${
DATA_DIR}
fi
wget https://s3.amazonaws.com/ava-dataset/annotations/ava_file_names_trainval_v2.1.txt
for line in $(cat ava_file_names_trainval_v2.1.txt)
do
wget https://s3.amazonaws.com/ava-dataset/trainval/$line -P ${
DATA_DIR}
done
这些视频文件占用 157 GB 空间。

https://s3.amazonaws.com/ava-dataset/annotations/ava_file_names_trainval_v2.1.txt
https://s3.amazonaws.com/ava-dataset/annotations/ava_file_names_test_v2.1.txt
Download-AVA_Kinetics-and-AVA_Actions
这个库下面也有下载连接。

复制链接使用迅雷下载。下载时,我发现下载的内容有部分缺失,所以写个代码查询哪些视频缺失了。
import os
IN_DATA_DIR = "dataset_prepration/videos"
OUT_DATA_DIR = "dataset_prepration/videos_15min"
if not os.path.isdir(OUT_DATA_DIR)

该博客主要介绍了AVA数据集的音视频数据处理步骤,包括熟悉数据框架、下载数据集、将视频从第15分钟剪切到第30分钟、提取帧、下载注释等,还提到下载时部分文件缺失的处理,以及建议采用新版V2.2。

6746

被折叠的 条评论
为什么被折叠?



