SELD2022：（一）数据集收集与组织详解

原创

已于 2023-06-05 21:24:24 修改 · 2.7k 阅读

标签

#声音事件检测与定位 #声学计算 #DCASE #SELD

于 2023-06-05 21:18:47 首次发布

文章介绍了SELD挑战赛的发展，特别是2022年和2023年的变化，重点在于Sony-TAuRealisticSpatialSoundscapes2022数据集的收集和标注过程。数据集包含多声道声音记录和空间跟踪信息，用于声音事件的检测和定位。标注包括事件类别和空间轨迹，且考虑了叠音情况。文章还提及了数据集的组织形式和声音数据的记录格式。

前言：声音事件检测与定位（SELD）作为DCASE挑战赛的子任务，从2019年开始已经举办了好几届。该子任务的目标也从2022年开始由原来的在仿真数据集上设计更优声学模型，过渡到了在真实数据集上进行模型优化。相对而言，SELD2022和SELD2023子任务在数据集构建与模型评测上相对于前几届挑战赛有比较大的变化，且逐渐向真实应用场景靠近。为此，我将通过几篇系列文章来从数据集构建与组织、基线模型方法设计、可提升模型性能的途径等三个方面来介绍该项挑战赛。

一、数据集收集

Sony-TAu Realistic Spatial Soundscapes 2022 (STARSS22) 数据集是在两个不同的国家（由芬兰坦佩雷大学的音频研究小组(ARG)组织，和日本东京的索尼公司组织）使用类似的设置和注释程序收集的。

这些录音被组织成一个个录音会话，每个会话都在一个独特的房间里进行。除了少数例外，参与者的分组、声音制作道具和场景都是独特的。在每个会话中捕获多个声音事件的1-5min录音。为了在声音事件的出现、密度、运动和/或空间分布方面实现数据的良好可变性和效率，数据记录情景被松散地剧本化处理过。

在实验记录设备方面，使用高声道数球形麦克风阵列(Eigenmike em32，由mh Acoustics公司提供)捕捉声音场景记录，同时使用与球形阵列记录(Ricoh Theta V)空间对齐的360视频记录。此外，主要声源配备了空间跟踪标记，即在整个录音过程中，都会使用Optitrack Flex 13系统围绕每个场景进行跟踪。所有的场景都是基于人类演员执行某些动作，他们之间以及与场景中的物体进行互动，而动态设计的。

由于演员在场景中制造了大部分声音(但不是全部)，他们额外配备了DPA Wireless Go II麦克风，提供主要事件的近距离录音。录音会根据正在进行的场景进行启动和停止，通常持续1~5分钟。所有的麦克风和跟踪设备都会在场景开始前开始录音，然后立即停止。拍手声将启动动作，它将作为参考信号，用于em32录音、理光Theta V视频、DPA无线麦克风录音和Optitrack跟踪器数据之间的同步。

二、数据集标注

数据集的标注，包括在时间维度上识别活动的声音事件类别，并定位活动声音事件在空间中的（运动）轨迹。在同一时刻存在两个同时激活的声音事件（同类/不同类）是比较常见的，这要求声音事件检测与定位模型能够有效地识别叠音情况。

结合无线麦克风信息、光学跟踪信息和360度视频信息，该数据集的标注采用的是时空半自动标注和标注结果手动验证的形式。更具体地说，在每个录音过程中，演员都戴着带有标记的发带进行跟踪，而其他与人类相关的声源位置，如嘴、手或脚，则依据头部坐标按照人的身体几何结构推断出来。其他的标记点被安装在周围的东西上(例如吸尘器、吉他、水龙头、橱柜、门把手)。每个演员都在衣领上佩戴一个无线麦克风，可以清晰地记录该演员产生的所有声音事件。

声音事件类别标注，主要通过收听麦克风信号来标记它们的类。声音事件在空间中的位置，则由光学跟踪系统提供，并将位置信息转换为相对于麦克风阵列坐标的到达方向(DOAs)。最后，观察记录的视频数据，并在360视频平面上可视化各DOAs标记，从而验证注释。