本文的标题是 Adaptive Multi-scale Detection of Acoustic Events。这是清华大学电子系何亮老师团队在 2019 年的工作。
声音事件检测(AED或SED)的目标是预测给定音频段中目标事件的时间位置。这项任务在安全监测、声学预警和其他场景中起着重要作用。然而,数据不足和声学事件来源的多样性使AED任务成为一个艰巨的问题,特别是对于普遍采用数据驱动方法的情况。本文从分析声学事件的时频域特性入手,表明不同的声学事件具有不同的时频尺度特征。受到这个分析的启发,我们提出了一种自适应多尺度检测(AdaMD)方法。通过利用沙漏神经网络 (hourglass neural network) 和门控循环单元(gated recurrent unit, GRU)模块,我们的AdaMD在不同的时间和频率分辨率下产生多个预测。随后采用自适应训练算法,将多尺度预测相结合以增强整体能力。在2017年声学场景和事件的检测和分类(DCASE 2017)任务2、DCASE 2016任务3和DCASE 2017任务3上的实验结果表明,AdaMD在事件错误率(ER)和F1分数的指标上优于已发表的最先进竞争对手。我们收集的工厂机械数据集上的验证实验也证明了AdaMD的抗噪能力,提供了实际应用的证明。