Category: 读论文 | 治部少辅

本文的标题是 Adaptive Multi-scale Detection of Acoustic Events。这是清华大学电子系何亮老师团队在 2019 年的工作。

声音事件检测（AED或SED）的目标是预测给定音频段中目标事件的时间位置。这项任务在安全监测、声学预警和其他场景中起着重要作用。然而，数据不足和声学事件来源的多样性使AED任务成为一个艰巨的问题，特别是对于普遍采用数据驱动方法的情况。本文从分析声学事件的时频域特性入手，表明不同的声学事件具有不同的时频尺度特征。受到这个分析的启发，我们提出了一种自适应多尺度检测（AdaMD）方法。通过利用沙漏神经网络 (hourglass neural network) 和门控循环单元（gated recurrent unit, GRU）模块，我们的AdaMD在不同的时间和频率分辨率下产生多个预测。随后采用自适应训练算法，将多尺度预测相结合以增强整体能力。在2017年声学场景和事件的检测和分类（DCASE 2017）任务2、DCASE 2016任务3和DCASE 2017任务3上的实验结果表明，AdaMD在事件错误率（ER）和F1分数的指标上优于已发表的最先进竞争对手。我们收集的工厂机械数据集上的验证实验也证明了AdaMD的抗噪能力，提供了实际应用的证明。

Apr 12

2023-04-12 读论文

读论文：CADTransformer

这次要读的文章是 CADTransformer: Panoptic Symbol Spotting Transformer for CAD Drawings

这篇论文介绍了一个名为CADTransformer的新框架，用于自动化CAD图纸中的全景符号识别任务。该任务需要识别和解析可数对象实例（如窗户、门、桌子等）和不可数的物品（如墙壁、栏杆等），并在CAD图纸中进行标记。该任务的主要难点在于图纸中符号的高度不规则的排序和方向。现有方法基于卷积神经网络（CNNs）和/或图神经网络（GNNs）来回归实例边界框并将预测结果转换为符号。相比之下，CADTransformer直接从CAD图形原始集合中进行标记，通过一对预测头同时优化线条级别的语义和实例符号识别。此外，该框架还通过几个可插拔的修改增强了主干网络，包括邻域感知自注意力、分层特征聚合和图形实体位置编码等。此外，该论文还提出了一种新的数据增强方法，称为随机层（Random Layer），通过CAD图纸的分层分离和重组来进行数据增强。最终，CADTransformer在最新发布的FloorPlanCAD数据集上，将先前的最先进水平从0.595提高到0.685，展示了该模型可以识别具有不规则形状和任意方向的符号。

Apr 11

2023-04-11 读论文

搜索

- Categories · 读论文-

2023