读论文

2023

读论文: Segment Anything

这是 Meta 最近发布的一篇挺火的论文,标题就是 Segment Anything,也可以称之为 Segment Anything Model,简称 SAM。这个模型的野心很大,试图建立起一个“大一统”的分割模型,可以对任意类别的元素完成像素级分割;

May 11
读论文:一种音频事件识别方法

本文的标题是 Adaptive Multi-scale Detection of Acoustic Events。这是清华大学电子系何亮老师团队在 2019 年的工作。

声音事件检测(AED或SED)的目标是预测给定音频段中目标事件的时间位置。这项任务在安全监测、声学预警和其他场景中起着重要作用。然而,数据不足和声学事件来源的多样性使AED任务成为一个艰巨的问题,特别是对于普遍采用数据驱动方法的情况。本文从分析声学事件的时频域特性入手,表明不同的声学事件具有不同的时频尺度特征。受到这个分析的启发,我们提出了一种自适应多尺度检测(AdaMD)方法。通过利用沙漏神经网络 (hourglass neural network) 和门控循环单元(gated recurrent unit, GRU)模块,我们的AdaMD在不同的时间和频率分辨率下产生多个预测。随后采用自适应训练算法,将多尺度预测相结合以增强整体能力。在2017年声学场景和事件的检测和分类(DCASE 2017)任务2、DCASE 2016任务3和DCASE 2017任务3上的实验结果表明,AdaMD在事件错误率(ER)和F1分数的指标上优于已发表的最先进竞争对手。我们收集的工厂机械数据集上的验证实验也证明了AdaMD的抗噪能力,提供了实际应用的证明。

Apr 12
读论文:CADTransformer

这次要读的文章是 CADTransformer: Panoptic Symbol Spotting Transformer for CAD Drawings

这篇论文介绍了一个名为CADTransformer的新框架,用于自动化CAD图纸中的全景符号识别任务。该任务需要识别和解析可数对象实例(如窗户、门、桌子等)和不可数的物品(如墙壁、栏杆等),并在CAD图纸中进行标记。该任务的主要难点在于图纸中符号的高度不规则的排序和方向。现有方法基于卷积神经网络(CNNs)和/或图神经网络(GNNs)来回归实例边界框并将预测结果转换为符号。相比之下,CADTransformer直接从CAD图形原始集合中进行标记,通过一对预测头同时优化线条级别的语义和实例符号识别。此外,该框架还通过几个可插拔的修改增强了主干网络,包括邻域感知自注意力、分层特征聚合和图形实体位置编码等。此外,该论文还提出了一种新的数据增强方法,称为随机层(Random Layer),通过CAD图纸的分层分离和重组来进行数据增强。最终,CADTransformer在最新发布的FloorPlanCAD数据集上,将先前的最先进水平从0.595提高到0.685,展示了该模型可以识别具有不规则形状和任意方向的符号。

Apr 11

2022

2021

2020

车联网研究:C-V2X Rel.14 的缺陷问题

最近看车联网 C-V2X 方面的文章,很多文章都在研究 3GPP Rel.14 中提出的新的车联网通信机制。Rel.14 中提出了 Mode 3 和 Mode 4 两种模式。其中 Mode 3 的调度需要依赖于基站调度,车辆使用原本蜂窝网的 UPLINK 进行通信。Mode 4 则可以独立于基站运作,且使用 PC5 通信。当然直观来看不依赖于基站的 Mode 4 要更适合车联网一些。不过 PC5 接口可能存在的问题是很多研究者忽略了的。

Jun 08
读论文-增强学习与车联网通信资源分配

1 概述

本次要读的论文是Deep Reinforcement Learning Based Resource Allocation for V2V Communications,是 TVT 上的 Popular Articles 中的第一篇。主要讲的内容是用增强学习(或者叫强化学习)来做 V2V 通信的资源分配。目前使用强化学习来做分布式的资源分配方案是一种比较流行的做法。使用强化学习做资源分配不要求决策者掌握全局信息。

Feb 24

2019

[读论文]车联网与边缘计算 2019

还是 VTM 的文章。这次是 2019 年最新一年的文章:Mobile Edge Computing For the Internet of Vechicles: Offloading framework and job scheduling。文章主要关注了车联网场景下的边缘计算问题。这也是时下研究的一个热点方向。

看完了文章可以来写评论了。这篇文章写的就非常简略了,基本上有营养的就只是提到了边缘计算的 System Model。对于具体的机制过程缺少详细的介绍。这也是 Magazine 文章的风格吧。要了解车联网边缘面临的重要问题还是得去看 Transaction 的文章吧。

Dec 12
[读论文]自动驾驶编队与LTE D2D通信

这里选择的文章是 2017 年的文章 Better Platooning Control Toward Autonomous Driving: An LTE Device-To-Device Communications Strategy That Meets Ultralow Latency Requirements。文章来自 Vehicular Technology Magazine 杂志。这个杂志的影响因子挺高的。从标题来看,作者关注的是 LTE D2D 通信无人驾驶编队的控制问题中的应用。D2D 通信是 5G 引入的一个非常重要的特性。可以说对于物联网应用来说,D2D 能力比起带宽和延时来说更为重要。不过舆论对于这个问题的关注不多。这篇文章是一篇 Magazine,一般 Magazine 文章关注的都是研究趋势,而不是关注特别细节的技术问题。因此仔细阅读这篇文章,可以帮助我们了解车联网 + 5G 研究的一些前沿的思路,而不用陷入很多繁冗的细节问题。

看完了文章可以来做一些评论了。最初看这篇文章的目的有两方面,首先是我准备投稿 VTM,因此找来上面的文章看看其风格,而具体而言选择这篇文章,是因为这篇文章涉及的无人驾驶编队问题和 5G D2D 技术都是我比较关心的。

从文章风格来看,这篇 VTM 还是比较典型的 Magazine 文章风格:即篇幅不长,图片比较多,而几乎没有公式。文章的会有比较大段、详细的研究背景阐述。其提出的协议和机制内容不会特别复杂,也比较少和其他文章的协议进行对比。总结而言,这类文章是选择一个比较新的研究背景,在充分介绍背景问题的基础上,提出一些非常简单的机制,具有 Tutorial 的性质。

就这篇文章的内容来说,其提出的通信架构其实是非常简单的,模型也非常简单。可见,要写这类 Magazine 文章,提出什么精巧详尽的协议并不是最重要的。最重要的还是要找到非常好的研究场景。

Dec 11