首页 > 新品 云从科技发布首个百万级“空对空”无人机反无人机追踪基准,重塑低空安全
云从科技发布首个百万级“空对空”无人机反无人机追踪基准,重塑低空安全
近日,来自云从科技、上海交通大学、香港科技大学(广州)、中山大学、中国科学院信息工程研究所的联合研究团队发布了一项硬核工作——UAV-Anti-UAV。
这是业界首个针对“空对空”(Air-to-Air)场景的百万级多模态反无人机视觉追踪基准,并提出了基于Mamba的强力基线MambaSTS。
MambaSTS在UAV-Anti-UAV基准的全部5个指标上均取得最佳的性能,这是云从科技在多模态大模型方面的又一次技术突破。
面对双重动态干扰,现有的SOTA表现如何?让我们一探究竟!
从“上帝视角”到“空中缠斗”
在低空经济蓬勃发展的今天,无人机(UAV)的安全管控已成为全球关注的焦点。反无人机(Anti-UAV)技术应运而生。
然而,回顾现有的视觉追踪研究,我们发现了一个明显的任务盲区(Gap):
-传统UAVTracking(空对地):无人机处于“上帝视角”拍摄地面的车辆或行人,虽然相机在动,但目标相对地面运动平稳。
-现有Anti-UAV(地对空):地面固定的云台/相机仰拍空中的无人机,观察者几乎静止,缺乏运动带来的剧烈抖动
如果是一架无人机在高速飞行中,去追踪另一架试图逃逸的敌对无人机呢?
这种场景就像是电影里的空中缠斗(Dogfight)
这就是本文提出的UAV-Anti-UAV(空对空)任务。
这是一个双向动态系统:追踪者和目标都在低空高速运动。
这带来了前所未有的挑战:严重的双重动态干扰(Dual-dynamicdisturbances)、极速的尺度变化、强烈的运动模糊以及频繁的视角切换。
数据集:首个百万级、多模态、全场景基准
为了攻克这一难题,研究团队构建了首个大规模基准数据集UAV-Anti-UAVBenchmark。
这不只是一个数据集,更是一个低空安全的标准测试床。
数据集由什么构成?
-规模庞大:包含1,810个视频序列,总帧数高达105万帧,总时长近9.85小时。
-机型丰富:涵盖5大类目标,包括固定翼、多旋翼、垂直起降(VTOL)、第一人称视角(FPV)无人机和无人直升机。
-多模态标注:不仅有精细的边界框(BoundingBox),还提供了自然语言描述(LanguagePrompts),支持视觉-语言追踪研究。
-细粒度属性:标注了15种极具挑战的属性,如快速运动(FM)、光照变化(IV)、相似干扰物(SD)等。
到底有多难?
相比于现有的数据集,UAV-Anti-UAV是“地狱难度”。
-相对速度:该数据集的平均相对速度高达0.79,远超现有的UAV123(0.46)和Anti-UAV(0.72)等数据集。
-目标尺寸:包含大量微小目标(SmallObject),且由于距离变化,尺度变化(ScaleVariation)极其剧烈。
方法:MambaSTS——时空语义的完美融合
面对如此高难度的任务,传统的Transformer由于计算复杂度高,难以处理超长序列;而普通的CNN又缺乏全局感知能力。
为此,作者提出了新基线:MambaSTS。
这是一个集成了空间(Spatial)、时间(Temporal)、语义(Semantic)学习的统一框架。其核心逻辑在于:利用Mamba(状态空间模型)的线性复杂度优势来建立视频级的长期上下文。
核心创新点解读:
1.混合架构(HybridArchitecture):
视觉端:利用分层视觉Transformer(HiViT)提取多尺度特征,捕捉空间细节。 语言端:利用预训练的LanguageMamba提取语义特征,引入文本先验,帮助模型在模糊中“认出”目标。
2.时间Token传播(TemporalTokenPropagation):
这是本文的“杀手锏”。模型维护一个时间Token,像接力棒一样在帧与帧之间传递。
利用Mamba的选择性扫描机制,将历史帧中目标的轨迹演变和外观变化压缩进这个Token中。
这仿佛让模型拥有了“视频记忆”,即便目标被遮挡或模糊,也能基于记忆快速找回。
3.单向扫描机制(UnidirectionalScanning):
不同于处理静态图像的VisionMamba(Vim)使用双向扫描,MambaSTS针对视频追踪的因果特性(即当前状态只取决于过去),改进为单向扫描,更符合实时追踪逻辑。
实验:50个追踪器大乱斗,谁是王者?
作者对50个现代深度追踪算法进行了全面评测,涵盖了CNN、Transformer、Mamba以及多模态算法(如OSTrack,MixFormer,MambaTrack,CiteTracker等)。
总体战况
-MambaSTS遥遥领先:在所有指标上均取得第一,AUC达到0.437,mACC达到0.443,比第二名高出6.6个百分点。
-任务难度极大:即便是SOTA的MambaSTS,成功率也仅为40%出头,而所有追踪器的平均AUC仅为0.30左右。这说明UAV-Anti-UAV领域仍是一片蓝海,挑战巨大!
属性分析:哪些场景最难搞?
通过对15个属性的细分测试,研究发现:
-MambaSTS的强项:在快速运动(FM)、运动模糊(MB)、小物体(SO)等属性上表现稳健,得益于其强大的时序建模能力。
-共同的弱点:在光照变化(IV)和全遮挡(FO)场景下,所有模型(包括MambaSTS)都表现挣扎,成功率低于0.15。这指明了未来的优化方向。
泛化能力验证
除了在自家数据集上表现出色,MambaSTS在传统的UAVTracking数据集(如UAV123,VisDrone)和地面Anti-UAV数据集上,同样取得了SOTA性能。
这证明了该架构并非“过拟合”,而是真正掌握了时空特征的精髓。
总结与展望
UAV-Anti-UAV任务的提出,标志着低空安全研究向实战化迈出了重要一步。
-新任务:填补了空对空动态追踪的空白。
-新数据:百万级规模,多模态标注,为社区提供了标准测试床。
-新基线:MambaSTS证明了状态空间模型在长序列动态追踪中的巨大潜力。
虽然MambaSTS表现出色,但距离解决全天候、全自主的空中拦截仍有距离(例如缺乏红外/LiDAR数据,且目前为离线训练)。
责任编辑:赵智华
文章来源:http://www.anfangnews.com/2025/1218/13807.shtml
