On training datasets for machine learning-based visual relative localization of micro-scale UAVs
关于基于机器学习的微型无人机视觉相对定位的训练数据集
0.论文摘要
摘要——通过利用我们相对微型无人机定位传感器UVDAR,我们生成了一个自动标注的数据集MIDGARD,邀请社区使用该数据集来训练和测试其机器学习系统,以实现微型无人机(MAV)对其他MAV的检测和定位。此外,我们提供我们的系统作为一种快速生成定制标注数据集的机制,专门针对特定应用的需求。最近的文献中,机器学习方法在自动化和机器人领域的应用非常丰富。其中,视觉目标检测与定位是这些方法的一个子集,使用诸如卷积神经网络等手段,如今能够以以前难以想象的精度和可靠性检测和分类目标。然而,大多数这些应用依赖于精心构建的标注摄像头视频训练数据集。这些数据集必须包含目标对象,并且环境应与检测器预期运行的环境相似。值得注意的是,目标的位置必须在标注中提供。对于非实验室环境,构建此类数据集需要大量的人工标注时间,尤其是在微型无人机上使用时。在本文中,我们为社区提供了一种实用的替代方案。
1.引言
日益增长的便携处理资源使得在轻型无人机(MAV)上实时运行基于机器学习的图像处理成为可能。这一发展为无标记无人机之间的视觉相对定位迈出了关键一步。这种定位主要适用于两种应用场景:首先,用于在集群、编队或其他友好单位操作中检测协作无人机,而无需为它们配备明确的标记或发射器。
第二个更为重要的应用是检测无法标记的非合作单位。这些应用包括但不限于:报告或消除侵入保护区域的无人机,避免在存在无关活动无人机的区域发生碰撞,或与观察无人机遇到的、愿意建立合作的外来单位建立合作关系。
基于这些原因,无标记检测和附近飞行航空器的相对定位已成为近年来机器人学界关注的热点[1]–[8]。在一般检测问题中,基于深度学习的检测器在检测精度和鲁棒性方面已超越传统检测方法[9]–[11]。然而,目前很少有研究者致力于将深度学习方法应用于微型飞行器(MAV)的检测和相对定位。由于成本低廉且比大型无人机更安全,MAV可以大规模使用。使用任何基于深度学习的方法来训练分类器或回归器,都需要一个大规模、多样化且标注良好的数据集。这些数据集通常需要人工精心标注,这是一项艰巨的任务。在本文中,我们将探讨深度学习未更广泛应用于MAV检测和相对定位的一个重要原因,即缺乏合适的数据集以及缺乏一种简单且自动生成此类数据集的方法。
除了基于机器学习(ML)的视觉定位外,相对定位还可以通过实时动态(RTK)全球导航卫星系统(GNSS)[12]或运动捕捉(mo-cap)系统[13]获取的绝对位置来获得。我们认为这种方法完全不适合现场部署,因为这两种系统都需要长时间的设置,并且操作员需要直接进入操作空间,这限制了操作空间的大小。其他方法包括测量无线电信号的相对强度,如[14]所述,然而这种方法需要多个观察者或特定的运动[15]来获取完整的相对位置。此外,这些系统容易受到干扰。
另一项相关技术是激光雷达(LIDAR),它通过以角度分布的方式捕捉周围表面的采样点,表示为点云。这些点是通过快速旋转激光测距传感器或多个传感器,并将其测量结果与已知的当前方向结合而获得的。由于微型飞行器(MAV)的尺寸较小且结构较薄,与激光雷达射线的典型角密度相比,使用此类系统进行相对定位存在困难,同时还需要将代表MAV的小簇点与噪声和背景区分开来。更适合完全机载操作的方法是基于视觉的。如果具备基线足够宽的立体视觉系统[1],则可以根据MAV与周围环境的距离进行定位。然而,这些系统价格昂贵、体积庞大且需要大量的处理能力。一种更简单的方法是为MAV标记易于检测的被动视觉标记,如[16]、[17]所述。这些标记成本低廉且易于制造,但对于飞行MAV之间的典型距离,它们需要不切实际地增大尺寸,并且容易受到不利光照条件的影响,特别是明亮的户外阳光和阴影。
主动标记也可以使用,如[18]中所述,或在我们专门为大型紧凑型协作微型飞行器(MAV)群设计的系统UltraViolet Direction And Ranging(UVDAR)中使用。在该项目中,UVDAR用于引导机器学习系统(见下文)。使用人工标记的明显缺点是,这些方法不适合检测未标记的单元,此外它们还需要额外的设备来应用。这些缺点在机器学习中完全不存在。
我们认为,必须缓解机器学习视觉的主要缺点——即构建复杂数据集的需求。
尽管已有多个用于机器学习视觉的基准数据集[19]–[21],但这些数据集主要旨在评估给定系统的各种性能,据我们所知,目前尚未发布专门用于实现微型飞行器(MAV)在现实世界中定位其他MAV单元的数据集。特别是,目前尚无自动生成此类数据集的系统。针对这一任务的自动化方法可以显著扩展基于机器学习的视觉技术的可用性,其中必须使用某种目标相对位置的真实数据源来指示其在图像中的位置。
对于微型飞行器(MAVs)而言,获取可靠且精确的方位测量数据非常困难,而这些数据对于将其相对位置正确投影到机载摄像头的图像空间中至关重要。主要挑战在于磁力传感器的滞后特性及其对环境中金属的敏感性,以及MAVs的尺寸不足以通过两个绝对定位的机身点使用全球导航卫星系统(GNSS)进行方位测量。由于我们的任务主要需要良好的相对方位估计,其他基于视觉的系统似乎是最佳的地面真值来源。
然而,大型被动视觉标记会显著改变微型飞行器(MAV)的外观,因此不适合用于训练检测无标记单元的机器学习系统,因为系统可能会倾向于专门检测这些标记,而这些标记在最终部署中并不预期出现。为了解决这一挑战,我们开发了一种创新系统,能够自动生成用于训练机器学习系统的标注数据集,这些系统可以部署用于从其他MAV中检测MAV。该系统包括一个安装在观察MAV上的彩色相机,作为机器学习训练的图像来源,以及我们专门用于相互相对定位的传感器UVDAR(见第二节)、一台机载计算机和安装在一个或多个目标MAV上的闪烁紫外线LED标记。由于这些标记尺寸小且主要辐射在可见光波长之外,它们对目标视觉外观的影响极小(见图2、图3)。这使得训练后的机器学习系统能够随后应用于检测不携带这些标记的类似MAV。这些元素使得在相机图像中轻松快速地检测、定位并随后标注目标MAV所在区域成为可能。
图2:实验平台视图,左侧为被动视觉标记[22],中间左侧为主动紫外线标记的开启和关闭状态。在没有被动标记的情况下,其与任意微型飞行器(MAV)的相似度更高,使其更适合用于训练机器学习算法。
图3:我们UVDAR系统中使用的紫外相机视角示例,与彩色相机同时拍摄的视角进行对比。请注意标记在紫外光下的相对亮度,而在彩色图像中它们是不可见的。基于此类数据集训练的机器学习系统将能够检测到不带标记的微型飞行器。
该系统的独特之处在于,它在规避诸如易受干扰、阻塞、拥塞等问题的通信需求——或任何绝对定位源(如RTK GNSS或动作捕捉系统)的同时,实现了上述功能。我们的系统通过将一个基于摄像头的传感器的相对测量结果应用于另一个传感器,从而利用它们已知的相互方位和距离,以及波长范围的差异,解决了这些限制。此外,所提出的系统不依赖于部署区域内的任何现有基础设施(如RTK GNSS中的基站和卫星可见性,或动作捕捉系统中的昂贵且预先校准的摄像头设置),从而能够在新环境中快速、轻松地创建标注数据集。此外,目标仅需要小型LED标记,而不是RTK系统的大型天线,这使得该方法甚至适用于非常小的微型飞行器(MAV)。在此,我们为社区提供了一个大型开放式数据集——在真实世界部署中自动生成的微型飞行器识别数据集(MIDGARD),以支持各种机器学习系统的训练和测试。该数据集包含在广泛环境和背景下的连续彩色摄像头拍摄的微型飞行器图像集,以及以包含相关微型飞行器的边界框形式提供的标注,以及它们的近似距离。
2.UADAR
为了对周围的多旋翼飞行器(MAV)进行相对定位,并将其作为机器学习数据集中图片标注的基准真值,我们提出应用名为UVDAR的系统,该系统在文献[23]–[25]中有详细描述。该系统基于紫外线(UV)辐射范围内的计算机视觉技术。这一方法利用了阳光在紫外线范围内显著弱于可见光谱的观察结果,通过简单的光学滤波去除图像中的大部分其他数据,从而在任意室内或室外环境中轻松检测到主动紫外线标记。UVDAR将附着在协作多旋翼飞行器上的主动UV LED标记视为小亮点。如果看到属于同一架飞行器的多个亮点,则通过几何计算来估计飞行器与传感器之间的距离。
由于标记物在视觉上可能完全相同,我们通过设定它们以特定频率闪烁来丰富其信息内容,并采用了一种专用算法来检索这些频率作为标识符。此外,即使在标记物处于闪烁的关闭阶段(此时它们通常不可见),我们也能检索到它们的图像位置。通过这些信息,我们既可以区分单个微型飞行器(如本文所述),也可以通过为微型飞行器的不同侧面分配不同频率来获取它们的相对方位[25]。
UVDAR系统能够提供关于邻近目标的精确方位信息,并估算它们与传感器之间的距离。该传感器具有180°的视场角,方位误差约为0.3°,检测范围约为15米,目标距离的典型误差为10-20%。文献[23]中详细提供了UVDAR系统在相对位置估计精度方面的实验和分析评估。由于此处的具体目标是为安装在携带UVDAR的观察者MAV机身上的另一台摄像头的图像进行标注,因此方位信息的精度更为重要。这是因为摄像头本质上是一种将周围点的方位转换为输出图像中像素位置的设备。
目标物体上装有UV LED,通常安装在它们的端点,例如手臂的末端。这些标记的输出功率应根据与观察者的最大预期距离进行设置。在我们的配置中,我们使用峰值波长为395 nm、具有朗伯辐射模式的LED。我们以170 mA的电流驱动这些LED,产生230 mW的辐射功率。由于这些标记主要在近紫外波长范围内辐射,超出了可见光谱范围,因此它们对彩色相机图像的影响有限,彩色相机通常通过在其成像元件上应用微型带通滤光片来分离颜色通道。如前所述,这些主动标记需要以指定的信号闪烁。这样做有三个原因:1)信号用于识别特定标记,从而能够区分多个目标。2)它使系统对太阳的镜面反射(例如来自金属角落的反射)更具鲁棒性,因为这些反射不会像预期的那样闪烁。3)特别是对于本项目,闪烁减少了标记对目标外观的影响。根据彩色相机的曝光速率,这要么是由于标记看起来变暗,要么是因为标记在闪烁的关闭阶段而无法在帧中看到。
3.数据集生成器
用于生成MIDGARD数据集的空中平台也作为其他用户部署所提出系统所需设备的示例。涉及两种类型的MAV——目标和观察者。目标是作为模板的单位,机器学习算法将训练以检测这些目标。观察者是配备了我们特殊视觉套件的MAV,这些套件生成图像流并标注目标在这些图像中的位置。
观测单元配备了两个安装在同一支架上的摄像头,第一个是用于相对位置测量的UVDAR传感器(参见第二部分),第二个是用于机器学习训练的图像生成摄像头。任何经过适当校准的摄像头都可以使用,理想情况下应与用于基于机器学习的微型飞行器检测的摄像头类型相同。
在我们的数据集中,我们使用了配备全局快门的mvBlueFOX MLC200wC相机传感器,并根据数据集的不同部分使用了不同的镜头。为了校准这些相机,我们使用了OCamCalib [26]全向校准套件,因为该工具箱能够很好地处理图像边缘附近的镜头畸变,从而确保在整个彩色相机图像平面上进行准确的标注。两个传感器沿水平面相距8厘米安装,且垂直于它们大致平行的光轴。由于这种紧凑的安装方式,它们的相互相对姿态仅会通过其方向分量影响测量位置在图像中的投影。
UVDAR传感器数据的处理、彩色摄像头流的存储以及飞行基本计算的执行,均由机载的Intel NUC计算机完成。该系统的简短视频演示可在mrs.felk.cvut.cz/midgard上找到。
A.数据获取
UV相机设置为至少以70帧每秒的速度捕捉画面,以便能够提取高达30赫兹的闪烁信号,低于奈奎斯特频率。原始输入图像不需要以如此高的帧率存储,因为执行如此快速的存储访问操作往往会显著降低检测系统的实际帧率。相反,每帧中仅存储检测到的活动标记位置。
彩色摄像头的默认拍摄频率为3赫兹,以避免生成大量高度相似的帧,但可以根据需要提高频率(例如,用于需要帧间跟踪的应用)。后续处理步骤在观察器上实时进行,因此飞行结束后原始数据集可立即获取。如果观察器不具备足够的计算资源,或者操作员希望调整后续处理步骤的设置,这些步骤也可以在部署后离线完成,所有处理步骤的输出都会被存储。
B.检测与定位
如文献[25]所述,检测到的目标微型飞行器(MAV)上的标记可用于估计其相对姿态。在所提出的系统中,需要设计一种新的位置估计方法。由于生成数据集视图的相机未同步,甚至可能相对于UVDAR传感器存在延迟,因此必须使用一种跟踪机制,以便在生成图像时获取相对姿态估计。线性卡尔曼滤波器被用作该系统的核心机制,它还能够增强系统在目标因遮挡或离开传感器视野而暂时丢失时的鲁棒性。为了输入卡尔曼滤波器,相对测量值必须包含协方差,以近似测量噪声或给定测量的可靠性(图4b)。UVDAR测量的精度主要取决于UV相机的分辨率、镜头视野与目标距离之间的比例,这是由于透视缩短效应的影响。
由于标记物在图像中的位置与携带它们的物体的三维姿态之间存在高度非线性依赖关系,以符合卡尔曼滤波器的多元高斯分布形式表示的测量精度难以通过解析方式表达。无迹变换(Unscented Transform, UT)[27]被用于将UVDAR图像中标记物检测的已知精度转换为微型飞行器(MAV)自身三维姿态的近似协方差。该变换的输入是一个向量,包含属于给定MAV的标记物的图像位置、在某些检测情况下表达模糊性的变量的均值,以及所有这些变量的误差协方差矩阵。表达模糊性的值被设置为它们的预期均值,例如,如果仅看到两个标记物,目标MAV偏离垂直对齐的旋转角度。因此,输入协方差矩阵表达了由像素大小和图像处理引起的图像位置误差,以及已知模糊性的近似范围。例如,观察六旋翼飞行器上两个和三个相邻标记物的输入向量,如[25]中所述,分别为
在此,xi、yi和fi分别表示每个标记点i的测量图像坐标及其闪烁频率的测量值,以考虑与已知模板匹配错误的可能性。符号δ表示两个观测到的标记点与它们连接线垂直于观察者视线时的姿态之间的角度差,而α表示在观察具有六个标记点但仅有两个不同标记ID的MAV时,两个相同ID标记点的方向模糊性。元素φ表示目标相对于观察者视线的未知倾斜量。在三标记点观测中,符号β用于解决观测到的ID序列与已知标记布局不匹配的情况,通过引入一个较大的附加方向分量来处理此类情况。每种情况下进入UT的输入测量协方差为:
其中,diag(x) 表示一个对角矩阵,其主对角线上的元素为 x,ex 是图像位置的平均误差(以像素为单位),ep 是闪烁周期测量的平均误差,其余变量表示相关模糊度的平均范围。我们基于几何假设设定了这些值,并通过经验将其优化为以下值:ex = 2,ep = 0.2/fc,eα = π/20,eδ = π/3,eφ = π/18,eβ = 2π/3,其中 fc 是当前 UV 相机的帧率。
输入测量向量x2和x3,结合相应的输入协方差,通过UT(Unscented Transform)生成一组代表向量值分布的sigma点。这些sigma点分别转换为相对目标姿态估计,如[25]中详细描述,其中一些受到非零模糊元素的影响。这些输出姿态被组合成一个加权平均值,其分布用于近似最终姿态估计的误差协方差。对于其他标记布局,我们采用等效的方法进行处理。需要注意的是,测量接近两个预期值的闪烁频率会增加误差协方差,因为在某些sigma点中,观察到的标记在3D姿态计算中可能与不同的身体标记匹配。输出协方差在从检测器到目标的方向上通常显著拉长,显示出视觉定位的典型特性,即距离估计的精度显著低于观察对象的方位。由于图像中仅检测到两个标记比检测到三个标记包含更多的模糊性,前者的协方差更大。
如果仅检测到单个标记(由于目标被遮挡或距离较远),则无法获取距离信息,除了已知的检测范围提供了距离上限。因此,标记的相对位置可以位于其对应的光学线上的任何位置,直至最大检测距离。标记位于目标的极端点上,从观察者的角度来看,当前检测到的标记可能位于目标的轮廓上。因此,可以合理地预期目标MAV的中心位于一个圆柱体内,该圆柱体的纵轴指向检测到的标记,半径等于标记与目标MAV中心的最大距离。为了在卡尔曼滤波中使用,该圆柱体子空间被近似为一个拉长的高斯分布。虽然这种特定情况下的测量信息不如多个标记时丰富,但如果卡尔曼滤波以更好的先验估计启动并带有距离估计,它仍然是有用的。在这种情况下,与先前方位的差异可以保持相对精确的跟踪。如果不应用这一新信息,滤波器的过程噪声将使状态协方差扩展到超出有用范围,此外,均值也不会跟随目标姿态的变化。此外,对于图像注释的目的,缺少的距离信息是可以接受的,因为UVDAR传感器和彩色相机——两者本质上都是方位传感器——彼此足够接近,可以重新投影协方差。
C.数据后处理
目标微型飞行器(MAV)在UVDAR相机坐标系中的相对姿态估计被输入到线性卡尔曼滤波器中,因为这些估计是以笛卡尔三维坐标表示的(图4c)。由于UVDAR相机与彩色相机之间的相对姿态是固定且已知的,从外部坐标系到相机坐标系的转换将抵消绝对观测者姿态估计中不可避免的误差影响。这是可能的,因为从UVDAR坐标系到外部坐标系的转换以及从外部坐标系到彩色相机坐标系的转换都受到相同误差的影响,但方向相反。当新的UVDAR测量值可用时,应用卡尔曼滤波器的校正步骤。使用最新的滤波器状态预测测量时刻的滤波器状态,然后利用测量值对其进行校正。为了获得当前时刻的状态估计,对校正后的状态应用另一个预测步骤。这种方法能够避免由于相机延迟导致的错误估计。
所提出的系统结合摄像头画面提供的注释形式为包围目标微型飞行器(MAV)的边界框,以及目标距离的估计范围。将相对姿态估计转换为这些边界框的最后一步是重投影,这是通过将当前相对位置估计转换为彩色相机坐标系(图4c),并应用UT(不确定性变换)来获得位置估计在彩色相机图像中的投影(图4d),包括协方差。然后,通过选择一个边界概率水平(例如2σ),将2D协方差转换为旋转椭圆。由于计算机视觉机器学习系统通常[9]–[11]使用矩形区域,因此从椭圆中导出轴对齐的矩形边界框,并进一步扩展。
图4:数据集生成的连续阶段——自动姿态估计与重投影
在创建MIDGARD的过程中,超过85%包含在UVDAR系统范围内的MAV图像被自动标记,精度足以纳入最终数据集。这一结果代表了所提出系统的能力,因为所有记录场景中的数值都相似。未检测到无人机的图片(大多数错误标记的图片)被自动删除,剩余的异常值则通过一个GUI软件进行移除,该软件允许用户丢弃他们认为不适合特定应用的标注视图范围。
4.MIDGARD数据集
A.平台
用于生成MIDGARD数据集的实验平台基于DJI F550框架,配备了Pixhawk飞行控制器和Intel NUC计算机。理论上,对于我们的数据集生成方法,计算机仅用于观察单元,而目标和观察者甚至可以在没有其他选择的情况下手动操控。对于与上述模型在视觉上高度不同的微型飞行器(MAV),需要重新拍摄素材。由于MIDGARD是一个开放的数据集,未来将提供其他模型的素材。
B.环境
提供的数据集是在室内和室外环境中收集的。数据集的室外部分是在多个地点获取的,包括森林、草地、田野和城市设施。这些展示了户外可能遇到的各种背景,如树木、田野以及房屋和重复的人造结构(见表I)。室内拍摄内容则包括复杂的室内背景和光照条件。观察者和目标微型飞行器(MAV)的轨迹设计使得生成的数据集包含一系列具有挑战性的场景,除了在给定区域内不同距离下观察者视角下MAV与各种背景的正常视图外,还包括目标MAV离开观察者视野导致的暂时视线丢失,以及两个目标MAV在拍摄画面中相互遮挡的情况。
C.主要定位示例
- 乡村环境:在乡村环境中收集的镜头涉及对两个目标微型飞行器(MAV)的观察,这些目标出现在各种背景中——田野、山丘、落叶树木、远处的村庄和针叶林。值得注意的是,在这段镜头中,两个目标在视野中相互遮挡(图5)。这是有意为之,通过应用具有预定义轨迹的模型预测控制(MPC)跟踪器来确保这一点。
- 半城市景观:这段镜头包括宽阔的建筑物、远处的山丘、车辆和有顶棚的看台等背景。镜头中包含一个作为目标的微型飞行器。
- 古典室内环境:目前包含我们部门门厅的镜头,门厅内有装饰华丽的楼梯、拱形窗户和灰泥天花板,以及我们DRONUMENT项目1中正在修复的历史教堂的镜头。
这些代表了在历史建筑内外可能遇到的复杂背景。两段视频中都有一个MAV作为目标。值得注意的是,由于门厅内光线较暗,彩色相机的曝光水平足够高,使得标记可见,这一问题在教堂视频中通过在彩色相机上应用低通光学滤镜得以解决。
-
现代室内场景:这段镜头展示了一个现代、实用的建筑背景,代表了现代建筑内外常见的风格,其中一架MAV作为目标。第一个场景是位于捷克技术大学机械工程学院一栋建筑原庭院内建造的过渡性房间。房间采用玻璃墙,由钢梁框架支撑,入口处为裸露的混凝土。第二个地点是一个工业仓库,我们在此拍摄了纯内部镜头,以及从内部过渡到外部的镜头,展示了光线急剧变化的效果。
-
未来扩展:我们的团队正积极参与涉及工业和历史建筑内部飞行的项目。这将用于逐步扩展MIDGARD数据集,通过所提出的系统在这些环境中飞行获取的影像。
5.结论
在本文中,我们提出了一种新方法,用于快速、自动生成数据集,以训练用于多旋翼飞行器(MAV)之间视觉相对定位的机器学习方法。该方法利用了我们专门开发的系统,该系统结合了用于相对定位的UVDAR系统,并能够通过将所需的MAV模型部署到任意操作环境中,动态开发专门为机器学习应用需求定制的训练数据集。处理所使用的软件基于机器人操作系统(ROS),并在线提供。根据需求,我们还可以提供UVDAR系统的硬件。
作为额外的贡献,我们提供了一个名为MIDGARD的大型数据集,该数据集是使用所提出的方法生成的。我们相信,该数据集将促进机器学习方法的发展,以推动多机器人飞行系统在实际场景中的部署,以及用于与其他微型飞行器(MAV)交互的MAV系统的开发。该标注数据集包含在不同环境中拍摄的带有MAV的彩色相机图像,并提供了它们的位置和边界框。该数据集以及所提出系统的简要视频演示可在mrs.felk.cvut.cz/midgard上获取。我们非常期待与能够使用我们提出的系统的同行展开合作,这可能会获得其他不寻常的MAV或通常无法进入的飞行地点的影像。
6.引用文献
- [1] M. Vrba, D. Heˇrt, and M. Saska, “Onboard marker-less detection and localization of non-cooperating drones for their safe interception by an autonomous aerial system,” IEEE Robotics and Automation Letters, vol. 4, no. 4, pp. 3402–3409, Oct 2019.
- [2] M. Vrba and M. Saska, “Onboard marker-less MAV detection and localization using neural networks,” IEEE Robotics and Automation Letters, 2020, in review.
- [3] J. Li, D. H. Ye et al., “Multi-target detection and tracking from a single camera in Unmanned Aerial Vehicles (UAVs),” in IROS, 2016.
- [4] A. Rozantsev, V. Lepetit, and P. Fua, “Flying objects detection from a single moving camera,” in CVPR, 2015.
- [5] K. R. Sapkota, S. Roelofsen et al., “Vision-based Unmanned Aerial Vehicle detection and tracking for sense and avoid systems,” in IROS, 2016.
- [6] R. Opromolla, G. Fasano, and D. Accardo, “A vision-based approach to UAV detection and tracking in cooperative applications,” Sensors, vol. 18, no. 10, 2018.
- [7] M. Saqib, S. D. Khan, N. Sharma, and M. Blumenstein, “A study on detecting drones using deep convolutional neural networks,” in IEEE AVSS, 2017.
- [8] A. Schumann, L. Sommer et al., “Deep cross-domain flying object classification for robust UAV detection,” in IEEE AVSS, 2017.
- [9] J. Redmon and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” in CVPR, 2017.
- [10] W. Liu, D. Anguelov et al., “SSD: single shot multibox detector,” CoRR, vol. abs/1512.02325, 2015.
- [11] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards real-time object detection with region proposal networks,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 6, pp. 1137–1149, June 2017.
- [12] Q. Ali, N. Gageik, and S. Montenegro, “A review on distributed control of cooperating mini uavs,” International Journal of Artificial Intelligence & Applications, vol. 5, pp. 1–13, 07 2014.
- [13] D. A. Mercado, R. Castro, and R. Lozano, “Quadrotors flight formation control using a leader-follower approach,” in ECC, July 2013.
- [14] T. Chen, Q. Gao, and M. Guo, “An improved multiple uavs cooperative flight algorithm based on leader follower strategy,” in CCDSC, 2018.
- [15] S. van der Helm, M. Coppola, K. N. McGuire, and G. C. H. E. de Croon, “On-board range-based relative localization for micro air vehicles in indoor leader–follower flight,” Autonomous Robots, 2019.
- [16] M. Saska, T. Ba ́ ˇca et al., “System for deployment of groups of unmanned micro aerial vehicles in gps-denied environments using onboard visual relative localization,” Autonomous Robots, vol. 41, no. 4, pp. 919–944, 2017.
- [17] M. Saska, “Mav-swarms: Unmanned aerial vehicles stabilized along a given path using onboard relative localization,” in ICUAS, 2015.
- [18] A. Censi, J. Strubel et al., “Low-latency localization by active led markers tracking using a dynamic vision sensor,” in IROS, 2013.
- [19] A. G. et al., “Are we ready for autonomous driving? the kitti vision benchmark suite,” in CVPR, 2012, pp. 3354–3361.
- [20] J. Deng, W. Dong et al., “Imagenet: A large-scale hierarchical image database,” in CVPR, 2009, pp. 248–255.
- [21] P. Zhu, L. Wen et al., “Vision meets drones: A challenge,” CoRR, vol. abs/1804.07437, 2018.
- [22] T. Krajnı ́k, M. Nitsche et al., “A practical multirobot localization system,” Journal of Intelligent & Robotic Systems, vol. 76, no. 3-4, pp. 539–562, 2014.
- [23] V. Walter, M. Saska, and A. Franchi, “Fast mutual relative localization of uavs using ultraviolet led markers,” in ICUAS, 2018.
- [24] V. Walter, N.Staub, M. Saska, and A. Franchi, “Mutual localization of uavs based on blinking ultraviolet markers and 3d time-position hough transform,” in (CASE 2018), 2018.
- [25] V. Walter, N. Staub, A. Franchi, and M. Saska, “Uvdar system for visual relative localization with application to leader–follower formations of multirotor uavs,” IEEE Robotics and Automation Letters, vol. 4, no. 3, pp. 2637–2644, July 2019.
- [26] D. Scaramuzza, A. Martinelli, and R. Siegwart, “A flexible technique for accurate omnidirectional camera calibration and structure from motion,” in ICVS, 2006.
- [27] S. J. Julier and J. K. Uhlmann, “Unscented filtering and nonlinear estimation,” IEEE, vol. 92, no. 3, pp. 401–422, March 2004.