标注工具 VoTT 详细教程

文章目录

- 1. 概述
- - 1.1. VoTT 的功能
  - 1.2. 下载与安装
  - 1.3. 使用感想
- 2. 入门基本使用
- - 2.1. 准备工作
  - 2.2. 新建项目
  - 2.3. 标注bbox
  - 2.4. 导出标注结果
- 3. 功能详解
- - 3.1. 自动标定（Active Learning）
  - 3.2. 视频帧相关
  - 3.3. Tags 设置
  - 3.4. 标注结果导出
  - 3.5. 标框的第三种方式
  - 3.6. 其他没有详细研究的内容

1. 概述

我并没有看过源码，只是看了官方README，并尝试使用了VoTT。所以，肯定很多细节并不清楚。

1.1. VoTT 的功能

对图像或视频标定框（bounding box）
不规则的标注结果（图像分割）
对同一个标定框（bbox）标注多个类别的标签（tags）
手动设置输入视频的帧率（fps）
内置模型自动标定bbox
标注结果统计以及可视化
标注结果导出为多种形式
前后帧标定框关联
对视频片段标定结果
自动浏览视频片段
导入标注好的bbox到项目

1.2. 下载与安装

下载：
- 官方Github
- 在 releases 中提供了windows/linux/mac下编译好的可执行文件。
安装：
- 只尝试了使用win下的二进制文件，点击运行就行……

1.3. 使用感想

我用VoTT进行标注的时间超过了50小时，写一些自己的感想。
优势：
- 安装方便，直接下载exe文件即可。
- 界面好看（这非常重要，毕竟标注的时间一般都很长，而且枯燥）。
- 功能上满足我的需求（视频选择帧+标注框+同一个框多标签）
劣势（也许通过修改源码能够实现，但当前release不能实现）：
- 不能导入已有的标注结果（如bbox）。
- 同一个项目在不同电脑不能使用。
- Connection对我来说非常鸡肋。
  - Connection的基本作用就是，可以导入不同地方的数据作为输入。
  - 但我自己的使用中，只会用到本地文件作为输入，而不会用到VoTT中额外提供的Bing/Azure等功能。
- Project功能对我来说完全没用，还增加了很多工作量
  - 每个project对应两个Connection，如果Connection中的视频太多好像会比较卡，所以会建立很多个Project。
  - Project有Security Token相关内容，会对项目的部分信息进行加密，这导致Project换台电脑就打不开了。
  - 如果修改了Project的参数，会导致一些意想不到的错误。比如，如果修改了FPS，就会导致一些标注好的bbox看不到。
- 程序不稳定，经常会报错
  - 使用键盘标注多个标签时，如果键盘点击速度太快，就会报错。
  - 项目多了之后，经常会重启程序。家里的电脑配置特别好，重启没什么影响。单位的电脑配置不行，重启一下就要命了……
  - 项目多了以后（现在有70+个项目），打开历史项目时，有时候会看不到标注好的bbox（如果export会发现少了很多bbox）……但如果你刚好移到标注过的那帧时，bbox又出现了（这时如果export，那缺少的这一个bbox就又会出现了）

2. 入门基本使用

本章的目标，简单过一遍VoTT的使用过程。部分功能的详细说明将在第三章中介绍。
本章内容包括：
- 准备工作
- 新建项目
- 标注bbox
- 导出标定结果

2.1. 准备工作

将所有待标注的视频或图像放到一个文件夹中。
- 注意，后续只处理该文件夹中的视频与图像，不会处理子文件夹中的数据。
新建一个目录，用于保存VoTT项目信息以及项目结果输出。
准备好标注类别（tags）。

2.2. 新建项目

在打开VoTT后就能看到新建项目选项。
在新建项目目录中，主要要填写的内容包括
- Display Name：项目名称，随便写
- Security Token：用来加密一些敏感信息，我也不知道干什么用的，一般就选默认
- Source Connection：原始数据路径（后面会单独介绍Connection）
- Target Connection：目标数据存放路径（后面会单独介绍Connection），保存标签以及项目信息
- Description：项目描述
- Frame Extraction Rate(frames per a video second)：视频帧率
- Tags（截图中没有包括）：待标注的标签列表（如COCO 80类物体的名称）。更多 Tags 相关内容请参考 3.3. Tags 设置
Connection介绍
- 所谓Connection，其实就是数据路径。
- 分类：VoTT中提供了三种 Azure Blob Storge，Bing Image Search，Local File System。
- 我一般使用的就是 Local File System，需要设置的参数就是 Display Name（在新建项目的Connection相关配置中会展示这个Display Name，我一般设置为文件夹名），Description，Folder Path（本地文件夹路径）。
- 设置完成后，在新建项目的 Source/Target Connection 下拉菜单中就能找到对应的选项
- Connection在左边菜单栏中有单独一个选项

2.3. 标注bbox

基本流程分为下面几个步骤
- 选择视频帧/图像
  - 视频帧更详细情况请参考 3.2. 视频帧相关
- 画框
- 设置标签（tags），同一个bbox可对应多个tags
上述基本步骤示意图如下
- 注意，图中bbox对应了三个类别的tags（对应3/6/8的标签）
画框时可使用内置SSD模型自动获取bbox
- bbox的质量可能不是特别高，但也能省一些力气。
- 更多详细信息可以参考 3.1. 自动标定
- 示意图如下（先点击博士帽按钮，就可以自动获取标定框）
其他细节：
- 在画/删框、设置/删除tags后，会自动保存标注结果，无序手动设置。
- 在3.5. 标框的第三种方式中介绍了一些标注的小工具的使用。

2.4. 导出标注结果

在标注页面中，可快速将结果导出，如下图所示。
具体导出设置可以参考
具体导出结果类型等细节请参考 3.4. 标注结果导出

3. 功能详解

3.1. 自动标定（Active Learning）

实现的功能：对图像/视频帧结果进行画框。
快捷点：ctrl+D
在左侧菜单栏中，有自动标注的选项，包括的功能有
- Model Provider：默认有COCO SSD模型可以使用，也可以自己导入本地模型或url模型地址。
- Predict Tag：使用自动标注时，需不需要标注bbox的类别。如果没有选中，则只标框，不标结果。
- Auto Detect：在转换图像/视频帧时，是否自动执行自动标注。
需要看源码才能了解的功能
- 自定义模型要如何导入，这个从源码中研究模型的输出，不知道PyTorch等行不行。

3.2. 视频帧相关

在VoTT中，视频会自动根据输入帧率成帧。
视频帧类别分为三类（如下图所示）：
- 第一类：包含bbox的视频帧（绿色的竖线）
- 第二类：单独浏览过但没有标注结果的视频帧（黄色的竖线）
- 第三类：没有单独浏览过的视频帧（没有竖线位置的视频帧）
所谓单独浏览，指的是单独停下来到某一帧
- 在播放视频时，可能浏览了所有帧，但不会都标黄色竖线。
视频帧的选择
- 鼠标直接在进度条中选择，选中 “没有单独浏览过的视频帧” 后会将当前帧转换为 “单独浏览过但没有标注结果的视频帧”。
- 上一帧/下一帧（Previous/Next Frame）：选择上一帧或下一帧，快捷键为 A/D。
  - 按照输入设置中的视频帧率提取帧。
  - 这里选择的上下帧就是临近帧，与帧的类别无关。
- Previous Tag Frame/Next Tag Frame：快捷键为 Q/E
  - 这里选择的是第一类帧，即包含bbox的视频帧。

3.3. Tags 设置

VoTT中选中bbox的一些表现形式（如果bbox为实线表示选中，虚线表示未选中），如下图所示
对于选中的bbox设置tag有以下两种方式
- 鼠标选择左侧的tags列表
- Tags列表中的钱10类可通过快捷键设置（快捷键就是tags右边中[x]的信息）
在标同一张图片中的多个bbox时
- 如果使用快捷键选择tag，每个bbox默认标了一个tag后就会选择后一个bbox。
- 当选择到最后一个bbox时，不会跳转到第一个bbox从头开始，而是会在最后一个bbox上重复进行标记。
Tag工具栏中还包括一些其他功能，比如reording/lock
- reording就是改变tag的顺序，通过下图中的上下箭头实现
- lock不知道是干什么用的，没看懂 A tag can be locked for repeated tagging using the lock icon at the top of the tag editor pane.
如何快速设置Tags
- VoTT支持的方式就是在创建项目或项目设置中的Tags选项中一个个输入，这种方式非常不方便（比如要把COCO80类输入进去……）。
- 可编程的修改方式：通过修改VoTT项目文件 my_project.vott 实现
  - 配置文件总体是一个json文件，其中包含一个参数 tag 列表，每个tag包含两个属性name/color，name就是字符串，color是RGB字符串，如#008000。
  - 整体结构形如 "tags": [{"name": "name1", "color": "#595959"}, ...]
- 注意，有两种方式可以打开已有VoTT项目
  - 方式一：手动打开.vott文件。
  - 方式二：直接右侧选中最近打开的项目。
- 当使用修改.vott的方法新建tags后，第一次打开项目时，只能用方式一打开，如果用方式二会导致新增的tags消失。

3.4. 标注结果导出

在介绍导出功能前，先明确几个定义：
- 视频帧的分类：详情请看 3.2. 中内容，分为三类，第一类对应Tagged，第二类对应Visited，第三类就是没有标签。
- 视频/图片的Visited/Tagged属性，如下图所示（看过没标过的是Visited，标过的是Tagged）
导出功能有单独的菜单栏（如下图所示），包括三个选项
导出数据形式（六种，就不细说了）
导出数据
- All Asserts：所有数据
- Only Visited Assets：仅Visited相关数据
- Only Tagged Assets：仅Tagged相关数据
Include Images：导出数据中是否需要包含图片
举例：导出为PASCAL VOC形式时，数据如下

3.5. 标框的第三种方式

标框（bbox）的方法主要有三种，本节主要介绍第三种方式。
- 自己直接画
- 先用Active Learning标再调整
- 复制其他图片/视频帧的bbox到当前帧：这种方式适合视频中连续帧的标注。
在标注页面上，有几个关于regions（就是bbox）的操作：复制/剪切/黏贴/删除regions
- regions复制/剪切/粘贴/全选操作对应的快捷键是 ctrl+c/x/v/a
- 可以在当前帧进行标注，然后全选+复制+选择下一帧+粘贴，然后调整bbox。