重磅！13篇基于Anchor free的目标检测方法

正文

感觉是回归吧，以前是没有anchor的，现在觉得还是去掉anchor（“锚”？）好，主要是灵活性强，今后硬件芯片兼容性好。

回顾一下，目标检测分单步和两步，单步法的历史中从SSD和YOLO-2开始引入锚框(anchor

box)，而两步法直到Faster RCNN才开始采用“锚”的想法。

什么是锚框呢?其实就是固定的参考框。锚框的出现，使得训练时可以预设一组不同尺度不同位置的锚框，覆盖几乎所有位置和尺度，每个锚框负责检测与其区域交叉比(intersection over union, IOU)大于阈值的目标，这样问题就转换为"这个锚框中有没有认识的目标，目标框偏离锚框多远"的问题。

UnitBox: An Advanced Object Detection Network

Densebox

Yolo-1/（-2/3）

CornerNet

ExtremeNet

FSAF: Feature Selective Anchor-Free

FCOS: Fully Convolutional One-Stage

FoveaBox

Center and Scale Prediction: A Box-free Approach for Object Detection

Region Proposal by Guided Anchoring(GA-RPN)

CenterNet: Objects as Points

CenterNet: Keypoint Triplets for Object Detection

CornerNet-Lite: Efficient Keypoint Based Object Detection

UnitBox: An Advanced Object Detection Network

主要思想：Intersection over Union (IoU) loss function for bounding box prediction

架构

IoU loss vs l2 loss

l2 loss和IoU loss 结果比较

DenseBox: Unifying Landmark Localization and Object Detection

基本思想：直接预测目标框和目标类。

系统流水线:

1) 图像金字塔.

2) 类似编码器-解码器.

3) feature map 转换成 bounding boxes，加NMS处理。

DenseBox

DenseBox with landmark localization

You Only Look Once (YOLO) for Object Detection

检测定义为一个张量的回归问题，直接通过张量的估计得到目标框位置和类别概率。

注：之后YOLO-2/3版采用了anchor方法，这里也加在一起参考。

YOLO9000: Better, Faster, Stronger

Darknet-19: 19 convolutional layers and 5 max-pooling layers

WordTree with 9418 classes

Combining datasets using WordTree hierarchy

Bounding boxes with dimension priors and location prediction

Clustering box dimensions on VOC and COCO

结果

YOLOv3: An Incremental Improvement

Darknet-53

CornerNet: Detecting Objects as Paired Keypoints

把检测目标框变成一对关键点的问题，即左上角和右下角，这样就消除了锚框的设计麻烦。另外，采用的角点池化（corner pooling）技术帮助CNN更好地定位角点位置。下图给出了系统流程图：CNN模型输出两个关键点的各自热图（heatmap），同时各跟一个嵌入向量。同一个目标的角点，训练后的会预测类似的嵌入。

Detect an object as a pair of bounding box corners grouped together

下图是定位的角点池化技术：每个特征图通道沿着两个方向取较大值，然后求和。

Corner pooling

“Ground-truth” heatmaps for training.

测试流程图：沙漏型的核心网络的后面跟着两个预测模块定位和聚类焦点。

定义loss函数聚类corner：push和pull

ExtremeNet: Bottom-up Object Detection by Grouping Extreme and Center Points