这是RBG大神对于R-CNN的改进,从上一篇RCNN http://deepdim.com/2016/11/22/R-CNN/
中我们知道R-CNN,同时知道SPP-NET可以惊醒任意尺寸的输入同时不需要对没个候选窗口进行输入,而是输入整张图片,在卷积层之后进行窗口推荐。
结合两者的优点,所以RBG大神就此提出了fast-r-cnn.
网络结构
具体的结构不同在于卷积层之后:
具体步骤
- 经过多层的卷积和pooling得到一组feature map
- 通过SPP net中的ROI projection在这层feature map上找到原图的proposal对应的区域(ROI)
- 利用spatial pooling的思路,对每个ROI做pooling。具体来说就是把h×w的ROI划分为H×W个grid/sub-window,每个grid大小是h/H × w/W,在每个grid内取max。
- 把ROI pooling layer对每个ROI(对应回原图就是每个proposal)输出的H×W长的max pooling feature vector接全连接层
- 全连接层之后有两个输出层,一个softmax分类器,输出该ROI对应的proposal的object类别,一个是bounding box回归层,输出category specific bounding box
训练
可以看出该网络最大的创新是在