coding
unsky
deepdim
thought

fast-r-cnn-物体检测

这是RBG大神对于R-CNN的改进,从上一篇RCNN http://deepdim.com/2016/11/22/R-CNN/
中我们知道R-CNN,同时知道SPP-NET可以惊醒任意尺寸的输入同时不需要对没个候选窗口进行输入,而是输入整张图片,在卷积层之后进行窗口推荐。
结合两者的优点,所以RBG大神就此提出了fast-r-cnn.

网络结构

具体的结构不同在于卷积层之后:

具体步骤

  1. 经过多层的卷积和pooling得到一组feature map
  2. 通过SPP net中的ROI projection在这层feature map上找到原图的proposal对应的区域(ROI)
  3. 利用spatial pooling的思路,对每个ROI做pooling。具体来说就是把h×w的ROI划分为H×W个grid/sub-window,每个grid大小是h/H × w/W,在每个grid内取max。
  4. 把ROI pooling layer对每个ROI(对应回原图就是每个proposal)输出的H×W长的max pooling feature vector接全连接层
  5. 全连接层之后有两个输出层,一个softmax分类器,输出该ROI对应的proposal的object类别,一个是bounding box回归层,输出category specific bounding box

    训练

    可以看出该网络最大的创新是在
坚持原创技术分享,您的支持将鼓励我继续创作!